
UniPrefill
qhfan
Implementation of "UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification"
AI 简介
UniPrefill 是一个旨在通过块级动态稀疏化技术加速长上下文预填充处理的框架。其核心功能包括架构无关的预填充加速,支持全注意力、线性/全混合及滑动窗口/全混合模型;与连续批处理兼容,并作为即插即用的批处理操作符被vLLM调度策略原生支持;支持多GPU张量并行和预填充-解码协同处理,从而提高GPU利用率。在时间到第一个令牌(TTFT)方面,UniPrefill可实现高达2.1倍的速度提升,尤其适用于并发请求较多的场景。该工具非常适合需要高效处理长上下文输入的大规模语言模型应用环境。
Python
39
Stars
2
Forks
34
Watchers
0
Issues
Star 增长
今日0
近 7 天+3
近 30 天+4
综合评分40.33
默认分支master