
Mix-Quant
haiquanlu
暂无描述
AI 简介
Mix-Quant 是一个针对代理型大语言模型(LLMs)设计的混合量化推理框架,旨在通过量化预填充和高精度解码来加速长上下文处理。该项目的核心功能包括使用 NVFP4 量化技术加速计算密集型的预填充阶段,同时保持自回归解码在 BF16 精度下进行,以确保生成质量。这种分阶段的策略不仅提高了推理速度,还保证了下游任务的表现。适用于需要频繁处理长文本输入的场景,如工具交互、记忆检索与逻辑推理等复杂对话系统。项目基于 Python 实现,并提供了详细的安装指南和快速开始教程。
Python
33
Stars
1
Forks
31
Watchers
1
Issues
Star 增长
今日0
近 7 天+1
近 30 天+2
综合评分35.6
默认分支main