haiquanlu

Mix-Quant

haiquanlu

暂无描述

AI 简介

Mix-Quant 是一个针对代理型大语言模型(LLMs)设计的混合量化推理框架,旨在通过量化预填充和高精度解码来加速长上下文处理。该项目的核心功能包括使用 NVFP4 量化技术加速计算密集型的预填充阶段,同时保持自回归解码在 BF16 精度下进行,以确保生成质量。这种分阶段的策略不仅提高了推理速度,还保证了下游任务的表现。适用于需要频繁处理长文本输入的场景,如工具交互、记忆检索与逻辑推理等复杂对话系统。项目基于 Python 实现,并提供了详细的安装指南和快速开始教程。

Python
33
Stars
1
Forks
31
Watchers
1
Issues

Star 增长

今日0
近 7 天+1
近 30 天+2
综合评分35.6
默认分支main