
turboquant_plus
TheTom
暂无描述
AI 简介
TurboQuant+ 是一个基于 TurboQuant 技术的本地大语言模型(LLM)推理优化项目。它通过实现 KV 缓存压缩来提高 LLM 在本地设备上的推理效率,特别强调了在 Apple Silicon 等硬件上的性能提升。该项目支持多种平台和后端技术,包括 Metal、CUDA 和 ROCm,并提供了预编译二进制文件以简化部署过程。此外,TurboQuant+ 还包含了一系列基准测试工具和质量验证方法,旨在促进跨不同硬件和后端的可复现研究。适合需要高效本地运行大型语言模型的研究人员和开发者使用。
Python
Apache License 2.06.9k
Stars
919
Forks
62
Watchers
34
Issues
Star 增长
今日+18
近 7 天+36
近 30 天+166
综合评分109.89
默认分支main