microsoft

LLMLingua

microsoft

[EMNLP'23, ACL'24] To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

AI 简介

LLMLingua是一个旨在通过压缩提示和KV缓存来加速大型语言模型(LLM)推理并增强其关键信息感知能力的项目。该项目利用先进的压缩技术,在几乎不损失性能的情况下实现了高达20倍的压缩率,显著减少了处理长文本时所需的计算资源。此外,它还支持多种场景下的应用优化,包括但不限于需要高效处理大量上下文信息的任务。适合于对效率有高要求且需频繁与大模型交互的应用场景中使用,如在线客服系统、智能写作助手等。

Python
MIT License
6.3k
Stars
388
Forks
37
Watchers
101
Issues

Star 增长

今日+16
近 7 天+43
近 30 天+98
综合评分113.57
默认分支main