LLMLingua

microsoft

[EMNLP'23, ACL'24] To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss.

AI 简介

LLMLingua 是一个面向大语言模型（LLM）的提示压缩与 KV 缓存优化工具，旨在加速推理并提升关键信息感知能力。其核心功能包括：基于语义重要性对输入 prompt 进行无损/低损压缩（最高达 20 倍），支持长文本场景的 LongLLMLingua 扩展，以及 LLMLingua-2 的显著性能升级（3–6 倍加速）；技术上融合注意力分析、重要性打分与结构保持策略，并兼容 Hugging Face、LangChain 和 LlamaIndex 等主流框架。适用于 RAG、长上下文问答、多文档摘要等需高效处理大量提示文本的生产级 LLM 应用场景。

Python

MIT License

在 GitHub 查看官方网站

6.4k

Stars

396

Forks

Watchers

101

Issues

Star 增长

今日0

近 7 天0

近 30 天+56

综合评分69.4

默认分支main

LLMLingua

Star 增长

加入交流群