streaming-llm

mit-han-lab

[ICLR 2024] Efficient Streaming Language Models with Attention Sinks

AI 简介

StreamingLLM 是一种无需微调即可使预训练大语言模型支持无限长度流式输入的高效推理框架。其核心是引入“注意力汇点（Attention Sink）”机制，通过保留少量初始位置的Key-Value缓存，结合滑动窗口策略，在显著降低显存占用的同时维持生成质量；支持主流开源模型（如Llama-2、MPT、Falcon等），适配多轮对话、长文档摘要、实时语音转写等需持续接收输入的流式应用场景。

Python

MIT License

在 GitHub 查看官方网站

7.2k

Stars

399

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天+2

综合评分64.01

默认分支main

streaming-llm

Star 增长

加入交流群