mit-han-lab

streaming-llm

mit-han-lab

[ICLR 2024] Efficient Streaming Language Models with Attention Sinks

AI 简介

Streaming-LLM 是一个用于处理无限长度输入的高效流式语言模型框架。该项目通过引入注意力池(Attention Sinks)技术,解决了长文本处理中的内存消耗问题和泛化能力不足的问题,使得预训练的语言模型无需微调即可支持无限序列长度的推理。核心功能包括支持 Llama-2、MPT、Falcon 和 Pythia 等多种大型语言模型在高达4百万个令牌的情况下进行稳定且高效的语言建模。此外,通过在预训练阶段添加占位符令牌作为专用注意力池,可以进一步优化模型在流式场景下的表现。适合于需要长时间对话或多轮交互的应用场景,如客服聊天机器人、持续性文本生成等。

Python
MIT License
7.2k
Stars
398
Forks
66
Watchers
47
Issues

Star 增长

今日0
近 7 天0
近 30 天+5
综合评分44.3
默认分支main