
speechkv-trim
jelllott
Speech-aware KV cache pruning for long-form speech LLMs (Qwen2-Audio, SALMONN). Token/head/chunk-level pruners + eval on LibriSpeech-long & GigaSpeech.
AI 简介
该项目主要研究针对长音频序列的语音大模型(如Qwen2-Audio、SALMONN)中KV缓存的剪枝技术。它提供了在token、head和chunk级别上的剪枝器,并在LibriSpeech-long与GigaSpeech数据集上进行了性能评估。核心功能包括通过注意力机制的新颖性及一个小的声学显著性头来对键进行评分,然后按层逐级剔除以控制预算。这种技术特别适用于需要处理长时间音频输入但受限于内存资源的应用场景,比如自动语音识别(ASR)或口语问答系统(SQA),能够有效减少因音频长度导致的KV缓存膨胀问题而不影响下游任务表现。
Python
Other219
Stars
0
Forks
4
Watchers
0
Issues
Star 增长
今日0
近 7 天+48
近 30 天+165
综合评分70
默认分支main