speechkv-trim

jelllott

Speech-aware KV cache pruning for long-form speech LLMs (Qwen2-Audio, SALMONN). Token/head/chunk-level pruners + eval on LibriSpeech-long & GigaSpeech.

AI 简介

Hush KV 是一个面向长时语音大模型（如 Qwen2-Audio、SALMONN）的键值缓存（KV cache）剪枝工具，旨在缓解长音频输入导致的显存爆炸问题。它提出语音感知的剪枝策略，支持 token 级、head 级和 chunk 级三种剪枝方式，通过融合注意力时效性与轻量声学显著性评分，有选择地剔除冗余缓存（如静音、填充帧），在保持 ASR 和口语问答性能前提下显著降低内存占用。项目提供可插拔的剪枝模块、标准化评估框架（LibriSpeech-long、GigaSpeech），适配主流语音大模型推理流程，适用于长语音转录、实时语音理解等需平衡延迟与精度的生产场景。

Python

Other

在 GitHub 查看

218

Stars

5.8k

Forks

Watchers

Issues

Star 增长

今日0

近 7 天0

近 30 天0

综合评分50

默认分支main

speechkv-trim

Star 增长

加入交流群