deepseek-ai

Engram

deepseek-ai

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

AI 简介

Engram项目旨在通过可扩展查找实现条件记忆,为大型语言模型引入新的稀疏性轴。其核心功能包括利用现代N-gram嵌入技术实现O(1)时间复杂度的查找,同时结合Mixture-of-Experts(MoE)方法来优化计算资源与静态内存之间的分配。研究发现,在严格的等参数和等FLOPs条件下,Engram-27B模型在知识、推理、代码及数学等多个领域均优于传统的MoE基线模型。此外,该模块采用确定性寻址方案,可以将大规模嵌入表卸载到主机内存中,从而以最小的推理开销提高系统效率。适用于需要高效处理大量数据并进行快速查询的自然语言处理应用场景。

Python
Apache License 2.0
4.4k
Stars
340
Forks
41
Watchers
14
Issues

Star 增长

今日0
近 7 天+6
近 30 天+53
综合评分57.9
默认分支main