
nanowhale
huggingface
暂无描述
AI 简介
nanowhale 是一个基于 DeepSeek-V4 架构从零训练的约 1.1 亿参数的语言模型。该项目提供了完整的代码、配置和分词器,用于预训练和微调模型。核心功能包括多头潜注意力机制(8 个头,1 个键值头)、混合专家系统(4 个路由专家和 1 个共享专家)以及超连接和多令牌预测等。这些技术特点使得 nanowhale 在较小规模下实现了高效的计算与表达能力。适合需要轻量级语言模型处理任务的场景,如文本生成、对话系统开发等,特别适用于资源受限但对性能有一定要求的应用环境。
Python
374
Stars
43
Forks
1
Watchers
0
Issues
Star 增长
今日0
近 7 天+1
近 30 天+52
综合评分44.63
默认分支main