deepseek-ai

DeepSeek-V3

deepseek-ai

暂无描述

AI 简介

DeepSeek-V3 是一个强大的混合专家(MoE)语言模型,拥有总计671亿参数,每个token激活37亿参数。该项目采用多头潜注意力(MLA)和DeepSeekMoE架构以实现高效的推理与成本效益高的训练过程,并引入了无辅助损失的负载均衡策略及多token预测训练目标来增强性能。它在14.8万亿个高质量且多样化的token上进行了预训练,并通过监督微调和强化学习阶段进一步优化。适用于需要高效、高性能自然语言处理能力的应用场景,如聊天机器人、内容生成等。

Python
MIT License
103.7k
Stars
16.7k
Forks
758
Watchers
178
Issues

Star 增长

今日+7
近 7 天+62
近 30 天+288
综合评分111
默认分支main