[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-72309":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":16,"stars7d":17,"stars30d":18,"stars90d":16,"forks30d":16,"starsTrendScore":16,"compositeScore":19,"rankGlobal":10,"rankLanguage":10,"license":20,"archived":21,"fork":21,"defaultBranch":22,"hasWiki":21,"hasPages":21,"topics":23,"createdAt":10,"pushedAt":10,"updatedAt":30,"readmeContent":31,"aiSummary":32,"trendingCount":16,"starSnapshotCount":16,"syncStatus":17,"lastSyncTime":33,"discoverSource":34},72309,"chitu","thu-pacman\u002Fchitu","thu-pacman","High-performance inference framework for large language models, focusing on efficiency, flexibility, and availability.","https:\u002F\u002Fchitu.ai\u002F",null,"Python",3121,266,145,52,0,2,3,29.28,"Apache License 2.0",false,"public-main",[24,25,26,27,28,29],"deepseek","gpu","llm","llm-serving","model-serving","pytorch","2026-06-12 02:03:01","\u003Cimg src=\"docs\u002Flogo.png\" width=\"20%\">\n\n# Chitu「赤兔」\n\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002Fthu-pacman\u002Fchitu)\n\n中文 | [English](\u002Fdocs\u002Fen\u002FREADME.md)\n\nChitu「赤兔」是一个专注于效率、灵活性和可用性的高性能大模型推理框架。\n\n## 里程碑\n\n* [2026\u002F02\u002F06] 发布 v0.5.1，适配摩尔线程 GPU。\n* [2025\u002F12\u002F12] 发布 v0.5.0，重点提升集群部署场景的性能。\n* [2025\u002F08\u002F01] 发布 v0.4.0，大幅提升了一体机推理部署场景的性能和稳定性，适配昇腾、英伟达、沐曦、海光，支持 DeepSeek、Qwen、GLM、Kimi 等模型。\n* [2025\u002F07\u002F28] 发布 v0.3.9，首发支持华为昇腾 910B 推理部署智谱 GLM-4.5 MoE 模型。\n* [2025\u002F06\u002F12] 发布 v0.3.5，提供昇腾 910B 完整原生支持，提供 Qwen3 系列模型高性能推理方案。\n* [2025\u002F04\u002F29] 发布 v0.3.0，新增 FP4 在线转 FP8、BF16 的高效算子实现，支持 DeepSeek-R1 671B 的 [FP4 量化版](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FDeepSeek-R1-FP4)。\n* [2025\u002F04\u002F18] 发布 v0.2.2，新增 CPU+GPU 异构混合推理支持，实现单卡推理 DeepSeek-R1 671B。\n* [2025\u002F03\u002F14] 发布 v0.1.0，支持 DeepSeek-R1 671B，提供 FP8 在线转 BF16 的高效算子实现。\n\n## 简介\n\n赤兔定位于「生产级大模型推理引擎」，充分考虑企业 AI 落地从小规模试验到大规模部署的渐进式需求，专注于提供以下重要特性：\n\n- **多元算力适配**：不仅支持 NVIDIA 最新旗舰到旧款的多系列产品，也为国产芯片提供优化支持。\n- **全场景可伸缩**：从纯 CPU 部署、单 GPU 部署到大规模集群部署，赤兔引擎提供可扩展的解决方案。\n- **长期稳定运行**：可应用于实际生产环境，稳定性足以承载并发业务流量。\n\n项目团队感谢广大用户及开源社区提出的宝贵意见和建议，并将持续改进赤兔推理引擎。\n然而，受制于团队成员的精力，无法保证及时解决所有用户在使用中遇到问题。\n如需专业技术服务，欢迎致信 solution@chitu.ai\n\n## 测试数据\n\n请参阅赤兔开发团队测试的[性能数据](docs\u002Fzh\u002FPERFORMANCE.md)，也欢迎分享您的[自测数据](https:\u002F\u002Fgithub.com\u002Fthu-pacman\u002Fchitu\u002Fdiscussions\u002F104)。\n\n性能数据与您的硬件配置、软件版本、测试负载相关，多次测试结果可能存在波动。\n\n## 安装使用\n\n请参阅[开发手册](\u002Fdocs\u002Fzh\u002FDEVELOPMENT.md)获取完整的安装使用说明。\n\n对于在单机环境上快速验证的场景，建议使用官方镜像进行部署。目前提供适用于以下平台的镜像：\n- 英伟达（arch 8.0、8.9）：`qingcheng-ai-cn-beijing.cr.volces.com\u002Fpublic\u002Fchitu-nvidia_arch_80_89:latest`\n- 英伟达（arch 9.0）：`qingcheng-ai-cn-beijing.cr.volces.com\u002Fpublic\u002Fchitu-nvidia_arch_90:latest`\n- 沐曦：`qingcheng-ai-cn-beijing.cr.volces.com\u002Fpublic\u002Fchitu-muxi:latest`\n- 昇腾（A2）：`qingcheng-ai-cn-beijing.cr.volces.com\u002Fpublic\u002Fchitu-ascend_a2:latest`\n- ~~昇腾（A3）：`qingcheng-ai-cn-beijing.cr.volces.com\u002Fpublic\u002Fchitu-ascend_a3:v0.5.4`~~（因团队缺乏硬件，v0.5.5 起不再维护）\n\n### 查看支持的模型\n\n更多模型请参见 [支持的模型](\u002Fdocs\u002Fzh\u002FSUPPORTED_MODELS.md)。\n\n## 参与开发\n\n赤兔项目欢迎开源社区的朋友们参与项目共建，请参阅[贡献指南](\u002Fdocs\u002Fzh\u002FCONTRIBUTING.md)。\n\n## 交流讨论\n\n如果您有任何问题或疑虑，欢迎提交issue。\n\n您也可以扫码加入赤兔交流微信群：\n\n\u003Cimg src=\"docs\u002FWeChatGroup.png\" width=\"20%\">\n\n## 许可证\n\n本项目采用 Apache License v2.0 许可证 - 详见 [LICENSE](\u002FLICENSE) 文件。\n\n本代码仓库还引用了一些来自其他开源项目的代码片段，相关版权信息已在代码中以 SPDX 格式标注。这些代码片段的许可证信息可以在 `LICENSES\u002F` 目录下找到。\n\n本代码仓库还包含遵循其他开源许可证的第三方子模块。您可以在 `third_party\u002F` 目录下找到这些子模块，该目录中包含了它们各自的许可证文件。\n\n## 常见问题\n\n[中文](\u002Fdocs\u002Fzh\u002FFAQ.md) | [English](\u002Fdocs\u002Fen\u002FFAQ.md)\n\n## 致谢\n\n非常感谢来自华为、沐曦、海光、燧原、智谱、中国电信、并行科技等各方的帮助。\n\n在构建 Chitu 的过程中，我们从以下项目（按字母排序）中学到了很多，并复用了一些函数：\n\n- [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai)\n- [FlashAttention](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention)\n- [FlashInfer](https:\u002F\u002Fgithub.com\u002Fflashinfer-ai\u002Fflashinfer)\n- [KTransformers](https:\u002F\u002Fgithub.com\u002Fkvcache-ai\u002Fktransformers)\n- [llama.cpp](https:\u002F\u002Fgithub.com\u002Fggml-org\u002Fllama.cpp)\n- [SGLang](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang)\n- [TensorRT-LLM](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FTensorRT-LLM)\n- [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n\n我们将持续为开源社区贡献更高效、更灵活、更兼容、更稳定的大模型推理部署解决方案。\n","赤兔「Chitu」是一个高性能的大语言模型推理框架，专注于效率、灵活性和可用性。其核心功能包括多元算力适配（支持NVIDIA GPU及国产芯片如昇腾、沐曦等），全场景可伸缩部署（从纯CPU到大规模集群），以及长期稳定运行能力。该框架特别适合需要高效处理大模型推理的企业级应用，无论是小规模试验还是大规模生产部署都能满足需求。项目采用Python编写，并遵循Apache License 2.0开源许可协议。","2026-06-11 03:41:18","high_star"]