[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-70753":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":17,"stars30d":18,"stars90d":16,"forks30d":16,"starsTrendScore":18,"compositeScore":19,"rankGlobal":10,"rankLanguage":10,"license":20,"archived":21,"fork":21,"defaultBranch":22,"hasWiki":21,"hasPages":23,"topics":24,"createdAt":10,"pushedAt":10,"updatedAt":26,"readmeContent":27,"aiSummary":28,"trendingCount":16,"starSnapshotCount":16,"syncStatus":29,"lastSyncTime":30,"discoverSource":31},70753,"PaddleFormers","PaddlePaddle\u002FPaddleFormers","PaddlePaddle","PaddleFormers is an easy-to-use library of pre-trained large language model zoo based on PaddlePaddle.","",null,"Python",12982,2194,172,6,0,1,3,45,"Apache License 2.0",false,"develop",true,[25],"model","2026-06-12 02:02:42","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9d1c1937-7fac-48f8-9d61-f7ac67b61b18\" align=\"middle\"  width=\"500\" \u002F>\n\u003C\u002Fp>\n\n------------------------------------------------------------------------------------------\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10+-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fos-linux%2C%20win-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\".\u002FLICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202-dfd.svg\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleFormers\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPaddlePaddle\u002FPaddleFormers?color=ccf\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Ch4 align=\"center\">\n    \u003Ca href=#最新更新> 最新更新 \u003C\u002Fa> |\n    \u003Ca href=#特性> 特性 \u003C\u002Fa> |\n    \u003Ca href=#安装> 安装 \u003C\u002Fa> |\n    \u003Ca href=#快速体验> 快速体验 \u003C\u002Fa> |\n    \u003Ca href=#社区交流> 社区交流 \u003C\u002Fa>\n\u003C\u002Fh4>\n\n# PaddleFormers\n## 📝简介\nPaddleFormers 是基于百度深度学习框架 PaddlePaddle 搭建的 Transformers 库，旨在为 PaddlePaddle 生态提供与 Hugging Face Transformers 项目对等的模型接口与功能体验，支持大语言模型（LLM）与视觉语言模型（VLM）的训练能力。PaddleFormers 充分发挥 PaddlePaddle 在高性能训练方面的内置优势，全面支持包括张量并行、流水线并行和专家并行在内的主流大模型分布式训练策略，以及自动混合精度等加速技术，在 DeepSeek-V3、GLM-4.5-Air 等重点模型上，训练性能明显超越 Megatron-LM ，实现了高效的预训练与后训练性能。\n\n结合业界主流优化方法与飞桨在业务实践中积累的高效特性，PaddleFormers 致力于打造**高性能、低资源占用**的训练体验，帮助用户高效便捷地完成大模型训练，而无需关注底层复杂的优化细节。\n\n## 🆕最新更新\n* 2026.03.31 - PaddleFormers v1.1 正式发布！在这个版本中我们支持了 GLM-4.5 系列模型的单步与多步 MTP 训练能力。依托 MTP 架构优势，开发者可显著提升推理效率；同时针对 MTP 模块训练场景，我们新增主干网络冻结开关，灵活满足各类模型精细化调优需求。此外，我们对视觉理解类模型进行了深度优化，Qwen3-VL 30B-A3B 模型性能相比上个版本提升48%，领先Megatron-LM 6%。\n* 2026.01.21 - PaddleFomers v1.0版本发布啦！我们提供了针对 LLM 和 VLM 等模型的训练能力，针对 DeepSeek-V3模型和 GLM-4.5-Air 等重点模型，我们实现了极致性能优化（训练性能明显超越 Megatron-LM ）。针对 PaddleOCR-VL，我们在昆仑芯 P800、天数天垓150等国产计算芯片上进行了适配，更好的满足国内用户需求。\n\n## ✨特性\n* **丰富的模型支持：** PaddleFormers 实现了对于 100+ 主流的大语言模型和视觉语言模型的训练能力支持，涵盖了 DeepSeek-V3、GLM-4.5系列、Qwen2和 Qwen3系列、Qwen3-VL 等前沿模型。同时提供了对 ERNIE-4.5、ERNIE-4.5-VL、PaddleOCR-VL 等文心系列模型完备的训练能力。\n* **高性能组网实现：** 实现了 FP8低精度训练与高性能算子优化、通信计算重叠优化、精细化存算均衡等策略，大幅提升大模型训练的计算、通信和存储效率。在 DeepSeek-V3、GLM-4.5-Air 等模型上，训练性能明显超越 Megatron-LM。\n* **全流程能力支持：** PaddleFormers 实现了从预训练到后训练的全流程训练能力支持，其中后训练支持 CPT \u002F SFT \u002F SFT-LoRA \u002F DPO \u002F DPO-LoRA 等主流能力，帮助用户高效、便捷地完成大模型的迭代与优化。PaddleFormers 还实现了对 Safetensors 格式的 **全面支持** ，训练完成的模型，其存储格式与 Hugging Face 上托管的权重格式一致，可以在任意支持该格式的框架或工具中使用（如 FastDeploy \u002F vLLM \u002F SGLang 等）。\n* **完备的训练能力支持：** PaddleFormers 实现了对于 **Function Call** 、 **Thinking**​ 等大模型前沿能力的训练支持，并通过 **Data Packing** 、 **Padding Free**​ 等数据流技术显著优化训练性能。\n* **国产芯片深度适配：** 支持昆仑芯 P800、天数天垓150、沐曦 C550等国产计算平台，基于128卡昆仑芯 P800支持 DeepSeek V3的 SFT，成为最少国产算力资源后训练方案。\n\n## 📋模型列表\n\n\u003Ctable border=\"1\" cellpadding=\"8\" cellspacing=\"0\" style=\"width:100%; border-collapse: collapse;\">\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth style=\"text-align: left;\">模型类型\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">模型系列\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">模型名称\u003C\u002Fth>\n      \u003Cth style=\"text-align: left;\">Chat Template\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003C!-- LLM 分类 - 跨行合并开始 -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"10\" style=\"vertical-align: top;\">LLM\u003C\u002Ftd>\n      \u003Ctd>DeepSeekv3\u003C\u002Ftd>\n      \u003Ctd>deepseek-ai\u002FDeepSeek-V3-Base、deepseek-ai\u002FDeepSeek-V3、deepseek-ai\u002FDeepSeek-V3-0324\u003C\u002Ftd>\n      \u003Ctd>deepseek3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>🏛️ERNIE-4.5\u003C\u002Ftd>\n      \u003Ctd>baidu\u002FERNIE-4.5-0.3B-Base-PT、baidu\u002FERNIE-4.5-0.3B-PT、baidu\u002FERNIE-4.5-21B-A3B-Base-PT、baidu\u002FERNIE-4.5-21B-A3B-PT、baidu\u002FERNIE-4.5-300B-A47B-Base-PT、baidu\u002FERNIE-4.5-300B-A47B-PT、baidu\u002FERNIE-4.5-21B-A3B-Thinking\u003C\u002Ftd>\n      \u003Ctd>ernie、ernie_nothink\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>gemma3\u003C\u002Ftd>\n      \u003Ctd>google\u002Fgemma-3-270m、google\u002Fgemma-3-270m-it、google\u002Fgemma-3-1b-pt、google\u002Fgemma-3-1b-it、google\u002Fgemma-3-4b-pt、google\u002Fgemma-3-4b-it、google\u002Fgemma-3-12b-pt、google\u002Fgemma-3-12b-it、google\u002Fgemma-3-27b-pt、google\u002Fgemma-3-27b-it\u003C\u002Ftd>\n      \u003Ctd>gemma\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>GLM-4.5\u003C\u002Ftd>\n      \u003Ctd>zai-org\u002FGLM-4.5-Air-Base、zai-org\u002FGLM-4.5-Air、zai-org\u002FGLM-4.5-Base、zai-org\u002FGLM-4.5\u003C\u002Ftd>\n      \u003Ctd>glm4_moe\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>gpt-oss\u003C\u002Ftd>\n      \u003Ctd>openai\u002Fgpt-oss-20b、openai\u002Fgpt-oss-120b\u003C\u002Ftd>\n      \u003Ctd>gpt\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Llama-3\u003C\u002Ftd>\n      \u003Ctd>meta-llama\u002FMeta-Llama-3-8B、meta-llama\u002FMeta-Llama-3-8B-Instruct、meta-llama\u002FMeta-Llama-3-70B、meta-llama\u002FMeta-Llama-3-70B-Instruct、meta-llama\u002FLlama-3.1-8B、meta-llama\u002FLlama-3.1-8B-Instruct、meta-llama\u002FLlama-3.1-70B、meta-llama\u002FLlama-3.1-70B-Instruct、meta-llama\u002FLlama-3.1-405B、meta-llama\u002FLlama-3.1-405B-Instruct、meta-llama\u002FLlama-3.2-1B、meta-llama\u002FLlama-3.2-1B-Instruct、meta-llama\u002FLlama-3.2-3B、meta-llama\u002FLlama-3.2-3B-Instruct、meta-llama\u002FLlama-3.3-70B-Instruct\u003C\u002Ftd>\n      \u003Ctd>llama3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>phi-4\u003C\u002Ftd>\n      \u003Ctd>microsoft\u002Fphi-4\u003C\u002Ftd>\n      \u003Ctd>phi4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2\u003C\u002Ftd>\n      \u003Ctd>Qwen\u002FQwen2-0.5B、Qwen\u002FQwen2-0.5B-Instruct、Qwen\u002FQwen2-1.5B、Qwen\u002FQwen2-1.5B-Instruct、Qwen\u002FQwen2-7B、Qwen\u002FQwen2-7B-Instruct、Qwen\u002FQwen2-57B-A14B、Qwen\u002FQwen2-57B-A14B-Instruct、Qwen\u002FQwen2-72B、Qwen\u002FQwen2-0.5B-Instruct\u003C\u002Ftd>\n      \u003Ctd>qwen\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen3\u003C\u002Ftd>\n      \u003Ctd>Qwen\u002FQwen3-0.6B-Base、Qwen\u002FQwen3-0.6B、Qwen\u002FQwen3-1.7B-Base、Qwen\u002FQwen3-1.7B、Qwen\u002FQwen3-4B-Base、Qwen\u002FQwen3-4B、Qwen\u002FQwen3-4B-Instruct-2507、Qwen\u002FQwen3-4B-Thinking-2507、Qwen\u002FQwen3-8B-Base、Qwen\u002FQwen3-8B、Qwen\u002FQwen3-14B-Base、Qwen\u002FQwen3-14B、Qwen\u002FQwen3-32B、Qwen\u002FQwen3-30B-A3B-Base、Qwen\u002FQwen3-30B-A3B、Qwen\u002FQwen3-30B-A3B-Instruct-2507、Qwen\u002FQwen3-30B-A3B-Thinking-2507、Qwen\u002FQwen3-235B-A22B、Qwen\u002FQwen3-235B-A22B-Instruct-2507、Qwen\u002FQwen3-235B-A22B-Thinking-2507\u003C\u002Ftd>\n      \u003Ctd>qwen3、qwen3_nothink\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen3-Next\u003C\u002Ftd>\n      \u003Ctd>Qwen\u002FQwen3-Next-80B-A3B-Instruct、Qwen\u002FQwen3-Next-80B-A3B-Thinking\u003C\u002Ftd>\n      \u003Ctd>qwen3、qwen3_nothink\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003C!-- VLM 分类 - 跨行合并开始 -->\n    \u003Ctr>\n      \u003Ctd rowspan=\"4\" style=\"vertical-align: top;\">VLM\u003C\u002Ftd>\n      \u003Ctd>🏛️ERNIE-4.5-VL\u003C\u002Ftd>\n      \u003Ctd>baidu\u002FERNIE-4.5-VL-28B-A3B-Base-PT、baidu\u002FERNIE-4.5-VL-28B-A3B-PT、baidu\u002FERNIE-4.5-VL-424B-A47B-Base-PT、baidu\u002FERNIE-4.5-VL-424B-A47B-PT、baidu\u002FERNIE-4.5-VL-28B-A3B-Thinking\u003C\u002Ftd>\n      \u003Ctd>ernie_vl、ernie_vl_nothink\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>🏛️PaddleOCR-VL\u003C\u002Ftd>\n      \u003Ctd>PaddlePaddle\u002FPaddleOCR-VL\u003C\u002Ftd>\n      \u003Ctd>paddleocr_vl\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen2.5-VL\u003C\u002Ftd>\n      \u003Ctd>Qwen\u002FQwen2.5-VL-3B-Instruct、Qwen\u002FQwen2.5-VL-7B-Instruct、Qwen\u002FQwen2.5-VL-32B-Instruct、Qwen\u002FQwen2.5-VL-72B-Instruct\u003C\u002Ftd>\n      \u003Ctd>qwen2_vl\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Qwen3-VL\u003C\u002Ftd>\n      \u003Ctd>Qwen\u002FQwen3-VL-2B-Instruct、Qwen\u002FQwen3-VL-2B-Thinking、Qwen\u002FQwen3-VL-4B-Instruct、Qwen\u002FQwen3-VL-4B-Thinking、Qwen\u002FQwen3-VL-8B-Instruct、Qwen\u002FQwen3-VL-8B-Thinking、Qwen\u002FQwen3-VL-32B-Instruct、Qwen\u002FQwen3-VL-32B-Thinking、Qwen\u002FQwen3-VL-30B-A3B-Instruct、Qwen\u002FQwen3-VL-30B-A3B-Thinking、Qwen\u002FQwen3-VL-235B-A22B-Instruct、Qwen\u002FQwen3-VL-235B-A22B-Thinking\u003C\u002Ftd>\n      \u003Ctd>qwen3_vl、qwen3_vl_nothink\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n* 更多关于模型训练能力的支持细节，请参考：[PaddleFormers 模型能力矩阵](.\u002Fdocs\u002Fzh\u002Fmodel_capability.md)\n* 带有🏛️标签的模型是 PaddleFormers 官方维护的模型\n\n## 💾安装\n**环境依赖**\n\n* python ≥ 3.10\n* CUDA ≥ 12.0\n* PaddleFleet ≥ 0.2（仅为 GPU 训练功能依赖）\n\n**安装依赖（GPU）**\n\n\u003Cdetails>\n  \u003Csummary>基于 Docker 容器的方式（\u003Cb>推荐\u003C\u002Fb>）\u003C\u002Fsummary>\n\n------\n> 为了避免本地环境存在较多冲突，我们建议使用 PaddleFormers 的预置镜像来准备环境，容器中已经拉取了 PaddleFormers 仓库并完成了安装：\n>\n> ```shell\n> # 以cuda12.6为例\n> docker run --gpus all --name paddleformers-work -v $(pwd):\u002Fwork  \\\n>     -w=\u002Fwork --shm-size=512G --network=host -it \\\n>     ccr-2vdh3abv-pub.cnc.bj.baidubce.com\u002Fpaddlepaddle\u002Fpaddle:3.3.0-gpu-cuda12.6-cudnn9.5 \u002Fbin\u002Fbash\n>\n> # cuda12.9镜像：ccr-2vdh3abv-pub.cnc.bj.baidubce.com\u002Fpaddlepaddle\u002Fpaddle:3.3.0-gpu-cuda12.9-cudnn9.9\n> # cuda13.0镜像：ccr-2vdh3abv-pub.cnc.bj.baidubce.com\u002Fpaddlepaddle\u002Fpaddle:3.3.0-gpu-cuda13.0-cudnn9.13\n> ```\n------\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>基于 pip\u002F源码的安装方式\u003C\u002Fsummary>\n\n------\n> 我们推荐使用 `conda` \u002F `venv` \u002F `uv` 等虚拟环境工具管理 python 环境。\n>\n> ```shell\n> # conda\n> conda create -n paddleformers-work python=3.10 #支持python3.10～3.13\n> conda activate paddleformers-work\n> # venv\n> python -m venv .paddleformers-work\n> source .paddleformers-work\u002Fbin\u002Factivate\n> # uv\n> uv venv .paddleformers-work\n> source .paddleformers-work\u002Fbin\u002Factivate\n> ```\n------\n> **安装方案一：** 拉取源码安装\n>\n> ```shell\n> # Install development version\n> git clone https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleFormers.git\n> cd PaddleFormers\n> # cuda12.6\n> python -m pip install -e '.[paddlefleet]' --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fnightly\u002Fcu126\u002F --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu126\u002F\n> # cuda12.9\n> # python -m pip install -e '.[paddlefleet]' --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fnightly\u002Fcu129\u002F --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu129\u002F\n> # cuda13.0\n> # python -m pip install -e '.[paddlefleet]' --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fnightly\u002Fcu130\u002F --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu130\u002F\n> ```\n------\n> **安装方案二：** 如果您不想拉取源码，可以基于下面的命令安装 PaddleFormers 和 PaddleFleet。\n>\n> ```shell\n> # Install via pip\n> # cuda12.6\n> python -m pip install \"paddleformers[paddlefleet]\" --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu126\u002F\n> # cuda12.9\n> # python -m pip install \"paddleformers[paddlefleet]\" --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu129\u002F\n> # cuda13.0\n> # python -m pip install \"paddleformers[paddlefleet]\" --extra-index-url https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Fpackages\u002Fstable\u002Fcu130\u002F\n> ```\n------\n> **安装方案三：** 如果您只需使用 tokenizer 或者 processor，可以通过以下命令安装，这种情况下不会安装训练相关的依赖，安装速度更加快。\n>\n> ```shell\n> python -m pip install paddleformers\n> ```\n------\n\n\u003C\u002Fdetails>\n\n **安装依赖（XPU & ILUVATAR-GPU & Metax GPU）**\n\n* [昆仑芯安装说明文档](.\u002Fdocs\u002Fzh\u002FXPU_installation_guide.md)\n* [天数智芯安装说明文档](.\u002Fdocs\u002Fzh\u002FILUVATAR-GPU_installation_guide.md)\n* [沐曦安装说明文档](.\u002Fdocs\u002Fzh\u002FMetax-GPU_installation_guide.md)\n\n# ⚡快速体验\n\nPaddleFormers 在 API 设计上与 Hugging Face Transformers 保持了高度一致，使用示例如下：\n\n**使用 tokenizer**\n\n```python\nfrom paddleformers.transformers import AutoTokenizer\n\ntokenizer = AutoTokenizer.from_pretrained(\"Qwen\u002FQwen3-0.6B-Base\")\nprint(tokenizer.encode(\"中华人民共和国\"))\n# 中华人民共和国将会被编码为两个token：\n# [105492, 104773]\n```\n\n**文本生成**\n\n```python\nfrom paddleformers.transformers import AutoTokenizer, AutoModelForCausalLM\n\ntokenizer = AutoTokenizer.from_pretrained(\"Qwen\u002FQwen3-0.6B-Base\")\nmodel = AutoModelForCausalLM.from_pretrained(\"Qwen\u002FQwen3-0.6B-Base\", dtype=\"bfloat16\").eval()\n\ninput_features = tokenizer(\"请给我一段大模型的简短介绍：\", return_tensors=\"pd\")\noutputs = model.generate(**input_features, max_new_tokens=256)\noutput_ids = outputs[0].tolist()[0]\n\nprint(tokenizer.decode(output_ids, skip_special_tokens=True))\n```\n\n**模型训练**\n\n```shell\npaddleformers-cli train .\u002Fexamples\u002Fconfig\u002Fsft\u002Ffull.yaml\n```\n\n## 📊数据处理\n* [数据集格式说明](.\u002Fdocs\u002Fzh\u002Fdataset_format.md)\n* [Chat Template 说明](.\u002Fdocs\u002Fzh\u002Fchat_template_guide.md)\n* [数据流参数说明](.\u002Fdocs\u002Fzh\u002Fdata_processing_guide.md)\n\n## 🚀模型训练 & 部署\n* [PaddleFormers 命令行工具](.\u002Fdocs\u002Fzh\u002Fcli_usage.md)\n* [训练参数配置说明](.\u002Fdocs\u002Fzh\u002Ftraining_arguments.md)\n* [基于 PaddleFormers 进行模型预训练\u002F后预训练](.\u002Fdocs\u002Fzh\u002Fpt_and_cpt_guide.md)\n* [基于 PaddleFormers 进行指令微调（SFT & LoRA）](.\u002Fdocs\u002Fzh\u002Fsft_and_lora_guide.md)\n* [基于 PaddleFormers 进行偏好对齐（DPO & LoRA）](.\u002Fdocs\u002Fzh\u002Fdpo_and_lora_guide.md)\n* [基于 FastDeploy \u002F vLLM 部署模型](.\u002Fdocs\u002Fzh\u002Fdeployment_guide.md)\n\n## 💻多硬件使用\n* [昆仑芯使用说明文档](.\u002Fdocs\u002Fzh\u002FXPU_usage_guide.md)\n* [天数智芯使用说明文档](.\u002Fdocs\u002Fzh\u002FILUVATAR-GPU_usage_guide.md)\n* [沐曦使用说明文档](.\u002Fdocs\u002Fzh\u002FMetax-GPU_usage_guide.md)\n\n## 🔍最佳实践\n* [基于 DeepSeekv3的高效预训练](.\u002Fexamples\u002Fbest_practices\u002FDeepSeek-V3\u002F)\n* [基于 ERNIE-4.5的高效预训练](.\u002Fexamples\u002Fbest_practices\u002FERNIE-4.5\u002F)\n* [训练一个偏好 Emoji 输出的对齐模型](.\u002Fexamples\u002Fbest_practices\u002Ftutorials\u002Fhow_to_train_an_emoji_model.md)\n* [训练一个支持思考能力的模型](.\u002Fexamples\u002Fbest_practices\u002Ftutorials\u002Fhow_to_train_a_reasoning_model.md)\n* [训练一个支持 Function Call 能力的模型](.\u002Fexamples\u002Fbest_practices\u002Ftutorials\u002Fhow_to_train_a_function_call_model.md)\n* [基于 PaddleOCR-VL 微调实现孟加拉语识别能力](.\u002Fexamples\u002Fbest_practices\u002FPaddleOCR-VL\u002F)\n* [训练一个支持 Grounding 的模型](.\u002Fexamples\u002Fbest_practices\u002Ftutorials\u002Fhow_to_train_a_visual_grounding_model.md)\n\n## ➕其他\n* [如何下载模型](.\u002Fdocs\u002Fzh\u002Fhow_to_download_model.md)\n* [常见问题处理](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleFormers\u002Fissues\u002F3699)\n\n## 💬社区相关\n\n**贡献代码**\n\n* 欢迎社区用户为 PaddleFormers 贡献代码，详情请参考 [贡献指南](CONTRIBUTING.md)。\n\n**和我们交流**\n\n* 微信扫描二维码并填写问卷，即可加入交流群与众多社区开发者以及官方团队深度交流.\n\n\u003Cdiv align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9f0a736c-b047-4912-a70f-8b1ea772c3eb\" width=\"300\" alt=\"qrcode\">\n\u003C\u002Fdiv>\n\n## 🙏致谢\n我们借鉴了 Hugging Face 的[Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)🤗关于预训练模型使用的优秀设计，在此对 Hugging Face 作者及其开源社区表示感谢。\n\n## 📜许可证\nPaddleFormers 遵循[Apache-2.0开源协议](LICENSE)。\n","PaddleFormers 是一个基于 PaddlePaddle 深度学习框架构建的预训练大语言模型库，旨在为用户提供与 Hugging Face Transformers 项目对等的模型接口与功能体验。该项目支持多种主流的大语言模型（LLM）和视觉语言模型（VLM），如 DeepSeek-V3、GLM-4.5 系列、Qwen2 和 Qwen3 系列等，并具备张量并行、流水线并行及专家并行等先进的分布式训练策略，以及自动混合精度等加速技术。PaddleFormers 通过实现 FP8 低精度训练、通信计算重叠优化等方法，在提高训练效率的同时降低资源占用。此外，它还支持国产计算平台如昆仑芯 P800 和天数天垓150，适用于需要高效训练大规模语言模型或视觉语言模型的研究者和开发者。",2,"2026-06-11 03:34:00","high_star"]