[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-71164":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":17,"stars7d":18,"stars30d":19,"stars90d":16,"forks30d":16,"starsTrendScore":20,"compositeScore":21,"rankGlobal":10,"rankLanguage":10,"license":22,"archived":23,"fork":23,"defaultBranch":24,"hasWiki":25,"hasPages":23,"topics":26,"createdAt":10,"pushedAt":10,"updatedAt":34,"readmeContent":35,"aiSummary":36,"trendingCount":16,"starSnapshotCount":16,"syncStatus":37,"lastSyncTime":38,"discoverSource":39},71164,"MedicalGPT","shibing624\u002FMedicalGPT","shibing624","MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型，实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO、GRPO。","",null,"Python",5503,761,39,5,0,19,52,138,57,39.65,"Apache License 2.0",false,"main",true,[27,28,29,30,31,32,33],"chatgpt","dpo","gpt","llama","llm","medical","medicalgpt","2026-06-12 02:02:48","[**🇨🇳中文**](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002FREADME.md) | [**🌐English**](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002FREADME_EN.md) | [**📖文档\u002FDocs**](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fwiki) | [**🤖模型\u002FModels**](https:\u002F\u002Fhuggingface.co\u002Fshibing624)\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\">\n    \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Flogo.png\" height=\"100\" alt=\"Logo\">\n  \u003C\u002Fa>\n\u003C\u002Fdiv>\n\n-----------------\n\n# MedicalGPT: Training Medical GPT Model\n[![HF Models](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHugging%20Face-shibing624-green)](https:\u002F\u002Fhuggingface.co\u002Fshibing624)\n[![Github Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fshibing624\u002FMedicalGPT?color=yellow)](https:\u002F\u002Fstar-history.com\u002F#shibing624\u002FMedicalGPT&Timeline)\n[![Contributions welcome](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcontributions-welcome-brightgreen.svg)](CONTRIBUTING.md)\n[![License Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202.0-blue.svg)](LICENSE)\n[![python_version](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.8%2B-green.svg)](requirements.txt)\n[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fshibing624\u002FMedicalGPT.svg)](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fissues)\n[![Wechat Group](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwechat-group-green.svg?logo=wechat)](#Contact)\n\n## 📖 Introduction\n\n**MedicalGPT** training medical GPT model with ChatGPT training pipeline, implemantation of Pretraining,\nSupervised Finetuning, RLHF(Reward Modeling and Reinforcement Learning), DPO(Direct Preference Optimization)\nand standalone OPD(On-Policy Distillation).\n\n**MedicalGPT** 训练医疗大模型，实现了包括增量预训练、有监督微调、RLHF(奖励建模、强化学习训练)、DPO(直接偏好优化)\n和独立OPD(On-Policy Distillation)。\n\n\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Fdpo.jpg\" width=\"860\" \u002F>\n\n- RLHF training pipeline来自Andrej Karpathy的演讲PDF [State of GPT](https:\u002F\u002Fkarpathy.ai\u002Fstateofgpt.pdf)，视频 [Video](https:\u002F\u002Fbuild.microsoft.com\u002Fen-US\u002Fsessions\u002Fdb3f4859-cd30-4445-a0cd-553c3304f8e2)\n- DPO方法来自论文[Direct Preference Optimization:Your Language Model is Secretly a Reward Model](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.18290.pdf)\n- ORPO方法来自论文[ORPO: Monolithic Preference Optimization without Reference Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07691)\n\n## 🔥 News\n[2026\u002F04\u002F20] v2.7版本：支持了 **OPD(On-Policy Distillation)** 蒸馏训练，新增独立 `training\u002Fopd_training.py` 训练入口、`scripts\u002Frun_opd.sh` 启动脚本，并补充了OPD参数与使用文档，详见[Release-v2.7](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.7.0)\n\n[2026\u002F04\u002F09] v2.6版本：支持了 **[Agent工具调用\u002FFunction Call]** 模型微调训练，新增了支持不同模型的工具数据格式转换和解析代码。并在 `data` 目录下补充了 `toolcall` 数据样例。详见[Release-v2.6](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.6.0)\n\n[2026\u002F04\u002F07] v2.5版本：支持了 **[Qwen3.5](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen35)** 系列模型（包括Base、Instruct和MoE变体），PT\u002FSFT\u002FDPO\u002FORPO\u002FGRPO全流程适配，新增`qwen3`、`qwen3_5`、`qwen3_nothink`、`qwen3_5_nothink`对话模板，支持DeepSpeed ZeRO-3 MoE训练，详见[Release-v2.5](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.5.0)\n\n[2025\u002F04\u002F18] v2.4版本：支持了LoRA和全参的 **[GRPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.03300)** 训练方法，GRPO通过纯RL方法可以体验`aha moment`，详见[Release-v2.4](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.4.0)\n\n[2024\u002F09\u002F21] v2.3版本：支持了 **[Qwen-2.5](https:\u002F\u002Fqwenlm.github.io\u002Fzh\u002Fblog\u002Fqwen2.5\u002F)** 系列模型，详见[Release-v2.3](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.3.0)\n\n[2024\u002F08\u002F02] v2.2版本：支持了角色扮演模型训练，新增了医患对话SFT数据生成脚本[role_play_data](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Frole_play_data\u002FREADME.md)，支持OpenAI、豆包、[MiniMax](https:\u002F\u002Fplatform.minimaxi.com\u002F)等多种LLM Provider，详见[Release-v2.2](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.2.0)\n\n\u003Cdetails>\u003Csummary>展开日志\u003C\u002Fsummary>\n\n[2024\u002F06\u002F11] v2.1版本：支持了 **[Qwen-2](https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen2\u002F)** 系列模型，详见[Release-v2.1](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.1.0)\n\n[2024\u002F04\u002F24] v2.0版本：支持了 **[Llama-3](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama)** 系列模型，详见[Release-v2.0](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F2.0.0)\n\n[2024\u002F04\u002F17] v1.9版本：支持了 **[ORPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07691)**，详细用法请参照 `scripts\u002Frun_orpo.sh`。详见[Release-v1.9](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.9.0)\n\n[2024\u002F01\u002F26] v1.8版本：支持微调Mixtral混合专家MoE模型 **[Mixtral 8x7B](https:\u002F\u002Fhuggingface.co\u002Fmistralai\u002FMixtral-8x7B-v0.1)**。详见[Release-v1.8](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.8.0)\n\n[2024\u002F01\u002F14] v1.7版本：新增检索增强生成(RAG)的基于文件问答[ChatPDF](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FChatPDF)功能，代码`demo\u002Fchatpdf.py`，可以基于微调后的LLM结合知识库文件问答提升行业问答准确率。详见[Release-v1.7](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.7.0)\n\n[2023\u002F10\u002F23] v1.6版本：新增RoPE插值来扩展GPT模型的上下文长度；针对LLaMA模型支持了[FlashAttention-2](https:\u002F\u002Fgithub.com\u002FDao-AILab\u002Fflash-attention)和[LongLoRA](https:\u002F\u002Fgithub.com\u002Fdvlab-research\u002FLongLoRA) 提出的 **$S^2$-Attn**；支持了[NEFTune](https:\u002F\u002Fgithub.com\u002Fneelsjain\u002FNEFTune)给embedding加噪训练方法。详见[Release-v1.6](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.6.0)\n\n[2023\u002F08\u002F28] v1.5版本: 新增[DPO(直接偏好优化)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.18290.pdf)方法，DPO通过直接优化语言模型来实现对其行为的精确控制，可以有效学习到人类偏好。详见[Release-v1.5](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.5.0)\n\n[2023\u002F08\u002F08] v1.4版本: 发布基于ShareGPT4数据集微调的中英文Vicuna-13B模型[shibing624\u002Fvicuna-baichuan-13b-chat](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fvicuna-baichuan-13b-chat)，和对应的LoRA模型[shibing624\u002Fvicuna-baichuan-13b-chat-lora](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fvicuna-baichuan-13b-chat-lora)，详见[Release-v1.4](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.4.0)\n\n[2023\u002F08\u002F02] v1.3版本: 新增LLaMA, LLaMA2, Bloom, ChatGLM, ChatGLM2, Baichuan模型的多轮对话微调训练；新增领域词表扩充功能；新增中文预训练数据集和中文ShareGPT微调训练集，详见[Release-v1.3](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.3.0)\n\n[2023\u002F07\u002F13] v1.1版本: 发布中文医疗LLaMA-13B模型[shibing624\u002Fziya-llama-13b-medical-merged](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fziya-llama-13b-medical-merged)，基于Ziya-LLaMA-13B-v1模型，SFT微调了一版医疗模型，医疗问答效果有提升，发布微调后的完整模型权重，详见[Release-v1.1](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.1)\n\n[2023\u002F06\u002F15] v1.0版本: 发布中文医疗LoRA模型[shibing624\u002Fziya-llama-13b-medical-lora](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fziya-llama-13b-medical-lora)，基于Ziya-LLaMA-13B-v1模型，SFT微调了一版医疗模型，医疗问答效果有提升，发布微调后的LoRA权重，详见[Release-v1.0](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F1.0.0)\n\n[2023\u002F06\u002F05] v0.2版本: 以医疗为例，训练领域大模型，实现了四阶段训练：包括二次预训练、有监督微调、奖励建模、强化学习训练。详见[Release-v0.2](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Freleases\u002Ftag\u002F0.2.0)\n\n\u003C\u002Fdetails>\n\n\n## 😊 Features\n\n\n基于ChatGPT Training Pipeline，本项目实现了领域模型--医疗行业语言大模型的训练：\n\n\n- 第一阶段：PT(Continue PreTraining)增量预训练，在海量领域文档数据上二次预训练GPT模型，以适应领域数据分布（可选）\n- 第二阶段：SFT(Supervised Fine-tuning)有监督微调，构造指令微调数据集，在预训练模型基础上做指令精调，以对齐指令意图，并注入领域知识\n- 第三阶段\n  - RLHF(Reinforcement Learning from Human Feedback)基于人类反馈对语言模型进行强化学习，分为两步：\n    - RM(Reward Model)奖励模型建模，构造人类偏好排序数据集，训练奖励模型，用来建模人类偏好，主要是\"HHH\"原则，具体是\"helpful, honest, harmless\"\n    - RL(Reinforcement Learning)强化学习，用奖励模型来训练SFT模型，生成模型使用奖励或惩罚来更新其策略，以便生成更高质量、更符合人类偏好的文本\n  - [DPO(Direct Preference Optimization)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.18290.pdf)直接偏好优化方法，DPO通过直接优化语言模型来实现对其行为的精确控制，而无需使用复杂的强化学习，也可以有效学习到人类偏好，DPO相较于RLHF更容易实现且易于训练，效果更好\n  - [ORPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.07691)比值比偏好优化，不需要参考模型（ref_model）的优化方法，通过ORPO，LLM可以同时学习SFT和对齐，将两个过程整合为单一步骤，缓解模型灾难性遗忘问题\n  - OPD(On-Policy Distillation)独立蒸馏训练，使用更强的teacher模型对student在自身rollout轨迹上的输出分布进行监督，首版不和PPO\u002FGRPO联训，训练产物可以像SFT一样独立部署\n\n\n### Release Models\n\n\n| Model                                                                                                             | Base Model                                                                              | Introduction                                                                                                                                                                 |\n|:------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| [shibing624\u002Fziya-llama-13b-medical-lora](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fziya-llama-13b-medical-lora)           | [IDEA-CCNL\u002FZiya-LLaMA-13B-v1](https:\u002F\u002Fhuggingface.co\u002FIDEA-CCNL\u002FZiya-LLaMA-13B-v1)       | 在240万条中英文医疗数据集[shibing624\u002Fmedical](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fmedical)上SFT微调了一版Ziya-LLaMA-13B模型，医疗问答效果有提升，发布微调后的LoRA权重(单轮对话)                                 |\n| [shibing624\u002Fziya-llama-13b-medical-merged](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fziya-llama-13b-medical-merged)       | [IDEA-CCNL\u002FZiya-LLaMA-13B-v1](https:\u002F\u002Fhuggingface.co\u002FIDEA-CCNL\u002FZiya-LLaMA-13B-v1)       | 在240万条中英文医疗数据集[shibing624\u002Fmedical](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fmedical)上SFT微调了一版Ziya-LLaMA-13B模型，医疗问答效果有提升，发布微调后的完整模型权重(单轮对话)                                 |\n| [shibing624\u002Fvicuna-baichuan-13b-chat-lora](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fvicuna-baichuan-13b-chat-lora)       | [baichuan-inc\u002FBaichuan-13B-Chat](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-13B-Chat) | 在10万条多语言ShareGPT GPT4多轮对话数据集[shibing624\u002Fsharegpt_gpt4](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fsharegpt_gpt4) 和 医疗数据集[shibing624\u002Fmedical](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fmedical) 上SFT微调了一版baichuan-13b-chat多轮问答模型，日常问答和医疗问答效果有提升，发布微调后的LoRA权重 |\n| [shibing624\u002Fvicuna-baichuan-13b-chat](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fvicuna-baichuan-13b-chat)                 | [baichuan-inc\u002FBaichuan-13B-Chat](https:\u002F\u002Fhuggingface.co\u002Fbaichuan-inc\u002FBaichuan-13B-Chat) | 在10万条多语言ShareGPT GPT4多轮对话数据集[shibing624\u002Fsharegpt_gpt4](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fsharegpt_gpt4) 和 医疗数据集[shibing624\u002Fmedical](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fmedical) 上SFT微调了一版baichuan-13b-chat多轮问答模型，日常问答和医疗问答效果有提升，发布微调后的完整模型权重 |\n| [shibing624\u002Fllama-3-8b-instruct-262k-chinese](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fllama-3-8b-instruct-262k-chinese) | [Llama-3-8B-Instruct-262k](https:\u002F\u002Fhuggingface.co\u002Fgradientai\u002FLlama-3-8B-Instruct-262k)  | 在2万条中英文偏好数据集[shibing624\u002FDPO-En-Zh-20k-Preference](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002FDPO-En-Zh-20k-Preference)上使用ORPO方法微调得到的超长文本多轮对话模型，适用于RAG、多轮对话                   |\n\n演示[shibing624\u002Fvicuna-baichuan-13b-chat](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fvicuna-baichuan-13b-chat)模型效果：\n\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Fdemo-screen.gif\" width=\"860\" \u002F>\n具体case见[Inference Examples](#inference-examples)\n\n## ▶️ Demo\n\n\n我们提供了一个简洁的基于gradio的交互式web界面，启动服务后，可通过浏览器访问，输入问题，模型会返回答案。\n\n启动服务，命令如下：\n```shell\nCUDA_VISIBLE_DEVICES=0 python demo\u002Fgradio_demo.py --base_model path_to_llama_hf_dir --lora_model path_to_lora_dir\n```\n\n参数说明：\n\n- `--base_model {base_model}`：存放HF格式的LLaMA模型权重和配置文件的目录，也可使用HF Model Hub模型调用名称\n- `--lora_model {lora_model}`：LoRA文件所在目录，也可使用HF Model Hub模型调用名称。若lora权重已经合并到预训练模型，则删除--lora_model参数\n- `--tokenizer_path {tokenizer_path}`：存放对应tokenizer的目录。若不提供此参数，则其默认值与--base_model相同\n- `--template_name`：模板名称，如`vicuna`、`alpaca`等。若不提供此参数，则其默认值是vicuna\n- `--only_cpu`: 仅使用CPU进行推理\n- `--resize_emb`：是否调整embedding大小，若不调整，则使用预训练模型的embedding大小，默认不调整\n\n\n## 💾 Install\n#### Updating the requirements\n`requirements.txt`会不时更新以适配最新功能，使用以下命令更新依赖:\n\n```markdown\ngit clone https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\ncd MedicalGPT\npip install -r requirements.txt --upgrade\n```\n\n#### Hardware Requirement (显存\u002FVRAM)\n\n\n\\* *估算值*\n\n| 训练方法  | 精度          |   7B  |  13B  |  30B  |   70B  |  110B  |  8x7B |  8x22B |\n|-------|-------------| ----- | ----- | ----- | ------ | ------ | ----- | ------ |\n| 全参数   | AMP(自动混合精度) | 120GB | 240GB | 600GB | 1200GB | 2000GB | 900GB | 2400GB |\n| 全参数   | 16          |  60GB | 120GB | 300GB |  600GB |  900GB | 400GB | 1200GB |\n| LoRA  | 16          |  16GB |  32GB |  64GB |  160GB |  240GB | 120GB |  320GB |\n| QLoRA | 8           |  10GB |  20GB |  40GB |   80GB |  140GB |  60GB |  160GB |\n| QLoRA | 4           |   6GB |  12GB |  24GB |   48GB |   72GB |  30GB |   96GB |\n| QLoRA | 2           |   4GB |   8GB |  16GB |   24GB |   48GB |  18GB |   48GB |\n\n## 📁 Project Structure\n\n```\nMedicalGPT\u002F\n├── training\u002F                # 核心训练脚本（训练主线）\n│   ├── template.py                         # 对话模板定义\n│   ├── tool_utils.py                       # Agent工具调用格式化工具\n│   ├── pretraining.py                      # Stage 1: 增量预训练(PT)\n│   ├── supervised_finetuning.py            # Stage 2: 有监督微调(SFT, 支持Agent)\n│   ├── opd_training.py                     # Stage 2.5: 独立OPD蒸馏\n│   ├── reward_modeling.py                  # Stage 3: 奖励模型(RM)\n│   ├── ppo_training.py                     # Stage 3: 强化学习(PPO\u002FRLOO)\n│   ├── dpo_training.py                     # Stage 3: 直接偏好优化(DPO, 支持Agent)\n│   ├── orpo_training.py                    # Stage 3: ORPO\n│   └── grpo_training.py                    # Stage 3: GRPO\n│\n├── scripts\u002F                 # 一键运行脚本 + DeepSpeed配置\n│   ├── run_pt.sh \u002F run_sft.sh \u002F run_dpo.sh \u002F ...\n│   └── zero1.json \u002F zero2.json \u002F zero3.json\n│\n├── demo\u002F                    # 推理、部署、应用示例\n│   ├── inference.py \u002F gradio_demo.py \u002F fastapi_server_demo.py\n│   ├── openai_api.py \u002F chatpdf.py\n│   └── inference_multigpu_demo.py\n│\n├── tools\u002F                   # 模型合并、量化、数据处理工具\n│   ├── merge_peft_adapter.py \u002F merge_tokenizers.py\n│   ├── model_quant.py \u002F eval_quantize.py\n│   └── convert_dataset.py \u002F validate_jsonl.py\n│\n├── notebooks\u002F               # Colab 教程 Notebook\n│   ├── run_training_dpo_pipeline.ipynb\n│   └── run_training_ppo_pipeline.ipynb\n│\n├── data\u002F                    # 训练数据\n│   ├── sft\u002F                               # SFT数据（含普通问答和Tool Call）\n│   └── reward\u002F                            # DPO\u002FRM偏好数据（含普通偏好和Tool Call偏好）\n├── docs\u002F                    # 文档\n└── tests\u002F                   # 测试\n```\n\n| 目录 | 说明 | 适用人群 |\n|------|------|---------|\n| `training\u002F` | 核心训练代码，覆盖PT→SFT→RM→PPO\u002FDPO\u002FORPO\u002FGRPO全流程 | 训练模型 |\n| `scripts\u002F` | 一键运行脚本和DeepSpeed配置，复制即用 | 快速上手训练 |\n| `demo\u002F` | 推理、Gradio UI、FastAPI服务、RAG问答等示例 | 想部署和体验模型 |\n| `tools\u002F` | LoRA合并、量化、词表扩充、数据格式转换等工具 | 需要模型后处理 |\n| `notebooks\u002F` | Colab一键运行的端到端教程 | 零基础快速体验 |\n\n> 所有脚本均从**项目根目录**运行，例如：`bash scripts\u002Frun_sft.sh`\n\n## 🚀 Training Pipeline\n\nTraining Stage:\n\n| Stage                          | Introduction | Python script                                                                                                    | Shell script                                                                           |\n|:-------------------------------|:-------------|:-----------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------|\n| Continue Pretraining           | 增量预训练        | [pretraining.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Fpretraining.py)                     | [run_pt.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_pt.sh)     |\n| Supervised Fine-tuning         | 有监督微调        | [supervised_finetuning.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Fsupervised_finetuning.py) | [run_sft.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_sft.sh)   |\n| On-Policy Distillation         | 独立OPD蒸馏       | [opd_training.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Fopd_training.py)                   | [run_opd.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_opd.sh)   |\n| Direct Preference Optimization | 直接偏好优化       | [dpo_training.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Fdpo_training.py)                   | [run_dpo.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_dpo.sh)   |\n| Reward Modeling                | 奖励模型建模       | [reward_modeling.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Freward_modeling.py)             | [run_rm.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_rm.sh)     |\n| Reinforcement Learning         | 强化学习         | [ppo_training.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Fppo_training.py)                   | [run_ppo.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_ppo.sh)   |\n| ORPO                           | 概率偏好优化       | [orpo_training.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Ftraining\u002Forpo_training.py)                  | [run_orpo.sh](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fscripts\u002Frun_orpo.sh) |\n\n- 提供完整PT+SFT+DPO全阶段串起来训练的pipeline：[run_training_dpo_pipeline.ipynb](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fnotebooks\u002Frun_training_dpo_pipeline.ipynb) ，其对应的colab： [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fnotebooks\u002Frun_training_dpo_pipeline.ipynb)，运行完大概需要15分钟\n- 提供完整PT+SFT+RLHF全阶段串起来训练的pipeline：[run_training_ppo_pipeline.ipynb](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fnotebooks\u002Frun_training_ppo_pipeline.ipynb) ，其对应的colab： [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fnotebooks\u002Frun_training_ppo_pipeline.ipynb) ，运行完大概需要20分钟\n- 支持Agent工具调用微调训练（Agent Finetuning），SFT和DPO阶段均支持。详见下方 [Agent 训练](#agent-训练agent-finetuning) 章节\n- 支持独立 OPD 训练，复用 `data\u002Fsft` 的 ShareGPT 多轮数据格式，训练输出与 SFT\u002FLoRA 一样可直接部署；如果是LoRA训练，可继续使用 `tools\u002Fmerge_peft_adapter.py` 合并权重\n- 提供基于知识库文件的LLM问答功能（RAG）：[chatpdf.py](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdemo\u002Fchatpdf.py)\n- [训练参数说明](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Ftraining_params.md) | [训练参数说明wiki](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fwiki\u002F%E8%AE%AD%E7%BB%83%E5%8F%82%E6%95%B0%E8%AF%B4%E6%98%8E)\n- [数据集](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Fdatasets.md) | [数据集wiki](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fwiki\u002F%E6%95%B0%E6%8D%AE%E9%9B%86)\n- [扩充词表](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Fextend_vocab.md) | [扩充词表wiki](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fwiki\u002F%E6%89%A9%E5%85%85%E4%B8%AD%E6%96%87%E8%AF%8D%E8%A1%A8)\n- [FAQ](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002FFAQ.md) | [FAQ_wiki](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fwiki\u002FFAQ)\n\n#### Agent 训练（Agent Finetuning）\n\n本项目支持通过 SFT 和 DPO 两种方式训练具有工具调用（Function Call \u002F Tool Use）能力的 Agent 模型。\n\n**核心原理：** Tool Call 本质上是特殊的多轮对话，在标准的 `human`\u002F`gpt` 角色之外新增了 `function_call`（模型决定调用工具）和 `observation`（工具返回结果）两种角色。Template 系统统一处理所有角色，有工具描述就拼接到 system message，没有就跳过，对 loss 计算和训练过程完全透明。\n\n**数据格式：** 统一使用 jsonl（一行一条），ShareGPT 格式。\n\nSFT 数据（`data\u002Fsft\u002Fglaive_toolcall_zh_demo.jsonl`）：\n```\n{\"conversations\": [{\"from\": \"human\", \"value\": \"帮我查一下北京天气\"}, {\"from\": \"function_call\", \"value\": \"{\\\"name\\\": \\\"get_weather\\\", \\\"arguments\\\": {\\\"city\\\": \\\"北京\\\"}}\"}, {\"from\": \"observation\", \"value\": \"{\\\"temperature\\\": \\\"28°C\\\", \\\"weather\\\": \\\"晴\\\"}\"}, {\"from\": \"gpt\", \"value\": \"北京今天天气晴朗，气温28°C。\"}], \"tools\": \"[...]\"}\n```\n\nDPO 数据（`data\u002Freward\u002Ftoolcall_dpo_zh_demo.jsonl`）：\n```\n{\"conversations\": [{\"from\": \"human\", \"value\": \"帮我查一下北京天气\"}], \"tools\": \"[...]\", \"chosen\": \"Action: get_weather\\nAction Input: {\\\"city\\\": \\\"北京\\\"}\", \"rejected\": \"北京今天天气晴朗，气温25度。\"}\n```\n\n> **注意：** 所有训练数据统一为 `.jsonl` 格式。`chosen`\u002F`rejected` 为纯字符串。如有 `.json` 文件（JSON 数组），可用 `python tools\u002Fconvert_dataset.py --in_file data.json --out_file data.jsonl --data_type json2jsonl` 转换。\n\n**支持的 tool_format：**\n\n| tool_format | 适用模型 | 说明 |\n|-------------|---------|------|\n| `default`   | 通用 | Action\u002FAction Input 格式 |\n| `qwen`      | Qwen2.5\u002FQwen3\u002FQwen3.5 | `\u003Ctool_call>` XML格式 |\n| `qwen3`     | Qwen3 | 同 `qwen`，别名 |\n| `qwen3.5`   | Qwen3.5 | 同 `qwen`，别名 |\n| `glm4`      | GLM-4 | ChatGLM 工具格式 |\n| `llama3`    | LLaMA-3.x | JSON function call 格式 |\n| `mistral`   | Mistral | `[AVAILABLE_TOOLS]` 格式 |\n\n**混合训练：** 普通问答SFT数据和Tool Call数据可以一起训练，只需将两类数据文件放在同一个 `--train_file_dir` 目录下即可。没有 `tools` 字段的数据会按照普通SFT\u002FDPO流程处理。\n\n**训练命令：** Tool Call 数据与普通数据混合在同一目录下，直接使用标准训练脚本，加 `--tool_format` 参数即可：\n\n```shell\n# SFT（data\u002Fsft\u002F 目录下同时包含普通问答和 tool call 数据）\nbash scripts\u002Frun_sft.sh\n\n# DPO（data\u002Freward\u002F 目录下同时包含普通偏好和 tool call 偏好数据）\nbash scripts\u002Frun_dpo.sh\n```\n\n关键参数说明：\n- `--tool_format default`：指定工具调用的文本格式（可选 `default, glm4, llama3, mistral, qwen`）\n- 无需单独的 agent 训练脚本，普通数据和 tool call 数据自动混合训练\n\n#### Supported Models\n\n| Model Name                                                           | Model Size                    | Target Modules  | Template  |\n|----------------------------------------------------------------------|-------------------------------|-----------------|-----------|\n| [Baichuan](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002Fbaichuan-13B)             | 7B\u002F13B                        | W_pack          | baichuan  |\n| [Baichuan2](https:\u002F\u002Fgithub.com\u002Fbaichuan-inc\u002FBaichuan2)               | 7B\u002F13B                        | W_pack          | baichuan2 |\n| [BLOOMZ](https:\u002F\u002Fhuggingface.co\u002Fbigscience\u002Fbloomz)                   | 560M\u002F1.1B\u002F1.7B\u002F3B\u002F7.1B\u002F176B   | query_key_value | vicuna    |\n| [ChatGLM](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM-6B)                       | 6B                            | query_key_value | chatglm   |\n| [ChatGLM2](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM2-6B)                     | 6B                            | query_key_value | chatglm2  |\n| [ChatGLM3](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FChatGLM3)                        | 6B                            | query_key_value | chatglm3  |\n| [Cohere](https:\u002F\u002Fhuggingface.co\u002FCohereForAI\u002Fc4ai-command-r-plus)     | 104B                          | q_proj,v_proj   | cohere    |\n| [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-LLM)              | 7B\u002F16B\u002F67B                    | q_proj,v_proj   | deepseek  |\n| [DeepSeek3](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V3)              | 671B                         | q_proj,v_proj   | deepseek3 |\n| [InternLM2](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM)                    | 7B\u002F20B                        | wqkv            | intern2   |\n| [LLaMA](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fllama)                   | 7B\u002F13B\u002F33B\u002F65B                | q_proj,v_proj   | alpaca    |\n| [LLaMA2](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama)                          | 7B\u002F13B\u002F70B                    | q_proj,v_proj   | llama2    |\n| [LLaMA3](https:\u002F\u002Fhuggingface.co\u002Fmeta-llama)                          | 8B\u002F70B                        | q_proj,v_proj   | llama3    |\n| [Mistral](https:\u002F\u002Fhuggingface.co\u002Fmistralai\u002FMistral-7B-Instruct-v0.1) | 7B\u002F8x7B                       | q_proj,v_proj   | mistral   |\n| [Orion](https:\u002F\u002Fgithub.com\u002FOrionStarAI\u002FOrion)                        | 14B                           | q_proj,v_proj   | orion     |\n| [Qwen](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen)                               | 1.8B\u002F7B\u002F14B\u002F72B               | c_attn          | qwen      |\n| [Qwen1.5](https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen1.5-72B)                   | 0.5B\u002F1.8B\u002F4B\u002F14B\u002F32B\u002F72B\u002F110B | q_proj,v_proj   | qwen      |\n| [Qwen2](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2)                             | 0.5B\u002F1.5B\u002F7B\u002F72B              | q_proj,v_proj   | qwen      |\n| [Qwen2.5](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen2.5)                         | 0.5B\u002F1.8B\u002F4B\u002F14B\u002F72B        | q_proj,v_proj   | qwen      |\n| [Qwen3](https:\u002F\u002Fhuggingface.co\u002FQwen)                                  | 0.6B\u002F1.7B\u002F4B\u002F8B\u002F14B\u002F32B\u002F235B | q_proj,v_proj   | qwen3     |\n| [Qwen3.5](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FQwen\u002Fqwen35) | 0.8B\u002F2B\u002F4B\u002F9B\u002F27B\u002F35B\u002F122B | q_proj,v_proj   | qwen3_5   |\n| [XVERSE](https:\u002F\u002Fgithub.com\u002Fxverse-ai\u002FXVERSE-13B)                    | 13B                           | query_key_value | xverse    |\n| [Yi](https:\u002F\u002Fgithub.com\u002F01-ai\u002FYi)                                    | 6B\u002F34B                        | q_proj,v_proj   | yi        |\n\n\n\n\n## 💻 Inference\n训练完成后，现在我们加载训练好的模型，验证模型生成文本的效果。\n\n```shell\nCUDA_VISIBLE_DEVICES=0 python demo\u002Finference.py \\\n    --base_model path_to_model_hf_dir \\\n    --lora_model path_to_lora \\\n    --interactive\n```\n\n参数说明：\n\n- `--base_model {base_model}`：存放HF格式的LLaMA模型权重和配置文件的目录\n- `--tokenizer_path {base_model}`：存放HF格式的LLaMA模型权重和配置文件的目录\n- `--lora_model {lora_model}`：LoRA解压后文件所在目录，也可使用HF Model Hub模型调用名称。如果已经合并了LoRA权重到预训练模型，则可以不提供此参数\n- `--tokenizer_path {tokenizer_path}`：存放对应tokenizer的目录。若不提供此参数，则其默认值与--base_model相同\n- `--template_name`：模板名称，如`vicuna`、`alpaca`等。若不提供此参数，则其默认值是vicuna\n- `--interactive`：以交互方式启动多轮问答，使用流式推理\n- `--data_file {file_name}`：非交互方式启动下，读取file_name中的的内容进行batch预测\n- `--output_file {file_name}`：非交互式方式下，将预测的结果以jsonl格式写入file_name\n- `--resize_emb`：是否调整embedding大小，若不调整，则使用预训练模型的embedding大小，默认不调整\n- `--only_cpu`：仅使用CPU进行推理\n- `--gpus {gpu_ids}`：指定使用的GPU设备编号，默认为0。如使用多张GPU，以逗号分隔，如0,1,2\n\n#### 多卡推理\n多卡数据并行，batch推理\n```shell\nCUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node 2 demo\u002Finference_multigpu_demo.py --base_model shibing624\u002Fvicuna-baichuan-13b-chat\n```\n#### vllm多卡部署\n```shell\nbash scripts\u002Fvllm_deployment.sh\n```\n\n\n#### Inference Examples\n[shibing624\u002Fvicuna-baichuan-13b-chat](https:\u002F\u002Fhuggingface.co\u002Fshibing624\u002Fvicuna-baichuan-13b-chat) inference examples:\n\n\u003Cdetails>\u003Csummary>Model output case\u003C\u002Fsummary>\n\n| Human                                                                              | Assitant                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |\n|------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| 小孩发烧怎么办                                                                            | 发烧是身体对感染或其他疾病的自然反应。以下是一些可以帮助缓解发烧症状的建议：\u003Cbr\u002F>1. 保持身体水分充足：发烧时，身体会失去水分，因此需要保持水分充足。\u003Cbr\u002F>2. 使用冰袋：将冰袋放在额头或颈部可以帮助降低体温。\u003Cbr\u002F>3. 使用退烧药：退烧药可以帮助降低体温。\u003Cbr\u002F>4. 保持身体温度：保持身体温度可以帮助降低体温。\u003Cbr\u002F>5. 使用冷水或温水擦拭身体：使用冷水或温水擦拭身体可以帮助降低体温。\u003Cbr\u002F>6. 使用退烧药：退烧药可以帮助降低体温。\u003Cbr\u002F>7. 保持身体温度：保持身体温度可以帮助降低体温。\u003Cbr\u002F>8. 使用冷水或温水擦拭身体：使用冷水或温水擦拭身体可以帮助降低体温。\u003Cbr\u002F>9. 使用退烧药：退烧药可以帮助降低体温。\u003Cbr\u002F>10. 保持身体温度：保持身体温度可以帮助降低体温。                                                                                                                                                                                                                                                         |\n| 一岁宝宝发烧能吃啥药？                                                                        | 1岁宝宝发烧时，可以考虑以下几种药物：\u003Cbr\u002F>1. 退烧药：如布洛芬(Ibuprofen)或对乙酰氨基酚(Paracetamol)。这些药物可以帮助降低体温，缓解发烧症状。\u003Cbr\u002F>2. 抗生素：如果发烧是由细菌感染引起的，可以考虑使用抗生素。但请务必在医生的建议下使用。\u003Cbr\u002F>3. 抗病毒药物：如果发烧是由病毒感染引起的，可以考虑使用抗病毒药物。但请务必在医生的建议下使用。\u003Cbr\u002F>4. 解热镇痛药：如阿司匹林(Aspirin)或对乙酰氨基酚(Paracetamol)。这些药物可以帮助缓解发烧症状。\u003Cbr\u002F>5. 抗组胺药：如苯海拉明(Diphenhydramine)或非索非那定(Naproxen)。这些药物可以帮助缓解发烧症状。\u003Cbr\u002F>请务必在医生的建议下使用这些药物，并遵循药物说明书上的用量和用法。同时，保持宝宝充足的水分摄入，并确保宝宝有足够的休息。                                                                                                                                                                                                                             |\n| 肛门病变可能是什么疾病的症状                                                                     | 肛门病变可能由多种原因引起，包括感染、炎症、肿瘤或其他疾病。一些常见的肛门病变包括：\u003Cbr\u002F>1. 肛裂：这是一种肛门皮肤撕裂，通常由便秘或其他压力因素引起。\u003Cbr\u002F>2. 肛瘘：这是一种肛门感染，导致肛门皮肤和直肠之间形成瘘管。\u003Cbr\u002F>3. 肛门疣：这是一种肛门皮肤上形成的疣状病变，通常由人类乳头状瘤病毒(HPV)引起。\u003Cbr\u002F>4. 肛门脓肿：这是一种肛门感染，导致肛门皮肤下形成脓肿。\u003Cbr\u002F>5. 肛门肿瘤：这是一种肛门皮肤或直肠内形成的肿瘤。\u003Cbr\u002F>6. 肛门溃疡：这是一种肛门皮肤上形成的溃疡，通常由感染或炎症引起。\u003Cbr\u002F>7. 肛门瘙痒：这是一种肛门皮肤瘙痒的症状，可能由感染、炎症或其他疾病引起。\u003Cbr\u002F>如果您有肛门病变的症状，请咨询医疗保健专业人员以获得适当的诊断和治疗。                                                                                                                                                                                                                                                                  |\n| 医生，您好白带增多泛黄怎么回事？                                                                   | 您好，白带增多和发黄可能是由多种原因引起的，包括感染、荷尔蒙变化、阴道干燥或其他妇科问题。以下是一些可能的原因：\u003Cbr\u002F>1. 感染：白带增多和发黄可能是由阴道或尿道感染引起的。感染可能由细菌、病毒或真菌引起。\u003Cbr\u002F>2. 荷尔蒙变化：荷尔蒙变化，如月经周期或更年期，可能会导致白带增多和发黄。\u003Cbr\u002F>3. 阴道干燥：阴道干燥可能会导致白带增多和发黄。\u003Cbr\u002F>4. 其他妇科问题：其他妇科问题，如子宫颈炎、子宫内膜炎或子宫内膜异位症，也可能导致白带增多和发黄。\u003Cbr\u002F>如果您担心自己的白带，建议您咨询妇科医生进行检查和诊断。医生可以根据您的症状和检查结果确定原因并提供适当的治疗。                                                                                                                                                                                                                                                                                                                          |\n| 药流后有巧克力白带是没流干净吗                                                                    | 药流后出现巧克力白带并不一定意味着没有流干净。巧克力白带是由于子宫内膜脱落和出血引起的，通常在药流后的一段时间内会出现。\u003Cbr\u002F>\u003Cbr\u002F>药流后出现巧克力白带的原因可能包括：\u003Cbr\u002F>\u003Cbr\u002F>1. 子宫内膜脱落：药流后，子宫内膜会脱落，导致出血。这种出血可能表现为巧克力白带。\u003Cbr\u002F>2. 感染：药流后，子宫内膜和宫颈口可能存在创伤，容易受到细菌感染。感染可能导致巧克力白带。\u003Cbr\u002F>3. 激素水平变化：药流后，激素水平可能发生变化，导致巧克力白带。\u003Cbr\u002F>\u003Cbr\u002F>如果巧克力白带持续时间较长，或者伴有其他症状，如腹痛、发热、分泌物异味等，建议及时就诊，进行相关检查，如妇科检查、B超等，以确定是否存在感染或其他问题。在医生的指导下进行相应的治疗。                                                                                                                                                                                                                                                                                      |\n| 维胺酯维E乳膏能治理什么疾病                                                                     | 维胺酯维E乳膏是一种外用药物，主要用于治疗痤疮、脂溢性皮炎等皮肤病。它可以帮助减少皮肤油脂分泌，减轻炎症，促进皮肤修复。\u003Cbr\u002F>\u003Cbr\u002F>需要注意的是，维胺酯维E乳膏并非万能药，对于某些皮肤病可能并不适用。在使用前，建议咨询医生或药师，了解药物的适应症、禁忌症、用法用量等信息。同时，使用药物时应遵循医嘱，避免自行滥用。                                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n| 痤疮是什么原因导致的?                                                                        | 痤疮，也称为粉刺，是由皮肤毛孔堵塞引起的。堵塞毛孔的原因有很多，包括：\u003Cbr\u002F>1. 皮脂腺过度活跃：皮脂腺产生过多油脂，导致毛孔堵塞。\u003Cbr\u002F>2. 毛孔堵塞：皮肤表面的死皮细胞、油脂和细菌堵塞毛孔。\u003Cbr\u002F>3. 炎症：痤疮通常伴随着炎症，这可能是由于皮肤感染或免疫系统对痤疮的反应引起的。\u003Cbr\u002F>4. 遗传因素：某些人可能更容易患痤疮，这可能是由于遗传因素引起的。\u003Cbr\u002F>5. 荷尔蒙变化：痤疮在青春期和月经期间更为常见，这可能是由于荷尔蒙变化引起的。\u003Cbr\u002F>6. 生活方式因素：某些生活方式因素，如压力、不良饮食和缺乏运动，也可能导致痤疮。\u003Cbr\u002F>7. 化妆品和护肤品：某些化妆品和护肤品可能导致痤疮，特别是那些含有刺激性成分的产品。\u003Cbr\u002F>8. 药物：某些药物，如口服避孕药，也可能导致痤疮。\u003Cbr\u002F>要预防痤疮，可以采取一些措施，如保持皮肤清洁、使用温和的护肤品、避免过度使用化妆品和护肤品、保持健康的生活方式和饮食习惯、避免压力和荷尔蒙变化。如果痤疮严重，可能需要寻求皮肤科医生的帮助。                                                                                                                                                         |\n| 脸上长青春痘怎么办,能吃啥药,需要注意啥                                                               | 青春痘，又称痤疮，是一种常见的皮肤病。青春痘的治疗需要综合考虑饮食、生活习惯、药物等多个方面。以下是一些建议：\u003Cbr\u002F>\u003Cbr\u002F>1. 饮食：\u003Cbr\u002F>* 避免高糖、高脂、高油的食物，如快餐、甜点、油炸食品等。\u003Cbr\u002F>* 多吃新鲜蔬菜、水果、全谷类食物，以增加纤维摄入，促进肠道蠕动。\u003Cbr\u002F>* 避免摄入过多的咖啡因、酒精、辛辣食物等刺激性食物。\u003Cbr\u002F>\u003Cbr\u002F>2. 生活习惯：\u003Cbr\u002F>* 保持良好的作息时间，保证充足的睡眠。\u003Cbr\u002F>* 避免长时间使用电脑、手机等电子产品，以免辐射对皮肤造成刺激。\u003Cbr\u002F>* 保持皮肤清洁，每天早晚使用温和的洁面产品清洁皮肤。\u003Cbr\u002F>* 避免挤压青春痘，以免感染和留下疤痕。\u003Cbr\u002F>\u003Cbr\u002F>3. 药物：\u003Cbr\u002F>* 外用药物：可以使用含有水杨酸、苯甲酸、壬二酸等成分的护肤品，帮助去除皮肤表面的角质，减少痘痘的形成。\u003Cbr\u002F>* 口服药物：如果青春痘严重，可以考虑口服抗生素、维生素B族、锌等药物，但需在医生指导下使用。\u003Cbr\u002F>\u003Cbr\u002F>4. 注意：\u003Cbr\u002F>* 不要随意使用化妆品、护肤品，以免刺激皮肤。\u003Cbr\u002F>* 不要过度清洁皮肤，以免破坏皮肤屏障。\u003Cbr\u002F>* 保持心情舒畅，避免焦虑、抑郁等负面情绪。\u003Cbr\u002F>\u003Cbr\u002F>总之，青春痘的治疗需要综合考虑饮食、生活习惯、药物等多个方面。在治疗过程中，要保持耐心和信心，遵循医生的建议，逐步改善皮肤状况。 |\n| 由于输精管堵塞会不会导致男性不育？，医生您好，我同事这几天不开心，我问她怎么了，她说她老公输精管堵塞，所以一直没孩子，不是不想要，请问输精管堵塞会不会导致男性不育？ | 输精管堵塞可能会导致男性不育。输精管是连接睾丸和尿道的一条管道，负责将精子从睾丸输送到尿道。如果输精管堵塞，精子就无法通过输精管到达尿道，从而导致不育。\u003Cbr\u002F>\u003Cbr\u002F>输精管堵塞的原因有很多，包括先天性发育异常、炎症、肿瘤、外伤等。输精管堵塞的治疗方法包括手术疏通、药物治疗等。如果输精管堵塞严重，可能需要进行手术疏通。\u003Cbr\u002F>\u003Cbr\u002F>需要注意的是，输精管堵塞并不一定导致不育，因为还有其他途径可以将精子输送到女性体内。例如，精子可以通过附睾、前列腺等组织到达女性体内。因此，如果输精管堵塞，建议及时就医，寻求专业医生的帮助。                                                                                                                                                                                                                                                                                                                                                     |\n| 心肌梗塞能治疗吗？                                                                          | 心肌梗死是一种严重的疾病，如果及时治疗，可以挽救生命并防止长期残疾。治疗心肌梗死的关键是尽早识别和治疗。\u003Cbr\u002F>\u003Cbr\u002F>心肌梗死的治疗通常包括以下步骤：\u003Cbr\u002F>\u003Cbr\u002F>1. 立即就医：如果出现胸痛、呼吸急促或晕厥等症状，立即就医。\u003Cbr\u002F>\u003Cbr\u002F>2. 药物治疗：医生可能会开处方药物，如硝酸甘油或阿司匹林，以帮助缓解症状并防止进一步的损伤。\u003Cbr\u002F>\u003Cbr\u002F>3. 溶栓治疗：如果患者在到达医院前出现心肌梗死，医生可能会进行溶栓治疗，通过注射溶解血栓的药物来帮助恢复血流。\u003Cbr\u002F>\u003Cbr\u002F>4. 手术治疗：如果药物治疗或溶栓治疗无效，医生可能会建议进行手术，如冠状动脉搭桥手术或心脏支架植入术。\u003Cbr\u002F>\u003Cbr\u002F>5. 康复和预防：心肌梗死的治疗通常包括康复计划，以帮助患者恢复身体功能并预防未来的心脏事件。此外，患者还应遵循医生的建议，以降低患心脏病的风险。\u003Cbr\u002F>\u003Cbr\u002F>需要注意的是，心肌梗死的治疗取决于患者的具体情况和症状。因此，如果您或您认识的人出现心肌梗死症状，请立即就医。                                                                                                                                                            |\n| 怎么让自己精力充沛，列5点建议                                                                    | 1. 保持充足的睡眠：睡眠对于保持精力充沛至关重要。确保每晚获得7-9小时的高质量睡眠。\u003Cbr\u002F>2. 均衡饮食：均衡饮食对于保持能量水平至关重要。确保摄入足够的蛋白质、碳水化合物和健康脂肪。\u003Cbr\u002F>3. 定期锻炼：定期锻炼可以帮助提高能量水平。尝试每天进行至少30分钟的有氧运动，如散步、跑步或骑自行车。\u003Cbr\u002F>4. 管理压力：压力会消耗能量，因此管理压力对于保持精力充沛至关重要。尝试找到放松和减压的方法，如冥想、瑜伽或深呼吸练习。\u003Cbr\u002F>5. 保持水分：脱水会降低能量水平。确保每天喝足够的水，并根据需要补充水分。                                                                                                                                                                                                                                                                                                                                                         |\n| 写个春天的诗                                                                             | 春天，\u003Cbr\u002F>是大地苏醒的季节，\u003Cbr\u002F>是万物复苏的季节，\u003Cbr\u002F>是生命绽放的季节。\u003Cbr\u002F>春天，\u003Cbr\u002F>是阳光明媚的季节，\u003Cbr\u002F>是鸟语花香的季节，\u003Cbr\u002F>是绿意盎然的季节，\u003Cbr\u002F>是希望无限的季节。\u003Cbr\u002F>春天，\u003Cbr\u002F>是人们欢笑的季节，\u003Cbr\u002F>是孩子们嬉戏的季节，\u003Cbr\u002F>是恋人们相拥的季节，\u003Cbr\u002F>是人们追求梦想的季节。                                                                                                                                                                                                                                                                                                                                                                                                                                               |\n| 南极洲为啥没有北极熊?                                                                        | 南极洲没有北极熊，因为北极熊生活在北极地区，而南极洲位于南半球，气候和环境与北极地区有很大不同。南极洲的气候非常寒冷，常年被冰雪覆盖，而北极熊则生活在北极地区，那里有丰富的海洋生物和陆地哺乳动物。此外，南极洲的生态系统也与北极地区不同，没有北极熊所需的生存条件。                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |\n\n\u003C\u002Fdetails>\n\n\n## 📚 Dataset\n### 医疗数据集\n\n- 240万条中文医疗数据集(包括预训练、指令微调和奖励数据集)：[shibing624\u002Fmedical](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fmedical)\n- 22万条中文医疗对话数据集(华佗项目)：[shibing624\u002Fhuatuo_medical_qa_sharegpt](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fhuatuo_medical_qa_sharegpt) 【本项目支持格式】\n\n### 通用数据集\n\n#### Pretraining datasets(预训练数据集)\n- 16GB中英文无监督、平行语料[Linly-AI\u002FChinese-pretraining-dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FLinly-AI\u002FChinese-pretraining-dataset)\n- 524MB中文维基百科语料[wikipedia-cn-20230720-filtered](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fpleisto\u002Fwikipedia-cn-20230720-filtered)\n#### Supervised fine-tuning datasets(指令微调数据集)\n- 10万条多语言ShareGPT GPT4多轮对话数据集：[shibing624\u002Fsharegpt_gpt4](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Fsharegpt_gpt4) 【本项目支持格式】\n- 9万条英文ShareGPT多轮对话数集：[anon8231489123\u002FShareGPT_Vicuna_unfiltered](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fanon8231489123\u002FShareGPT_Vicuna_unfiltered) 【本项目支持格式】\n- 50万条中文ChatGPT指令Belle数据集：[BelleGroup\u002Ftrain_0.5M_CN](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_0.5M_CN)\n- 100万条中文ChatGPT指令Belle数据集：[BelleGroup\u002Ftrain_1M_CN](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Ftrain_1M_CN)\n- 5万条英文ChatGPT指令Alpaca数据集：[50k English Stanford Alpaca dataset](https:\u002F\u002Fgithub.com\u002Ftatsu-lab\u002Fstanford_alpaca#data-release)\n- 2万条中文ChatGPT指令Alpaca数据集：[shibing624\u002Falpaca-zh](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Falpaca-zh)\n- 69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条)：[Chinese-Vicuna\u002Fguanaco_belle_merge_v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FChinese-Vicuna\u002Fguanaco_belle_merge_v1.0)\n- 5万条英文ChatGPT多轮对话数据集：[RyokoAI\u002FShareGPT52K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FRyokoAI\u002FShareGPT52K)\n- 80万条中文ChatGPT多轮对话数据集：[BelleGroup\u002Fmultiturn_chat_0.8M](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FBelleGroup\u002Fmultiturn_chat_0.8M)\n- 116万条中文ChatGPT多轮对话数据集：[fnlp\u002Fmoss-002-sft-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ffnlp\u002Fmoss-002-sft-data)\n- 3.8万条中文ShareGPT多轮对话数据集：[FreedomIntelligence\u002FShareGPT-CN](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FFreedomIntelligence\u002FShareGPT-CN)\n- 130万条中文微调数据集（汇总）：[zhuangxialie\u002FLlama3-Chinese-Dataset](https:\u002F\u002Fmodelscope.cn\u002Fdatasets\u002Fzhuangxialie\u002FLlama3-Chinese-Dataset\u002FdataPeview) 【本项目支持格式】\n- 7千条中文角色扮演多轮对话数据集：[shibing624\u002Froleplay-zh-sharegpt-gpt4-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002Froleplay-zh-sharegpt-gpt4-data) 【本项目支持格式】\n\n#### Preference datasets(偏好数据集)\n- 2万条中英文偏好数据集：[shibing624\u002FDPO-En-Zh-20k-Preference](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fshibing624\u002FDPO-En-Zh-20k-Preference) 【本项目支持格式】\n- 原版的oasst1数据集：[OpenAssistant\u002Foasst1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenAssistant\u002Foasst1)\n- 2万条多语言oasst1的reward数据集：[tasksource\u002Foasst1_pairwise_rlhf_reward](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftasksource\u002Foasst1_pairwise_rlhf_reward)\n- 11万条英文hh-rlhf的reward数据集：[Dahoas\u002Ffull-hh-rlhf](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FDahoas\u002Ffull-hh-rlhf)\n- 9万条英文reward数据集(来自Anthropic's Helpful Harmless dataset)：[Dahoas\u002Fstatic-hh](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FDahoas\u002Fstatic-hh)\n- 7万条英文reward数据集（来源同上）：[Dahoas\u002Frm-static](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FDahoas\u002Frm-static)\n- 7万条繁体中文的reward数据集（翻译自rm-static）[liswei\u002Frm-static-m2m100-zh](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliswei\u002Frm-static-m2m100-zh)\n- 7万条英文Reward数据集：[yitingxie\u002Frlhf-reward-datasets](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyitingxie\u002Frlhf-reward-datasets)\n- 3千条中文知乎问答偏好数据集：[liyucheng\u002Fzhihu_rlhf_3k](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliyucheng\u002Fzhihu_rlhf_3k)\n\n\n## ☎️ Contact\n\n- Issue(建议)\n  ：[![GitHub issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fshibing624\u002FMedicalGPT.svg)](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fissues)\n- 邮件我：xuming: xuming624@qq.com\n- 微信我： 加我*微信号：xuming624, 备注：姓名-公司名-NLP* 进NLP交流群（加我拉你进群）。\n\n\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Fwechat.jpeg\" width=\"200\" \u002F>\n\n\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002Fdocs\u002Fwechat_group.jpg\" width=\"200\" \u002F>\n\n## ⚠️ LICENSE\n\n本项目仅可应用于研究目的，项目开发者不承担任何因使用本项目（包含但不限于数据、模型、代码等）导致的危害或损失。详细请参考[免责声明](https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT\u002Fblob\u002Fmain\u002FDISCLAIMER)。\n\nMedicalGPT项目代码的授权协议为 [The Apache License 2.0](\u002FLICENSE)，代码可免费用做商业用途，模型权重和数据只能用于研究目的。请在产品说明中附加MedicalGPT的链接和授权协议。\n\n\n## 😇 Citation\n\n如果你在研究中使用了MedicalGPT，请按如下格式引用：\n\n```latex\n@misc{MedicalGPT,\n  title={MedicalGPT: Training Medical GPT Model},\n  author={Ming Xu},\n  year={2023},\n  howpublished={\\url{https:\u002F\u002Fgithub.com\u002Fshibing624\u002FMedicalGPT}},\n}\n```\n\n## 😍 Contribute\n\n项目代码还很粗糙，如果大家对代码有所改进，欢迎提交回本项目，在提交之前，注意以下两点：\n\n- 在`tests`添加相应的单元测试\n- 使用`python -m pytest`来运行所有单元测试，确保所有单测都是通过的\n\n之后即可提交PR。\n\n## 💕 Acknowledgements\n\n- [Direct Preference Optimization:Your Language Model is Secretly a Reward Model](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.18290.pdf)\n- [tloen\u002Falpaca-lora](https:\u002F\u002Fgithub.com\u002Ftloen\u002Falpaca-lora\u002Fblob\u002Fmain\u002Ffinetune.py)\n- [ymcui\u002FChinese-LLaMA-Alpaca](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca)\n\nThanks for their great work!\n\n#### 关联项目推荐\n- [shibing624\u002Fagentica](https:\u002F\u002Fgithub.com\u002Fshibing624\u002Fagentica)：基于 LLM 构建 Agent 框架，支持多种 Agent 类型，包括 RAG、在线搜索、Code interpreter、Vibe Coding、Claude Code、Copilot Agent 等\n\n","MedicalGPT 是一个用于训练医疗领域大模型的项目，它基于ChatGPT的训练流程实现了包括增量预训练、有监督微调、RLHF（奖励建模与强化学习）、DPO（直接偏好优化）以及独立OPD（在线策略蒸馏）等技术。该项目使用Python语言开发，遵循Apache License 2.0许可协议。其核心功能在于提供了一套完整的医疗大模型训练方案，涵盖了从基础模型到高级调优的全过程。适合于需要构建或优化面向特定医疗应用场景的大规模语言模型的研究者和开发者使用，如智能诊断辅助系统、医学知识问答服务等。",2,"2026-06-11 03:36:22","high_star"]