[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-10738":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":14,"openIssues":15,"contributorsCount":16,"subscribersCount":16,"size":16,"stars1d":16,"stars7d":16,"stars30d":17,"stars90d":16,"forks30d":16,"starsTrendScore":16,"compositeScore":18,"rankGlobal":10,"rankLanguage":10,"license":10,"archived":19,"fork":19,"defaultBranch":20,"hasWiki":21,"hasPages":19,"topics":22,"createdAt":10,"pushedAt":10,"updatedAt":28,"readmeContent":29,"aiSummary":30,"trendingCount":16,"starSnapshotCount":16,"syncStatus":17,"lastSyncTime":31,"discoverSource":32},10738,"Dialog_Corpus","candlewill\u002FDialog_Corpus","candlewill","用于训练中英文对话系统的语料库 Datasets for Training Chatbot System","",null,"Python",2052,488,83,1,0,2,57.27,false,"master",true,[23,24,25,26,27],"chatbot","corpus","dataset","dialog","system","2026-06-12 04:00:52","# 用于对话系统的中英文语料\nDatasets for Training Chatbot System\n\u003Cbr>本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料\n\n### 公开语料\n搜集到的一些数据集如下，点击链接可以进入原始地址\n\n1. [dgk_shooter_min.conv.zip](https:\u002F\u002Fgithub.com\u002Frustch3n\u002Fdgk_lost_conv)\n\u003Cbr>中文电影对白语料，噪音比较大，许多对白问答关系没有对应好\n\n2. [The NUS SMS Corpus](https:\u002F\u002Fgithub.com\u002Fkite1988\u002Fnus-sms-corpus)\n\u003Cbr>包含中文和英文短信息语料，据说是世界最大公开的短消息语料\n\n3. [ChatterBot中文基本聊天语料](https:\u002F\u002Fgithub.com\u002Fgunthercox\u002Fchatterbot-corpus\u002Ftree\u002Fmaster\u002Fchatterbot_corpus\u002Fdata)\n\u003Cbr>ChatterBot聊天引擎提供的一点基本中文聊天语料，量很少，但质量比较高\n\n4. [Datasets for Natural Language Processing](https:\u002F\u002Fgithub.com\u002Fkarthikncode\u002Fnlp-datasets)\n\u003Cbr>这是他人收集的自然语言处理相关数据集，主要包含Question Answering，Dialogue Systems， Goal-Oriented Dialogue Systems三部分，都是英文文本。可以使用机器翻译为中文，供中文对话使用\n\n5. [小黄鸡](https:\u002F\u002Fgithub.com\u002Frustch3n\u002Fdgk_lost_conv\u002Ftree\u002Fmaster\u002Fresults)\n\u003Cbr>据传这就是小黄鸡的语料：xiaohuangji50w_fenciA.conv.zip （已分词） 和 xiaohuangji50w_nofenci.conv.zip （未分词）\n\n6. [白鹭时代中文问答语料](https:\u002F\u002Fgithub.com\u002FSamurais\u002Fegret-wenda-corpus)\n\u003Cbr>由白鹭时代官方论坛问答板块10,000+ 问题中，选择被标注了“最佳答案”的纪录汇总而成。人工review raw data，给每一个问题，一个可以接受的答案。目前，语料库只包含2907个问答。([备份](.\u002Fegret-wenda-corpus.zip))\n\n7. [Chat corpus repository](https:\u002F\u002Fgithub.com\u002FMarsan-Ma\u002Fchat_corpus)\n\u003Cbr>chat corpus collection from various open sources\n\u003Cbr>包括：开放字幕、英文电影字幕、中文歌词、英文推文\n\n8. [保险行业QA语料库](https:\u002F\u002Fgithub.com\u002FSamurais\u002Finsuranceqa-corpus-zh)\n\u003Cbr>通过翻译 [insuranceQA](https:\u002F\u002Fgithub.com\u002Fshuzi\u002FinsuranceQA)产生的数据集。train_data含有问题12,889条，数据 141779条，正例：负例 = 1:10； test_data含有问题2,000条，数据 22000条，正例：负例 = 1:10；valid_data含有问题2,000条，数据 22000条，正例：负例 = 1:10\n\n### 未公开语料\n\n这部分语料，网络上有所流传，但由于我们能力所限，或者原作者并未公开，暂时未获取。只是列举出来，供以后继续搜寻。\n\n1. 微软小冰\n\n### 版权\n\n所有原始语料归原作者所有\n\n### 联系\n\n[何云超](yunchaohe@gmail.com)\n\u003Cbr>weibo: [@Yunchao_He](http:\u002F\u002Fweibo.com\u002Fheyunchao)\n","该项目提供了一系列用于训练中英文对话系统的语料库。它汇集了多种来源的数据集，包括中文电影对白、短信息语料、ChatterBot聊天引擎提供的高质量中文聊天数据等，以及一些英文文本如开放字幕和推文，旨在丰富聊天机器人的训练材料。这些资源特别适合那些希望构建或改进聊天机器人系统的研究者与开发者使用。通过利用这些多样化的语料，可以有效地提升对话系统的自然度和实用性。","2026-06-11 03:29:58","top_topic"]