小黄鸡对话语料，一共三份，未处理、单个词切分、结巴分词处理

机器学习-金融客服相关场景下的50组中文普通话对话文本语料-机器学习数据处理必看-数据集.rar

立即下载

分词以及未分词的小黄鸡语料库+CDNOW数据集

分词和未分词的小黄鸡语料库还有CDNOW数据集；；；；；

立即下载

小黄鸡语料（分词+未分词）

立即下载

康奈尔电影对话语料库

康奈尔电影对话语料库，英文。

立即下载

【深度学习语料库】常见金融领域词汇词典

金融方面的常见词汇形成的词典/语料库，jieba.()即可使用

立即下载

基于后缀数组分词不需要词典和语料库

基于后缀数组的分词，是不需要词典和语料库。通过后缀数组和散列表获得汉字结合模式。

立即下载

机器人多轮对话的闲聊语料

使两个机器人的相互对话生成语料，文本大小为1.03m，用于闲聊机器人的训练数据，使用 # 作为两个多轮对话之间的分隔符

立即下载

机器学习-50组英文医疗领域客服场景对话文本语料-机器学习数据处理必看-数据集.rar

立即下载

用于训练中文（英文）聊天机器人的对话语料-小黄鸡的语料

用于对话系统的中英文语料 for 本项目收集了一些从网络中找到的用于训练中文（英文）聊天机器人的对话语料据传这就是小黄鸡的语料

立即下载

搜狗语料库（已分词）

搜狗语料库，自己用结巴分词分好的。（为什么摘要必须大于50个字）

立即下载

小黄鸡语料库（分词以及未分词）

小黄鸡语料库，包含分词以及未分词，可以用于自然语言处理。

立即下载

微软亚洲研究院中文分词语料库

微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词

立即下载

中文聊天对话语料

# 说明该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作该库搜集了包含- - 豆瓣多轮- PTT八卦语料- 青云语料- 电视剧对白语料- 贴吧论坛回帖语料- 微博语料- 小黄鸡语料共8个公开闲聊常用语料和短信，白鹭时代问答等语料。并对8个常见语料的数据进行了统一化规整和处理，达到直接可以粗略使用的目的。**使用该项目，即可对所有的聊天语料进行一次性的处理和统一下载，不需要到处自己去搜集下载和分别处理各种不同的格式。*# 环境# 处理过程将各个来源的语料按照其原格式进行提取，提取后进行繁体字转换，然后统一变成一轮一轮的对话。# 使用方法将解压后的文件夹放到当前目录下目录结构为```-- -- -- ---- -1k---- --100w---- ....-- main.py-- ...```执行命令即可``` main.py```或者``` main.py```# 生成结果每个来源的语料分别生成一个独立的*.tsv文件，都放在新生成的文件夹下。生成结果格式为 tsv格式，每行是一个样本，先是query，再是```query \t ```# 结果的使用这个就根据每个人不同的情况自主使用即可个人对于聊天机器人方向实践也不是很多，以下一篇之前写的知乎专栏供参考**《从产品完整性的角度浅谈》**文章粗略讲解了如下一些方面，介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。1. 自身人格的设置1. 产品上线需要考虑的敏感词处理1. 文本检索模型的使用1. 文本生成模型的使用1. 回答打分机制1. 万能回答的使用策略1. 多媒体消息的处理1. 产品模型部署的问题# 版权说明本项目为非商业项目，为纯搜集和汇总资料，如有侵权，请在issue下留言。

立即下载

北京大学28288句分词语料

非常权威的北京大学分词语料可用于大规模的中文文本分词

立即下载

小黄鸡-未分词-语料库

来源于人人网小黄鸡语料库，经过一部分处理后，但是并没有分词，可以用于对于中文的常用对话系统训练，也可以进行普通的中文自然语言处理。

立即下载

汉语分词语料库

CTB6汉语分词语料库，可以拿来做分词任务。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

立即下载

小黄鸡语料库.conv

立即下载

对话

小黄鸡对话语料，一共三份，未处理、单个词切分、结巴分词处理

相关推荐：

评论（0）