
jieba
fxsjy
结巴中文分词
AI 简介
结巴中文分词(Jieba)是一个优秀的Python中文分词组件,旨在提供高效准确的中文文本分割功能。它支持四种主要分词模式:精确模式、全模式、搜索引擎模式以及基于PaddlePaddle深度学习框架的paddle模式,后者还支持词性标注。此外,Jieba具备处理繁体中文的能力,并允许用户自定义词典以满足特定需求。其算法基于前缀词典和动态规划技术来构建句子的有向无环图并找出最优解路径,同时采用HMM模型识别未登录词。此项目非常适合需要进行中文文本处理的应用场景,如自然语言处理任务中的信息检索、情感分析等。
Python
MIT License35k
Stars
6.7k
Forks
1.3k
Watchers
646
Issues
Star 增长
今日+1
近 7 天+16
近 30 天+77
综合评分67.7
默认分支master