[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-4294":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":9,"language":10,"languages":9,"totalLinesOfCode":9,"stars":11,"forks":12,"watchers":13,"openIssues":14,"contributorsCount":15,"subscribersCount":15,"size":15,"stars1d":15,"stars7d":15,"stars30d":15,"stars90d":15,"forks30d":15,"starsTrendScore":15,"compositeScore":16,"rankGlobal":9,"rankLanguage":9,"license":17,"archived":18,"fork":18,"defaultBranch":19,"hasWiki":20,"hasPages":20,"topics":21,"createdAt":9,"pushedAt":9,"updatedAt":26,"readmeContent":27,"aiSummary":28,"trendingCount":15,"starSnapshotCount":15,"syncStatus":29,"lastSyncTime":30,"discoverSource":31},4294,"ansj_seg","NLPchina\u002Fansj_seg","NLPchina","ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典",null,"Java",6529,2278,649,47,0,66,"Apache License 2.0",false,"master",true,[22,23,24,25],"ansj","chinese","java","nlp","2026-06-12 04:00:22","Ansj中文分词\n==================\n\n [![1.X Build Status](https:\u002F\u002Ftravis-ci.org\u002FNLPchina\u002Fansj_seg.svg?branch=master)](https:\u002F\u002Ftravis-ci.org\u002FNLPchina\u002Fansj_seg) [![Gitter](https:\u002F\u002Fbadges.gitter.im\u002FNLPchina\u002Fansj_seg.svg)](https:\u002F\u002Fgitter.im\u002FNLPchina\u002Fansj_seg?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge)\n\n\n#####  使用帮助\n* 开发文档：[3.x版本及之前](http:\u002F\u002Fnlpchina.github.io\u002Fansj_seg\u002F)，[5.x版本及之后](https:\u002F\u002Fgithub.com\u002FNLPchina\u002Fansj_seg\u002Fwiki)\n\n\n\n##### 摘要\n> 这是一个基于n-Gram+CRF+HMM的中文分词的java实现。\n\n> 分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上。\n\n> 目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。\n\n> 可以应用到自然语言处理等方面，适用于对分词效果要求高的各种项目。\n\n\n\n\n#####  maven\n\n````\n        \n        \u003Cdependency>\n            \u003CgroupId>org.ansj\u003C\u002FgroupId>\n            \u003CartifactId>ansj_seg\u003C\u002FartifactId>\n            \u003Cversion>5.1.1\u003C\u002Fversion>\n        \u003C\u002Fdependency>\n    \n````\n\n#####  调用demo\n\n如果你第一次下载只想测试测试效果可以调用这个简易接口\n\n\u003Cpre>\u003Ccode>\n String str = \"欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!\" ;\n System.out.println(ToAnalysis.parse(str));\n \n ﻿欢迎\u002Fv,使用\u002Fv,ansj\u002Fen,_,seg\u002Fen,,,(,ansj\u002Fen,中文\u002Fnz,分词\u002Fn,),在\u002Fp,这里\u002Fr,如果\u002Fc,你\u002Fr,遇到\u002Fv,什么\u002Fr,问题\u002Fn,都\u002Fd,可以\u002Fv,联系\u002Fv,我\u002Fr,.\u002Fm,我\u002Fr,一定\u002Fd,尽我所能\u002Fl,.\u002Fm,帮助\u002Fv,大家\u002Fr,.\u002Fm,ansj\u002Fen,_,seg\u002Fen,更快\u002Fd,,,更\u002Fd,准\u002Fa,,,更\u002Fd,自由\u002Fa,!\n\u003C\u002Fcode>\u003C\u002Fpre>\n\n\n#####  Join Us\n\n想了很久，不管有没有人帮忙吧。我写上来，如果你有兴趣，有热情可以联系我。\n\n* 补充文档，增加调用实例和说明\n* 增加一些规则性Recognition，举例[身份证号码识别](https:\u002F\u002Fgithub.com\u002FNLPchina\u002Fansj_seg\u002Fblob\u002Fmaster\u002Fsrc\u002Fmain\u002Fjava\u002Forg\u002Fansj\u002Frecognition\u002Fimpl\u002FIDCardRecognition.java)，目前未完成的有 `时间识别`，`IP地址识别`，`邮箱识别`，`网址识别`，`词性识别`等...\n* 提供更加优化的CRF模型。替换ansj的默认模型。\n* 补充测试用例，n多地方测试不完全。如果你有兴趣可以帮忙啦！\n* 重构人名识别模型。增加机构名识别等模型。\n* 增加句法文法分析\n* 实现lstm的分词方式\n* 拾遗补漏...\n\n","Ansj_seg是一个基于n-Gram+CRF+HMM的中文分词Java实现。该项目提供了包括中文分词、人名识别、词性标注及用户自定义词典等核心功能，其分词速度可达每秒约200万字，准确率超过96%。此外，还支持关键字提取与自动摘要等功能。适用于对文本处理精度和效率有较高要求的应用场景，如搜索引擎优化、内容分析系统开发以及自然语言处理相关的研究项目中。采用Apache License 2.0开源许可协议，便于集成到各种Java项目中。",2,"2026-06-11 02:59:29","top_language"]