imdict-chinese-analyzer
http://code.google.com/p/imdict-chinese-analyzer/
SmartChineseAnalyzer 是一个智能中文分词模块, 与 ChineseAnalyzer (切分每个汉字)和 CJKAnalyzer (组合每两个汉字)不同, 它能够利用概率对汉语句子进行最优切分, 并内嵌英文tokenizer,能有效处理中英文混合的文本内容。目前SmartChineseAnalyzer的
词典库只支持简体中文。
它的原理基于自然语言处理领域的隐马尔科夫模型(HMM), 利用大量语料库的训练来统计汉语词汇的词频和跳转概率,从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分。
三种分词模块的分词结果比较, 由此可以看出智能分词更符合句子的原本语义, 从而提高搜索的准确率。
语句: 我是中国人
1. SmartChineseAnalyzer: 我-是-中国-人
2. ChineseAnalyzer: 我-是-中-国-人
3. CJKAnalyzer: 我是-是中-中国-国人
分词词典的设置
因为智能分词需要词典来保存词汇的统计值,默认情况下,SmartChineseAnalyzer使用内置的词典库,当需要指定的词典库时,需要指定词典位置,如何指定词典位置请参考 org.apache.lucene.analysis.cn.smart.AnalyzerProfile
词库的下载地址为:http://code.google.com/p/imdict-chinese-analyzer/downloads/list 下载文件analysis-data.zip保存到本地,解压即可使用。
最简单的指定词典库的办法就是运行时加上参数-Danalysis.data.dir
如: java -Danalysis.data.dir=/path/to/analysis-data com.example.YourApplication
版本要求
SmartChineseAnalyzer的JVM要求java 1.4及以上版本;Lucene 要求2.4.0及以上版本,Lucene 2.3.X版应该也可以使用,但未经测试,有需要的用户可自行测试。
源文件和文本编码
除特定的二进制码文件外,SmartChineseAnalyzer的所有文本和Java源码都采用UTF-8编码,因此在读取文本和编译Java源码是请注意采用正确的方式,以避免产生乱码错误。
SmartChineseAnalyzer的授权
SmartChineseAnalyzer的算法和语料库词典来自于ictclas1.0项目(http://www.ictclas.org),其中词典已经著作权人www.ictclas.org允许,以apache license v2(APLv2)协议发布。在遵循APLv2的条件下,欢迎用户使用。在此感谢www.ictclas.org以及ictclas分词软件的工作人员的辛勤工作和无私奉献!
分享到:
相关推荐
这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上找到的一个词典,TXT格式的,拿出来分享一下。这是前一段时间我在研究中文分词时在网上...
中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词中文分词
lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮 lucene.NET 中文分词 高亮
百度以前用的中文分词词典,希望对大家有一点帮助
CSW中文分词组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行...
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析...
ik中文分词词库35万中文分词词库(含电商)
汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库...
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
基于C语言文本文件的中文分词程序,可实现基本功能,还有待完善
30万 中文分词词库.txt 42537条伪原创词库.txt 百度分词词库.txt 词库地址.txt 词库下载地址.txt
分词词库_中文分词词库最新整理(TXT格式)
最新中文分词工具jar包,使用方便,分词准确,中文分析的一个不错的包
中文分词词库整理.7z
基于HMM的中文分词代码,虽然基于字标注的中文分词借鉴了词性标注的思想,但是在实践中,多数paper中的方法似乎局限于最大熵模型和条件随机场的应用,所以我常常疑惑字标注中文分词方法为什么不采用别的模型和方法呢...
中文分词第三版@Excel大全,VBA技术实现的中文分词程序
PHP简易中文分词,免组件分词 $ca = new cls_analysis(); //把一段短文本进行拆分 $str = "把一段短文本进行拆分"; $ca->SetSource( $str, 'utf-8', 'utf-8'); $ca->StartAnalysis(); $okstr = $ca->...
微软亚洲研究院中文分词语料库,研究中文分词,研究中文分词
IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件。 IKAnalyzer继承Lucene的Analyzer抽象类,使用...
HMM隐马尔可夫模型用于中文分词HMM隐马尔可夫模型用于中文分词