作者:MonoEven
效果
jieba4ahk目前仅实现了基于字典的中文分词,对于未登录字典的词也会基于字典结构分析,目前来看效果不错。但由于技术和效率限制,词性标注以及关键词提取暂未实现,待后期更新。
代码示例
#Include <jieba\jieba>
segmenter := JiebaSegmenter()
s := a_tickcount
sentences :=["浙江传媒,职业技术,学校"]
for sentence in sentences
ret := segmenter.process(sentence, SegMode.SEARCH, onlyResults := true, punctuationFlag := false)
msgbox a_tickcount - s
在使用前需要新建JiebaSegmenter类实例,使用process进行分词,其中第一个参数为分词对象,为字符串;第二参数为分词选项,有INDEX和SEARCH两种;第三个参数为true表示仅返回结果,不包含结果的起始和终止位置,默认为false;第四个为是否包含中文标点,默认为true即包含中文标点,注意该选项会影响分词结果。
结果返回分为两种:
; ArrayList<SegToken>
[[浙江, 0, 2],[传媒, 2, 4],[,, 4, 5],[职业, 5, 7],[技术, 7, 9],[,, 9, 10],[学校, 10, 12]]
; ArrayList<String>
[浙江,传媒,职业,技术学校]
具体效果
加载默认字典(约5m)大约耗时15秒;加载后进行分词,低于一百字均可以在200ms内完成,若如实例的短单句则基本耗时在20ms左右。
下载地址
jieba4ahk
mono
复制
?
我这里用时19秒,这个距离实际应用到输入法的输入拆分可能还不行