jieba4ahk——一个基于字典的中文分词系统

作者:MonoEven

参考:jieba-analysis

效果

jieba4ahk目前仅实现了基于字典的中文分词,对于未登录字典的词也会基于字典结构分析,目前来看效果不错。但由于技术和效率限制,词性标注以及关键词提取暂未实现,待后期更新。

代码示例

#Include <jieba\jieba>

segmenter := JiebaSegmenter()
s := a_tickcount
sentences :=["浙江传媒,职业技术,学校"]
for sentence in sentences
    ret := segmenter.process(sentence, SegMode.SEARCH, onlyResults := true, punctuationFlag := false)
msgbox a_tickcount - s

在使用前需要新建JiebaSegmenter类实例,使用process进行分词,其中第一个参数为分词对象,为字符串;第二参数为分词选项,有INDEX和SEARCH两种;第三个参数为true表示仅返回结果,不包含结果的起始和终止位置,默认为false;第四个为是否包含中文标点,默认为true即包含中文标点,注意该选项会影响分词结果

结果返回分为两种:

; ArrayList<SegToken>
[[浙江, 0, 2],[传媒, 2, 4],[,, 4, 5],[职业, 5, 7],[技术, 7, 9],[,, 9, 10],[学校, 10, 12]]

; ArrayList<String>
[浙江,传媒,职业,技术学校]

具体效果

加载默认字典(约5m)大约耗时15秒;加载后进行分词,低于一百字均可以在200ms内完成,若如实例的短单句则基本耗时在20ms左右。

下载地址

jieba4ahk

提取码:mono复制
解压码:无
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA捐赠
共{{data.count}}人
人已捐赠
其他函数

toml4ahk——纯ahk实现toml解析

2023-1-13 19:18:32

其他教程案例

GUI编程中的v标签、g标签示例

2023-1-15 18:51:05

3 条回复 A文章作者 M管理员
  1. hexuren

    ?

  2. hexuren
    11010010给您捐赠了¥5
  3. hexuren

    我这里用时19秒,这个距离实际应用到输入法的输入拆分可能还不行

个人中心
购物车
优惠劵
有新私信 私信列表
搜索