WEB-DICT词库计划
欢迎大家支持晓阳童鞋的词库计划,建立一个庞大的中文词库
地址如下: http://webdict.info/
什么是WEB-DICT词库计划?
WEB-DICT词表计划目标是通过机器学习算法以及人工标注构建一个包含大量网络词汇的、无版权限制的中文词库,从而提高中文网络文本自然语言分析以及开源中文输入法的效果。
现在有很多词库,为什么还要创建新的词库?
虽然目前互联网上可以得到的词库很多,但是包含网络词汇的非常少,而且都是有版权的,反之没有版权或者免费使用的词库大多比较旧。
目前的词库是怎么得到的?
目前的词库首先是通过网络爬虫从Twitter中抓取中文推(约4G左右纯文本),然后使用Stanford word segmenter进行分词,统计词频。最后用CRF模型进行筛选,比较不确定的词语放到网络上进行人工标注,最后汇合生成词库。
怎样获得WEB-DICT词库?
可以从 GitHub中下载
WEB-DICT词库有版权吗?
WEB-DICT词库是Public Domain的,没有任何的版权限制。
一些判断标准
判断是否是一个词的最主要标准就是,拆开之后是否意思会发生改变,如果拆开意思不变则不是一个词语,比如“发微博”。 末尾带有“的”“地”“得”的很明显不是一个词语。
常用的短语,如果拆分之后不能表示原来的意义,也算作是一个词语,比如“混口饭吃”。
很明显由两个词语构成的,不是一个词语,比如“别到”、“扭出”等。
数字不是一个词语,比如“三二五”、“五千五”等。
人名、地名和机构名等命名实体是一个词语,比如“南京市”、“张小贱”等。
最近记录
[10-9 16:43] "社区店"不是一个词语
[10-9 16:43] "盗贼们"不是一个词语
[10-9 16:43] "冷笑篇"不是一个词语
[10-9 16:43] "撤得"不是一个词语
[10-9 16:43] "瑟吧"不是一个词语
[10-9 16:43] "等面"不确定
[10-9 16:43] "共生"是一个词语
[10-9 16:43] "爱太"不是一个词语
[10-9 16:43] "半天才"不是一个词语
[10-9 16:43] "券还"不是一个词语