THUOCL:清华大学开放中文词库

标签: | 发表时间:2018-02-17 18:58 | 作者:
出处:http://thuocl.thunlp.org
  • 词库简介

    THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等。THUOCL具有以下特点:

    1. 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用。

    2. 词库经过多轮人工筛选,保证词库收录的准确性。

    3. 开放更新,将不断更新现有词表,并推出更多类别词表。欢迎专业人士加入,协作建设开放词库,有意者请致信 [email protected]

    该词库可以用于中文自动分词,提升中文分词效果。建议搭配本组研制开发的 THULAC工具包使用,提升特定领域中文分词的效果。

    词库格式及词频统计语料库

    词库每一行由两部分组成,分别是词和DF值(存在此单词的文档个数),中间由Tab间隔。

    词频统计语料库:

    1. CSDN博客 时间:2014.07-2016.07 文档数:3785976
    2. 新浪新闻 时间:2008.01-2016.11 文档数:8421097
    3. 搜狗语料 文档数:729008561

    词库清单

    IT
    词表简介:本词表包含了大量IT类词汇。
    词条样例:文件备份、虚拟地址、C++编程、事务调度、强连通缩点。
    词条数量:16000条
    词频统计语料库:CSDN博客
    更新时间:2016-12-24
    贡献者:马云山、韩世依、张钰晖
    下载链接: 点此下载
    财经
    词表简介:本词表包含了大量财经类词汇。
    词条样例:年期、调整方案、全面收购、差价、萎缩。
    词条数量:3830条
    词频统计语料库:新浪新闻
    更新时间:2016-12-24
    贡献者:韩世依、张钰晖、马云山
    下载链接: 点此下载
    成语
    词表简介:本词表包含了大量成语词汇。
    词条样例:故作高深、有理有据、用之不竭、人微言轻、因地制宜、求贤若渴。
    词条数量:8519条
    词频统计语料库:新浪新闻
    更新时间:2016-12-24
    贡献者:韩世依、张钰晖、马云山
    下载链接: 点此下载
    地名
    词表简介:本词表包含了大量地名词汇。
    词条样例:浙江、上海、澳大利亚、珠穆朗玛峰、湘潭县、大甲镇。
    词条数量:44805条
    词频统计语料库:搜狗语料
    更新时间:2017-06-01
    贡献者:韩世依、张钰晖、马云山
    下载链接: 点此下载
    历史名人
    词表简介:本词表包含了大量历史名人类词汇。
    词条样例:陆游、荀彧、诸葛亮、孙权、张伯伦。
    词条数量:13658条
    词频统计语料库:新浪新闻
    更新时间:2016-12-24
    贡献者:韩世依、张钰晖、马云山
    下载链接: 点此下载
    诗词
    词表简介:本词表包含了大量诗词名句。
    词条样例:更上一层楼、犹抱琵琶半遮面、路漫漫其修远兮、任尔东西南北风。
    词条数量:13703条
    词频统计语料库:新浪新闻
    更新时间:2017-01-20
    贡献者:张钰晖、韩世依、马云山
    下载链接: 点此下载
    医学
    词表简介:本词表包含了大量医学类词汇。
    词条样例:患者、充血、皮疹、冬虫夏草。
    词条数量:18749条
    词频统计语料库:新浪新闻
    更新时间:2017-01-20
    贡献者:张钰晖、韩世依、马云山
    下载链接: 点此下载
    饮食
    词库简介:本词库包含了大部分饮食类词汇。
    词条样例:土豆、火锅、意大利面、果佳、猴头菇。
    词条数量:8974条
    词频统计语料库:搜狗语料
    更新时间:2017-04-20
    贡献者:王盟源、吴佼玉、黄伟杰,林永天
    下载链接: 点此下载
    法律
    词库简介:本词库包含了大部分法律类词汇。
    词条样例:版权、有关部门、有限责任公司、土地审裁处法官、日本庄园制度。
    词条数量:9896条
    词频统计语料库:搜狗语料
    更新时间:2017-04-28
    贡献者:王盟源、吴佼玉、黄伟杰,林永天
    下载链接: 点此下载
    汽车
    词库简介:本词库包含了大部分汽车类词汇。
    词条样例:轿车、车展、东风本田、前挡风玻璃、四川丰田。
    词条数量:1752条
    词频统计语料库:搜狗语料
    更新时间:2017-05-15
    贡献者:王盟源、吴佼玉、黄伟杰,林永天
    下载链接: 点此下载
    动物
    词库简介:本词库包含了大部分动物类词汇。
    词条样例:信鸽、梅花鹿、街鸽、四方藤、斑尾林鸽。
    词条数量:17287条
    词频统计语料库:搜狗语料
    更新时间:2017-06-01
    贡献者:王盟源、吴佼玉、黄伟杰,林永天
    下载链接: 点此下载

相关 [thuocl 清华大学 开放] 推荐:

THUOCL:清华大学开放中文词库

- -
THUOCL(THU Open Chinese Lexicon)是由清华大学自然语言处理与社会人文计算实验室整理推出的一套高质量的中文词库,词表来自主流网站的社会标签、搜索热词、输入法词库等. 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用. 词库经过多轮人工筛选,保证词库收录的准确性.

清华大学保安通过“蹭课”自学考上大学

- Aim - 网易社会新闻
核心提示:贾作胜高中毕业后,由于家庭经济等原因,未能继续就读,被安排到清华大学图书馆做当一名保安. 在当保安员期间,贾作胜利用业余时间学习,到教室旁听各种课程和名家讲座,今年他通过自考考上山东师大. 贾作胜称自己下一个目标考上北京名校的研究生. 本报讯 近日,驻清华大学保安员贾作胜收拾好行李,踌躇满志地去山东师范大学报到.

[水木特快] 清华大学各省人口录取率排名 (转载)

- Zfare - 水木社区 今日十大热门话题
发信人: offset (飘移), 信区: NewExpress. 标 题: 清华大学各省人口录取率排名 (转载). 发信站: 水木社区 (Mon Jul 18 23:50:55 2011), 站内. 【 以下文字转载自 Reader 讨论区 】. 省份 09年人口 09年招生 百万人口录取率.

清华大学开源了一项神器,已经在GitHub爆了

- - 掘金后端本月最热
最近,清华大学在GitHub开源了一项神器叫万词王(Want Wrong),号称是首个支持中文及跨语言查询的开源在线反向词典. 普通的词典告诉你某个词语的定义,而反向词典恰好相反,可以告诉你哪些词语符合你输入描述的意思. 下图为万词王在线反向词典的页面截图,其中演示了反向查词的一个示例,输入“山非常高”,系统将返回一系列模型认为表达“山非常高”意思的词语,例如“高峻”、“巍峨”等.

清华大学三位学生团队VisionHacker推出第一款移动体感游戏Crows Coming(大战乌鸦)

- Andy - 36氪
今天由清华大学三位学生组成的一个团队VisionHacker推出了他们的第一款移动体感游戏Crows Coming. 用户可以通过移动身体的方式来操作这款iOS游戏. 游戏的玩法很简单:控制田地里的稻草人让它驱赶偷南瓜的乌鸦. 不过与传统用手操作的游戏不同,你必须通过左右移动大脑来控制稻草人的动作,也就是说这是一款体感游戏.

Google+开放注册

- Adam - Solidot
Google社交服务Google+从封闭式邀请注册进入到免邀请开放测试,与此同时,Google+也增添了一些新特性: Hangouts视频聊天功能整合到Google+的Android客户端中,视频聊天支持广播模式,并向开发者提供了可整合进网站或Web应用中的Hangouts API;引入了用户期待已久的Google+ 搜索功能,可搜索用户、帖子和照片等内容.

开放硬件1.0

- 拉登 - Solidot
Shawn the R0ck 写道 "开放源代码硬件的原则和定义已经有了1.0的版本. 开放硬件是指一种可见的人工产物---比如机器,电子设备或者其他的物理东东,总之,设计者开发了所有的设计图纸让所有人都可以修改,重新发布和使用,这种开放和自由的哲学直接受自由软件的影响. 这份定义有意帮助开放硬件的相关许可证的提出和修订.

开放的华为

- - 《商业价值》杂志
企业业务是华为进入“大市场”的战略选择,在这个与通信运营商市场截然不同的新环境里,华为也决定告别以往单打独斗的方式,转而与合作伙伴共进退. “IT是整个华为公司的战略,也是华为公司ICT转型中最重要的一个环节. ”在2013年9月的华为云计算大会上,华为IT产品线总裁郑叶来说. 华为IT产品线涵盖存储、云计算及数据中心3大产品,为企业业务及运营商两大业务板块提供解决方案.

MIT开放获取论文

- Hafid - Solidot
2009年3月,MIT教职工无记名投票通过了一项决议,支持学术论文的开放获取. 今天MIT官网总结过去一年来的努力,称MIT开放获取论文库DSpace@MIT已经汇集了超过1900篇学术论文,自2009年10月以来下载论文超过63,000篇. 开放获取运动致力于挑战传统的学术出版模式——也就是作者将论文版权交给出版商,出版商再向学校收费.

开放是新的封闭

- Wakey - Solidot
Android、Symbian、LiMo、Qt、WebKit.....等都是开源项目,但是它们到底有多开放. Visionmobile的研究主管Andreas Constantinou解释了开源许可证和管理模式之间的差异,指出开源项目的管理模式在评估真正的开放性时被忽视误解了. 开源许可证如GPL,LGPL,APL,EPL,MPL,BSD和MIT——规定了四大自由:获得源代码,修改、发行和捐赠代码.