自然语言处理之词性标注集

标签: 程序开发 自然语言处理 | 发表时间:2016-10-29 15:52 | 作者:标点符
出处:http://www.biaodianfu.com

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为 分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:

  • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
  • 虚词:副词、介词、连词、助词、拟声词、叹词。

这篇文章梳理的不是如何进行词性标注,而是介绍一些常用的词性标注集。

《PFR人民日报标注语料库》词性编码表

PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

代码 名称 举例
a 形容词 最/d 大/a 的/u
ad 副形词 一定/d 能够/v 顺利/ad 实现/v 。/w
ag 形语素 喜/v 煞/ag 人/n
an 名形词 人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/w
b 区别词 副/b 书记/n 王/nr 思齐/nr
c 连词 全军/n 和/c 武警/n 先进/a 典型/n 代表/n
d 副词 两侧/f 台柱/n 上/ 分别/d 雄踞/v 着/u
dg 副语素 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 节目/n 。/w
e 叹词 嗬/e !/w
f 方位词 从/p 一/m 大/a 堆/q 档案/n 中/f 发现/v 了/u
g 语素 例如dg 或ag
h 前接成分 目前/t 各种/r 非/h 合作制/n 的/u 农产品/n
i 成语 提高/v 农民/n 讨价还价/i 的/u 能力/n 。/w
j 简称略语 民主/ad 选举/v 村委会/j 的/u 工作/vn
k 后接成分 权责/n 明确/a 的/u 逐级/d 授权/v 制/k
l 习用语 是/v 建立/v 社会主义/n 市场经济/n 体制/n 的/u 重要/a 组成部分/l 。/w
m 数词 科学技术/n 是/v 第一/m 生产力/n
n 名词 希望/v 双方/n 在/p 市政/n 规划/vn
ng 名语素 就此/d 分析/v 时/Ng 认为/v
nr 人名 建设部/nt 部长/n 侯/nr 捷/nr
ns 地名 北京/ns 经济/n 运行/vn 态势/n 喜人/a
nt 机构团体 [冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n]nt
nx 字母专名 ATM/nx 交换机/n
nz 其他专名 德士古/nz 公司/n
o 拟声词 汩汩/o 地/u 流/v 出来/v
p 介词 往/p 基层/n 跑/v 。/w
q 量词 不止/v 一/m 次/q 地/u 听到/v ,/w
r 代词 有些/r 部门/n
s 处所词 移居/v 海外/s 。/w
t 时间词 当前/t 经济/n 社会/n 情况/n
tg 时语素 秋/Tg 冬/tg 连/d 旱/a
u 助词 工作/vn 的/u 政策/n
ud 结构助词 有/v 心/n 栽/v 得/ud 梧桐树/n
ug 时态助词 你/r 想/v 过/ug 没有/v
uj 结构助词的 迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n
ul 时态助词了 完成/v 了/ ul
uv 结构助词地 满怀信心/l 地/uv 开创/v 新/a 的/u 业绩/n
uz 时态助词着 眼看/v 着/uz
v 动词 举行/v 老/a 干部/n 迎春/vn 团拜会/n
vd 副动词 强调/vd 指出/v
vg 动语素 做好/v 尊/vg 干/j 爱/v 兵/n 工作/vn
vn 名动词 股份制/n 这种/r 企业/n 组织/vn 形式/n ,/w
w 标点符号 生产/v 的/u 5G/nx 、/w 8G/nx 型/k 燃气/n 热水器/n
x 非语素字
y 语气词 已经/d 30/m 多/m 年/q 了/y 。/w
z 状态词 势头/n 依然/z 强劲/a ;/w

《现代汉语语料库加工规范——词语切分与词性标注》词性标记

代码 代码名称 帮助记忆的诠释 例子 及 注解
Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 绿色/n  似/d  锦/Ag ,
a 形容词 取英语形容词adjective的第1个字母 [重要/a  步伐/n]NP  ,

美丽/a  ,

看似/v  抽象/a  ,

ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。 [积极/ad  谋求/v]V-ZZ  ,

幻象/n  易/ad  逝/Vg  ,

an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 [外交/n  和/c  安全/an]NP-BL  ,
Bg 区别语素 区别词性语素。区别词代码为b,语素代码g前面置以B。 赤/Ag  橙/Bg  黄/a  绿/a  青/a  蓝/a  紫/a  ,
b 区别词 取汉字“别”的声母。 女/b 司机/n,  金/b 手镯/n,  慢性/b 胃炎/n, 古/b 钱币/n,                 副/b 主任/n,  总/b 公司/n

单音节区别词和单音节名词或名语素组合,作为一个词,并标以名词词性n。

雄鸡/n, 雌象/n, 女魔/n, 古币/n

少数“单音节区别词+双音节词”的结构作为一个词。

总书记/n ,

c 连词 取英语连词conjunction的第1个字母。 合作/vn  与/c  伙伴/n
Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。 了解/v  甚/Dg  深/a  ,

煞/Dg  是/v  喜人/a  ,

d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。 进一步/d  发展/v  ,
e 叹词 取英语叹词exclamation的第1个字母。 啊/e  ,/w  那/r  金灿灿/z  的/u  麦穗/n  ,
f 方位词 取汉字“方”。 军人/n  的/u  眼睛/n  里/f  不/d  是/v  没有/v  风景/n  ,
h 前接成分 取英语head的第1个字母。 许多/m  非/h  主角/n  人物/n  ,

办事处/n  的/u  “/w  准/h  政府/n  ”/w  功能/n  不断/d  加强/v  ,

i 成语 取英语成语idiom的第1个字母。 一言一行/i  ,

义无反顾/i  ,

j 简称略语 取汉字“简”的声母。 [德/j  外长/n]NP  ,

文教/j  ,

k 后接成分 后接成分。 少年儿童/l  朋友/n  们/k  ,

身体/n  健康/a  者/k  ,

l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。 少年儿童/l  朋友/n  们/k  ,

落到实处/l  ,

Mg 数语素 数词性语素。数词代码为m,语素代码g前面置以M。 甲/Mg  减下/v  的/u  人/n  让/v  乙/Mg  背上/v  ,

凡/d  “/w  寅/Mg  年/n  ”/w  中/f  出生/v  的/u  人/n  生肖/n  都/d  属/v  虎/n  ,

m 数词 取英语numeral的第3个字母,n,u已有他用。 1.数量词组应切分为数词和量词。       三/m 个/q,    10/m  公斤/q,    一/m  盒/q  点心/n  ,

但少数数量词已是词典的登录单位,则不再切分。

一个/m  ,   一些/m  ,

2. 基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为 m 。

一百二十三/m,20万/m,  123.54/m,  一个/m,   第一/m, 第三十五/m,   20%/m,  三分之二/m, 千分之三十/m,  几十/m 人/n, 十几万/m 元/q,  第一百零一/m 个/q  ,

3. 约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开。

约/d 一百/m 多/m 万/m,仅/d 一百/m 个/q, 四十/m 来/m 个/q,二十/m 余/m 只/q, 十几/m 个/q,三十/m 左右/m  ,

两个数词相连的及“成百”、“上千”等则不予切分。

五六/m 年/q, 七八/m 天/q,十七八/m  岁/q,  成百/m 学生/n,上千/m  人/n,

4.表序关系的“数+名”结构,应予切分。

二/m  连/n , 三/m  部/n  ,

Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。 出/v 过/u 两/m 天/q 差/Ng,

理/v 了/u 一/m 次/q 发/Ng,

 

n 名词 取英语名词noun的第1个字母。 (参见 动词–v)

岗位/n  ,  城市/n  ,  机会/n  ,

她/r  是/v  责任/n  编辑/n  ,
( 编辑/v  科技/n  文献/n )

 

 

nr 人名 名词代码n和“人(ren)”的声母并在一起。 1. 汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。

张/nr 仁伟/nr,  欧阳/nr 修/nr,  阮/nr 志雄/nr,  朴/nr 贞爱/nr

汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓上加上丈夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr  方/nr  安生/nr;唐姜氏,切分、标注为:唐/nr  姜氏/nr。

2. 姓名后的职务、职称或称呼要分开。

江/nr 主席/n,  小平/nr 同志/n,   江/nr 总书记/n,张/nr 教授/n,   王/nr 部长/n,     陈/nr 老总/n,               李/nr 大娘/n,   刘/nr 阿姨/n,    龙/nr 姑姑/n

3. 对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。

老张/nr, 大李/nr, 小郝/nr,   郭老/nr,  陈总/nr

4. 明显带排行的亲属称谓要切分开,分不清楚的则不切开。

三/m 哥/n,   大婶/n,    大/a 女儿/n,  大哥/n,  小弟/n,   老爸/n

5. 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。

鲁迅/nr,  茅盾/nr,  巴金/nr, 三毛/nr,  琼瑶/nr,  白桦/nr

6. 外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。

克林顿/nr,  叶利钦/nr, 才旦卓玛/nr, 小林多喜二/nr, 北研二/nr,

华盛顿/nr,  爱因斯坦/nr

有些西方人的姓名中有小圆点,也不分开。

卡尔·马克思/nr

 

ns 地名 名词代码n和处所词代码s并在一起。 (参见2。短语标记说明–NS)

安徽/ns,深圳/ns,杭州/ns,拉萨/ns,哈尔滨/ns,  呼和浩特/ns,          乌鲁木齐/ns,长江/ns,黄海/ns,太平洋/ns, 泰山/ns, 华山/ns,亚洲/ns,    海南岛/ns,太湖/ns,白洋淀/ns,  俄罗斯/ns,哈萨克斯坦/ns,彼得堡/ns,   伏尔加格勒/ns

 

1. 国名不论长短,作为一个切分单位。

中国/ns, 中华人民共和国/ns, 日本国/ns,  美利坚合众国/ns, 美国/ns

2. 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。

四川省/ns, 天津市/ns,景德镇/ns沙市市/ns, 牡丹江市/ns,正定县/ns,海淀区/ns,  通州区/ns,东升乡/ns,  双桥镇/ns  南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns, 大阪府/ns,北海道/ns, 长野县/ns,开封府/ns,宣城县/ns

3. 地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将地名同行政区划名称用方括号括起来,并标以短语NS。

[芜湖/ns 专区/n] NS,

[宣城/ns 地区/n]ns,

[内蒙古/ns 自治区/n]NS,

[深圳/ns 特区/n]NS,

[厦门/ns 经济/n 特区/n]NS,

[香港/ns 特别/a  行政区/n]NS,

[香港/ns 特区/n]NS,

[华盛顿/ns  特区/n]NS,

4. 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分。

鸭绿江/ns,亚马逊河/ns, 喜马拉雅山/ns, 珠穆朗玛峰/ns,地中海/ns,大西洋/ns,洞庭湖/ns, 塞普路斯岛/ns

5. 地名后接的表示地形地貌的普通名词若有两个以上汉字,则应切开。然后将地名同该普通名词标成短语NS。

[台湾/ns 海峡/n]NS,[华北/ns 平原/n]NS,[帕米尔/ns 高原/n]NS,           [南沙/ns 群岛/n]NS,[京东/ns 大/a 峡谷/n]NS  [横断/b 山脉/n]NS

6.地名后有表示自然区划的一个字的普通名词,如“ 街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分。

中关村/ns,长安街/ns,学院路/ns,  景德镇/ns, 吴家堡/ns, 庞各庄/ns,  三元里/ns,彼得堡/ns, 北菜市巷/ns,

7.地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。然后将地名同自然区划名词标成短语NS。

[米市/ns 大街/n]NS, [蒋家/nz 胡同/n]NS  , [陶然亭/ns 公园/n]NS  ,

8. 大小地名相连时的标注方式为:

北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]NS [蒋家/nz 胡同/n]NS 24/m 号/q  ,

nt 机构团体 “团”的声母为t,名词代码n和t并在一起。 (参见2。短语标记说明–NT)

联合国/nt,中共中央/nt,国务院/nt,  北京大学/nt

1.大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,再组合,标注为短语NT。

[中国/ns 计算机/n 学会/n]NT,

[香港/ns 钟表业/n 总会/n]NT,

[烟台/ns 大学/n]NT,

[香港/ns  理工大学/n]NT,

[华东/ns  理工大学/n]NT,

[合肥/ns 师范/n 学院/n]NT,

[北京/ns 图书馆/n]NT,

[富士通/nz 株式会社/n]NT,

[香山/ns 植物园/n]NT,

[安娜/nz 美容院/n]NT,

[上海/ns 手表/n 厂/n]NT,

[永和/nz 烧饼铺/n]NT,

[北京/ns 国安/nz 队/n]NT,

2. 对于在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名,也标为nt或NT。

联合国/nt,国务院/nt,外交部/nt,  财政部/nt,教育部/nt, 国防部/nt,

[世界/n 贸易/n 组织/n]NT,

[国家/n 教育/vn 委员会/n]NT,

[信息/n 产业/n 部/n]NT,

[全国/n 信息/n 技术/n 标准化/vn 委员会/n]NT,

[全国/n 总/b 工会/n]NT,

[全国/n 人民/n 代表/n 大会/n]NT,

美国的“国务院”,其他国家的“外交部、财政部、教育部”,必须在其所属国的国名之后出现时,才联合标注为NT。

[美国/ns 国务院/n]NT,

[法国/ns 外交部/n]NT,

[美/j 国会/n]NT,

日本有些政府机构名称很特别,无论是否出现在“日本”国名之后都标为nt。

[日本/ns 外务省/nt]NT,

[日/j 通产省/nt]NT

通产省/nt

3. 前后相连有上下位关系的团体机构组织名称的处理方式如下:

[联合国/nt  教科文/j  组织/n]NT, [中国/ns  银行/n  北京/ns  分行/n]NT,

[河北省/ns  正定县/ns  西平乐乡/ns  南化村/ns  党支部/n]NT,

当下位名称含有专名(如“北京/ns 分行/n”、“南化村/ns 党支部/n”、“昌平/ns 分校/n”)时,也可脱离前面的上位名称单独标注为NT。

[中国/ns 银行/n]NT  [北京/ns 分行/n]NT,

北京大学/nt  [昌平/ns  分校/n]NT,4. 团体、机构、组织名称中用圆括号加注简称时:

[宝山/ns  钢铁/n (/w 宝钢/j )/w  总/b  公司/n]NT,

[宝山/ns  钢铁/n  总/b  公司/n]NT,(/w 宝钢/j )/w

 

nx 外文字符 外文字符。 A/nx  公司/n ,B/nx  先生/n  ,X/nx  君/Ng  ,

24/m  K/nx  镀金/n ,

C/nx  是/v  光速/n ,

Windows98/nx ,

PentiumIV/nx ,

I LOVE THIS GAME/nx  ,

nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。 (参见2。短语标记说明–NZ)

除人名、国名、地名、团体、机构、组织以外的其他专有名词都标以nz。

满族/nz,俄罗斯族/nz,汉语/nz,罗马利亚语/nz, 捷克语/nz,中文/nz,  英文/nz, 满人/nz, 哈萨克人/nz, 诺贝尔奖/nz, 茅盾奖/nz,

1.包含专有名称(或简称)的交通线,标以nz;短语型的,标为NZ。

津浦路/nz, 石太线/nz,

[京/j  九/j  铁路/n]NZ,

[京/j  津/j  高速/b  公路/n]NZ,

2. 历史上重要事件、运动等专有名称一般是短语型的,按短语型专有名称处理,标以NZ。

[卢沟桥/ns  事件/n]NZ, [西安/ns  事变/n]NZ,[五四/t  运动/n]NZ,  [明治/nz  维新/n]NZ,[甲午/t  战争/n]NZ,

3.专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应分开。

欧洲/ns  语言/n,  法国/ns  文学/n,  西方/ns  文化/n, 贝多芬/nr  交响乐/n,  雷锋/nr  精神/n,  美国/ns  方式/n,日本/ns  料理/n,  宋朝/t  古董/n

4. 商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n。

康师傅/nr  方便面/n,  中华牌/nz 香烟/n,  牡丹III型/nz  电视机/n,  联想/nz  电脑/n,  鳄鱼/nz  衬衣/n,  耐克/nz  鞋/n

5. 以序号命名的名称一般不认为是专有名称。

2/m  号/q  国道/n ,十一/m  届/q  三中全会/j

如果前面有专名,合起来作为短语型专名。

[中国/ns  101/m  国道/n]NZ, [中共/j  十一/m  届/q  三中全会/j]NZ,

6. 书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词。由于这些名字往往较长,名字本身按常规处理。

《/w  宁波/ns  日报/n  》/w ,《/w  鲁迅/nr  全集/n  》/w,

中华/nz  读书/vn  报/n,       杜甫/nr  诗选/n,

少数书名、报刊名等专有名称,则不切分。红楼梦/nz, 人民日报/nz,儒林外史/nz

7. 当有些专名无法分辨它们是人名还是地名或机构名时,暂标以nz。

[巴黎/ns  贝尔希/nz   体育馆/n]NT,

其中“贝尔希”只好暂标为nz。

 

o 拟声词 取英语拟声词onomatopoeia的第1个字母。 哈哈/o  一/m  笑/v ,

装载机/n  隆隆/o  推进/v  ,

p 介词 取英语介词prepositional的第1个字母。 对/p  子孙后代/n  负责/v  ,

以/p  煤/n  养/v  农/Ng  ,

为/p  治理/v  荒山/n  服务/v  ,

把/p  青年/n  推/v  上/v  了/u  领导/vn  岗位/n ,

q 量词 取英语quantity的第1个字母。 (参见数词m)

首/m  批/q  ,

一/m  年/q  ,

Rg 代语素 代词性语素。代词代码为r,在语素的代码g前面置以R。 读者/n  就/d  是/v  这/r  两/m  棵/q  小树/n  扎根/v  于/p  斯/Rg  、/w  成长/v  于/p  斯/Rg  的/u  肥田/n  沃土/n  ,
r 代词 取英语代词pronoun的第2个字母,因p已用于介词。 单音节代词“本”、“每”、“各”、“诸”后接单音节名词时,和后接的单音节名词合为代词;当后接双音节名词时,应予切分。

本报/r,  每人/r,  本社/r,

本/r 地区/n,

各/r 部门/n

 

s 处所词 取英语space的第1个字母。 家里/s  的/u  电脑/n  都/d  联通/v  了/u  国际/n  互联网/n  ,

西部/s  交通/n  咽喉/n  ,

Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。 3日/t  晚/Tg  在/p  总统府/n  发表/v  声明/n  ,

尊重/v  现/Tg  执政/vn  当局/n  的/u  权威/n  ,

t 时间词 取英语time的第1个字母。 1. 年月日时分秒,按年、月、日、时、分、秒切分,标注为t 。

1997年/t  3月/t  19日/t  下午/t  2时/t  18分/t

若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。

1998/m  中文/n  信息/n  处理/vn  国际/n  会议/n

2. 历史朝代的名称虽然有专有名词的性质,仍标注为t。

西周/t,  秦朝/t, 东汉/t,  南北朝/t,  清代/t

“牛年、虎年”等一律不予切分,标注为:

牛年/t, 虎年/t,  甲午年/t,  甲午/t 战争/n,  庚子/t  赔款/n,   戊戌/t 变法/n

u 助词 取英语助词auxiliary。 [[俄罗斯/ns  和/c  北约/j]NP-BL  之间/f  [战略/n  伙伴/n  关系/n]NP  的/u  建立/vn]NP  填平/v  了/u  [[欧洲/ns  安全/a  政治/n]NP  的/u  鸿沟/n]NP
Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。 洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Vg

 

v 动词 取英语动词verb的第一个字母。 (参见 名词–n)

[[[欧盟/j  扩大/v]S  的/u  [历史性/n  决定/n]NP]NP  和/c  [北约/j  开放/v]S]NP-BL  [为/p  [创建/v  [一/m  种/q  新/a  的/u  欧洲/ns  安全/a  格局/n]NP]VP-SBI]PP-MD  [奠定/v  了/u  基础/n]V-SBI  ,

,
编辑/v  科技/n  文献/n , (她/r  是/v  责任/n  编辑/n  )

 

vd 副动词 直接作状语的动词。动词和副词的代码并在一起。 形势/n  会/v  持续/vd  好转/v  ,

认为/v  是/v  电话局/n  收/v  错/vd  了/u  费/n  ,

vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。 引起/v  人们/n  的/u  关注/vn  和/c  思考/vn  ,

收费/vn  电话/n  的/u  号码/n  ,

w 标点符号 ”/w

:/w

x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。
Yg 语气语素 语气词性语素。语气词代码为y。在语素的代码g前面置以Y。 唯/d  大力/d  者/k  能/v  致/v  之/u  耳/Yg
y 语气词 取汉字“语”的声母。 会/v  泄露/v  用户/n  隐私/n  吗/y  ,

又/d  何在/v  呢/y  ?

z 状态词 取汉字“状”的声母的前一个字母。 取得/v  扎扎实实/z  的/u  突破性/n  进展/vn  ,

四季/n  常青/z  的/u  热带/n  树木/n  ,

短短/z  几/m  年/q  间,

计算所 ICTCLAS 3.0汉语词性标记集

计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要参考了以下词性标记集:

  • 北大《人民日报》语料库词性标记集
  • 北大2002新版词性标记集(草稿)
  • 清华大学汉语树库词性标记集
  • 教育部语用所词性标记集(国家推荐标准草案2002版)
  • 美国宾州大学中文树库(Chinese Penn Tree Bank)词性标记集

由于中科院计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。

形容词(1个一类,4个二类)

  • a 形容词
    • ad 副形词
    • an 名形词
    • ag 形容词性语素
    • al 形容词性惯用语

区别词(1个一类,2个二类)

  • b 区别词
    • bl 区别词性惯用语

连词(1个一类,1个二类)

  • c 连词
    • cc 并列连词

副词(1个一类)

  • d 副词

叹词(1个一类)

  • e 叹词

方位词(1个一类)

  • f 方位词

前缀(1个一类)

  • h 前缀

后缀(1个一类)

  • k 后缀

数词(1个一类,1个二类)

  • m 数词
    • mq 数量词

名词 (1个一类,7个二类,5个三类)

名词分为以下子类:

  • n 名词
    • nr 人名
      • nr1 汉语姓氏
      • nr2 汉语名字
      • nrj 日语人名
      • nrf 音译人名
    • ns 地名
      • nsf 音译地名
    • nt 机构团体名
    • nz 其它专名
    • nl 名词性惯用语
    • ng 名词性语素

拟声词(1个一类)

  • o 拟声词

介词(1个一类,2个二类)

  • p 介词
    • pba 介词“把”
    • pbei 介词“被”

量词(1个一类,2个二类)

  • q 量词
    • qv 动量词
    • qt 时量词

代词(1个一类,4个二类,6个三类)

  • r 代词
    • rr 人称代词
    • rz 指示代词
      • rzt 时间指示代词
      • rzs 处所指示代词
      • rzv 谓词性指示代词
    • ry 疑问代词
      • ryt 时间疑问代词
      • rys 处所疑问代词
      • ryv 谓词性疑问代词
    • rg 代词性语素

处所词(1个一类)

  • s 处所词

时间词(1个一类,1个二类)

  • t 时间词
    • tg 时间词性语素

助词(1个一类,15个二类)

  • u 助词
    • uzhe 着
    • ule 了 喽
    • uguo 过
    • ude1 的 底
    • ude2 地
    • ude3 得
    • usuo 所
    • udeng 等 等等 云云
    • uyy 一样 一般 似的 般
    • udh 的话
    • uls 来讲 来说 而言 说来
    • uzhi 之
    • ulian 连 (“连小学生都会”)

动词(1个一类,9个二类)

  • v 动词
    • vd 副动词
    • vn 名动词
    • vshi 动词“是”
    • vyou 动词“有”
    • vf 趋向动词
    • vx 形式动词
    • vi 不及物动词(内动词)
    • vl 动词性惯用语
    • vg 动词性语素

标点符号(1个一类,16个二类)

  • w 标点符号
    • wkz 左括号,全角:( 〔 [  {  《 【  〖 〈   半角:( [ { <
    • wky 右括号,全角:) 〕 ] } 》  】 〗 〉 半角: ) ] { >
    • wyz 左引号,全角:“ ‘ 『
    • wyy 右引号,全角:” ’ 』
    • wj 句号,全角:。
    • ww 问号,全角:? 半角:?
    • wt 叹号,全角:! 半角:!
    • wd 逗号,全角:, 半角:,
    • wf 分号,全角:; 半角: ;
    • wn 顿号,全角:、
    • wm 冒号,全角:: 半角: :
    • ws 省略号,全角:…… …
    • wp 破折号,全角:—— --   ——-   半角:—  —-
    • wb 百分号千分号,全角:% ‰ 半角:%
    • wh 单位符号,全角:¥ $ £ °  ℃  半角:$

字符串(1个一类,2个二类)

  • x 字符串
    • xx 非语素字
    • xu 网址URL

语气词(1个一类)

  • y 语气词(delete yg)

状态词(1个一类)

  • z 状态词

HanLP词性标注集

HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语。所以,HanLP词性标注集兼容《ICTPOS3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。

  • a 形容词
    • ad 副形词
    • ag 形容词性语素
    • al 形容词性惯用语
    • an名形词
  • b区别词
    • begin 仅用于始##始
    • bg 区别语素
    • bl 区别词性惯用语
  • c 连词
    • cc 并列连词
  • d 副词
    • dg 辄,俱,复之类的副词
    • dl 连语
  • e 叹词
    • end 仅用于终##终
  • f 方位词
  • g 学术词汇
    • gb 生物相关词汇
      • gbc 生物类别
    • gc 化学相关词汇
    • gg 地理地质相关词汇
    • gi 计算机相关词汇
    • gm 数学相关词汇
    • gp 物理相关词汇
  • h 前缀
  • i 成语
  • j 简称略语
  • k 后缀
  • l 习用语
  • m 数词
    • mg 数语素,Mg 甲乙丙丁之类的数词
    • mq数量词
  • n 名词
    • nb 生物名
      • nba 动物名
      • nbc 动物纲目
      • nbp 植物名
    • nf 食品,比如“薯片”
    • ng 名词性语素
    • nh 医药疾病等健康相关名词
      • nhd 疾病
      • nhm 药品
    • ni 机构相关(不是独立机构名)
      • nic 下属机构
      • nis 机构后缀
      • nit 教育相关机构
    • nl 名词性惯用语
    • nm 物品名
      • nmc 化学品名
    • nn 工作相关名词
      • nnd 职业
      • nnt 职务职称
    • nr人名
      • nr1 复姓
      • nr2 蒙古姓名
      • nrf 音译人名
      • nrj 日语人名
    • ns 地名
      • nsf 音译地名
    • nt 机构团体名
      • ntc公司名
      • ntcb 银行
      • ntcf 工厂
      • ntch 酒店宾馆
      • nth 医院
      • nto 政府机构
      • nts 中小学
      • ntu大学
    • nx 字母专名
    • nz 其他专名
  • o 拟声词
  • p 介词
    • pba 介词“把”
    • pbei 介词“被”
  • q 量词
    • qg 量词语素
    • qt 时量词
    • qv 动量词
  • r 代词
    • rg 代词性语素
    • Rg 古汉语代词性语素
    • rr 人称代词
    • ry 疑问代词
      • rys 处所疑问代词
      • ryt 时间疑问代词
      • ryv 谓词性疑问代词
    • rz 指示代词
      • rzs 处所指示代词
      • rzt 时间指示代词
      • rzv 谓词性指示代词
    • s 处所词
    • t 时间词
      • tg 时间词性语素
    • u 助词
      • ud 助词
        • ude1 的 底
        • ude2 地
        • ude3 得
        • udeng 等 等等 云云
        • udh 的话
      • ug 过
        • uguo 过
      • uj 助词
      • ul 连词
        • ule 了 喽
        • ulian 连 (“连小学生都会”)
        • uls 来讲 来说 而言 说来
      • usuo 所
      • uv 连词
      • uyy 一样 一般 似的 般
      • uz 着
        • uzhe 着
        • uzhi 之
      • v 动词
        • vd 副动词
        • vf 趋向动词
        • vg 动词性语素
        • vi 不及物动词(内动词)
        • vl 动词性惯用语
        • vn 名动词
        • vshi 动词“是”
        • vx 形式动词
        • vyou 动词“有”
      • w 标点符号
        • wb 百分号千分号,全角:% ‰ 半角:%
        • wd 逗号,全角:, 半角:,
        • wf 分号,全角:; 半角: ;
        • wh 单位符号,全角:¥ $ £ °  ℃  半角:$
        • wj 句号,全角:。
        • wky 右括号,全角:) 〕 ] } 》  】 〗 〉 半角: ) ] { >
        • wkz 左括号,全角:( 〔 [  {  《 【  〖 〈   半角:( [ { <
        • wm 冒号,全角:: 半角: :
        • wn 顿号,全角:、
        • wp 破折号,全角:—— --   ——-   半角:—  —-
        • ws 省略号,全角:…… …
        • wt 叹号,全角:!
        • ww 问号,全角:?
        • wyy 右引号,全角:” ’ 』
        • wyz 左引号,全角:“ ‘ 『
      • x 字符串
        • xu 网址URL
        • xx 非语素字
      • y 语气词(delete yg)
        • yg 语气语素
      • z 状态词
        • zg 状态词

BosonNLP词性标注

BosonNLP词性标注集是基于《北京大学现代汉语语料库基本加工规范》和《计算所汉语词性标记集》修改得到的。 与最初《北京大学现代汉语语料库基本加工规范》相比,主要修改有:

  • 姓名和起来标”nr”,只有姓单独出现的时候标”nr1”,如“张/nr1 教授/n”
  • 短语型的地名、团体机构名称及其他专有名称只进行最小粒度的划分,不需要再合并标注。
  • 去掉了各种语素,“Ng”,“Ag”等都标回“n”,“a”等。
  • 去掉“i”(成语俗语)和“l”(惯用语)标签,改成“nl”、“al”、“bl”等各种词性的惯用语标签
  • 去掉标签“j”(缩略词),将其标回原来的词性
  • 依据《计算所汉语词性标记集》的标准对一些标签进行细分
  • 增加标签“vi”(不及物动词)

共22个大类,70个标签

名词

  • n 名词
    • nr 人名(包括”@XXX”),姓名整体标注,如“李某某”、“李××”也标为nr
      • nr1 中文姓氏,如果单出现姓氏,标为nr1,姓名一起出现的,合起来标nr
      • nrf 音译人名,如“奥巴马”,“布拉德・皮特”
    • ns 地名,如“中国”,“上海市”,“江浙”
    • nt 组织机构名,如“中国队”,“央行”
    • nz 其它专有名词,如“银联”,“腾讯”
    • nl 名词性惯用语,如“豪言壮语”,“亲朋好友”

时间词

  • t 时间词,如“1988年”,”3月”

处所词

  • s 处所词,如“国内”,“市区”

方位词

  • f 方位词,如“上”,“下”,“前面”,“后面”

动词

  • v 动词
    • vd 副动词,如“持续/vd 提供/v”,“优先/vd 安排/v”
    • vshi 动词“是”
    • vyou 动词“有”
    • vi 不及物动词,如“运营”,“点球”
    • vl 动词性惯用语,如“远走高飞”,“相依为命”

形容词

  • a 形容词
    • ad 副形词,如“经过/p 谨慎/ad 筛选/v”
    • an 名形词,如“虽然/c 困难/an 很多/m”
    • al 形容词性惯用语,如“拥挤不堪”,“难能可贵”

区别词

  • b 区别词,如“原来”,“所有”
    • bl 区别词性惯用语,如“至关重要”,“光天化日”

状态词

  • z 状态词,如“依旧”,“一头雾水”

代词

  • r 代词,“我”,“这”,“谁”

数字

  • m 数词

量词

  • q 量词

副词

  • d 副词,如“更”,“非常”
    • dl 副词性惯用语,如“对了”,“万万”

介词

  • p 介词
    • pba 介词“把”
    • pbei 介词“被”

连词

  • c 连词,如“和”,“与”,“及”

助词

  • u 助词
    • uzhe 助词“着”
    • ule 助词“了”
    • uguo 助词“过”
    • ude 助词“的”、“地”、“得”
    • usuo 助词“所”
    • udeng 助词“等”、“等等”
    • uyy 助词“一样”、“似的”
    • udh 助词“的话”
    • uzhi 助词“之”
    • ulian 助词“连”

语气词

  • y 语气词,将原来的叹词也合并到语气词里面

拟声词

  • o 拟声词

前缀

  • h 前缀,如“非/h 正常/a”

19 后缀

  • k 后缀,如“孩子/n 们/k”,“隐藏/v 式/k”

字符串

  • nx 字符串,url和其他特殊字符除外

标点符号

  • w 标点符号
    • wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
    • wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
    • wyz 左引号,全角:“ ‘ 『
    • wyy 右引号,全角:” ’ 』
    • wj 句号,全角:。 半角:.
    • ww 问号,全角:? 半角:?
    • wt 叹号,全角:! 半角:!
    • wd 逗号,全角:, 半角:,
    • wf 分号,全角:; 半角: ;
    • wn 顿号,全角:、
    • wm 冒号,全角:: 半角: :
    • ws 省略号,全角:…… …
    • wp 破折号,全角:—— -- ——- 半角:— —-
    • wb 百分号千分号,全角:% ‰ 半角:%
    • wh 单位符号,全角:¥ $ £ ° ℃ 半角:$

其它

  • email 电子邮件地址 ,如“[email protected]
  • tel 电话号码,如:“13818636693”
  • id 身份证号
  • ip ip地址,如“127.0.0.1”
  • url 网页链接,如“http://bosonnlp.com/”

结巴分词中出现的类型

  • a 形容词
    • ad 副形词
    • ag形语素
    • an副形词
  • b区别词
  • c连词
  • d副词
    • df
    • dg副语素
  • e叹词
  • f方位词
  • g语素
  • h前接成分
  • i成语
  • j简称略语
  • k后接成分
  • l习用语
  • m数词
    • mg数语素
    • mq 数量词
  • n名词
    • ng名词性语素
    • nr人名
    • nrfg
    • nrt
    • ns地名
    • nt机构团体
    • nz其他专名
  • o拟声词
  • p介词
  • q量词
  • r代词
    • rg 代语素
    • rr人称代词
    • rz指示代词
  • s处所词
  • t时间词
    • tg时语素
  • u助词
    • ud
    • ug
    • uj
    • ul
    • uv
    • uz
  • v动词
    • vd副动词
    • vg动语素
    • vi不及物动词(内动词)
    • vn名动词
    • vq
  • x非语素字
  • y语气语素
  • z状态词
    • zg

其他参考资料:

No related posts.

相关 [自然语言 词性] 推荐:

自然语言处理之词性标注集

- - 标点符
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为 分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程. 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词. 虚词:副词、介词、连词、助词、拟声词、叹词.

GitHub - hankcs/HanLP: 自然语言处理 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换

- -
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用. HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点. 基于互信息和左右信息熵的短语提取. 简繁分歧词(简体、繁体、臺灣正體、香港繁體). 基于神经网络的高性能依存句法分析器. CoNLL UA/LA/DA评测工具.

自然语言处理概览

- - 互联网 - ITeye博客
自然语言处理研究的是词、句、文档等几个层次的内容. 一、发展历史(前两个是理论、后一个是经验). 1、形式语法(复杂特征集). 2、词汇主义方法(WordNet、ConceptNet、FrameNet), 人工总结和整理概念、层次、结构等 . 3、统计语言模型(语言有统计规律性,让机器去自己学习规律).

自然语言处理某个pipeline

- - 互联网 - ITeye博客
1、数据源:包括文本、pdf、数据库等不同来源. 2、使用到的库:jieba gensim sklearn keras . 3、可以实现的服务:找出相关和相近词(以分词为准)、比较2个分词的相似度、和哪些相关同时和别的不相关(语义上的模糊查找). 数据源的load->gensim->classifier(传统基于词频的/深度学习的 keras).

统计自然语言处理的基础学习之一

- - CSDN博客互联网推荐文章
理性主义:其实就是纯粹使用规则的方法处理自然语言,并认为这些语言规则天生就存在人的基因中. 在计算机中重现这些规则,就能学会人的语言处理能力. 经验主义:认为人有感知和学习能力,通过概括、模式识别、联想等能力,来学习到自然语言的结构. 哲学上的问题,类似于起源之类,就先别考虑的. 统计方法在NLP中的地位是什么.

[微信机器人_04]自然语言处理简单实现

- - CSDN博客互联网推荐文章
这篇博文中将介绍奇迹蛋自然语言处理模块的实现,自然语言处理的三个关键词:分词、建库、匹配. 机器人要如何来记忆这两组对话呢?. 这样存储当然没有问题,但是显然太土了,有没有其它的办法呢. 在存储过程中,总是希望能够去除冗余,即相同的词语能够只存储一次. 很容易想到,把句子拆分成词来存储. 如图所示,每个问题都拆分成词,并以词为节点建立树.

Quora在自然语言处理上的所做的工作

- - 标点符
问答网站最核心的内容是提供给优质的内容,如何让内容更加优质,处理分析大量的文本数据也是必不可少的工作. Quora有大量的文本数据,分布在Quora的数百万个问题、答案和评论中. 不仅如此,还有大量的元数据来补充我问答,包括”赞”和”踩”,用户对话题的兴趣或擅长与否,问题和话题的关系,话题去重合并,用户的社交和关系和影响力幅射,以及用户在Quora的每一个操作历史.

自然语言处理词向量化总结

- - 冰火岛
distributed representation 分布式表达(一类表示方法,基于统计含义),分散式表达(从一个高维空间X映射到一个低维空间Y) 分布假说(distributional hypothesis)为这一设想提供了 理论基础:上下文相似的词,其语义也相似.. 自然语言处理的基础是词向量化,即文本数值化,后面进行数据挖掘工作就和常见的任务类似,即分类,聚类等等.

自然语言处理第一番之文本分类器

- - 小石头的码疯窝
文本分类应该是自然语言处理中最普遍的一个应用,例如文章自动分类、邮件自动分类、垃圾邮件识别、用户情感分类等等,在生活中有很多例子,这篇文章主要从传统和深度学习两块来解释下我们如何做一个文本分类器. 传统的文本方法的主要流程是人工设计一些特征,从原始文档中提取特征,然后指定分类器如LR、SVM,训练模型对文章进行分类,比较经典的特征提取方法如频次法、tf-idf、互信息方法、N-Gram.

从NLP到“自然语言理解”,Facebook如何让Messenger更懂人类?

- - 雷锋网
雷锋网按:Facebook的AML和FAIR团队合作进行自然语言处理对自然语言理解进行着合作研究. 在2017年4月19日举办的F8开发者大会上,Facebook向公众介绍了他们的研究进展、自然语言理解在Facebook产品中的应用,并且介绍了平民化的自然语言理解平台CLUE,希望依靠大家的力量,继续丰富自然语言理解的应用.