自然语言处理之词性标注集
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为 分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:
- 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
- 虚词:副词、介词、连词、助词、拟声词、叹词。
这篇文章梳理的不是如何进行词性标注,而是介绍一些常用的词性标注集。
《PFR人民日报标注语料库》词性编码表
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。
代码 | 名称 | 举例 |
a | 形容词 | 最/d 大/a 的/u |
ad | 副形词 | 一定/d 能够/v 顺利/ad 实现/v 。/w |
ag | 形语素 | 喜/v 煞/ag 人/n |
an | 名形词 | 人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/w |
b | 区别词 | 副/b 书记/n 王/nr 思齐/nr |
c | 连词 | 全军/n 和/c 武警/n 先进/a 典型/n 代表/n |
d | 副词 | 两侧/f 台柱/n 上/ 分别/d 雄踞/v 着/u |
dg | 副语素 | 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 节目/n 。/w |
e | 叹词 | 嗬/e !/w |
f | 方位词 | 从/p 一/m 大/a 堆/q 档案/n 中/f 发现/v 了/u |
g | 语素 | 例如dg 或ag |
h | 前接成分 | 目前/t 各种/r 非/h 合作制/n 的/u 农产品/n |
i | 成语 | 提高/v 农民/n 讨价还价/i 的/u 能力/n 。/w |
j | 简称略语 | 民主/ad 选举/v 村委会/j 的/u 工作/vn |
k | 后接成分 | 权责/n 明确/a 的/u 逐级/d 授权/v 制/k |
l | 习用语 | 是/v 建立/v 社会主义/n 市场经济/n 体制/n 的/u 重要/a 组成部分/l 。/w |
m | 数词 | 科学技术/n 是/v 第一/m 生产力/n |
n | 名词 | 希望/v 双方/n 在/p 市政/n 规划/vn |
ng | 名语素 | 就此/d 分析/v 时/Ng 认为/v |
nr | 人名 | 建设部/nt 部长/n 侯/nr 捷/nr |
ns | 地名 | 北京/ns 经济/n 运行/vn 态势/n 喜人/a |
nt | 机构团体 | [冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n]nt |
nx | 字母专名 | ATM/nx 交换机/n |
nz | 其他专名 | 德士古/nz 公司/n |
o | 拟声词 | 汩汩/o 地/u 流/v 出来/v |
p | 介词 | 往/p 基层/n 跑/v 。/w |
q | 量词 | 不止/v 一/m 次/q 地/u 听到/v ,/w |
r | 代词 | 有些/r 部门/n |
s | 处所词 | 移居/v 海外/s 。/w |
t | 时间词 | 当前/t 经济/n 社会/n 情况/n |
tg | 时语素 | 秋/Tg 冬/tg 连/d 旱/a |
u | 助词 | 工作/vn 的/u 政策/n |
ud | 结构助词 | 有/v 心/n 栽/v 得/ud 梧桐树/n |
ug | 时态助词 | 你/r 想/v 过/ug 没有/v |
uj | 结构助词的 | 迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n |
ul | 时态助词了 | 完成/v 了/ ul |
uv | 结构助词地 | 满怀信心/l 地/uv 开创/v 新/a 的/u 业绩/n |
uz | 时态助词着 | 眼看/v 着/uz |
v | 动词 | 举行/v 老/a 干部/n 迎春/vn 团拜会/n |
vd | 副动词 | 强调/vd 指出/v |
vg | 动语素 | 做好/v 尊/vg 干/j 爱/v 兵/n 工作/vn |
vn | 名动词 | 股份制/n 这种/r 企业/n 组织/vn 形式/n ,/w |
w | 标点符号 | 生产/v 的/u 5G/nx 、/w 8G/nx 型/k 燃气/n 热水器/n |
x | 非语素字 | |
y | 语气词 | 已经/d 30/m 多/m 年/q 了/y 。/w |
z | 状态词 | 势头/n 依然/z 强劲/a ;/w |
《现代汉语语料库加工规范——词语切分与词性标注》词性标记
代码 | 代码名称 | 帮助记忆的诠释 | 例子 及 注解 |
Ag | 形语素 | 形容词性语素。形容词代码为a,语素代码g前面置以A。 | 绿色/n 似/d 锦/Ag , |
a | 形容词 | 取英语形容词adjective的第1个字母 | [重要/a 步伐/n]NP ,
美丽/a , 看似/v 抽象/a , |
ad | 副形词 | 直接作状语的形容词。形容词代码a和副词代码d并在一起。 | [积极/ad 谋求/v]V-ZZ ,
幻象/n 易/ad 逝/Vg , |
an | 名形词 | 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 | [外交/n 和/c 安全/an]NP-BL , |
Bg | 区别语素 | 区别词性语素。区别词代码为b,语素代码g前面置以B。 | 赤/Ag 橙/Bg 黄/a 绿/a 青/a 蓝/a 紫/a , |
b | 区别词 | 取汉字“别”的声母。 | 女/b 司机/n, 金/b 手镯/n, 慢性/b 胃炎/n, 古/b 钱币/n, 副/b 主任/n, 总/b 公司/n
单音节区别词和单音节名词或名语素组合,作为一个词,并标以名词词性n。 雄鸡/n, 雌象/n, 女魔/n, 古币/n 少数“单音节区别词+双音节词”的结构作为一个词。 总书记/n , |
c | 连词 | 取英语连词conjunction的第1个字母。 | 合作/vn 与/c 伙伴/n |
Dg | 副语素 | 副词性语素。副词代码为d,语素代码g前面置以D。 | 了解/v 甚/Dg 深/a ,
煞/Dg 是/v 喜人/a , |
d | 副词 | 取adverb的第2个字母,因其第1个字母已用于形容词。 | 进一步/d 发展/v , |
e | 叹词 | 取英语叹词exclamation的第1个字母。 | 啊/e ,/w 那/r 金灿灿/z 的/u 麦穗/n , |
f | 方位词 | 取汉字“方”。 | 军人/n 的/u 眼睛/n 里/f 不/d 是/v 没有/v 风景/n , |
h | 前接成分 | 取英语head的第1个字母。 | 许多/m 非/h 主角/n 人物/n ,
办事处/n 的/u “/w 准/h 政府/n ”/w 功能/n 不断/d 加强/v , |
i | 成语 | 取英语成语idiom的第1个字母。 | 一言一行/i ,
义无反顾/i , |
j | 简称略语 | 取汉字“简”的声母。 | [德/j 外长/n]NP ,
文教/j , |
k | 后接成分 | 后接成分。 | 少年儿童/l 朋友/n 们/k ,
身体/n 健康/a 者/k , |
l | 习用语 | 习用语尚未成为成语,有点“临时性”,取“临”的声母。 | 少年儿童/l 朋友/n 们/k ,
落到实处/l , |
Mg | 数语素 | 数词性语素。数词代码为m,语素代码g前面置以M。 | 甲/Mg 减下/v 的/u 人/n 让/v 乙/Mg 背上/v ,
凡/d “/w 寅/Mg 年/n ”/w 中/f 出生/v 的/u 人/n 生肖/n 都/d 属/v 虎/n , |
m | 数词 | 取英语numeral的第3个字母,n,u已有他用。 | 1.数量词组应切分为数词和量词。 三/m 个/q, 10/m 公斤/q, 一/m 盒/q 点心/n ,
但少数数量词已是词典的登录单位,则不再切分。 一个/m , 一些/m , 2. 基数、序数、小数、分数、百分数一律不予切分,为一个切分单位,标注为 m 。 一百二十三/m,20万/m, 123.54/m, 一个/m, 第一/m, 第三十五/m, 20%/m, 三分之二/m, 千分之三十/m, 几十/m 人/n, 十几万/m 元/q, 第一百零一/m 个/q , 3. 约数,前加副词、形容词或后加“来、多、左右”等助数词的应予分开。 约/d 一百/m 多/m 万/m,仅/d 一百/m 个/q, 四十/m 来/m 个/q,二十/m 余/m 只/q, 十几/m 个/q,三十/m 左右/m , 两个数词相连的及“成百”、“上千”等则不予切分。 五六/m 年/q, 七八/m 天/q,十七八/m 岁/q, 成百/m 学生/n,上千/m 人/n, 4.表序关系的“数+名”结构,应予切分。 二/m 连/n , 三/m 部/n , |
Ng | 名语素 | 名词性语素。名词代码为n,语素代码g前面置以N。 | 出/v 过/u 两/m 天/q 差/Ng,
理/v 了/u 一/m 次/q 发/Ng,
|
n | 名词 | 取英语名词noun的第1个字母。 | (参见 动词–v)
岗位/n , 城市/n , 机会/n , 她/r 是/v 责任/n 编辑/n ,
|
nr | 人名 | 名词代码n和“人(ren)”的声母并在一起。 | 1. 汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分,并分别标注为nr。
张/nr 仁伟/nr, 欧阳/nr 修/nr, 阮/nr 志雄/nr, 朴/nr 贞爱/nr 汉族人除有单姓和复姓外,还有双姓,即有的女子出嫁后,在原来的姓上加上丈夫的姓。如:陈方安生。这种情况切分、标注为:陈/nr 方/nr 安生/nr;唐姜氏,切分、标注为:唐/nr 姜氏/nr。 2. 姓名后的职务、职称或称呼要分开。 江/nr 主席/n, 小平/nr 同志/n, 江/nr 总书记/n,张/nr 教授/n, 王/nr 部长/n, 陈/nr 老总/n, 李/nr 大娘/n, 刘/nr 阿姨/n, 龙/nr 姑姑/n 3. 对人的简称、尊称等若为两个字,则合为一个切分单位,并标以nr。 老张/nr, 大李/nr, 小郝/nr, 郭老/nr, 陈总/nr 4. 明显带排行的亲属称谓要切分开,分不清楚的则不切开。 三/m 哥/n, 大婶/n, 大/a 女儿/n, 大哥/n, 小弟/n, 老爸/n 5. 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。 鲁迅/nr, 茅盾/nr, 巴金/nr, 三毛/nr, 琼瑶/nr, 白桦/nr 6. 外国人或少数民族的译名(包括日本人的姓名)不予切分,标注为nr。 克林顿/nr, 叶利钦/nr, 才旦卓玛/nr, 小林多喜二/nr, 北研二/nr, 华盛顿/nr, 爱因斯坦/nr 有些西方人的姓名中有小圆点,也不分开。 卡尔·马克思/nr
|
ns | 地名 | 名词代码n和处所词代码s并在一起。 | (参见2。短语标记说明–NS)
安徽/ns,深圳/ns,杭州/ns,拉萨/ns,哈尔滨/ns, 呼和浩特/ns, 乌鲁木齐/ns,长江/ns,黄海/ns,太平洋/ns, 泰山/ns, 华山/ns,亚洲/ns, 海南岛/ns,太湖/ns,白洋淀/ns, 俄罗斯/ns,哈萨克斯坦/ns,彼得堡/ns, 伏尔加格勒/ns
1. 国名不论长短,作为一个切分单位。 中国/ns, 中华人民共和国/ns, 日本国/ns, 美利坚合众国/ns, 美国/ns 2. 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时,不切分开,作为一个切分单位。 四川省/ns, 天津市/ns,景德镇/ns沙市市/ns, 牡丹江市/ns,正定县/ns,海淀区/ns, 通州区/ns,东升乡/ns, 双桥镇/ns 南化村/ns,华盛顿州/ns,俄亥俄州/ns,东京都/ns, 大阪府/ns,北海道/ns, 长野县/ns,开封府/ns,宣城县/ns 3. 地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,不过要将地名同行政区划名称用方括号括起来,并标以短语NS。 [芜湖/ns 专区/n] NS, [宣城/ns 地区/n]ns, [内蒙古/ns 自治区/n]NS, [深圳/ns 特区/n]NS, [厦门/ns 经济/n 特区/n]NS, [香港/ns 特别/a 行政区/n]NS, [香港/ns 特区/n]NS, [华盛顿/ns 特区/n]NS, 4. 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分。 鸭绿江/ns,亚马逊河/ns, 喜马拉雅山/ns, 珠穆朗玛峰/ns,地中海/ns,大西洋/ns,洞庭湖/ns, 塞普路斯岛/ns 5. 地名后接的表示地形地貌的普通名词若有两个以上汉字,则应切开。然后将地名同该普通名词标成短语NS。 [台湾/ns 海峡/n]NS,[华北/ns 平原/n]NS,[帕米尔/ns 高原/n]NS, [南沙/ns 群岛/n]NS,[京东/ns 大/a 峡谷/n]NS [横断/b 山脉/n]NS 6.地名后有表示自然区划的一个字的普通名词,如“ 街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分。 中关村/ns,长安街/ns,学院路/ns, 景德镇/ns, 吴家堡/ns, 庞各庄/ns, 三元里/ns,彼得堡/ns, 北菜市巷/ns, 7.地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。然后将地名同自然区划名词标成短语NS。 [米市/ns 大街/n]NS, [蒋家/nz 胡同/n]NS , [陶然亭/ns 公园/n]NS , 8. 大小地名相连时的标注方式为: 北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]NS [蒋家/nz 胡同/n]NS 24/m 号/q , |
nt | 机构团体 | “团”的声母为t,名词代码n和t并在一起。 | (参见2。短语标记说明–NT)
联合国/nt,中共中央/nt,国务院/nt, 北京大学/nt 1.大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,再组合,标注为短语NT。 [中国/ns 计算机/n 学会/n]NT, [香港/ns 钟表业/n 总会/n]NT, [烟台/ns 大学/n]NT, [香港/ns 理工大学/n]NT, [华东/ns 理工大学/n]NT, [合肥/ns 师范/n 学院/n]NT, [北京/ns 图书馆/n]NT, [富士通/nz 株式会社/n]NT, [香山/ns 植物园/n]NT, [安娜/nz 美容院/n]NT, [上海/ns 手表/n 厂/n]NT, [永和/nz 烧饼铺/n]NT, [北京/ns 国安/nz 队/n]NT, 2. 对于在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名,也标为nt或NT。 联合国/nt,国务院/nt,外交部/nt, 财政部/nt,教育部/nt, 国防部/nt, [世界/n 贸易/n 组织/n]NT, [国家/n 教育/vn 委员会/n]NT, [信息/n 产业/n 部/n]NT, [全国/n 信息/n 技术/n 标准化/vn 委员会/n]NT, [全国/n 总/b 工会/n]NT, [全国/n 人民/n 代表/n 大会/n]NT, 美国的“国务院”,其他国家的“外交部、财政部、教育部”,必须在其所属国的国名之后出现时,才联合标注为NT。 [美国/ns 国务院/n]NT, [法国/ns 外交部/n]NT, [美/j 国会/n]NT, 日本有些政府机构名称很特别,无论是否出现在“日本”国名之后都标为nt。 [日本/ns 外务省/nt]NT, [日/j 通产省/nt]NT 通产省/nt 3. 前后相连有上下位关系的团体机构组织名称的处理方式如下: [联合国/nt 教科文/j 组织/n]NT, [中国/ns 银行/n 北京/ns 分行/n]NT, [河北省/ns 正定县/ns 西平乐乡/ns 南化村/ns 党支部/n]NT, 当下位名称含有专名(如“北京/ns 分行/n”、“南化村/ns 党支部/n”、“昌平/ns 分校/n”)时,也可脱离前面的上位名称单独标注为NT。 [中国/ns 银行/n]NT [北京/ns 分行/n]NT, 北京大学/nt [昌平/ns 分校/n]NT,4. 团体、机构、组织名称中用圆括号加注简称时: [宝山/ns 钢铁/n (/w 宝钢/j )/w 总/b 公司/n]NT, [宝山/ns 钢铁/n 总/b 公司/n]NT,(/w 宝钢/j )/w
|
nx | 外文字符 | 外文字符。 | A/nx 公司/n ,B/nx 先生/n ,X/nx 君/Ng ,
24/m K/nx 镀金/n , C/nx 是/v 光速/n , Windows98/nx , PentiumIV/nx , I LOVE THIS GAME/nx , |
nz | 其他专名 | “专”的声母的第1个字母为z,名词代码n和z并在一起。 | (参见2。短语标记说明–NZ)
除人名、国名、地名、团体、机构、组织以外的其他专有名词都标以nz。 满族/nz,俄罗斯族/nz,汉语/nz,罗马利亚语/nz, 捷克语/nz,中文/nz, 英文/nz, 满人/nz, 哈萨克人/nz, 诺贝尔奖/nz, 茅盾奖/nz, 1.包含专有名称(或简称)的交通线,标以nz;短语型的,标为NZ。 津浦路/nz, 石太线/nz, [京/j 九/j 铁路/n]NZ, [京/j 津/j 高速/b 公路/n]NZ, 2. 历史上重要事件、运动等专有名称一般是短语型的,按短语型专有名称处理,标以NZ。 [卢沟桥/ns 事件/n]NZ, [西安/ns 事变/n]NZ,[五四/t 运动/n]NZ, [明治/nz 维新/n]NZ,[甲午/t 战争/n]NZ, 3.专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应分开。 欧洲/ns 语言/n, 法国/ns 文学/n, 西方/ns 文化/n, 贝多芬/nr 交响乐/n, 雷锋/nr 精神/n, 美国/ns 方式/n,日本/ns 料理/n, 宋朝/t 古董/n 4. 商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n。 康师傅/nr 方便面/n, 中华牌/nz 香烟/n, 牡丹III型/nz 电视机/n, 联想/nz 电脑/n, 鳄鱼/nz 衬衣/n, 耐克/nz 鞋/n 5. 以序号命名的名称一般不认为是专有名称。 2/m 号/q 国道/n ,十一/m 届/q 三中全会/j 如果前面有专名,合起来作为短语型专名。 [中国/ns 101/m 国道/n]NZ, [中共/j 十一/m 届/q 三中全会/j]NZ, 6. 书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词。由于这些名字往往较长,名字本身按常规处理。 《/w 宁波/ns 日报/n 》/w ,《/w 鲁迅/nr 全集/n 》/w, 中华/nz 读书/vn 报/n, 杜甫/nr 诗选/n, 少数书名、报刊名等专有名称,则不切分。红楼梦/nz, 人民日报/nz,儒林外史/nz 7. 当有些专名无法分辨它们是人名还是地名或机构名时,暂标以nz。 [巴黎/ns 贝尔希/nz 体育馆/n]NT, 其中“贝尔希”只好暂标为nz。
|
o | 拟声词 | 取英语拟声词onomatopoeia的第1个字母。 | 哈哈/o 一/m 笑/v ,
装载机/n 隆隆/o 推进/v , |
p | 介词 | 取英语介词prepositional的第1个字母。 | 对/p 子孙后代/n 负责/v ,
以/p 煤/n 养/v 农/Ng , 为/p 治理/v 荒山/n 服务/v , 把/p 青年/n 推/v 上/v 了/u 领导/vn 岗位/n , |
q | 量词 | 取英语quantity的第1个字母。 | (参见数词m)
首/m 批/q , 一/m 年/q , |
Rg | 代语素 | 代词性语素。代词代码为r,在语素的代码g前面置以R。 | 读者/n 就/d 是/v 这/r 两/m 棵/q 小树/n 扎根/v 于/p 斯/Rg 、/w 成长/v 于/p 斯/Rg 的/u 肥田/n 沃土/n , |
r | 代词 | 取英语代词pronoun的第2个字母,因p已用于介词。 | 单音节代词“本”、“每”、“各”、“诸”后接单音节名词时,和后接的单音节名词合为代词;当后接双音节名词时,应予切分。
本报/r, 每人/r, 本社/r, 本/r 地区/n, 各/r 部门/n
|
s | 处所词 | 取英语space的第1个字母。 | 家里/s 的/u 电脑/n 都/d 联通/v 了/u 国际/n 互联网/n ,
西部/s 交通/n 咽喉/n , |
Tg | 时语素 | 时间词性语素。时间词代码为t,在语素的代码g前面置以T。 | 3日/t 晚/Tg 在/p 总统府/n 发表/v 声明/n ,
尊重/v 现/Tg 执政/vn 当局/n 的/u 权威/n , |
t | 时间词 | 取英语time的第1个字母。 | 1. 年月日时分秒,按年、月、日、时、分、秒切分,标注为t 。
1997年/t 3月/t 19日/t 下午/t 2时/t 18分/t 若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。 1998/m 中文/n 信息/n 处理/vn 国际/n 会议/n 2. 历史朝代的名称虽然有专有名词的性质,仍标注为t。 西周/t, 秦朝/t, 东汉/t, 南北朝/t, 清代/t “牛年、虎年”等一律不予切分,标注为: 牛年/t, 虎年/t, 甲午年/t, 甲午/t 战争/n, 庚子/t 赔款/n, 戊戌/t 变法/n |
u | 助词 | 取英语助词auxiliary。 | [[俄罗斯/ns 和/c 北约/j]NP-BL 之间/f [战略/n 伙伴/n 关系/n]NP 的/u 建立/vn]NP 填平/v 了/u [[欧洲/ns 安全/a 政治/n]NP 的/u 鸿沟/n]NP |
Vg | 动语素 | 动词性语素。动词代码为v。在语素的代码g前面置以V。 | 洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Vg
|
v | 动词 | 取英语动词verb的第一个字母。 | (参见 名词–n)
[[[欧盟/j 扩大/v]S 的/u [历史性/n 决定/n]NP]NP 和/c [北约/j 开放/v]S]NP-BL [为/p [创建/v [一/m 种/q 新/a 的/u 欧洲/ns 安全/a 格局/n]NP]VP-SBI]PP-MD [奠定/v 了/u 基础/n]V-SBI , ,
|
vd | 副动词 | 直接作状语的动词。动词和副词的代码并在一起。 | 形势/n 会/v 持续/vd 好转/v ,
认为/v 是/v 电话局/n 收/v 错/vd 了/u 费/n , |
vn | 名动词 | 指具有名词功能的动词。动词和名词的代码并在一起。 | 引起/v 人们/n 的/u 关注/vn 和/c 思考/vn ,
收费/vn 电话/n 的/u 号码/n , |
w | 标点符号 | ”/w
:/w |
|
x | 非语素字 | 非语素字只是一个符号,字母x通常用于代表未知数、符号。 | |
Yg | 语气语素 | 语气词性语素。语气词代码为y。在语素的代码g前面置以Y。 | 唯/d 大力/d 者/k 能/v 致/v 之/u 耳/Yg |
y | 语气词 | 取汉字“语”的声母。 | 会/v 泄露/v 用户/n 隐私/n 吗/y ,
又/d 何在/v 呢/y ? |
z | 状态词 | 取汉字“状”的声母的前一个字母。 | 取得/v 扎扎实实/z 的/u 突破性/n 进展/vn ,
四季/n 常青/z 的/u 热带/n 树木/n , 短短/z 几/m 年/q 间, |
计算所 ICTCLAS 3.0汉语词性标记集
计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要参考了以下词性标记集:
- 北大《人民日报》语料库词性标记集
- 北大2002新版词性标记集(草稿)
- 清华大学汉语树库词性标记集
- 教育部语用所词性标记集(国家推荐标准草案2002版)
- 美国宾州大学中文树库(Chinese Penn Tree Bank)词性标记集
由于中科院计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
形容词(1个一类,4个二类)
- a 形容词
- ad 副形词
- an 名形词
- ag 形容词性语素
- al 形容词性惯用语
区别词(1个一类,2个二类)
- b 区别词
- bl 区别词性惯用语
连词(1个一类,1个二类)
- c 连词
- cc 并列连词
副词(1个一类)
- d 副词
叹词(1个一类)
- e 叹词
方位词(1个一类)
- f 方位词
前缀(1个一类)
- h 前缀
后缀(1个一类)
- k 后缀
数词(1个一类,1个二类)
- m 数词
- mq 数量词
名词 (1个一类,7个二类,5个三类)
名词分为以下子类:
- n 名词
- nr 人名
- nr1 汉语姓氏
- nr2 汉语名字
- nrj 日语人名
- nrf 音译人名
- ns 地名
- nsf 音译地名
- nt 机构团体名
- nz 其它专名
- nl 名词性惯用语
- ng 名词性语素
- nr 人名
拟声词(1个一类)
- o 拟声词
介词(1个一类,2个二类)
- p 介词
- pba 介词“把”
- pbei 介词“被”
量词(1个一类,2个二类)
- q 量词
- qv 动量词
- qt 时量词
代词(1个一类,4个二类,6个三类)
- r 代词
- rr 人称代词
- rz 指示代词
- rzt 时间指示代词
- rzs 处所指示代词
- rzv 谓词性指示代词
- ry 疑问代词
- ryt 时间疑问代词
- rys 处所疑问代词
- ryv 谓词性疑问代词
- rg 代词性语素
处所词(1个一类)
- s 处所词
时间词(1个一类,1个二类)
- t 时间词
- tg 时间词性语素
助词(1个一类,15个二类)
- u 助词
- uzhe 着
- ule 了 喽
- uguo 过
- ude1 的 底
- ude2 地
- ude3 得
- usuo 所
- udeng 等 等等 云云
- uyy 一样 一般 似的 般
- udh 的话
- uls 来讲 来说 而言 说来
- uzhi 之
- ulian 连 (“连小学生都会”)
动词(1个一类,9个二类)
- v 动词
- vd 副动词
- vn 名动词
- vshi 动词“是”
- vyou 动词“有”
- vf 趋向动词
- vx 形式动词
- vi 不及物动词(内动词)
- vl 动词性惯用语
- vg 动词性语素
标点符号(1个一类,16个二类)
- w 标点符号
- wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
- wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
- wyz 左引号,全角:“ ‘ 『
- wyy 右引号,全角:” ’ 』
- wj 句号,全角:。
- ww 问号,全角:? 半角:?
- wt 叹号,全角:! 半角:!
- wd 逗号,全角:, 半角:,
- wf 分号,全角:; 半角: ;
- wn 顿号,全角:、
- wm 冒号,全角:: 半角: :
- ws 省略号,全角:…… …
- wp 破折号,全角:—— -- ——- 半角:— —-
- wb 百分号千分号,全角:% ‰ 半角:%
- wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
字符串(1个一类,2个二类)
- x 字符串
- xx 非语素字
- xu 网址URL
语气词(1个一类)
- y 语气词(delete yg)
状态词(1个一类)
- z 状态词
HanLP词性标注集
HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语。所以,HanLP词性标注集兼容《ICTPOS3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。
- a 形容词
- ad 副形词
- ag 形容词性语素
- al 形容词性惯用语
- an名形词
- b区别词
- begin 仅用于始##始
- bg 区别语素
- bl 区别词性惯用语
- c 连词
- cc 并列连词
- d 副词
- dg 辄,俱,复之类的副词
- dl 连语
- e 叹词
- end 仅用于终##终
- f 方位词
- g 学术词汇
- gb 生物相关词汇
- gbc 生物类别
- gc 化学相关词汇
- gg 地理地质相关词汇
- gi 计算机相关词汇
- gm 数学相关词汇
- gp 物理相关词汇
- gb 生物相关词汇
- h 前缀
- i 成语
- j 简称略语
- k 后缀
- l 习用语
- m 数词
- mg 数语素,Mg 甲乙丙丁之类的数词
- mq数量词
- n 名词
- nb 生物名
- nba 动物名
- nbc 动物纲目
- nbp 植物名
- nf 食品,比如“薯片”
- ng 名词性语素
- nh 医药疾病等健康相关名词
- nhd 疾病
- nhm 药品
- ni 机构相关(不是独立机构名)
- nic 下属机构
- nis 机构后缀
- nit 教育相关机构
- nl 名词性惯用语
- nm 物品名
- nmc 化学品名
- nn 工作相关名词
- nnd 职业
- nnt 职务职称
- nr人名
- nr1 复姓
- nr2 蒙古姓名
- nrf 音译人名
- nrj 日语人名
- ns 地名
- nsf 音译地名
- nt 机构团体名
- ntc公司名
- ntcb 银行
- ntcf 工厂
- ntch 酒店宾馆
- nth 医院
- nto 政府机构
- nts 中小学
- ntu大学
- nx 字母专名
- nz 其他专名
- nb 生物名
- o 拟声词
- p 介词
- pba 介词“把”
- pbei 介词“被”
- q 量词
- qg 量词语素
- qt 时量词
- qv 动量词
- r 代词
- rg 代词性语素
- Rg 古汉语代词性语素
- rr 人称代词
- ry 疑问代词
- rys 处所疑问代词
- ryt 时间疑问代词
- ryv 谓词性疑问代词
- rz 指示代词
- rzs 处所指示代词
- rzt 时间指示代词
- rzv 谓词性指示代词
- s 处所词
- t 时间词
- tg 时间词性语素
- u 助词
- ud 助词
- ude1 的 底
- ude2 地
- ude3 得
- udeng 等 等等 云云
- udh 的话
- ug 过
- uguo 过
- uj 助词
- ul 连词
- ule 了 喽
- ulian 连 (“连小学生都会”)
- uls 来讲 来说 而言 说来
- usuo 所
- uv 连词
- uyy 一样 一般 似的 般
- uz 着
- uzhe 着
- uzhi 之
- v 动词
- vd 副动词
- vf 趋向动词
- vg 动词性语素
- vi 不及物动词(内动词)
- vl 动词性惯用语
- vn 名动词
- vshi 动词“是”
- vx 形式动词
- vyou 动词“有”
- w 标点符号
- wb 百分号千分号,全角:% ‰ 半角:%
- wd 逗号,全角:, 半角:,
- wf 分号,全角:; 半角: ;
- wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
- wj 句号,全角:。
- wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
- wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
- wm 冒号,全角:: 半角: :
- wn 顿号,全角:、
- wp 破折号,全角:—— -- ——- 半角:— —-
- ws 省略号,全角:…… …
- wt 叹号,全角:!
- ww 问号,全角:?
- wyy 右引号,全角:” ’ 』
- wyz 左引号,全角:“ ‘ 『
- x 字符串
- xu 网址URL
- xx 非语素字
- y 语气词(delete yg)
- yg 语气语素
- z 状态词
- zg 状态词
- ud 助词
BosonNLP词性标注
BosonNLP词性标注集是基于《北京大学现代汉语语料库基本加工规范》和《计算所汉语词性标记集》修改得到的。 与最初《北京大学现代汉语语料库基本加工规范》相比,主要修改有:
- 姓名和起来标”nr”,只有姓单独出现的时候标”nr1”,如“张/nr1 教授/n”
- 短语型的地名、团体机构名称及其他专有名称只进行最小粒度的划分,不需要再合并标注。
- 去掉了各种语素,“Ng”,“Ag”等都标回“n”,“a”等。
- 去掉“i”(成语俗语)和“l”(惯用语)标签,改成“nl”、“al”、“bl”等各种词性的惯用语标签
- 去掉标签“j”(缩略词),将其标回原来的词性
- 依据《计算所汉语词性标记集》的标准对一些标签进行细分
- 增加标签“vi”(不及物动词)
共22个大类,70个标签
名词
- n 名词
- nr 人名(包括”@XXX”),姓名整体标注,如“李某某”、“李××”也标为nr
- nr1 中文姓氏,如果单出现姓氏,标为nr1,姓名一起出现的,合起来标nr
- nrf 音译人名,如“奥巴马”,“布拉德・皮特”
- ns 地名,如“中国”,“上海市”,“江浙”
- nt 组织机构名,如“中国队”,“央行”
- nz 其它专有名词,如“银联”,“腾讯”
- nl 名词性惯用语,如“豪言壮语”,“亲朋好友”
- nr 人名(包括”@XXX”),姓名整体标注,如“李某某”、“李××”也标为nr
时间词
- t 时间词,如“1988年”,”3月”
处所词
- s 处所词,如“国内”,“市区”
方位词
- f 方位词,如“上”,“下”,“前面”,“后面”
动词
- v 动词
- vd 副动词,如“持续/vd 提供/v”,“优先/vd 安排/v”
- vshi 动词“是”
- vyou 动词“有”
- vi 不及物动词,如“运营”,“点球”
- vl 动词性惯用语,如“远走高飞”,“相依为命”
形容词
- a 形容词
- ad 副形词,如“经过/p 谨慎/ad 筛选/v”
- an 名形词,如“虽然/c 困难/an 很多/m”
- al 形容词性惯用语,如“拥挤不堪”,“难能可贵”
区别词
- b 区别词,如“原来”,“所有”
- bl 区别词性惯用语,如“至关重要”,“光天化日”
状态词
- z 状态词,如“依旧”,“一头雾水”
代词
- r 代词,“我”,“这”,“谁”
数字
- m 数词
量词
- q 量词
副词
- d 副词,如“更”,“非常”
- dl 副词性惯用语,如“对了”,“万万”
介词
- p 介词
- pba 介词“把”
- pbei 介词“被”
连词
- c 连词,如“和”,“与”,“及”
助词
- u 助词
- uzhe 助词“着”
- ule 助词“了”
- uguo 助词“过”
- ude 助词“的”、“地”、“得”
- usuo 助词“所”
- udeng 助词“等”、“等等”
- uyy 助词“一样”、“似的”
- udh 助词“的话”
- uzhi 助词“之”
- ulian 助词“连”
语气词
- y 语气词,将原来的叹词也合并到语气词里面
拟声词
- o 拟声词
前缀
- h 前缀,如“非/h 正常/a”
19 后缀
- k 后缀,如“孩子/n 们/k”,“隐藏/v 式/k”
字符串
- nx 字符串,url和其他特殊字符除外
标点符号
- w 标点符号
- wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
- wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
- wyz 左引号,全角:“ ‘ 『
- wyy 右引号,全角:” ’ 』
- wj 句号,全角:。 半角:.
- ww 问号,全角:? 半角:?
- wt 叹号,全角:! 半角:!
- wd 逗号,全角:, 半角:,
- wf 分号,全角:; 半角: ;
- wn 顿号,全角:、
- wm 冒号,全角:: 半角: :
- ws 省略号,全角:…… …
- wp 破折号,全角:—— -- ——- 半角:— —-
- wb 百分号千分号,全角:% ‰ 半角:%
- wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
其它
- email 电子邮件地址 ,如“[email protected]”
- tel 电话号码,如:“13818636693”
- id 身份证号
- ip ip地址,如“127.0.0.1”
- url 网页链接,如“http://bosonnlp.com/”
结巴分词中出现的类型
- a 形容词
- ad 副形词
- ag形语素
- an副形词
- b区别词
- c连词
- d副词
- df
- dg副语素
- e叹词
- f方位词
- g语素
- h前接成分
- i成语
- j简称略语
- k后接成分
- l习用语
- m数词
- mg数语素
- mq 数量词
- n名词
- ng名词性语素
- nr人名
- nrfg
- nrt
- ns地名
- nt机构团体
- nz其他专名
- o拟声词
- p介词
- q量词
- r代词
- rg 代语素
- rr人称代词
- rz指示代词
- s处所词
- t时间词
- tg时语素
- u助词
- ud
- ug
- uj
- ul
- uv
- uz
- v动词
- vd副动词
- vg动语素
- vi不及物动词(内动词)
- vn名动词
- vq
- x非语素字
- y语气语素
- z状态词
- zg
其他参考资料:
No related posts.