自然语言处理之词性标注集

- - 标点符

词性标注（Part-of-Speech tagging 或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程. 实词：名词、动词、形容词、状态词、区别词、数词、量词、代词. 虚词：副词、介词、连词、助词、拟声词、叹词.

GitHub - hankcs/HanLP: 自然语言处理中文分词词性标注命名实体识别依存句法分析关键词提取自动摘要短语提取拼音简繁转换

- -

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用. HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点. 基于互信息和左右信息熵的短语提取. 简繁分歧词（简体、繁体、臺灣正體、香港繁體）. 基于神经网络的高性能依存句法分析器. CoNLL UA/LA/DA评测工具.

自然语言处理概览

- - 互联网 - ITeye博客

自然语言处理研究的是词、句、文档等几个层次的内容. 一、发展历史（前两个是理论、后一个是经验）. 1、形式语法（复杂特征集）. 2、词汇主义方法（WordNet、ConceptNet、FrameNet），人工总结和整理概念、层次、结构等 . 3、统计语言模型（语言有统计规律性，让机器去自己学习规律）.

自然语言处理某个pipeline

- - 互联网 - ITeye博客

1、数据源：包括文本、pdf、数据库等不同来源. 2、使用到的库：jieba gensim sklearn keras . 3、可以实现的服务：找出相关和相近词（以分词为准）、比较2个分词的相似度、和哪些相关同时和别的不相关（语义上的模糊查找）. 数据源的load->gensim->classifier(传统基于词频的/深度学习的 keras).

统计自然语言处理的基础学习之一

- - CSDN博客互联网推荐文章

理性主义：其实就是纯粹使用规则的方法处理自然语言，并认为这些语言规则天生就存在人的基因中. 在计算机中重现这些规则，就能学会人的语言处理能力. 经验主义：认为人有感知和学习能力，通过概括、模式识别、联想等能力，来学习到自然语言的结构. 哲学上的问题，类似于起源之类，就先别考虑的. 统计方法在NLP中的地位是什么.

[微信机器人_04]自然语言处理简单实现

- - CSDN博客互联网推荐文章

这篇博文中将介绍奇迹蛋自然语言处理模块的实现，自然语言处理的三个关键词：分词、建库、匹配. 机器人要如何来记忆这两组对话呢?. 这样存储当然没有问题，但是显然太土了，有没有其它的办法呢. 在存储过程中，总是希望能够去除冗余，即相同的词语能够只存储一次. 很容易想到，把句子拆分成词来存储. 如图所示，每个问题都拆分成词，并以词为节点建立树.

Quora在自然语言处理上的所做的工作

- - 标点符

问答网站最核心的内容是提供给优质的内容，如何让内容更加优质，处理分析大量的文本数据也是必不可少的工作. Quora有大量的文本数据，分布在Quora的数百万个问题、答案和评论中. 不仅如此，还有大量的元数据来补充我问答，包括”赞”和”踩”，用户对话题的兴趣或擅长与否，问题和话题的关系，话题去重合并，用户的社交和关系和影响力幅射，以及用户在Quora的每一个操作历史.

自然语言处理词向量化总结

- - 冰火岛

distributed representation 分布式表达（一类表示方法，基于统计含义），分散式表达（从一个高维空间X映射到一个低维空间Y）分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词，其语义也相似.. 自然语言处理的基础是词向量化，即文本数值化，后面进行数据挖掘工作就和常见的任务类似，即分类，聚类等等.

自然语言处理第一番之文本分类器

- - 小石头的码疯窝

文本分类应该是自然语言处理中最普遍的一个应用，例如文章自动分类、邮件自动分类、垃圾邮件识别、用户情感分类等等，在生活中有很多例子，这篇文章主要从传统和深度学习两块来解释下我们如何做一个文本分类器. 传统的文本方法的主要流程是人工设计一些特征，从原始文档中提取特征，然后指定分类器如LR、SVM，训练模型对文章进行分类，比较经典的特征提取方法如频次法、tf-idf、互信息方法、N-Gram.

从NLP到“自然语言理解”，Facebook如何让Messenger更懂人类？

- - 雷锋网

雷锋网按：Facebook的AML和FAIR团队合作进行自然语言处理对自然语言理解进行着合作研究. 在2017年4月19日举办的F8开发者大会上，Facebook向公众介绍了他们的研究进展、自然语言理解在Facebook产品中的应用，并且介绍了平民化的自然语言理解平台CLUE，希望依靠大家的力量，继续丰富自然语言理解的应用.

代码	名称	举例
a	形容词	最/d 大/a 的/u
ad	副形词	一定/d 能够/v 顺利/ad 实现/v 。/w
ag	形语素	喜/v 煞/ag 人/n
an	名形词	人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/w
b	区别词	副/b 书记/n 王/nr 思齐/nr
c	连词	全军/n 和/c 武警/n 先进/a 典型/n 代表/n
d	副词	两侧/f 台柱/n 上/ 分别/d 雄踞/v 着/u
dg	副语素	用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 节目/n 。/w
e	叹词	嗬/e ！/w
f	方位词	从/p 一/m 大/a 堆/q 档案/n 中/f 发现/v 了/u
g	语素	例如dg 或ag
h	前接成分	目前/t 各种/r 非/h 合作制/n 的/u 农产品/n
i	成语	提高/v 农民/n 讨价还价/i 的/u 能力/n 。/w
j	简称略语	民主/ad 选举/v 村委会/j 的/u 工作/vn
k	后接成分	权责/n 明确/a 的/u 逐级/d 授权/v 制/k
l	习用语	是/v 建立/v 社会主义/n 市场经济/n 体制/n 的/u 重要/a 组成部分/l 。/w
m	数词	科学技术/n 是/v 第一/m 生产力/n
n	名词	希望/v 双方/n 在/p 市政/n 规划/vn
ng	名语素	就此/d 分析/v 时/Ng 认为/v
nr	人名	建设部/nt 部长/n 侯/nr 捷/nr
ns	地名	北京/ns 经济/n 运行/vn 态势/n 喜人/a
nt	机构团体	[冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n]nt
nx	字母专名	ＡＴＭ/nx 交换机/n
nz	其他专名	德士古/nz 公司/n
o	拟声词	汩汩/o 地/u 流/v 出来/v
p	介词	往/p 基层/n 跑/v 。/w
q	量词	不止/v 一/m 次/q 地/u 听到/v ，/w
r	代词	有些/r 部门/n
s	处所词	移居/v 海外/s 。/w
t	时间词	当前/t 经济/n 社会/n 情况/n
tg	时语素	秋/Tg 冬/tg 连/d 旱/a
u	助词	工作/vn 的/u 政策/n
ud	结构助词	有/v 心/n 栽/v 得/ud 梧桐树/n
ug	时态助词	你/r 想/v 过/ug 没有/v
uj	结构助词的	迈向/v 充满/v 希望/n 的/uj 新/a 世纪/n
ul	时态助词了	完成/v 了/ ul
uv	结构助词地	满怀信心/l 地/uv 开创/v 新/a 的/u 业绩/n
uz	时态助词着	眼看/v 着/uz
v	动词	举行/v 老/a 干部/n 迎春/vn 团拜会/n
vd	副动词	强调/vd 指出/v
vg	动语素	做好/v 尊/vg 干/j 爱/v 兵/n 工作/vn
vn	名动词	股份制/n 这种/r 企业/n 组织/vn 形式/n ，/w
w	标点符号	生产/v 的/u ５Ｇ/nx 、/w ８Ｇ/nx 型/k 燃气/n 热水器/n
x	非语素字
y	语气词	已经/d ３０/m 多/m 年/q 了/y 。/w
z	状态词	势头/n 依然/z 强劲/a ；/w

代码	代码名称	帮助记忆的诠释	例子及注解
Ag	形语素	形容词性语素。形容词代码为a，语素代码ｇ前面置以A。	绿色/n 似/d 锦/Ag ，
a	形容词	取英语形容词adjective的第1个字母	[重要/a 步伐/n]NP ，美丽/a ，看似/v 抽象/a ，
ad	副形词	直接作状语的形容词。形容词代码a和副词代码d并在一起。	[积极/ad 谋求/v]V-ZZ ，幻象/n 易/ad 逝/Vg ，
an	名形词	具有名词功能的形容词。形容词代码a和名词代码n并在一起。	[外交/n 和/c 安全/an]NP-BL ，
Bg	区别语素	区别词性语素。区别词代码为b，语素代码ｇ前面置以B。	赤/Ag 橙/Bg 黄/a 绿/a 青/a 蓝/a 紫/a ，
b	区别词	取汉字“别”的声母。	女/b 司机/n，金/b 手镯/n，慢性/b 胃炎/n，古/b 钱币/n, 副/b 主任/n，总/b 公司/n 单音节区别词和单音节名词或名语素组合，作为一个词，并标以名词词性n。雄鸡/n，雌象/n，女魔/n，古币/n 少数“单音节区别词+双音节词”的结构作为一个词。总书记/n ，
c	连词	取英语连词conjunction的第1个字母。	合作/vn 与/c 伙伴/n
Dg	副语素	副词性语素。副词代码为d，语素代码ｇ前面置以D。	了解/v 甚/Dg 深/a ，煞/Dg 是/v 喜人/a ，
d	副词	取adverb的第2个字母，因其第1个字母已用于形容词。	进一步/d 发展/v ，
e	叹词	取英语叹词exclamation的第1个字母。	啊/e ，/w 那/r 金灿灿/z 的/u 麦穗/n ，
f	方位词	取汉字“方”。	军人/n 的/u 眼睛/n 里/f 不/d 是/v 没有/v 风景/n ，
h	前接成分	取英语head的第1个字母。	许多/m 非/h 主角/n 人物/n , 办事处/n 的/u “/w 准/h 政府/n ”/w 功能/n 不断/d 加强/v ,
i	成语	取英语成语idiom的第1个字母。	一言一行/i , 义无反顾/i ,
j	简称略语	取汉字“简”的声母。	[德/j 外长/n]NP , 文教/j ,
k	后接成分	后接成分。	少年儿童/l 朋友/n 们/k , 身体/n 健康/a 者/k ,
l	习用语	习用语尚未成为成语，有点“临时性”，取“临”的声母。	少年儿童/l 朋友/n 们/k , 落到实处/l ,
Mg	数语素	数词性语素。数词代码为m，语素代码ｇ前面置以M。	甲/Mg 减下/v 的/u 人/n 让/v 乙/Mg 背上/v , 凡/d “/w 寅/Mg 年/n ”/w 中/f 出生/v 的/u 人/n 生肖/n 都/d 属/v 虎/n ,
m	数词	取英语numeral的第3个字母，n，u已有他用。	1．数量词组应切分为数词和量词。三/m 个/q, 10/m 公斤/q, 一/m 盒/q 点心/n , 但少数数量词已是词典的登录单位，则不再切分。一个/m , 一些/m , 2. 基数、序数、小数、分数、百分数一律不予切分，为一个切分单位，标注为 m 。一百二十三/m，20万/m， 123.54/m, 一个/m, 第一/m，第三十五/m， 20%/m，三分之二/m，千分之三十/m, 几十/m 人/n，十几万/m 元/q，第一百零一/m 个/q , 3. 约数，前加副词、形容词或后加“来、多、左右”等助数词的应予分开。约/d 一百/m 多/m 万/m，仅/d 一百/m 个/q，四十/m 来/m 个/q，二十/m 余/m 只/q，十几/m 个/q，三十/m 左右/m ，两个数词相连的及“成百”、“上千”等则不予切分。五六/m 年/q，七八/m 天/q，十七八/m 岁/q，成百/m 学生/n，上千/m 人/n， 4．表序关系的“数＋名”结构，应予切分。二/m 连/n ，　三/m 部/n ,
Ng	名语素	名词性语素。名词代码为n，语素代码ｇ前面置以N。	出/v 过/u 两/m 天/q 差/Ng, 理/v 了/u 一/m 次/q 发/Ng,
n	名词	取英语名词noun的第1个字母。	（参见动词–v）岗位/n , 城市/n , 机会/n , 她/r 是/v 责任/n 编辑/n , ( 编辑/v 科技/n 文献/n )
nr	人名	名词代码n和“人(ren)”的声母并在一起。	1. 汉族人及与汉族起名方式相同的非汉族人的姓和名单独切分，并分别标注为nr。张/nr 仁伟/nr，欧阳/nr 修/nr，阮/nr 志雄/nr，朴/nr 贞爱/nr 汉族人除有单姓和复姓外，还有双姓，即有的女子出嫁后，在原来的姓上加上丈夫的姓。如：陈方安生。这种情况切分、标注为：陈/nr 方/nr 安生/nr；唐姜氏，切分、标注为：唐/nr 姜氏/nr。 2. 姓名后的职务、职称或称呼要分开。江/nr 主席/n，小平/nr 同志/n，江/nr 总书记/n，张/nr 教授/n，王/nr 部长/n，陈/nr 老总/n，李/nr 大娘/n，刘/nr 阿姨/n，龙/nr 姑姑/n 3. 对人的简称、尊称等若为两个字，则合为一个切分单位，并标以nr。老张/nr，大李/nr，小郝/nr, 郭老/nr，陈总/nr 4. 明显带排行的亲属称谓要切分开，分不清楚的则不切开。三/m 哥/n，大婶/n，大/a 女儿/n，大哥/n, 小弟/n, 老爸/n 5. 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。鲁迅/nr，茅盾/nr，巴金/nr，三毛/nr，琼瑶/nr，白桦/nr 6. 外国人或少数民族的译名（包括日本人的姓名）不予切分，标注为nr。克林顿/nr，叶利钦/nr，才旦卓玛/nr，小林多喜二/nr，北研二/nr, 华盛顿/nr，爱因斯坦/nr 有些西方人的姓名中有小圆点，也不分开。卡尔·马克思/nr
ns	地名	名词代码n和处所词代码s并在一起。	（参见2。短语标记说明–NS）安徽/ns，深圳/ns，杭州/ns，拉萨/ns，哈尔滨/ns，呼和浩特/ns，乌鲁木齐/ns，长江/ns，黄海/ns，太平洋/ns，泰山/ns，华山/ns，亚洲/ns, 海南岛/ns，太湖/ns，白洋淀/ns, 俄罗斯/ns，哈萨克斯坦/ns，彼得堡/ns，伏尔加格勒/ns 1. 国名不论长短，作为一个切分单位。中国/ns，中华人民共和国/ns，日本国/ns，美利坚合众国/ns，美国/ns 2. 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、“府”、“道”等单字的行政区划名称时，不切分开，作为一个切分单位。四川省/ns，天津市/ns，景德镇/ns沙市市/ns，牡丹江市/ns，正定县/ns，海淀区/ns, 通州区/ns，东升乡/ns，双桥镇/ns 南化村/ns，华盛顿州/ns，俄亥俄州/ns，东京都/ns，大阪府/ns，北海道/ns，长野县/ns，开封府/ns，宣城县/ns 3. 地名后的行政区划有两个以上的汉字，则将地名同行政区划名称切开，不过要将地名同行政区划名称用方括号括起来，并标以短语NS。 [芜湖/ns 专区/n] NS， [宣城/ns 地区/n]ns， [内蒙古/ns 自治区/n]NS， [深圳/ns 特区/n]NS， [厦门/ns 经济/n 特区/n]NS， [香港/ns 特别/a 行政区/n]NS， [香港/ns 特区/n]NS， [华盛顿/ns 特区/n]NS, 4. 地名后有表示地形地貌的一个字的普通名词，如“江、河、山、洋、海、岛、峰、湖”等，不予切分。鸭绿江/ns，亚马逊河/ns, 喜马拉雅山/ns, 珠穆朗玛峰/ns，地中海/ns，大西洋/ns，洞庭湖/ns，塞普路斯岛/ns 5. 地名后接的表示地形地貌的普通名词若有两个以上汉字，则应切开。然后将地名同该普通名词标成短语NS。 [台湾/ns 海峡/n]NS，[华北/ns 平原/n]NS，[帕米尔/ns 高原/n]NS， [南沙/ns 群岛/n]NS，[京东/ns 大/a 峡谷/n]NS [横断/b 山脉/n]NS 6．地名后有表示自然区划的一个字的普通名词，如“ 街，路，道，巷，里，町，庄，村，弄，堡”等，不予切分。中关村/ns，长安街/ns，学院路/ns，景德镇/ns, 吴家堡/ns, 庞各庄/ns，三元里/ns，彼得堡/ns, 北菜市巷/ns, 7．地名后接的表示自然区划的普通名词若有两个以上汉字，则应切开。然后将地名同自然区划名词标成短语NS。 [米市/ns 大街/n]NS, [蒋家/nz 胡同/n]NS , [陶然亭/ns 公园/n]NS , 8．大小地名相连时的标注方式为：北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]NS [蒋家/nz 胡同/n]NS 24/m 号/q ,
nt	机构团体	“团”的声母为t，名词代码n和t并在一起。	（参见2。短语标记说明–NT）联合国/nt，中共中央/nt，国务院/nt，北京大学/nt 1．大多数团体、机构、组织的专有名称一般是短语型的，较长，且含有地名或人名等专名，再组合，标注为短语NT。 [中国/ns 计算机/n 学会/n]NT， [香港/ns 钟表业/n 总会/n]NT, [烟台/ns 大学/n]NT, [香港/ns 理工大学/n]NT, [华东/ns 理工大学/n]NT, [合肥/ns 师范/n 学院/n]NT， [北京/ns 图书馆/n]NT, [富士通/nz 株式会社/n]NT, [香山/ns 植物园/n]NT, [安娜/nz 美容院/n]NT， [上海/ns 手表/n 厂/n]NT， [永和/nz 烧饼铺/n]NT， [北京/ns 国安/nz 队/n]NT, 2. 对于在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名，也标为nt或NT。联合国/nt,国务院/nt，外交部/nt，财政部/nt，教育部/nt, 国防部/nt， [世界/n 贸易/n 组织/n]NT， [国家/n 教育/vn 委员会/n]NT， [信息/n 产业/n 部/n]NT， [全国/n 信息/n 技术/n 标准化/vn 委员会/n]NT， [全国/n 总/b 工会/n]NT， [全国/n 人民/n 代表/n 大会/n]NT，美国的“国务院”，其他国家的“外交部、财政部、教育部”，必须在其所属国的国名之后出现时，才联合标注为NT。 [美国/ns 国务院/n]NT， [法国/ns 外交部/n]NT， [美/j 国会/n]NT，日本有些政府机构名称很特别，无论是否出现在“日本”国名之后都标为nt。 [日本/ns 外务省/nt]NT， [日/j 通产省/nt]NT 通产省/nt 3. 前后相连有上下位关系的团体机构组织名称的处理方式如下: [联合国/nt 教科文/j 组织/n]NT， [中国/ns 银行/n 北京/ns 分行/n]NT， [河北省/ns 正定县/ns 西平乐乡/ns 南化村/ns 党支部/n]NT，当下位名称含有专名（如“北京/ns 分行/n”、“南化村/ns 党支部/n”、“昌平/ns 分校/n”）时，也可脱离前面的上位名称单独标注为NT。 [中国/ns 银行/n]NT [北京/ns 分行/n]NT，北京大学/nt [昌平/ns 分校/n]NT，4. 团体、机构、组织名称中用圆括号加注简称时: [宝山/ns 钢铁/n （/w 宝钢/j ）/w 总/b 公司/n]NT， [宝山/ns 钢铁/n 总/b 公司/n]NT，（/w 宝钢/j ）/w
nx	外文字符	外文字符。	A/nx 公司/n ，B/nx 先生/n ，X/nx 君/Ng , 24/m K/nx 镀金/n , C/nx 是/v 光速/n , Windows98/nx , PentiumIV/nx , I LOVE THIS GAME/nx ,
nz	其他专名	“专”的声母的第1个字母为z，名词代码n和z并在一起。	（参见2。短语标记说明–NZ）除人名、国名、地名、团体、机构、组织以外的其他专有名词都标以nz。满族/nz，俄罗斯族/nz，汉语/nz，罗马利亚语/nz，捷克语/nz，中文/nz, 英文/nz，满人/nz，哈萨克人/nz，诺贝尔奖/nz，茅盾奖/nz, 1.包含专有名称（或简称）的交通线，标以nz；短语型的，标为NZ。津浦路/nz，石太线/nz， [京/j 九/j 铁路/n]NZ, [京/j 津/j 高速/b 公路/n]NZ， 2. 历史上重要事件、运动等专有名称一般是短语型的，按短语型专有名称处理，标以NZ。 [卢沟桥/ns 事件/n]NZ, [西安/ns 事变/n]NZ，[五四/t 运动/n]NZ, [明治/nz 维新/n]NZ，[甲午/t 战争/n]NZ, 3.专有名称后接多音节的名词，如“语言”、“文学”、“文化”、“方式”、“精神”等，失去专指性，则应分开。欧洲/ns 语言/n，法国/ns 文学/n，西方/ns 文化/n，贝多芬/nr 交响乐/n, 雷锋/nr 精神/n, 美国/ns 方式/n，日本/ns 料理/n，宋朝/t 古董/n 4. 商标（包括专名及后接的“牌”、“型”等）是专指的，标以nz，但其后所接的商品仍标以普通名词n。康师傅/nr 方便面/n, 中华牌/nz 香烟/n, 牡丹III型/nz 电视机/n, 联想/nz 电脑/n, 鳄鱼/nz 衬衣/n，耐克/nz 鞋/n 5. 以序号命名的名称一般不认为是专有名称。 2/m 号/q 国道/n ，十一/m 届/q 三中全会/j 如果前面有专名，合起来作为短语型专名。 [中国/ns 101/m 国道/n]NZ, [中共/j 十一/m 届/q 三中全会/j]NZ, 6. 书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识，不作为专有名词。由于这些名字往往较长，名字本身按常规处理。《/w 宁波/ns 日报/n 》/w ，《/w 鲁迅/nr 全集/n 》/w, 中华/nz 读书/vn 报/n, 杜甫/nr 诗选/n，少数书名、报刊名等专有名称，则不切分。红楼梦/nz，人民日报/nz，儒林外史/nz 7. 当有些专名无法分辨它们是人名还是地名或机构名时，暂标以nz。 [巴黎/ns 贝尔希/nz 体育馆/n]NT, 其中“贝尔希”只好暂标为nz。
o	拟声词	取英语拟声词onomatopoeia的第1个字母。	哈哈/o 一/m 笑/v , 装载机/n 隆隆/o 推进/v ,
p	介词	取英语介词prepositional的第1个字母。	对/p 子孙后代/n 负责/v , 以/p 煤/n 养/v 农/Ng , 为/p 治理/v 荒山/n 服务/v , 把/p 青年/n 推/v 上/v 了/u 领导/vn 岗位/n ,
q	量词	取英语quantity的第1个字母。	（参见数词m）首/m 批/q , 一/m 年/q ,
Rg	代语素	代词性语素。代词代码为r,在语素的代码g前面置以R。	读者/n 就/d 是/v 这/r 两/m 棵/q 小树/n 扎根/v 于/p 斯/Rg 、/w 成长/v 于/p 斯/Rg 的/u 肥田/n 沃土/n ,
r	代词	取英语代词pronoun的第2个字母,因p已用于介词。	单音节代词“本”、“每”、“各”、“诸”后接单音节名词时，和后接的单音节名词合为代词；当后接双音节名词时，应予切分。本报/r，每人/r，本社/r，本/r 地区/n，各/r 部门/n
s	处所词	取英语space的第1个字母。	家里/s 的/u 电脑/n 都/d 联通/v 了/u 国际/n 互联网/n , 西部/s 交通/n 咽喉/n ,
Tg	时语素	时间词性语素。时间词代码为t,在语素的代码g前面置以T。	３日/t 晚/Tg 在/p 总统府/n 发表/v 声明/n , 尊重/v 现/Tg 执政/vn 当局/n 的/u 权威/n ,
t	时间词	取英语time的第1个字母。	1. 年月日时分秒，按年、月、日、时、分、秒切分，标注为t 。 1997年/t 3月/t 19日/t 下午/t 2时/t 18分/t 若数字后无表示时间的“年、月、日、时、分、秒”等的标为数词m。 1998/m 中文/n 信息/n 处理/vn 国际/n 会议/n 2. 历史朝代的名称虽然有专有名词的性质，仍标注为t。西周/t，秦朝/t，东汉/t，南北朝/t，清代/t “牛年、虎年”等一律不予切分，标注为：牛年/t, 虎年/t, 甲午年/t，甲午/t 战争/n，庚子/t 赔款/n, 戊戌/t 变法/n
u	助词	取英语助词auxiliary。	[[俄罗斯/ns 和/c 北约/j]NP-BL 之间/f [战略/n 伙伴/n 关系/n]NP 的/u 建立/vn]NP 填平/v 了/u [[欧洲/ns 安全/a 政治/n]NP 的/u 鸿沟/n]NP
Vg	动语素	动词性语素。动词代码为v。在语素的代码g前面置以V。	洗/v 了/u 一个/m 舒舒服服/z 的/u 澡/Vg
v	动词	取英语动词verb的第一个字母。	（参见名词–n） [[[欧盟/j 扩大/v]S 的/u [历史性/n 决定/n]NP]NP 和/c [北约/j 开放/v]S]NP-BL [为/p [创建/v [一/m 种/q 新/a 的/u 欧洲/ns 安全/a 格局/n]NP]VP-SBI]PP-MD [奠定/v 了/u 基础/n]V-SBI , , 编辑/v 科技/n 文献/n , (她/r 是/v 责任/n 编辑/n )
vd	副动词	直接作状语的动词。动词和副词的代码并在一起。	形势/n 会/v 持续/vd 好转/v , 认为/v 是/v 电话局/n 收/v 错/vd 了/u 费/n ,
vn	名动词	指具有名词功能的动词。动词和名词的代码并在一起。	引起/v 人们/n 的/u 关注/vn 和/c 思考/vn , 收费/vn 电话/n 的/u 号码/n ,
w	标点符号		”/w ：/w
x	非语素字	非语素字只是一个符号，字母x通常用于代表未知数、符号。
Yg	语气语素	语气词性语素。语气词代码为y。在语素的代码g前面置以Y。	唯/d 大力/d 者/k 能/v 致/v 之/u 耳/Yg
y	语气词	取汉字“语”的声母。	会/v 泄露/v 用户/n 隐私/n 吗/y , 又/d 何在/v 呢/y ？
z	状态词	取汉字“状”的声母的前一个字母。	取得/v 扎扎实实/z 的/u 突破性/n 进展/vn , 四季/n 常青/z 的/u 热带/n 树木/n , 短短/z 几/m 年/q 间,

自然语言处理之词性标注集

《PFR人民日报标注语料库》词性编码表

《现代汉语语料库加工规范——词语切分与词性标注》词性标记

计算所 ICTCLAS 3.0汉语词性标记集

HanLP词性标注集

BosonNLP词性标注

结巴分词中出现的类型

相关 [自然语言词性] 推荐：