搜索NLP行业模型和轻量化客户定制

标签: 搜索 nlp 行业 | 发表时间:2021-12-27 06:00 | 作者:阿里云云栖号
出处:https://juejin.cn/backend

简介:开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用。

特邀嘉宾:

徐光伟(昆卡)--阿里巴巴算法专家

搜索NLP算法

搜索链路

这是一个完整的从查询词到搜索结果的链路, 其中NLP算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP 算法模块,如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等。系统是结合文本和语义向量多路召回排序的架构,从而满足不同业务场景的搜索效果需求。当然除了查询分析,在第一阶段的搜索引导以及第四阶段的排序服务中也有很多NLP 算法的应用。

查询分析

NLP 算法主要在这里的几个子模块发挥作用:

  • 分词,精准的分词可以提高检索效率,也会让召回结果更加精准,
  • 拼写纠错,对用户输入的query中出现拼拼写错误可以自动去纠错,提高搜索的体验。
  • 实体识别,可以对query 中的每个词打上对应的实体标签,从而为后续的query改写和排序提供关键的特征。
  • 词权重模型,会对每个词打上高、中、低的档位,在查询结果时去做丢词的重查。
  • 同义词,扩展出相同意思的词来扩大召回范围。
  • 最后是经过完整的查询分析模块之后的一个整体的 query改写,将用户输入的query转换成我们搜索引擎能识别到的查询串。

现在开放搜索不仅支持了阿里自研的搜索引擎,也对开源的ES引擎做了兼容,可以让用户更方便的使用到我们的算法能力。

行业模型

客户痛点

1.通用模型领域适配难

  • 通用模型主要解决新闻资讯行业问题;
  • 在具体行业上效果会大打折扣;

例如:通用领域和电商领域的模型的区别

2.公开行业模型少

  • 云服务产商基本只提供通用模型
  • 公开行业数据集也主要覆盖通用领域

解决难度

构建一个行业搜索NLP 模型的流程:

  1. 首先是 标注数据集这一步对于行业知识的要求非常高,同时对于 数据量的要求也需要达到万级别, 标注这样的数据同时也需要数个月的时间
  2. 接着是模型训练,这一步是需要有 专业的算法人员,如果不是对算法不熟悉的话,模型的迭代效率会很低
  3. 最后是模型上线这一步需要 工程人员去部署运维,如果涉及到深度模型的一些上线,还会有很多效率优化的工作需要去做。在数据集标注阶段其实就已经存在了很多的挑战。

分词标注难点

1.领域知识要求高

例如:

  • 药物的名称:利多卡因氯己定气雾剂 | 利多卡因 氯己定 气雾剂
  • 地址:南召县四棵树乡王营村 | 南召 县 四棵树 乡 王营 村

2.交叉歧义判断难

例如:

  • 洗衣服粉 | 洗衣 服 粉

实体识别标注难点

1.领域知识要求高

例如:

  • 澳洲爱他美(母婴品牌)金装一段、科比(球鞋系列)4
  • pytorch实现GAN(算法模型)

解决方法

开放搜索基于阿里巴巴内部搜索的数据积累,结合自动化数据挖掘和自研的算法模型,对行业模型的构建链路做了一个改造。

同样是以分词和NER为例,下面模型图是分词的流程。 我们首先通过自动的新词发现算法去挖掘目标领域的领域新词,得到这些新词之后,我们会在目标领域上去构建一个远程监督的训练数据。

基于这样的远程监督训练数据,我们提出了一个 对抗学习网络的结构模型,结构可以达到降噪的效果,从而去年得到一个我们目标领域的领域模型。

下面的模型图是NER的流程,我们采用了 结合图神经网络的graph NER的模型结构,它可以融合知识库和标注数据。 知识库是由刚才分词的链路中新词发现模块自动挖掘出的新词,然后我们做一个自动的实体词打标,从而去构建出领域的知识库。对应的技术论文我们都已经发表在NLP 领域顶会ACL上。

小结一下,通过上面提到的技术方案,以电商行业为例,看一下开放搜索行业模型上达到的效果。

可以看到开放搜索的电商行业增强版都明显比通用版效果会好很多。

这套方案不仅仅适用于电商行业,只要是有数据积累的行业,都可以快速构建出一套行业模型。

开放搜索轻量化客户定制

客户痛点

首先可以看到通用模型直接使用大概能达到一个60分的效果。

刚刚提到的行业模型,适用能力可以达到80分的效果。

但具体到每个客户又存在细分领域的定制问题。 一般客户的目标可能是要达到90分。

比如下面的两个例子:

  1. 左边的这个“万斯汽水系列”,这其实是一个球鞋的一个具体的品牌和系列名称, 虽然开放搜索电商模型已经可以把品牌和普通词识别正确,但是对于汽水这个具体的细分的系列并没有正确的识别好。
  2. 下面右边的这个例子是“汉本萃葆蔚饮品”。这里开放搜索的电商模型完全没有识别出其中特有的品牌和它的子系列,客户在我们提供的行业模型基础上如果去做自主的定制优化一样会遇到上面介绍行业模型解决方案时的那些问题,从而最终很难去突破85分,

我们的目标是减少客户的标注成本,完全无标注或者少量简单的标注,让客户的定制会更加易用,从而直接达到一个85分的效果。

解决思路

整体的流程和行业模型构建链路类似,要把这些 能力产品工具化让客户可以自主参与调优。

  1. 新建训练模型

下图是我们做的一个工具demo,上面是创模型,创建部分客户可以选择基础的行业模型,然后上传自己的领域无标注的数据就可以自动的开始模型的训练。

2.效果评估

下面是模型训练之后客户可以在我们的系统上面去做一个直观的效果评估,可以看到这里会列出基础的模型和以及自动训练之后的模型的效果的变化,客户也可以去做少量的人工标注来验证模型的效果。

这个链路目前已经在阿里内部使用,近期还会在开放搜索的产品上透出给到客户,原来我们去做一个轻量化的客户定制达到上述效果可能需要一到两个月的时间,还需要去标注1万句以上的这些标注数据。 现在的话基于这套方案只需要一周的时间,完全无标注或者只需要去标注1000个此以内的标注数据就可以达到这样的效果。

轻量化定制效果展示

我们的工具可以自动发现出场景中的这些新词,并对这些新词做实体标签的预测,可以看到括号中的这些新词是在不同的上下文中预测出的,标签的一个分布从而指导我们去判断这个新词它是否是一个合法的新词,以及它属于的实体标签到底是什么,为我们的模型去提供最关键的信息。

地址场景

电商场景

原文链接
本文为阿里云原创内容,未经允许不得转载。

相关 [搜索 nlp 行业] 推荐:

搜索NLP行业模型和轻量化客户定制

- - 掘金 后端
简介:开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用. 徐光伟(昆卡)--阿里巴巴算法专家. 这是一个完整的从查询词到搜索结果的链路, 其中NLP算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP 算法模块,如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等.

NLP入门之语音模型原理

- - IT瘾-bigdata
这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习.. 1:传统的语音识别方法:. 这里我们讲解一下是如何将声音变成文字,如果有兴趣的同学,我们可以深入的研究.. 首先我们知道声音其实是一种波,常见的MP3等都是压缩的格式,必须要转化成非压缩的纯波形的文件来处理,下面以WAV的波形文件来示例:.

谷歌最强 NLP 模型 BERT 解读

- - 雷锋网
雷锋网 AI 科技评论按:本文是追一科技潘晟锋基于谷歌论文为 AI 科技评论提供的解读稿件. 最近谷歌研究人员通过新的BERT模型在11项NLP任务中夺得STOA结果,这在自然语言处理学界以及工业界都引起了不小的热议. 作者通过在33亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,这样的模型在不同的任务均得到了目前为止最好的结果,并且有一些结果相比此前的最佳成绩得到了幅度不小的提升.

15分钟入门NLP神器—Gensim

- - IT瘾-geek
   作者:李雪冬           . 编辑:李雪冬           . 作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这是一款具备多种功能的神器. Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达.

NLP大师李中莹教你省时100条

- - 佳人
NLP大师李中莹教你省时100条,大师辛苦总结的经验,对照自己开始上进吧. 1、随身携带一本小册子,每想到要做的事都马上写下. 无需写得详细,能唤起自己记忆便可. 2、每天下班前,把所有明天需做的事依缓急程度排列写下,并且定下每项之预算时间需要,作为明天的工作计划. 3、每周的最后一天,检查一下下周需做的事.

【NLP主流最大的偏见,规则系统的手工性】

- - 我爱自然语言处理
【科普随笔:NLP主流的傲慢与偏见】中的第一条是 :. 【偏见一】规则系统的手工编制(hand-crafted)是其知识瓶颈,而机器学习是自动训练的(言下之意:因此没有知识瓶颈). NLP(Natural Language Processing)主流对规则系统和语言学家大小偏见积久成堆,这一条可以算是万偏之源.

如何在NLP领域第一次做成一件事

- - 微软亚洲研究院
周明,微软亚洲研究院首席研究员、ACL候任主席(president)、中国计算机学会中文信息技术专委会主任、中国中文信息学会常务理事、哈工大、天津大学、南开大学、山东大学等多所学校博士导师. 1985年毕业于重庆大学,1991年获哈工大博士学位. 1991-1993年清华大学博士后,随后留校任副教授.

NLP----关键词提取算法(TextRank,TF/IDF)

- - IT瘾-geek
参考书目:python自然语言处理实战——核心技术与算法. 基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力. 因此中和这两个数,就能较好地算出文档的关键词. |D_i|是文档中出现词i的文档数量,|D|是文档数.

Tensorflow实现的深度NLP模型集锦(附资源)

- - 机器之心
本文收集整理了一批基于Tensorflow实现的深度学习/机器学习的深度NLP模型. 基于Tensorflow的自然语言处理模型,为自然语言处理问题收集机器学习和Tensorflow深度学习模型,100%Jupeyter NoteBooks且内部代码极为简洁. 原始的实现稍微有点复杂,对于初学者来说有点难.

深入理解NLP中的文本情感分析(华为)

- - 标点符
为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等. 这些评价中都蕴含着巨大的商业价值. 比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动. 而这种正负面评价的分析就是情感分析的主要应用场景.