百度关键词搜索推荐系统交互流程

标签: 互联网 产品 推荐系统 关键词推荐 引导系统 | 发表时间:2014-01-26 13:42 | 作者:semo2524
出处:http://semocean.com

如果把百度凤巢系统比作商场,那这个商场的主要商品是什么?答案就是‘流量’,而关键词,就是流量对广告主最直观的表现载体。

客户想要在百度上做搜索广告,就需要找到能够准确描述自己推广意图的关键词集合;但另一方面,目前百度凤巢系统拍卖词接近10亿,百度每天有PV关键词约数十亿。从这些词海中淘出优质关键词,无论对于客户本身,还是为客户打理账户的客服而言都是一大挑战。
此时百度关键词搜索推荐工具(KR)就显现出它的重要作用。
那KR到底是什么呢?顾名思义,KR(Keyword Recommendation缩写)就是百度向客户推荐关键词的工具。当然,KR不仅提供诸如被动,主动,按URL,按行业等推荐形式为客户推荐个性化关键词,同时还提供像种子词,种子URL,Suggestion等引导提词技术;另外KR还提供客户账户诊断优化服务,一方面优化客户账户结构,提升客户提词,账户管理效率,同时也达到提升客户消费,提升百度凤巢系统整体消费的功能。

因为该工具是提供给百度广告主使用的,所以在网络上没有直接的入口,需要再www2.baidu.com上注册帐号后,找到‘关键词工具’后进行访问。

百度关键词搜索推荐交互

以下为关键词工具使用流程:

广告主进入KR入口(www2.baidu.com)中有多个入口,此时KR会根据广告主在凤巢中的历史操作行为,为其推荐种子关键词,广告主可以直接点击种子关键词进行搜索(种子关键词主要是面向对KR使用不熟练的客户,对他们的使用进行引导,百度搜索框也没有该功能,该功能为KR独有); 之后网民可输入搜索搜索query获取和该query字面,语义相似的关键词,同时系统会返回和这些关键词相关的属性。然后用户可以对关键词进行筛选及分组(系统会提供多种分组建议)

KR关键词搜索推荐流程

图: 百度关键词搜索推荐系统交互示意图

同时KR也提供传统推荐的方式为广告主推荐关键词。就是根据客户历史提词行为,使用SVD,图关系挖掘等协同过滤技术直接将结果推荐给广告主,广告主无需有任何交互输入,直接进入提词页面就能看到结果。

搜索系统策略架构

百度关键词搜索推荐系统(KR)不仅提供典型的推荐服务,即不搜既得,同时也提供搜索功能,即用户输入关键词进行搜索,KR推荐出与该关键词最相关的top n 关键词, 这些关键词不仅附带有容易理解的推荐理由(表明该关键词为何推荐出来),同时附带有关键词的各种属性(例如关键词在百度上的流量,竞争激烈程度等信息),同时对关键词按照字面,语义进行聚类;推荐出来的关键词默认已按照字面,语义相关性及marketing rule进行了排序。 以下为KR搜索过程online部分的策略架构(offline部分涉及较多数据挖掘逻辑,参见之前的文章介绍)

KR_online_检索系统策略架构

其中最底层为各种基础数据及这些基础数据经过预处理, 清洗后的存储, 以及基于这些过程的挖掘数据。当用户发起一次请求时,系统会经历以下主要步骤:

  1. 关键词触发: 根据经典的字面进行触发以及语义, 同购关系及复杂图关系的挖掘数据,触发出推荐关键词的候选。
  2. 相关性准入:考虑到后续的过滤步骤, 触发的关键词量一般需要比最终需要的关键词数量多以保证召回。此时需要对这些候选关键词进行相关性过滤。例如使用GBDT模型进行二分类: 相关 or 不相关。
  3. audit:推荐出的关键词可能涉及黄赌毒, 为避免风险, 这些关键词需在推荐时尽早过滤。
  4. ranking:为提升KR推荐的效率, 使用提词率模型,效用模型及价值模型对剩下的候选关键词进行排序,同时需要根据应用场景对关键词进行过滤(例如用户有pv过滤需求,则需要将pv值小于阈值的关键词过滤)
  5. marketing rule:此处集中了人工干预的逻辑,例如: 假设某个时间段需要KR推荐该消费的关键词,此时可以在此处增加逻辑对候选关键词队列进行重排序; 或者对于某些bad case进行过滤。
  6. UI:关键词的展现, 以及保存等功能,同时包含传统推荐系统的正负反馈信息收集,反馈等机制; 以及KR独有的关键词分组功能,信息筛选功能等。

主动推荐策略架构

KR中的主动推荐,就是传统的推荐技术在百度关键词搜索推荐中的应用。所谓主动,是针对KR而言的:关键词,广告主无需发起交互操作,KR即使用传统推荐技术: content-based, collaborative filtering及多种技术混合的hybrid filtering方法向广告主推荐结果。

以下为KR主动推荐的策略架构, 一方面KR使用网民搜索日志,点击日志,广告库数据构建item候选集合,另一方面系统收集广告主的反馈(explicit or implicit)构建user profile,之后基于这些信息使用推荐算法向客户进行推荐。如果 说KR中的搜索功能是即搜即得, 那么主动推荐就是不搜即得

KR主动推荐逻辑

 

图:百度关键词搜索推荐系统主动推荐策略架构

按网页内容进行推荐

百度凤巢广告主都有自己的推广网站(或主页),而要达到较好的推广效果,广告主应该提交与网页相关性较高的关键词,否则即使广告主因为提交了一个高PV的关键词导致来到网站的流量较高, 也会因为内容与关键词不相关而导致转化较低而得不偿失。

KR为此提供了按URL进行推荐, 即广告主在KR搜索框中输入某一个网址(例如semocean.com),则KR会抓取该网站并分析其中的主题词进行推荐, 以下为主要的策略流程。

KR按URL推荐

图:KR按URL推荐策略处理流程

每一种KR推荐算法, 或者做一个延伸:每一个商业搜索引擎中, 都会包含以下几个模块:触发,相关性过滤,rank,marketing rule。

其中触发是根据输入,找到一个相对较大的候选集合, 之后的所有排序过滤都是针对该集合的;例如搜索引擎中,根据网民输入的query,进行简单的字面语义匹配后,找到潜在的候选集合作为后续处理的对象; 之后对返回的结果进行相关性过滤及排序,最后根据一些业务规则进行强制过滤及重排序。

KR排序模型

图:KR搜索推词逻辑

 

百度关键词工具介绍参见:http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博: weibo.com/dustinsea

或是直接访问: http://semocean.com

相关 [百度 关键词 搜索] 推荐:

百度关键词搜索推荐系统交互流程

- - Dustinsea
如果把百度凤巢系统比作商场,那这个商场的主要商品是什么. 答案就是‘流量’,而关键词,就是流量对广告主最直观的表现载体. 客户想要在百度上做搜索广告,就需要找到能够准确描述自己推广意图的关键词集合;但另一方面,目前百度凤巢系统拍卖词接近10亿,百度每天有PV关键词约数十亿. 从这些词海中淘出优质关键词,无论对于客户本身,还是为客户打理账户的客服而言都是一大挑战.

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

- - Dustinsea
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题. 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别. 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计. 结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求.

必应 Bing 2012 年度热门搜索关键词

- - LiveSino 中文版
微软今天 公布了必应 Bing 2012 年度的热门关键词榜单,根据官方的算法,有以下分类的列表:人物、体育明星、音乐人、奥运会运动员、真人秀电视明星、名人夫妇、名人事件、新闻、科技、电影、音乐、视频、电视、真人秀电视、日间电视、时尚、目的地、假期标志、其他搜索数据. 下面是一些分类的 Bing 搜索关键词排行:.

Python批量挖掘百度下拉框关键词

- - 张亚楠博客
百度下拉框的关键词,一直是SEO关键词拓展的利器,只要在搜索框中输入一个关键词,就可以得到一批相关词. 我有个小技巧, 可瞬间提升上百倍的挖掘效率. 并且 通过Python实现后,完全可用于 大规模关键词的批量挖掘. 思路其实很简单,有些朋友也有了解. 记得当时跟夜息分享的时候,他一直说666 :).

百度与DoCoMo合作,移动搜索?

- - 最科技 | 关注互联网科技与应用创新的TMT媒体
百度与DoCoMo合作,移动搜索. 日前,日本运营商DoCoMo已经证实,在百度移信已经完成了2250万美元的投资,投资所占份额多达20%,其手机增值业务与中国搜索公司百度合作投资. 其服务旨在为全国各地移动设备的增值服务和数字内容提供一个良好的平台. 该公司说,这个平台是建立在DoCoMo在移动内容和服务空间丰富的经验之上的,同时借助于百度强大的影响力和品牌效应,为其提供强大的搜索技术和不断增长的移动足迹.

百度搜索评测三阶段

- - 互联网旁观者
作为搜索引擎,百度的目的是要让搜索结果的呈现次序更好. 这是设计任何算法之前必须考虑好的问题. “好”必须变成一个可以量化的指标. 来自百度网页搜索部的彭滔就跟我们介绍了他们的经验. 在百度搜索的发展历程中,“好”的评估方式大致被分为三个阶段. 彭滔取了一个query用作例子:“给我一片关于春天的作文,要长的,快点”.

百度搜索URL参数解析

- - 标点符
百度的搜索URL存在着一定的规律和逻辑,下面的链接是我使用百度搜索“标点符”后得到的链接,下面就来一起分析下百度搜索结果URL的秘密. URL中的s?表示搜索,&符号起到参数分割的作用. wd:Keyword,查询的关键词,有时还会是 word,比如 www.hao123.com打开的链接就是word,wd后面的关键词使用gb2312进行编码,如果搜索词中出现空格则使用+号替换;.

听百度搜索PM说:神马搜索怎么做才能打败百度

- - 极客公园-GeekPark
极客一枚,只做搜索,欢迎关注@葛灿辉-搜索数据挖掘. [核心提示]神马搜索借 UC 之势迅速崛起,它能够超越现在的搜索老大百度吗. 百度搜索的产品经理对此提供了一些「内部参考」. 最近神马搜索靠着 UC 浏览器的渠道优势迅速发展壮大,那么它如何才能够打败百度,成为移动搜索市场的老大呢. 超越百度的一定不是下一个百度.

百度搜索研发部:日志分析方法概述

- wuwu - 标点符
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等. 日志的内容、规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志. 其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志.