Python批量挖掘百度下拉框关键词

标签: python 百度 关键词 | 发表时间:2017-06-23 18:00 | 作者:张亚楠博客
出处:http://www.zhidaow.com/


百度下拉框的关键词,一直是SEO关键词拓展的利器,只要在搜索框中输入一个关键词,就可以得到一批相关词。
我有个小技巧, 可瞬间提升上百倍的挖掘效率。并且 通过Python实现后,完全可用于 大规模关键词的批量挖掘
思路其实很简单,有些朋友也有了解。记得当时跟夜息分享的时候,他一直说666 :)

First Blood

首先,在Chrome的Network中,可以获取到百度下拉框提示的API地址:
https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=黄&sugmode=2&json=1&p=3&sid=1427_21091_21673_22581&req=2&pbs=%E5%BF%AB%E6%89%8B&csor=2&pwd=%E5%BF%AB%E6%89%8B&cb=jQuery11020924966752020363_1498055470768&_=1498055470781

  • 这里的 黄山,就是我输入的关键词,可替换为其他任意关键词。
  • 输出的结果,通过简单处理,就是json格式。

具体代码实现如下:

def get_sug(word):
    url = 'https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=%s&sugmode=2&json=1&p=3&sid=1427_21091_21673_22581&req=2&pbs=%%E5%%BF%%AB%%E6%%89%%8B&csor=2&pwd=%%E5%%BF%%AB%%E6%%89%%8B&cb=jQuery11020924966752020363_1498055470768&_=1498055470781' % word
    r = requests.get(url, verify=False)  # 请求API接口,取消了HTTPS验证
    cont = r.content  # 获取返回的内容
    res = cont[41: -2].decode('gbk')  # 只取返回结果中json格式一段,并且解码为unicode
    res_json = json.loads(res)  # json格式转换
    return res_json['s']  # 返回关键词列表


print '\n'.join(get_sug('黄山'))

输出为:

  黄山天气
黄鳝
黄山旅游自助攻略
黄山旅游
黄鳝门
黄山毛峰
黄鳝女主播
黄山山顶住宿攻略
黄山市民网
黄山旅游攻略

Double Kill

这里有个小技巧,就是 在关键词后面输入 w,会出现跟拼音以 w开头的一系列关键词 ,比如“黄山w”,会出现“黄山温泉”,”黄山玩几天“,“黄山五绝”等关键词(见上截图)。因此,当我们把a~z遍历一遍,会出现更多关键词。

升级后,代码实现如下:

def get_more_sug(word):
    all_words = []

    for i in 'abcdefghijklmnopqrstuvwxyz':  
        all_words += get_sug(word+i)  # 遍历字母表 | 利用了上一个函数

    return list(set(all_words))  # 去重

print '\n'.join(get_more_sug('黄山'))

输入结果为:

  黄山红方印多少钱一包
黄山区政府网
黄山山顶住宿攻略
黄山开放时间
黄山西海大峡谷
黄山ie修复专家
黄山免费2017
黄山图片
黄山到宏村
黄山怪石
黄山农家乐
黄山哪里上山
黄山论坛
黄山旅游
黄山毛峰品牌
黄山游记
...

Triple Kill

将上面的思路延展一下,如果 在关键词后输入两个单词,就会出现以这2个字母为拼音开头的一系列关键词,比如“黄山tp”,会出现“黄山天气”,“黄山太平湖”(见截图2)。因此,我们又做了升级。

def get_most_sug(word):
    all_words = []

    for i in 'abcdefghijklmnopqrstuvwxyz': 
        for j in 'abcdefghijklmnopqrstuvwxyz': 
            all_words += get_sug(word+i+j)

    return list(set(all_words))  # 去重

然后就出现了更多关键词:

  黄山云谷索道在哪
黄山开锁
黄山城市风情
黄山评价
黄山能带狗吗
黄山露营
黄山办理港澳通行证
黄山旅游攻略
黄山到广东的高铁
黄山野生猴谷
黄山动车站怎么去黄山脚下
黄山古镇
黄山酒店
黄山太平索道
黄山舰
黄山自驾游
黄山天气预报一周
黄山led显示屏报价
黄山入口
黄山旅游集散中心
黄山阿拉自助游
黄山木雕
黄山北到汤口镇
黄山ppt
黄山特点是啥
黄山半源
黄山屯溪机场到黄山风景区
黄山累不累
黄山到千岛湖怎么坐车
黄山百步云梯
黄山人才网
黄山旅游要多少
黄山敏学教育
黄山银钩
黄山北站
黄山杭徽大酒店
黄山各县市区别墅
黄山卧虎高尔夫
黄山毛峰价格
黄山火车站到黄山屏山
黄山旺季
黄山天都峰
黄山茶庄
黄山宣传片
黄山红方印价格
黄山三日游最佳路线
黄山的诗句
黄山慈光阁索道
黄山一般玩几天
黄山矿泉水
黄山考试网
黄山香烟
黄山别墅
黄山市委党校
...

Legendary

这里还有一些技巧和思路拓展:

  • 如果用作批量跑词,还需要 简单包装下,比如关键词循环,数据保存等。
  • 实际应用中, 字母单循环的性价比更高(也就是Double Kill),速度和词数都比较可观。字母双循环,速度慢,词量也并没有那么高。
  • 百度移动端是另外一个API, 搜狗,360,Google也有不同的API,可以作为扩展方式,脚本需自行完成。

Shut Down

  • 最近在玩王者荣耀,所以小标题用了里面的提示,欢迎大神带我~
  • 最近打算给公众号设置一些结构,比如大的品类分为文章、服务;其中文章里是SEO、Python等栏目,服务里有招聘,工具。这样整体结构更清晰一点。
  • 题图是森林,也是一个小生态。最近正在思考互联网的生态和SEO的影响,之后可能会写一篇相关的文章。

相关 [python 百度 关键词] 推荐:

Python批量挖掘百度下拉框关键词

- - 张亚楠博客
百度下拉框的关键词,一直是SEO关键词拓展的利器,只要在搜索框中输入一个关键词,就可以得到一批相关词. 我有个小技巧, 可瞬间提升上百倍的挖掘效率. 并且 通过Python实现后,完全可用于 大规模关键词的批量挖掘. 思路其实很简单,有些朋友也有了解. 记得当时跟夜息分享的时候,他一直说666 :).

百度关键词搜索推荐系统交互流程

- - Dustinsea
如果把百度凤巢系统比作商场,那这个商场的主要商品是什么. 答案就是‘流量’,而关键词,就是流量对广告主最直观的表现载体. 客户想要在百度上做搜索广告,就需要找到能够准确描述自己推广意图的关键词集合;但另一方面,目前百度凤巢系统拍卖词接近10亿,百度每天有PV关键词约数十亿. 从这些词海中淘出优质关键词,无论对于客户本身,还是为客户打理账户的客服而言都是一大挑战.

用python提取百度贴吧的小说

- We_Get - 博客园-首页原创精华区
这个博客主要是发表些关于Windows Phone开发相关方面的文章的,和 http://blog.sina.com.cn/u/2391033251 同步更新. 不过今天不务正业一下,发表一段python代码. 这个程序主要功能是从百度贴吧,获得html文件,然后用Beautiful Soup解析html文件,提取贴吧的帖子.

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

- - Dustinsea
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题. 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别. 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计. 结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求.

dropbox讲python

- chuang - Initiative
dropbox定制优化CPython虚拟机,自己搞了个malloc调度算法. 那个 !!!111cos(0). 期待这次PyCon China 2011.

Python调试

- - 企业架构 - ITeye博客
原文地址: http://blog.csdn.net/xuyuefei1988/article/details/19399137. 1、下面网上收罗的资料初学者应该够用了,但对比IBM的Python 代码调试技巧:. IBM:包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试:.

Python WSGI 初探

- - 坚实的幻想
在构建 Web 应用时,通常会有 Web Server 和 Application Server 两种角色. 其中 Web Server 主要负责接受来自用户的请求,解析 HTTP 协议,并将请求转发给 Application Server,Application Server 主要负责处理用户的请求,并将处理的结果返回给 Web Server,最终 Web Server 将结果返回给用户.

Python实现逻辑回归(Logistic Regression in Python)

- - 神刀安全网
Logistic Regression in Python ,作了中文翻译,并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现,而是使用了一些算法库,旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术,广泛应用于金融、医学、犯罪学和其他社会科学中.

python 下载文件

- Eric - python相关的python 教程和python 下载你可以在老王python里寻觅
之前给大家分享的python 多线程抓取网页,我觉的大家看了以后,应该会对python 抓取网页有个很好的认识,不过这个只能用python 来抓取到网页的源代码,如果你想用做python 下载文件的话,上面的可能就不适合你了,最近我在用python 做文件下载的时候就遇到这个问题了,不过最终得以解决,为了让大家以后碰过这个问题有更好的解决办法,我把代码发出来:.