[原]搜索引擎反作弊之内容作弊

标签: Uncategorized | 发表时间:2012-03-24 10:49 | 作者:flychen
出处:http://flychen.com

                   本文节选自《 这就是搜索引擎:核心技术详解》第八章


     网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验。而搜索引擎为了保证排名的公正性,也需要对作弊行为进行识别和处罚。所谓“道高一尺,魔高一丈”,只要这种经济利益存在,作弊与反作弊会一直作为搜索引擎领域的斗争而存在下去。

     本章主要讲解目前常见的一些互联网网页作弊方法以及搜索引擎公司对应的反制措施。从大的分类来说,比较常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊以及最近几年兴起的Web2.0作弊方法。学术界以及搜索引擎公司也有针对性的提出了各种反作弊算法,本章介绍了比较典型的各类反作弊算法思路,并抽象出了几种反作弊算法的框架。

 

 

8.1 内容作弊

    内容作弊的目的是通过精心更改或者调控网页内容,使得网页在搜索引擎排名中获得与其网页不相称的高排名。搜索引擎排名一般包含了内容相似性和链接重要性计算,内容作弊主要针对搜索引擎排序算法中的内容相似性计算部分。通过故意加大目标词词频,或者在网页重要位置引入与网页内容无关的单词来影响搜索结果排名。

 

  8.1.1常见内容作弊手段

比较常见的内容作弊方式包括:

1.      关键词重复  

       对于作弊者关心的目标关键词,大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子,关键词重复本质上是通过增高目标关键词的词频来影响搜索引擎内容相似性排名。

2.      无关查询词作弊

        为了能够尽可能多吸引搜索流量,作弊者在页面内容中增加很多和页面主题无关的关键词,这本质上也是一种词频作弊,即将原先为0的单词词频增加到非0词频,以此吸引更多搜索引擎流量。

       比如有的作弊者在网页的末端以不可见的方式加入一堆单词词表。也有作弊者在正文内容插入某些热门查询词。甚至有些页面内容是靠机器完全随机生成或者利用其他网页的页面内容片段随机拼凑而成的。

3.      图片alt标签文本作弊

alt标签原本是作为图片描述信息来使用的,一般不会在HTML页面显示,除非用户将鼠标放在图片上,但是搜索引擎会利用这个信息,所以有些作弊者将alt的内容以作弊词汇来填充,达到吸引更多搜索流量的目的。

4.      网页标题作弊

        网页标题作为描述网页内容的综述性信息,对于判断一个网页所讲述的主题是非常重要的启发因素。所以搜索引擎在计算相似性得分时,往往会增加标题词汇的得分权重。作弊者利用这一点,将与网页主题无关的目标词重复放置在标题位置来获得好的排名。

5.      网页重要标签作弊

        网页不像普通格式的文本,是带有HTML标签的,而有些HTML标签代表了强调内容重要性的含义,比如加粗标记<b> </b>,段落标题<h> </h>,字体大小标记等。

        搜索引擎一般会利用这些信息进行排序,因为这些标记因素能够更好的体现网页的内容所表现的主题信息。作弊者通过在这些重要位置插入作弊关键词也能影响搜索引擎排名结果。

6.      网页元信息作弊

       网页元信息比如网页内容描述区(meta description)和网页内容关键词区(meta keyword)是供制作网页的人对网页主题信息进行简短描述的,同以上情况类似,作弊者往往也会通过在其中插入作弊关键词来影响网页排名。

      通过以上几种常见作弊手段的描述,我们可以看出,作弊者的作弊意图主要有以下几类:

1.      增加目标作弊词词频来影响排名;

2.      增加主题无关内容或者热门查询吸引流量;

3.      关键位置插入目标作弊词影响排名;

 

8.1.2 内容农场(Content Farm)

    Google在2011年2月份高调宣布针对低质量网页内容调整排序算法,据报道此算法影响了大约11.8%的网页排名,而这项调整措施是专门针对以Demand Media网站为代表的“内容农场”作弊手法的。

    图8-1是内容农场运作模式的示意图,内容农场运营者廉价雇佣大量自由职业者,支持他们付费写作,但是写作内容普遍质量低下,很多文章是通过拷贝稍加修改来完成的,但是他们会研究搜索引擎的热门搜索词等情况,并有机地将这些词汇添加到写作内容中。这样,普通搜索引擎用户在搜索时,会被吸引进入内容农场网站,通过大量低质量内容吸引流量,内容农场可以赚取广告费用。

                                                           

图8-1 内容农场运营模式

与传统的内容作弊方式比,内容农场不采用机器拼接内容等机械方式,而是雇佣人员写作,但是由于写作者素质等原因决定了其发布内容质量低下,这种作弊方式搜索引擎往往难以给出是否作弊明确的界定,但是又严重影响搜索结果质量,所以是一种很难处理的作弊手法。

 

作者:malefactor 发表于2012-3-24 8:53:04 原文链接
阅读:39 评论:0 查看评论

from malefactor's 布拉格 http://blog.csdn.net/malefactor/article/details/7389311

您可能也喜欢:

Google Panda 更新那点事

| 搜索引擎技术博客

搜索引擎中的粒度问题

[原]搜索引擎索引之索引基础
无觅

相关 [搜索引擎 作弊 作弊] 推荐:

[原]搜索引擎反作弊之内容作弊

- - 搜索引擎技术博客
这就是搜索引擎:核心技术详解》第八章.      网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验.

某APP作弊代码分析

- - 标点符
先前网上的一篇文章直指某APP数据作弊骗取投资人及广告商. 虽然文章中间也包含了部分的代码,但是为了进一步确认. 我下载该App的历史版本(曝光后最新版本作弊代码已被隐去)并进行反编译. 下载的该APP版本为:v5.0.1,反编译工具采用的是:onekey decompile apk. 后台偷偷启动进程,让APP在后台永活(后台启动了5个服务,相互保护).

网络版瑞士军刀nc作弊条

- 猪头小队长 - 小红老窝
nc是我最爱用的一个小工具,主要在下面五个方面使用它:. 2、http命令行客户端,如短信报警工具. 4、在服务器上临时开一个后门. 5、专用设备只支持交互式命令,用nc实现自动的数据抓取. 记得早期的Freebsd发行版中没有nc工具,每次都需要自己装,后来在我的坚持下,delphij加到了发行版中.

【组图】那些高科技的作弊手段

- - 互联网的一些事-关注互联网产品管理,交流产品设计、用户体验心得
  隐蔽耳机是作弊装备中的常用工具,磁共振耳机使用时需置入耳道内,不需要外接电源,可以与手机、对讲机等联通,但声音比较小且失真,取出时需要借助磁铁,塞得太紧则需要去医院求助.   磁共振耳机的升级版,声音比前者更清晰,不需要外接电源,纽扣电池即可驱动,其肉色设计也极难被监考发现,因有鱼线设计,取出较容易,但频段易与手机相互干扰,监考老师可通过手机干扰反作弊.

互联网广告作弊十八般武艺(上)

- - 知乎每日精选
本文原载于“ 计算广告”公众号,作者曾宪超、北冥乘海生. 中国在线广告的从业者,都有一颗感恩之心: 不论广告主给了你什么样的KPI,不论你的流量多么不堪,都会创造条件把KPI完成,有人把这戏称为“作弊”. 当然,除了有感恩之心,还必须要有工匠精神. 为了帮助大家在这个行业顺利发展,我们与秒针营销科学院一起,悉心整理了一个合格的广告人应该掌握的十八种常用手段,姑且称为“作弊十八般武艺”吧.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网
易搜 阿里百度夸克网盘搜索. tg中文搜索 电报资源搜索引擎. 千帆搜索 电报资源搜索引擎. 影视搜 影视聚合搜索引擎. 辅助狗 无捆绑软件搜索引擎. 查报告 可查询各行业的分析报告. 学霸盘 课程资料百度网盘. 库问搜索 PDF文献资料搜索.

史上最风骚的作弊方法,监考老师都要内牛满面

- kingpoe - FeedzShare
来自: 人人都是艺术家 - FeedzShare  . 发布时间:2010年07月15日,  已有 3 人推荐. 首先将要作的小抄内容...一字不漏的打到电脑上. 将字体缩小成6...用WORD或记事本...以看得到?前提,尽量打成条状会比较好制作…. 用电脑将它列印下来...保险一点可以多印几份….

网购"秒杀"暗藏玄机:商家作弊可赚眼球无损失

- xing - cnBeta.COM
中广网石家庄10月4日消息(河北台记者张霰)据中国之声《央广新闻》报道,国庆期间,许多购物网站都会推出各种促销活动,价格战在所难免. 若比拼低价, 恐怕再低的折扣也难及一种被称为“秒杀”的促销形式. “秒杀”以其超乎想象的低价让许多秒杀族为之着迷,然而记者调查发现,令人着迷的秒杀却存在着玄机, 成为不得不让人警惕的网购陷阱之一.

不仅仅是作弊,Google Glass 可以给课堂带来的 30 种变革

- - 九点 科技
Google Glass 刚出现的时候,我当时就在想,这货如果造型再正常点儿,那么绝对是作弊利器. 当我仍然抱有这个幻想的时候,大洋彼岸的澳大利亚在线学习服务网站 Open  Colleges 想得比我远多了,而且正面多了. Open Colleges 用图表形式展示了如果 Google Glass 应用在课堂,那么将会给课堂带来哪些变革,Google Glass 的特性将会在课堂上发挥怎样的作用.