Google新闻排名算法透视

标签: google 新闻 排名 | 发表时间:2013-02-23 09:59 | 作者:
出处:http://news.cnblogs.com/

自 2002 年推出以来,Google News 已成为 Web 上最大的新闻内容聚合器。在去年 9 月《大西洋月刊》的一篇文章中,Google News 的主管曾说该网站收集的新闻来源超过 5 万个,每周的独立访客超过 10 亿。该网站完全由计算机生成,每天都会收集和展示从全球数千个新闻来源的头条新闻。

Google 甚少透露相关的算法和规则,只是说为了保证显示的内容质量会定期调整新闻排名。据信,Google 自 2003 年以来已经三次调整了排名算法。

Computerworld 在美国专利办公室网站查询时碰巧发现了 Google 去年的一项专利申请— 《改进新闻文章排名的算法与系统》,专利申请号为 20120158711。通过对申请文档的分析,从中可以了解到 Google 对新闻故事排名的一些指标。这些指标决定了哪些新闻可以被放在 Google News 的显著位置。

专利申请中运用了超过 12 项指标来对其他网站的新闻文章进行排名。包括新闻网站定期产生的新闻数量、新闻来源的平均长度、新闻来源新闻报道的重要性、突发新闻得分、使用模式、舆论意见、流通量、相关新闻组织的员工数量、新闻来源的办事处数量、新闻报道的广度、新闻中使用的原创命名实体的数量、国际多样性、甚至还包括写作风格。

以下就是部分算法规则

用原创文章数或原创句子数来衡量新闻来源的质量

用“故事规模得分”确定某组织一周、一个月或更长时间撰写的原创文章的重要性。比方说,如果 D 是关于哥伦比亚航天飞机失事的文章,而相关主题的其他不同文章还有 500 篇,那么这个故事的规模就是 500

突发新闻得分的计算是通过衡量新闻来源发布重大事件的速度来确定的

而新闻机构(尤其是未受广泛引用的那些)制作高品质、原创内容的能力,则可以通过故事提及人物的数量等来衡量

哥伦比亚大学新闻学院的教授 Sree Sreenivasan 称,技术世界有很多不透明的地方。此项专利申请可以让人了解像 Google 这样的公司是如何选择在线内容并对其排名的。他指出,Google 用来判断新闻来源质量的某些指标,跟编辑用来确定某出版物是否值得信任是一样的。

比方说员工数量和受众多样性。故事长度也是一个好指标。尽管乍一看似乎 Google 对量的重视程度要高于质。但事实上许多高品质的媒体现在制作的内容都比以往要多。这反映了当前新闻业的现实。

由于此前 Google 对新闻文章的热度评定经常引起媒体公司的争议,这份文档也许能澄清部分事实。不过,Google 在电子邮件回复中称专利申请不代表产品就是这么做的。

VIA:  computerworld.com

本文链接

相关 [google 新闻 排名] 推荐:

Google新闻排名算法透视

- - 博客园_新闻
自 2002 年推出以来,Google News 已成为 Web 上最大的新闻内容聚合器. 在去年 9 月《大西洋月刊》的一篇文章中,Google News 的主管曾说该网站收集的新闻来源超过 5 万个,每周的独立访客超过 10 亿. 该网站完全由计算机生成,每天都会收集和展示从全球数千个新闻来源的头条新闻.

Google更新全球排名前100名网站排行

- youschan - cnBeta.COM
Google今日正式更新了全球排名前100名的网站排行版信息,国内百度挤入第8名,独立访问量3.1亿,QQ排名第10名,独立访问是2.5 亿,Facebook稳坐第一名独立访问量为8.7亿.

google专利揭示google新闻排序算法的10个潜在因素

- - 冰火岛
google专利揭示google新闻排序算法的10个潜在因素. 10 Breaking news score, which is measured as the ability of the news organization to publish a story soon after the event has occurred..

Google新闻推出“编辑精选”版块

- MEDiCi - 36氪
今日Google新闻引入了名为”编辑精选{Editors’Picks}”)的侧边栏,允许新闻发布者选择自己在Google News美国版首页显示的内容. 编辑精选侧边栏位于Google News页面右侧侧边栏的第三行,在最近条目和本地新闻的下方. Editors’Picks的内容来自纽约时报、华尔街日报、大西洋新闻等知名媒体,点击标题右侧的箭头可以循环显示不同媒体的精选内容.

Google Currents 2.0更新 新增突发新闻

- - 雷锋网
Google Currents已经更新2.0版本,作为业内最好用的RSS阅读器,一向是赚足眼球,这次的大版本更新带来了哪些变化呢. 雷锋网带来一个简短评测,大家先睹为快,后续其它功能还等大家共同挖掘. 先从界面入手,2.0版本的Currents(国内称“潮流同步”)最明显的改版是在界面上的,大风格是一如既往的简洁,风格更接近了Google+,采用横向平移、菜单垂直拉伸的交互方式.

【置顶】Google 125 亿美元收购摩托罗拉移动新闻索引

- Kidwind - 谷奥——探寻谷歌的奥秘
8月16日:微软叫嚣 WP7 是唯一公平面对所有合作商的手机系统,这叫诺基亚情何以堪. 8月16日:Google 会像当年收购 DoubleClick 那样对摩托罗拉进行大裁员吗. 8月16日:你真的认为 Google 只为那些专利才收购摩托罗拉移动的吗. 8月16日:如果监管机构通不过摩托罗拉的收购,Google 也要支付 25 亿美元分手费.

Google向全球多数语言推广新算法“熊猫”优化搜索排名

- flycondor - 36氪
Google最近开始推广代号为“熊猫”的搜索排名算法,将应用到不包括中文,日文和韩文在内的全球多数语言. 新算法的目的在于减少混迹于搜索结果中“内容农场”的数量. 根据市场研究机构Experian Hitwise的报告,“熊猫”在清除“内容农场“方面表现不错. 今年二月“熊猫”算法在美国率先推出后,最大的“内容农场”Demand Media旗下的eHow.com在两周内搜索结果锐减40%.

[2011] Google 公布全球 TOP 1000、台灣百大網站排名!(重灌狂人 51 名啦!)

- hank - 重灌狂人
剛剛才看到這消息,多年前被 Google 併購的網路廣告供應商 DoubleClick 前一陣子又更新了提供給廣告客戶參考用的 2011 年全球千大網站排名清單,前幾名大致就是 Facebook、YouTube、Yahoo 跟微軟的 Live.com 與維基百科..等網站. 但這清單並不包含色情網站、無公開內容的網站與 Google 的相關網站.

Google新闻主管Gingras:与网络对抗纸媒必败,iPad无法拯救纸媒

- - 36氪
Google新闻产品主管 Richard Gingras 在哈佛大学发表了讲话,他表示,Google与传统报纸行业关系紧张,新闻集团掌门人默多克仍认为Google在新闻服务中做新闻内容的聚合,是一种“窃取”,损害了该公司的营收. 但Richard Gingras 在谈论新闻的未来时,并没有刻意缓和与传统报纸的紧张关系,而是把报纸比作Yahoo等传统门户网站,认为如果媒体公司不拥抱互联网而选择对抗的话,等待他们的只有失败.

谷奥: Google = Google+

- 吞佛 - 谷奥聚合——谷奥主站+谷安 aggregator
在上周举办的Google Zeitgeist 2011大会上,John Battelle问Larry Page:在Google大部分的历史里,人们会想到搜索,那么Google品牌=搜索. 但在随后Google的发展史里,Google品牌会等于什么. Larry Page并未直面回答这个问题,至少没有从市场角度来回答.