Google新闻排名算法透视
自 2002 年推出以来,Google News 已成为 Web 上最大的新闻内容聚合器。在去年 9 月《大西洋月刊》的一篇文章中,Google News 的主管曾说该网站收集的新闻来源超过 5 万个,每周的独立访客超过 10 亿。该网站完全由计算机生成,每天都会收集和展示从全球数千个新闻来源的头条新闻。
Google 甚少透露相关的算法和规则,只是说为了保证显示的内容质量会定期调整新闻排名。据信,Google 自 2003 年以来已经三次调整了排名算法。
Computerworld 在美国专利办公室网站查询时碰巧发现了 Google 去年的一项专利申请— 《改进新闻文章排名的算法与系统》,专利申请号为 20120158711。通过对申请文档的分析,从中可以了解到 Google 对新闻故事排名的一些指标。这些指标决定了哪些新闻可以被放在 Google News 的显著位置。
专利申请中运用了超过 12 项指标来对其他网站的新闻文章进行排名。包括新闻网站定期产生的新闻数量、新闻来源的平均长度、新闻来源新闻报道的重要性、突发新闻得分、使用模式、舆论意见、流通量、相关新闻组织的员工数量、新闻来源的办事处数量、新闻报道的广度、新闻中使用的原创命名实体的数量、国际多样性、甚至还包括写作风格。
以下就是部分算法规则
用原创文章数或原创句子数来衡量新闻来源的质量
用“故事规模得分”确定某组织一周、一个月或更长时间撰写的原创文章的重要性。比方说,如果 D 是关于哥伦比亚航天飞机失事的文章,而相关主题的其他不同文章还有 500 篇,那么这个故事的规模就是 500
突发新闻得分的计算是通过衡量新闻来源发布重大事件的速度来确定的
而新闻机构(尤其是未受广泛引用的那些)制作高品质、原创内容的能力,则可以通过故事提及人物的数量等来衡量
哥伦比亚大学新闻学院的教授 Sree Sreenivasan 称,技术世界有很多不透明的地方。此项专利申请可以让人了解像 Google 这样的公司是如何选择在线内容并对其排名的。他指出,Google 用来判断新闻来源质量的某些指标,跟编辑用来确定某出版物是否值得信任是一样的。
比方说员工数量和受众多样性。故事长度也是一个好指标。尽管乍一看似乎 Google 对量的重视程度要高于质。但事实上许多高品质的媒体现在制作的内容都比以往要多。这反映了当前新闻业的现实。
由于此前 Google 对新闻文章的热度评定经常引起媒体公司的争议,这份文档也许能澄清部分事实。不过,Google 在电子邮件回复中称专利申请不代表产品就是这么做的。
VIA: computerworld.com