- kxxoling - Engadget 中国版
我们在 IDF 上的同事在会场的一个角落发现了一堆超薄笔电摆放着,当中不但有 LG 和 Toshiba 等高曝光率品牌的产品,就连代工厂如 Pegatron、Inventec 和 Foxconn 也来参一脚啊. 不过其中一些其实是颇厚,有点混水摸鱼的感觉;有些则好像只有屏幕是能运作的模型,不过这情况是可以体谅的吧.
- 洞箫 - cnBeta.COM
将于当地时间本周二在旧金山开幕的Intel开发者论坛大会IDF
2011上,定于2012年3月或4月发布的下一代CPU"Ivy
Bridge"具体细节将得到揭晓. 在大会开幕前,著名硬件网站Anandtech的站长已经掌握了Ivy
Bridge两方面的具体规格:集成的新一代GPU和可变TDP.
- - 鲁塔弗的博客
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序. TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为 向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则. 某个词或短语在一篇文章中出现的次数越多,越相关. 整个文档集合中包含某个词的文档数量越少,这个词越重要.
- - 标点符
TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术. TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度. 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.
- - CSDN博客推荐文章
TF-IDF反映了在文档集合中一个单词对一个文档的重要性,经常在文本数据挖据与信息. 在一份给定的文件里, 词频(termfrequency-TF)指的是某一. 个给定的词语在该文件中出现的频率. 逆向文件频率(inversedocument frequency,. IDF)是一个词语普遍重要性的度量.
- - 阮一峰的网络日志
有时候,很简单的数学方法,就可以完成很复杂的任务. 这个系列的前两部分就是很好的例子. 仅仅依靠统计词频,就能找出 关键词和 相似文章. 虽然它们算不上效果最好的方法,但肯定是最简便易行的方法. 讨论如何通过词频,对文章进行 自动摘要(Automatic summarization). 如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间.
- - IT瘾-geek
参考书目:python自然语言处理实战——核心技术与算法. 基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力. 因此中和这两个数,就能较好地算出文档的关键词. |D_i|是文档中出现词i的文档数量,|D|是文档数.
- - 阮一峰的网络日志
上一次,我用 TF-IDF算法自动提取关键词. 今天,我们再来研究另一个相关的问题. 有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章. 比如,"Google新闻"在主新闻下方,还提供多条相似的新闻. 为了找出相似的文章,需要用到 "余弦相似性"(cosine similiarity).
- - 阮一峰的网络日志
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题. 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到. 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果.
- leafduo - LinuxTOY
Linux 基金会旗下的 Linux.com 和 LinuxFoundation.org 网站,由于发现安全漏洞,进入离线维护状态. 感谢 gbraad 提供消息. Linux Foundation infrastructure including LinuxFoundation.org, Linux.com, and their subdomains are down for maintenance due to a security breach that was discovered on September 8, 2011.