- David - GeekPark 捕风捉影
Google宣布针对“内容农场”垃圾网站的Panda算法已经在全球全面上线,所有语言的Google搜索都已经部署上了Panda算法,除了日语、韩语和中文,因为这三个语言的Panda算法还需要继续改进. 对于大多数语言来说,Panda算法会影响到6-9%的搜索结果,其影响比针对英文的Panda算法12%的影响率要低一些.
- Tony - 谷奥——探寻谷歌的奥秘
Google宣布针对“内容农场”垃圾网站的Panda算法已经在全球全面上线,所有语言的Google搜索都已经部署上了Panda算法,除了日语、韩语和中文,因为这三个语言的Panda算法还需要继续改进. 对于大多数语言来说,Panda算法会影响到6-9%的搜索结果,其影响比针对英文的Panda算法12%的影响率要低一些.
- - 杨尚川的个人页面
对于搜索引擎来说,索引存放在成千上万台机器上,如何进行分布式搜索呢. 假设搜索结果是以分页的方式显示,以PageNumber代表当前页,从1开始,以PageSize代表页面大小,默认为10,以N代表搜索服务器数量. 最简单的分布式搜索算法为:有一台 合并服务器负责接受用户的搜索请求,然后分别向N台机器获取前PageNumber*PageSize条结果,得到的结果数为N*PageNumber*PageSize,然后把这些数据重新进行排序,根据所要显示的页面PageNumber,获取从(PageNumber - 1) * PageSize + 1开始的PageSize条结果返回给用户.
- ji - 沒有水的魚
◎片 名 Kung Fu Panda 2. ◎类 别 动画/动作/喜剧/冒险/家庭. ◎IMDB评分 8.1/10. ◎IMDB链接 http://www.imdb.com/title/tt1302011. ◎文件格式 DVD-RMVB. ◎视频尺寸 640 x 288. ◎文件大小 1CD 388MB.
- - 行业应用 - ITeye博客
前阵子做图像搜索功能, 对比过一些搜索算法, 发现 sift 比较能满足我的需要, 它在图像旋转, 比例缩放, 图像扭曲的情况下也能有很好的识别效果, 在网上找了一些资料, 有些介绍了算法的细节, 有些做了对比评测. 2013计算机视觉代码合集 - Note of Transposition - 博客频道 - CSDN.NET.
- - 互联网分析
淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置. 为了更好的实现这个目标,算法排序系统基本按三个方面来推进:. 当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序.
- - 互联网 - ITeye博客
关系数据库不适合做全文搜索. like '%xxx%'效率很慢,建的索引将无效,查询的时候会像翻书一样一页一页的翻. 返回的结果没有匹配度的概念,比如在所有文章里索引一篇想要的文章,可能是希望搜索的关键词在文章中出现的次数越多越是我想要的结果. 当搜索live的时候,也想把lives/living搜出来,但是数据库很难做到.
- - 博客园_知识库
淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置. 为了更好的实现这个目标,算法排序系统基本按三个方面来推进:. 当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序.
- - 醉清风
相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的.
即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的. 搜索爬虫抓取会产生网页重复的类型:.
- - CSDN博客推荐文章
本文节选自《 这就是搜索引擎:核心技术详解》第六章. HITS算法也是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链接分析算法在实际中使用. 6.4.1 Hub页面与Authority页面. Hub页面和Authority页面是HITS算法最基本的两个定义.