搜索引擎-信息检索实践—网络爬虫

- - CSDN博客互联网推荐文章

网络爬虫有两个任务：下载页面和发现URL. 1.从请求队列中取出URL，下载对应页面，解析页面，找到链接标签. 2.网络爬虫发现了没有遇到过的URL，将其加入请求队列. 网络爬虫使用礼貌策略(politeness policy)：. 网络爬虫不会在特定的网络服务器上一次抓取多个页面，在同一个网络服务器的两次请求之间，网络爬虫会等待一定时间.

SEO实践(2)——让网站对搜索引擎友好

- - SEM WATCH

在该系列文章的第一篇中，提到SEO应该是以数据为基础的，并略为展开写了一些数据方面的准备工作. 数据虽然是非常重要的，但它扮演的角色只能是辅助：发现问题、总结改进、作为决策的参考因素等，但都无法脱离既有的SEO方法而独立存在. 而SEO的方法，应该分为两种或四种：使网站对搜索引擎友好、使网站对搜索引擎的用户友好.

SEO实践(3)——让网站对搜索引擎的用户友好

- - SEM WATCH

该系列前的两篇文章提及SEO数据的准备工作、以及如何让网站对搜索引擎友好，难以避免的涉及了不少技术层面上的内容. 这篇总算能进入稍微轻松点的话题，因为让网站对搜索引擎的用户友好，只需要我们从常识出发就可以了——尽管往往越是常识越容易成为盲点. 不知是否有人在疑惑，为什么不是对网站自己的用户友好，而是对搜索引擎的用户友好.

[原]基于hadoop搜索引擎实践——二级索引文件（五）

- - long1657的专栏

基于hadoop搜索引擎——二级索引文件. 一般生成的倒排表文件会比源文件暂用空间大，主要是倒排表文件所记录的信息比较详细. 它记录了所有的索引词记录（TERM_RECORD）信息，对于常见的关键词（TERM），其MULTI_INFO可能包含几万甚至几十万个SINGLE_INFO.. 由于倒排表文件很大.

Airbnb深度学习搜索引擎实践－模型发展历程 – Semocean

- -

该文章是KDD 2019上发表的Airbnb的搜索引擎主要算法的文章，主要介绍了Airbnb算法的演进历程. 还是Airbnb一贯的朴实无华的风格：不在乎有多少创新，更多是工业界结合业务上的算法工程，该文章很难的是文章中不仅介绍了Airbnb的算法，以及使用该算法的出发点和考虑，同时还记录了中间的各种坑，甚至一些失败的实验，真的是经验的无私分享，写作手法更像各大厂内网的技术总结分享文章.

uSniff:BT种子搜索引擎

- leqoqo - 软件志

一、uSniff相关信息： 1、官方主页：http://www.usniff.com/ 2、简介：uSniff是一个BT种子搜索引擎，简单、易用、实时是其最大的优点，其搜索引擎数据库包含了17个知名种子站点的种子信息，目的是想发展成为世界上最大的BT种子搜索引擎，而且对于每个种子，该搜索引擎都会进行安全认证，以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网

易搜阿里百度夸克网盘搜索. tg中文搜索电报资源搜索引擎. 千帆搜索电报资源搜索引擎. 影视搜影视聚合搜索引擎. 辅助狗无捆绑软件搜索引擎. 查报告可查询各行业的分析报告. 学霸盘课程资料百度网盘. 库问搜索 PDF文献资料搜索.

Google上周宣布将支持声音和图片进行搜索，但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica，开发出视觉搜索工具，通过手机拍摄产品照片，它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发，它能识别出一个目标的关键特征，不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区

摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息，排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是，它搜索出来的结果没有按照权威度（譬如影响因子、引用次数）依次排列，在中国搜索出来的，前几页可能大部分为中文的一些期刊的文章.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客

Blekko 这款搜索产品做的如何. 从目前我的使用过程来看，Blekko还是很让人激动的. 在谈Blekko之前就要先问：为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹，这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset，后来的Cuil，和现在的Blekko. 在Google之前Yahoo是靠人工收录网页，Google的算法和蜘蛛革了搜索的命，一直垄断搜索业十余年，而现在随着WEB 2.0的发展，让人又看到了搜索业革命的火种，可以说Blekko就是这样的一个产品.

搜索引擎-信息检索实践—网络爬虫

相关 [搜索引擎信息检索实践] 推荐：