沪江搜索平台化之路

- - 神刀安全网

本文为原创文章，转载请注明作者及出处. 随着沪江业务的高速发展以及数据爆炸式的增长，当前公司各产线都有关于搜索方面的需求，但是目前的搜索服务系统由于架构与业务上的设计，不能很好的满足各个业务线的期望，主要体现下面三个问题：. 不能支持对语句级别的搜索，大量业务相关的属性根本无法实现. 没有任何搜索相关的指标评价体系.

Solr平台化搜索实战必知场景

- - 淘宝网综合业务平台团队博客

这个page是个人汇总了maillist、自己在搜索平台化、通用化过程中遇到的种种需求，为了避开必要的“敬业竞争禁止等”，特地从外网搜罗并汇总代表性的需求. 构成基于solr搜索“策略”参考、搜索应用查询的方案参考，但是，性能问题特别是高级用法，在大数据量时，务必压测，做到心里有底. 这里面给出的方法绝大部分基于solr接口、配置.

学术分享搜索引擎主要基于爬取的学术数据，提供搜索，可视化，推荐三大块功能，并且支持用户分享感兴趣的学术资源，结合“众包”来打造一个更社交化的学术搜索平台. 相比于传统的学术搜索，可视化和用户的加入能让平台帮助用户发现更多的东西. 我的工作是整个平台的开发和搭建. 从数据上说，涵盖了数据爬取，数据处理，分布式存储，建立索引等工作；从功能上说，涵盖了网站搭建，搜索服务，可视化模块，推荐功能，以及用户的登录、注册、分享模块的实现.

开源分布式搜索平台ELK(Elasticsearch+Logstash+Kibana)+Redis+Syslog-ng实现日志实时搜索

- - C1G军火库

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎. 设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便. 支持通过HTTP使用JSON进行数据索引. logstash是一个应用程序日志、事件的传输、处理、管理和搜索的平台. 你可以用它来统一对应用程序日志进行收集管理，提供 Web 接口用于查询和统计.

CloudMagic: 整合多平台数据打造个人信息搜索引擎

- - 雷锋网

随着网络服务的迅速发展，人们已经习惯将各种各样的文件上传到云端存储，但是往往要用这些文件的时候却记不清楚到底在哪，相信很多人都遇到过这种情况吧. 那么有没有一种服务可以帮你快速的在不同云服务中检索你需要的信息呢. CloudMagic是一个跨平台的云搜索应用，这款服务可以追溯至2010年，当初是作为加速Gmail搜索的一个浏览器扩展，后来又推出了 iOS和 Android版本，还另外添加了其它服务如Google Docs, Google Contacts, Google Calendar, Microsoft Exchange和 Twitter等.

“先知”降临，网址缩略服务Bitly发布实时社交搜索平台

- Hopone - 36氪

著名网址缩略服务Bitly今天在官方博客发布消息，实时社交搜索平台正式上线并推出基于此平台的第一项服务“声誉监测”的Beta版. Bitly每天要缩略8000万个链接，积累了互联网上每天源源不断产生的各类链接的详细数据. 分析这些链接的内容，Bitly可以相当程度上掌控互联网上的热点和它们的发展趋势.

阿里如何实现秒级百万TPS？搜索离线大数据平台架构解读

- -

阿里妹导读：搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景，阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统，针对自身业务和技术特点构建了搜索离线平台，提供复杂业务场景下单日批次处理千亿级数据，秒级实时百万TPS吞吐的计算能力. 一个典型的商品搜索架构如下图所示，本文将要重点介绍的就是下图中的离线数据处理系统（Offline System）.

沪江网：在线教育的先行者

- - 爱范儿 · Beats of Bits

沪江网创始人阿诺对网络的首次“触电”非常具有代表性. 1998 年刚上大学后不久，阿诺第一次接触到电脑. 当时关于电脑的所有东西——系统、网络、浏览器——对他来说都异常新鲜. 刚买电脑后，他和一个刚得到新玩具的儿童没有区别，每天拿着软盘和同学相互交换文档和游戏. 但软盘的容量实在有限，稍微大点的文件需要反复拷贝，过程冗长而又麻烦.

Docker实践，来自沪江、滴滴、蘑菇街架构师的交流分享

- - 企业架构 - ITeye博客

架构师小组交流会：每期选一个时下最热门的技术话题进行实践经验分享. Docker 作为当前最具颠覆性的开源技术之一，其轻量虚拟化、可移植性是CI/CD，DevOps，微服务的重要实现技术. 但目前技术还不够成熟，在生产实践中会遇到不少坑. 本期参与小组交流的是国内较早采用 Docker 实践的公司.

深度搜索

- - 译言最新精选

译者： HorseHour 原文地址： streamhacker.com. 当我们准备发布 Weotta时，我们已经为如何描述它犯了难. 我们使用了机器学习和自然语言处理吗. 我们最终觉得“深度搜索”是对我们工作最贴切的描述，它是一个超越了基本文本搜索的复杂搜索系统的简洁描述. 无需赘言，不管怎么看，我们都不是这个领域唯一的一家公司；谷歌和很多其他公司都在对深度搜索的各个方面进行研究.

沪江搜索平台化之路

背景

整体技术架构

外部系统接口设计

全量更新

集群无缝扩容

部署优化

总结

相关 [沪江搜索平台] 推荐：