更新于:11-11 08:28
有关[搜索]分类推荐
于12-04 22:09 - 钱魏Way - 产品 术→技巧 Google 搜索引擎
什么是 Google Caffeine. Google Caffeine 是 Google 搜索引擎的一次架构重构,旨在满足不断增长的互联网内容和用户实时搜索需求. 它替代了 Google 早期的分层索引系统,转而采用更加实时的索引机制,使搜索结果更加快速和新鲜. 发布时间:Google 于 2009 年 8 月发布 Caffeine 项目 Beta 版本,并于 2010 年 6 月正式启用.
于11-02 19:31 - -
不是每一次搜索都能给 Google 带来收入. 搜索巨人表示它通常只在五分之一的搜索查询结果中展示广告. Google 的反垄断诉讼中,我们有机会了解到了给 Google 带来最多广告收入的搜索查询词名单. 该名单发生在 2018 年 9 月 22 日这一周,苹果的 iPhone 8 在这一周开始上市,因此给 Google 带来最多收入的是对苹果新手机的搜索.
于09-28 10:18 - Elasticsearch -
在数字时代,搜索引擎在通过浏览互联网上的大量可用信息来检索数据方面发挥着重要作用. 此方法涉及用户在搜索栏中输入特定术语或短语,期望搜索引擎返回与这些确切关键字匹配的结果. 虽然关键字搜索对于简化信息检索非常有价值,但它也有其局限性. 主要缺点之一在于它对词汇匹配的依赖. 关键字搜索将查询中的每个单词视为独立的实体,通常会导致结果可能与用户的意图不完全一致.
于05-06 07:42 - -
最近在考虑站内搜索的技术方案时,首先考虑的是Embedding的方案而不是全文索引. 对于普通网站,数据量不算大,上全文检索很麻烦,需要专门的服务,第三方服务贵,自己搭需要额外服务器. 现在借助Embedding方案搭配向量数据,就可以简单很多,每次新增或者更新内容,同时生成向量数据存到数据库,搜索时,将搜索的关键词生成向量再去向量数据库搜索.
于02-23 23:50 - -
今天的搜索引擎首先需要构建一个庞大 Web 索引,用户搜索时对索引条目进行扫描、排序和分类,最相关条目出现在搜索结果中. 相比之下,AI 聊天机器人 ChatGPT 搜索时需要启动一个庞大的神经网络模型,产生文本,可能还需要利用搜索引擎核查事实信息. 整个过程要漫长得多,花费也更多. 分析师估计,大语言模型的搜索成本可能是关键词搜索的 10 倍以上,意味着数十亿美元的额外成本.
于02-09 17:05 - 张俊林 -
作为智能对话系统,ChatGPT最近两天爆火,都火出技术圈了,网上到处都在转ChatGPT相关的内容和测试例子,效果确实很震撼. 我记得上一次能引起如此轰动的AI技术,NLP领域是GPT 3发布,那都是两年半前的事了,当时人工智能如日中天如火如荼的红火日子,今天看来恍如隔世;多模态领域则是以DaLL E2、Stable Diffusion为代表的Diffusion Model,这是最近大半年火起来的AIGC模型;而今天,AI的星火传递到了ChatGPT手上,它毫无疑问也属于AIGC范畴.
于01-30 20:26 - -
Yandex 搜索引擎等服务的源代码最近被前雇员泄露,SEO 们立即展开了分析,发现它的搜索排名算法使用了 1922 个排名因子. Yandex 不是 Google,它使用的排名因子 Google 未必使用,或者 Google 使用了但权重不同. 尽管如此,Yandex 和 Google 的排名因子肯定有很多相似之处.
于11-18 15:52 - 美团技术团队 -
美团外卖搜索工程团队在Elasticsearch的优化实践中,基于Location-Based Service(LBS)业务场景对Elasticsearch的查询性能进行优化. 该优化基于Run-Length Encoding(RLE)设计了一款高效的倒排索引结构,使检索耗时(TP99)降低了84%.
于10-16 15:13 - 阿杆 -
这是我参与「掘金日新计划 · 10 月更文挑战」的第17天, 点击查看活动详情. 本系列文章基于我的开源微服务项目【校园博客】进行分析和讲解,所有源码均可在GitHub仓库上找到. 系列文章地址请见我的 校园博客专栏. GitHub地址: https://github.com/stick-i/scblogs.
于09-27 11:19 - 闲鱼技术 -
搜索是电商平台的核心流量入口,承载着平台主要的 成交引导、 意图收敛、 活动投放. 一个稳定、高效、可扩展的搜索系统是电商平台得以生存发展的基石. 本文探讨如何构建 完善的商品搜索系统, 并根据闲鱼二手交易的差异化特性介绍 闲鱼搜索系统的时效性优化. 首先,构建一个搜索系统——电商场景的搜索.
于09-21 17:00 - -
搜索是数字经济的支柱,但它控制在少数巨头手中. 为了实现信息的自由、不带偏见和透明的访问,欧盟 7 个国家 14 个研究和计算中心发起了 开放 Web 搜索项目,为欧盟的 Web 搜索构建开放的基础设施. 未来三年,研究人员将开发核心的索引 Open Web Index (OWI). 索引将与搜索引擎分开,创建索引的昂贵过程可以在大型集群上完成,而搜索引擎则可以在本地执行.
于09-05 13:27 - wuxinqiang - 大数据 搜索
在介绍QP前先简单介绍一下搜索平台的整体结构,方便大家快速了解QP在搜索平台中的作用. 下图简单展示了一个搜索请求开始到结束的全部流程. 业务通过简洁的api接入los,管理员在搜索平台新建配置并下发,完成整个搜索接入,并通过abtest验证QP带来的优化效果. 在NLP中,QP被称作Query理解(QueryParser),简单来说就是从词法、句法、语义三个层面对query进行结构化解析.
于07-22 12:43 - 不死鸟 -
易搜 阿里百度夸克网盘搜索. tg中文搜索 电报资源搜索引擎. 千帆搜索 电报资源搜索引擎. 影视搜 影视聚合搜索引擎. 辅助狗 无捆绑软件搜索引擎. 查报告 可查询各行业的分析报告. 学霸盘 课程资料百度网盘. 库问搜索 PDF文献资料搜索.
于02-05 00:00 - - dev
分享嘉宾:Elvin 腾讯音乐 高级工程师. 出品平台:DataFunTalk. 导读:近几年来,图数据在计算机领域得到了广泛的应用. 互联网数据量指数级增长,大数据技术、图数据方面的应用增长很快,各家互联网大厂都在图数据分析和应用方面大量投入. 为了让我们的搜索更加智能化,腾讯音乐也借助了知识图谱.
于01-13 03:28 - 百度Geek说 -
导读:百度搜索中台内容计算架构为在线提供了数十亿的异构且有丰富特征和信号的优质原材料. 我们以 Serverless 理念为指引,通过FaaS化和智能化的系统性建设,构建了新一代内容数据计算系统,实现了业务研发效率、资源成本和架构稳定性维护性的显著提升. 本文从搜索中台内容架构演进过程中遇到的问题入手, 分析系统设计思路,然后详细介绍具体实践方案.
于12-27 06:00 - 阿里云云栖号 -
简介:开放搜索NLP行业模型和轻量化客户定制方案,解决减少客户标注成本、完全无标注或少量简单标注的等问题,让搜索领域扩展更易用. 徐光伟(昆卡)--阿里巴巴算法专家. 这是一个完整的从查询词到搜索结果的链路, 其中NLP算法发挥作用的地方主要在第二阶段的查询分析,该阶段包含多个NLP 算法模块,如文本侧的分词、纠错、实体识别、词权重、同义词以及语义向量等.
于10-19 07:58 - - 业界
据彭博社报道,工信部正在考虑要求腾讯和字节跳动等媒体公司开放搜索壁垒——即允许用户在本平台上搜索并访问其他平台的内容. 知情人士说,规章设计仍在讨论当中. 工信部希望可以通过百度等搜索引擎,让用户直接可以获取到微信上的数亿篇文章. 其中一位知情人士说,工信部还在考虑将抖音的短视频也向搜索引擎开放. 他们表示,监管机构正在向公司征求反馈意见,目前尚不清楚这一政策是否会实际执行.
于08-21 11:41 - -
These keywords return webpages that contain the specified term in the metadata, such as the anchor, body, or title of the site, respectively. To find webpages that contain “msn” in the anchor, and the terms “spaces” and “magog” in the body, type inanchor:msn inbody:spaces inbody:magog.
于01-31 05:20 - 捡田螺的小男孩 -
有位朋友去阿里面试,他说面试官给了几条查询SQL,问:需要执行几次树搜索操作. 我朋友当时是有点懵的,后来冷静思考,才发现就是考索引的几个基础知识点~~ 本文我们分九个索引知识点,一起来探讨一下. 如果有不正确的话,欢迎指出哈,一起学习~. github地址,感谢每颗star. 面试官考点之为什么选择B+树作为索引结构.
于02-12 23:59 - -
纠错是搜索引擎中一个非常有特色的模块,对用户输入的内容进行改写从而让用户得到正确的结果,有的时候也会带有一些惊喜度,所以纠错技术是一个搜索体验的加分项,近期突然对这块有兴趣,所以就了解了一下. (学习周报本周停,学习内容都在这了). 人非圣贤,孰能无过,别说是搜索的时候,哪怕是我们打字、写作文的时候,都会出现错字,一般的错别字不会对最终目标带来很大影响,且出现频率很低,不拘小节的我们常常会忽略这样的小问题,但是,在搜索场景下,错别字意味着可能就搜不到内容了,对于用户而言,就是需求无法满足,造成了很差的体验,因此在搜索场景中,就很有必要去纠错.
于12-16 19:26 - 云加社区 -
Elasticsearch 7.10 版本最近发布,该版本有一个重磅特性:Searchable snapshots (可搜索快照功能),可以大幅度地降低存储成本. 那么 Searchable snapshots 的使用方式和实现效果是怎样的呢,下面就让我们来一探究竟吧. 在 Searchable snapshots 可搜索快照功能发布之前,通过调用 _snapshot API 对索引打的快照,不管是存储在 S3 还是 HDFS 或者是腾讯云的对象存储 COS上,都是不能够直接进行查询的.
于12-08 01:51 - vivo互联网技术 -
ES(Elasticsearch下文统一称为ES)越来越多的企业在业务场景是使用ES存储自己的非结构化数据,例如电商业务实现商品站内搜索,数据指标分析,日志分析等,ES作为传统关系型数据库的补充,提供了关系型数据库不具备的一些能力. ES最先进入大众视野的是其能够实现全文搜索的能力,也是由于基于Lucene的实现,内部有一种倒排索引的数据结构.
于11-14 10:30 - - 人工智能开发者
译者:AI研习社( FIONAbiubiu). 双语原文链接: Billion-scale semantic similarity search with FAISS+SBERT. 语义搜索是一种关注句子意义而不是传统的关键词匹配的信息检索系统. 尽管有许多文本嵌入可用于此目的,但将其扩展到构建低延迟api以从大量数据集合中获取数据是很少讨论的.
于10-26 11:41 - -
小马盘搜索: https://www.xiaomapan.com/. 酷搜: https://www.kolsou.com/. 轻舟网: https://www.qzhou.com.cn/. 大圣盘: https://www.dashengpan.com/. 使用要求:扫码关注公众号.
于10-26 11:39 - -
https://www.cilipa.com(被墙). https://xiongmaocl.fun(被墙). https://u3c3.com/ (被墙). http://m.pushbt.top/ 只有用手机浏览器才显示网站内容. 网址防丢失邮箱
[email protected]. 发邮件到
[email protected]获取最新地址.
于09-20 19:59 - 青小蛙 - 电脑技巧 Everything
我有一个资料的路径如下: E:\工作\工作资料\台账&花名册\02.人员花名册.xlsx. 目前我只记得住在一个 【 台账】文件夹下有 一个叫【 人员】的东西,请问如何搜索. 虽然,直接搜索 人员也肯定可以得到结果,但如果文件数量很多,能缩小搜索范围岂不是更好. 最后 @ Zakary 自己找到了解决方案.
于08-04 12:43 - 标点符 - 分享
ElasticSearch除了支持文本检索外,还支持地理信息检索. 它主要支持两种类型的地理查询:一种是地理点(geo_point),即经纬度查询,另一种是地理形状查询(geo_shape),即支持点、线、圈、多边形查询等. ElasticSearch实现经纬度附近搜索. 1、创建映射(mapping).
于07-28 22:26 - frankinbj -
本文将描述在Trendyol的搜索团队中,我们的流水线(pipeline)是如何设计的,以及我们的CI/CD都有哪些特点:. • 为QA和开发团队创建同步分支. • 用Sonar分析构建项目. • Sonar质量门状态检查. • QA同步功能流水线. • 为测试部署一个基于特性的容器.
于06-30 11:04 - -
经常遇到很多朋友询问,如何学好Elasticsearch. 这个问题本质上很不好回答,但我一直又很想好好回答,所以本文就以我个人的经验视角,跟大家探讨一下如何正确的拥抱Elasticsearch. Elasticsearch是什么,不同的人有不同的理解定位,之前写过Elasticsearch对比其它数据产品的文章.
于06-22 15:18 - -
Elasticsearch 中文搜索时遇到几个问题:. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?.