更新于:10-21 02:46

有关[博客]分类推荐

TextRank算法提取关键词和摘要 - 小昇的 | Xs Blog

于10-20 01:15 - -
提到从文本中提取关键词,我们第一想到的肯定是通过计算词语的TF-IDF值来完成,简单又粗暴. 但是由于 TF-IDF 的结构过于简单,有时提取关键词的效果会很不理想. 本文将介绍一个由 Google 著名的网页排序算法PageRank改编而来的算法——TextRank,它利用图模型来提取文章中的关键词.

ElasticSearch 2 (18) - 深入搜索系列之控制相关度 - Richaaaard -

于10-19 13:25 - -
ElasticSearch 2 (18) - 深入搜索系列之控制相关度. 处理结构化数据(比如:时间、数字、字符串、枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/非匹配是全文搜索的基础部分,但不止这些,我们也同样需要知道每个文档与查询的相关度,在全文搜索引擎中我们不仅需要找到匹配的文档,还需要根据他们相关度的高低,对他们进行排序.

高并发的核心技术-幂等的实现方案 - 无量的IT生活 - ITeye

于09-29 23:23 - -
高并发的核心技术-幂等的实现方案. 我们实际系统中有很多操作,是不管做多少次,都应该产生一样的效果或返回一样的结果. 前端重复提交选中的数据,应该后台只产生对应这个数据的一个反应结果. 我们发起一笔付款请求,应该只扣用户账户一次钱,当遇到网络重发或系统bug重发,也应该只扣一次钱;. 发送消息,也应该只发一次,同样的短信发给用户,用户会哭的;.

Spark常用函数讲解之键值RDD转换 - MOBIN -

于09-27 08:42 - -
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集.         Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作.

HTTP长连接和短连接 - WhyWin -

于09-26 00:16 - -
HTTP协议与TCP/IP协议的关系.   HTTP的长连接和短连接本质上是TCP长连接和短连接. HTTP属于应用层协议,在传输层使用TCP协议,在网络层使用IP协议. IP协议主要解决网络路由和寻址问题,TCP协议主要解决如何在IP层之上可靠的传递数据包,使在网络上的另一端收到发端发出的所有包,并且顺序与发出顺序一致.

GeoHash核心原理解析 - zhanlijun -

于09-25 05:34 - -
  机机是个好动又好学的孩子,平日里就喜欢拿着手机地图点点按按来查询一些好玩的东西. 某一天机机到北海公园游玩,肚肚饿了,于是乎打开手机地图,搜索北海公园附近的餐馆,并选了其中一家用餐.   饭饱之后机机开始反思了,地图后台如何根据自己所在位置查询来查询附近餐馆的呢. 苦思冥想了半天,机机想出了个方法:计算所在位置P与北京所有餐馆的距离,然后返回距离<=1000米的餐馆.

spring集成redis——主从配置以及哨兵监控 - 大园子 -

于09-22 05:32 - -
Redis的主从模式配置是非常简单的,首先我们需要有2个可运行的redis环境:. 我们只要在slave 节点的配置文件中,找到 slaveof开头. 然后修改为:(master的ip与端口). 这样就可以了,下面我们来验证一下,首先启用master和slave的redis服务,然后登录redis-cli,输入info.

Apache Beam 快速入门(Python 版) | 张吉的

于09-14 05:58 - -
Apache Beam是一种大数据处理标准,由谷歌于 2016 年创建. 它提供了一套统一的 DSL 用以处理离线和实时数据,并能在目前主流的大数据处理平台上使用,包括 Spark、Flink、以及谷歌自身的商业套件 Dataflow. Beam 的数据模型基于过去的几项研究成果:FlumeJava、Millwheel,适用场景包括 ETL、统计分析、实时计算等.

如何为技术设计一个推荐系统(中):基于 Google 搜索的半自动推荐

于09-05 12:55 - Phodal Huang - 杂谈
与统计学相比,基于内容来向用户推荐相似的内容,往往更容易获得. 在技术领域,作者通常比大多数读者更专业,他们往往知道什么是读者需要的. 如,你看了一个 React 相关的文章,你可能会需要 Redux 相关的内容. 需要一些前提条件:融合现有系统的数据信息,获取一些用户的信息. 随后,再计算出相关的内容,最后返回给读者.

Java程序内存分析:使用mat工具分析内存占用 - 王爵的技术

于09-01 01:09 - -
    MAT 不是一个万能工具,它并不能处理所有类型的堆存储文件. 但是比较主流的厂家和格式,例如 Sun, HP, SAP 所采用的 HPROF 二进制堆存储文件,以及 IBM 的 PHD 堆存储文件等都能被很好的解析. 下面来看看要怎么做呢,也许对你有用. 官方文档:http://help.eclipse.org/luna/index.jsp?topic=/org.eclipse.mat.ui.help/welcome.html.

Ajax上传图片以及上传之前先预览 - 江南一点雨的专栏 - CSDN

于08-26 12:40 - -
手头上有几个小项目用到了easyUI,一开始决定使用easyUI就注定了项目整体上前后端分离,基本上所有的请求都采用Ajax来完成. 在文件上传的时候用到了Ajax上传文件,以及图片在上传之前的预览效果,解决了这两个小问题,和小伙伴们分享下. 先来说说图片上传之前的预览问题. 这里主要采用了HTML5中的FileReader对象来实现,关于FileReader对象,如果小伙伴们不了解,可以查看这篇博客HTML5学习之FileReader接口.

[推荐算法]ItemCF,基于物品的协同过滤算法 - 在路上的学习者 - CSDN

于08-21 05:58 - -
ItemCF:ItemCollaborationFilter,基于物品的协同过滤. 算法核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品. 比如,用户A之前买过《数据挖掘导论》,该算法会根据此行为给你推荐《机器学习》,但是ItemCF算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度.

使用Flume+Kafka+SparkStreaming进行实时日志分析 - Trigl的 - CSDN

于08-17 15:09 - -

浅谈代码审计入门实战:某系统最新版审计之旅

于08-14 13:21 - shendao - 安全漏洞
第一次正式的审一次CMS,虽然只是一个很小的博客系统(提交都不一定收的那种),漏洞也都很简单,但是也算是积累了不少经验,所以最后想来还是在此做个分享,博客系统的CMS就不说了,毕竟有个官网挂着. 缘起某日翻阅某朋友博客的时候无意间发现有个小型的CMS,反正暑假闲的无聊就去审了一下代码(正好拿来练练手),问题挺严重的,好多参数都没有进行过滤,光注入就有好多处,因为文章篇幅有限,这里就不一一列举了,这里只把我找到的漏洞中每类最典型的剖析一下.

支付网关的设计 - 凤凰牌老熊的 | Shamphone Blog

于08-09 12:42 - -
在支付系统中,支付网关和支付渠道的对接是最核心的功能. 其中支付网关是对外提供服务的接口,所有需要渠道支持的资金操作都需要通过网关分发到对应的渠道模块上. 一旦定型,后续就很少,也很难调整. 而支付渠道模块是接收网关的请求,调用渠道接口执行真正的资金操作. 每个渠道的接口,传输方式都不尽相同,所以在这里,支付网关相对于支付渠道模块的作用,类似设计模式中的wrapper,封装各个渠道的差异,对网关呈现统一的接口.

利用yarn多队列实现hadoop资源隔离 - bbaiggey_bigdata的 - CSDN

于08-07 06:27 - -
大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离. 请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址.

大型广告系统架构概述 - TigerMee - CSDN

于08-03 00:44 - -
在互联网江湖中,始终流传着三大赚钱法宝:广告、游戏、电商. 三杰之中,又以大哥广告的历史最为悠久,地位也最为不可撼动. 君不见很多电商和游戏公司,也通过广告业务赚的盆满钵满. 其发迹于Y公司,被G公司发扬光大,又在F公司阶段性地完成了其历史使命. F公司,在移动互联网兴起之际,利用其得天独厚的数据优势,终于能够回答困扰了广告主几百年的问题:我的广告究竟被谁看到了.

异地多活架构设计 - 频道 - CSDN.NET

于07-31 12:58 - -
有幸参与了阿里游戏的一个高可用方案的设计,并且在网上发表了方案(面向业务的立体化高可用架构设计),后来参加GOPS全球运维大会深圳站,与众多行业高手交流,发现大家对“异地多活”这个方案设计非常感兴趣,毕竟“异地多活”的方案价值非常大,尤其是互联网行业,规模稍微大一点几乎都必须是标配;但同时大家都觉得“异地多活”的方案设计又很难,网络、数据、事务等各种问题混杂在一起,很多问题看似是无法解决的.

AI大行其道,你准备好了吗?—谨送给徘徊于转行AI的程序员 - JeemyJohn的 - CSDN

于07-17 09:02 - -
  近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个IT界. 所有的互联网公司,尤其是 Google 微软,百度,腾讯等巨头,无不在布局人工智能技术和市场. 百度,腾讯,阿里巴巴,京东,等互联网巨头甚至都在美国硅谷大肆高薪挖掘人工智能人才.

使用hystrix保护你的应用 - Kris的 | Kris' Blog

于06-23 02:40 - -
凡是可能出错的事必定会出错. hystrix([hɪst'rɪks])是豪猪的意思. 豪猪是一种哺乳动物,全身是刺用以更好的保护自己. netflix使用这畜生来命名这框架实在是非常的贴切,意味着hystrix能够像豪猪的刺一样保护着你的应用. 本文专门探讨netflix的hystrix框架.

用jpinyin实现汉字转拼音功能 - developer_Kale -

于06-22 23:06 - -
项目地址:https://github.com/stuxuhai/jpinyin. JPinyin是一个汉字转拼音的Java开源类库,在PinYin4j的功能基础上做了一些改进. Unicode编码从4E00-9FA5范围及3007(〇)的20903个汉字中,JPinyin能转换除46个异体字(异体字不存在标准拼音)之外的所有汉字;.

我当初是怎么管理技术团队的 - 旁观者 -

于06-19 12:15 - -
关键词:管理技术人才、管理技术团队、技术传承、对题集/错题集、研发哲学. 窝窝技术团队大约两三百人左右,主要是五大块:研发、数据、无线、质量、运维. 2012年年初,一个大项目结束后,我召开了飞行研讨会,经过这次深刻反思,形成了几个影响深远的管理观点:. 管理者要向下提供工具,以形成干部的简单、易记忆、易执行的工作套路.

[Elasticsearch] 控制相关度 (五) - function_score查询及field_value_factor,boost_mode,max_mode参数 - dm_vincent的专栏 - 频道 - CSDN.NET

于06-18 13:18 - -
本章翻译自Elasticsearch官方指南的Controlling Relevance一章. function_score查询. function_score查询是处理分值计算过程的终极工具. 它让你能够对所有匹配了主查询的每份文档调用一个函数来调整甚至是完全替换原来的_score. 实际上,你可以通过设置过滤器来将查询得到的结果分成若干个子集,然后对每个子集使用不同的函数.

近实时搜索SearcherManager和NRTManager的使用 - 学习笔记 - 频道 - CSDN.NET

于06-18 07:32 - -
lucene通过NRTManager这个类来实现近实时搜索,所谓近实时搜索即在索引发生改变时,通. 过线程跟踪,在相对很短的时间反映给给用户程序的调用. NRTManager通过管理IndexWriter对象,并将IndexWriter的一些方法(增删改)例如. addDocument,deleteDocument等方法暴露给客户调用,它的操作全部在内存里面,所以如果.

Java 开源 Solo 1.9.0 发布 - 新皮肤

于02-21 07:42 - - 软件更新新闻
这个版本主要是改进了评论模版机制,让大家更方便皮肤制作,并发布了一款新皮肤:9IPHP. Solo 是一款 一个命令就能搭建好的 Java 开源博客系统,并内置了 15+ 套精心制作的皮肤. 除此之外,Solo 还有着非常活跃的 社区,文章分享到社区后可以让很多人看到,产生丰富的交流互动.

hexo零成本搭建个人

于02-13 04:32 - 外城士心月月鸟 - node.js github
不可思议的快速 ─ 只要一眨眼静态文件即生成完成. 支持 Markdown仅需一道指令即可部署到 GitHub Pages. 兼容于 Windows, Mac & Linux. 首先需要安装以下程序:. Node.js安装非常简单,一路Next即可. Git安装建议勾选Git Bash Here.

[Python爬虫] Selenium爬取新浪微户端用户信息、热点话题及评论 (上

于04-24 07:29 - Eastmount -
前一篇文章" [python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等. 微博信息:包括转发或原创、点赞数、转发数、评论数、发布时间、微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩:.

WordPress 全球份额已达25%:早已不是工具

于11-09 09:52 - - 综合新闻
新浪科技讯北京时间11月9日早间消息,本周日,内容管理平台WordPress迎来了重要一天. 来自W3Techs的数据显示,目前已有1/4的互联网网站基于WordPress平台. W3Techs表示:“在我们知晓内容管理系统的网站中,有58.7%的网站使用WordPress. ”尽管这一数字每月都会波动,但整体来看,WordPress的市场份额正在稳步增长.

Nginx 配置之性能篇

于05-27 13:02 - -
在介绍完我博客(imququ.com)的 Nginx 配置中 与安全有关的一些配置后,这篇文章继续介绍与性能有关的一些配置. WEB 性能优化是一个系统工程,涵盖很多方面,做好其中某个环节并不意味性能就能变好,但可以肯定地说,如果某个环节做得很糟糕,那么结果一定会变差. 首先说明下,本文提到的一些 Nginx 配置,需要较高版本 Linux 内核才支持.

自动生成章节目录索引 - 薰衣草的旋律

于03-20 16:47 - 薰衣草的旋律 -
一个好的博文除了博文的质量要好以外,好的组织结构也能让读者阅读的更加舒服与方便,我看园子里面有一些园友的博文都是分章节的,并且在博文的前面都带有章节的目录索引,点击索引之后会跳转到相应的章节阅读,并且还可以回到目录顶端,其中 Fish Li 的博文就是这种组织,当然这种结构如果是在写博文的时候人工设置那是非常麻烦的,无疑是增加了写作人的工作量.