更新于:10-28 22:23

有关[geek]标签推荐

NLP----关键词提取算法(TextRank,TF/IDF)

于12-11 00:00 - - geek
参考书目:python自然语言处理实战——核心技术与算法. 基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力. 因此中和这两个数,就能较好地算出文档的关键词. |D_i|是文档中出现词i的文档数量,|D|是文档数.

15分钟入门NLP神器—Gensim

于12-08 00:00 - - geek
   作者:李雪冬           . 编辑:李雪冬           . 作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这是一款具备多种功能的神器. Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达.

是做通用型的AGI,还是垂直AI,不妨看看这篇文章

于12-07 00:00 - - geek
随着技术的进步以及更多人的认可,机器学习面临的最大困境不是如何跨过前往通用人工智能(AGI)路上的障碍,而是如何将现有的机器学习技术对更多企业开放,并让其更具实用性. 随着技术的进步以及更多人的认可,机器学习面临的最大困境不是如何跨过前往通用人工智能(AGI)路上的障碍,而是如何将现有的机器学习技术对更多企业开放,并让其更具实用性.

新一代数据库TiDB在美团的实践

于11-23 00:00 - - geek
近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式. 而随着分布式数据库大放异彩,美团DBA团队联合基础架构存储团队,于 2018 年初启动了分布式数据库项目. 在立项之初,我们进行了大量解决方案的对比,深入了解了业界的 scale-out(横向扩展)、scale-up(纵向扩展)等解决方案.

谈Elasticsearch下分布式存储的数据分布

于10-31 00:00 - - geek
  对于一个分布式存储系统来说,数据是分散存储在多个节点上的. 如何让数据均衡的分布在不同节点上,来保证其高可用性. 所谓均衡,是指系统中每个节点的负载是均匀的,并且在发现有不均匀的情况或者有节点增加/删除时,能及时进行调整,保持均匀状态. 本文将探讨Elasticsearch的数据分布方法,文中所述的背景是Elasticsearch 5.5.

35 岁的程序员将何去何从——阮一峰

于10-01 00:00 - - geek
作者:阮一峰,IT 技术作家,长期写作个人技术博客. 当过高校教师,也当过阿里巴巴集团软件工程师. 曾出版译著《黑客与画家》《软件随想录》,技术专著《ES6 标准入门》. 2017年初,网上传言华为公司正在清理34岁以上的员工. 中国区开始集中清理 34+ 的交付员工,……去向是跟海外服务部门交换今年新毕业的校招员工,也就是进新人,出旧人.

AI 在携程智能客服的应用

于08-15 00:00 - - geek
作为国内 OTA 的领头羊,携程每天都在服务着成千上万的旅行者. 为了保障旅行者的出行,庞大的携程客服在其中扮演着十分重要的角色. 但在客服的日常工作中,有一部分的行为是重复劳动,这对于客服来说是一种资源浪费. 如何通过算法来提升客服效率成为技术一大挑战. 本场 Chat 将介绍智能算法如何辅助客服工作,并介绍QA问答背后的技术和难题,以及如何用机器学习和深度学习在提升用户体验和客服效率上进行落地.

干货 | Elasticsearch Reindex性能提升10倍+实战

于08-14 00:00 - - geek
1、reindex的速率极慢,是否有办法改善. 以下问题来自社区: https://elasticsearch.cn/question/3782. 问题1:reindex和snapshot的速率极慢,是否有办法改善. reindex和snapshot的速率比用filebeat或者kafka到es的写入速率慢好几个数量级(集群写入性能不存在瓶颈),reindex/snapshot的时候CPU还是IO使用率都很低,是不是集群受什么参数限制了reindex和snapshot的速率.

攻略 | 教你拿下梦寐以求的Offer(多资源)

于07-31 00:00 - - geek
本文共 3100字,建议阅读 8分钟. 本文作者分享了自身宝贵的求职经历并整理了为面试做准备所使用的各种资料,干货满满. [ 导读 ]梦想还是要有的,万一实现了呢. 本文来自一位刚刚加入 Airbnb 的数据科学家 Kelly Peng,她本科毕业于武汉大学,自认为并非牛人,并且在很长一段时间里求职屡战屡败.

阿里团队最新实践:如何解决大规模分类问题?

于07-09 00:00 - - geek
【AI科技大本营导读】近年来,深度学习已成为机器学习社区的一个主要研究领域. 其中一个主要挑战是这种深层网络模型的结构通常很复杂. 对于一般的多类别分类任务,所需的深度网络参数通常随着类别数量的增加而呈现超线性增长. 如果类别的数量很大,多类别的分类问题将变得不可行,因为模型所需的计算资源和内存存储将是巨大的.

【案例】某国际知名零售连锁企业:基于人工智能的选址解决方案

于06-17 00:00 - - geek
【数据猿导读】本篇案例涉及企业是一家国外顶级零售商,合作方在美国具有良好的数据支持,并已研发出成熟的选址模型,在美国表现效果非常良好,但当合作方将其模型拿到中国市场时,却出现了水土不服的情况. 官网 | www.datayuan.cn. 微信公众号ID | datayuancn. 对于万达广场、7-Eleven、中国工商银行等大型连锁企业来说,选址的意义十分重大,直接影响着企业实际经营效益,关乎企业成败.

推荐算法不够精准?让知识图谱来解决

于06-05 00:00 - - geek
编者按:我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐. 个性化推荐系统作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务. 但传统的推荐系统容易出现稀疏性和冷启动的问题,而知识图谱作为一种新兴类型的辅助信息,近几年逐渐引起了研究人员的关注,本文将向大家介绍知识图谱的相关知识以及知识图谱在推荐系统中可能的应用价值.

52个有用的机器学习和预测API(各个方向资源)

于05-14 00:00 - - geek
选自KDnuggets  机器之心编译 参与:吴攀. 人工智能正在成为新一代技术变革的基础技术,但从头开始为自己的应用和业务开发人工智能程序既成本高昂,且往往很难达到自己想要的性能表现,但好在我们有大量现成可用的 API 可以使用. 开发者可以通过这些 API 将其它公司提供的智能识别、媒体监测和定向广告等人工智能服务集成到自己的产品中.

如何像黑客一样掌握自己的电脑状态

于05-13 00:00 - - geek
我对IT技术有着狂热的追求,虽然现在很渣,但是我有颗钻研的心,例外我还比较喜欢看小说,相信看过. 最强黑客的人对里面的黑客的技术佩服得无以复加,黑客一般对自己的电脑数据都比较在意,一般都会设置些密码等并在被破解密码后做相应的补救措施,那么我们如何知道自己的电脑被人动过或者被盗呢(假设电脑开始是关机了的),根据我最近的学习找到了实现的方法,并验证成功,废话不多说,来一碗干货.

爬取携程信息

于05-09 00:00 - - geek
print("评分为:{}".format(userRating)). print("评论内容为:{}".format(commentText)) '''. 数据库操作 ''' #获取数据库链接 connection = pymysql.connect(host = 'localhost',.

大数据-Hadoop小文件问题解决方案

于04-20 00:00 - - geek
HDFS中小文件是指文件size小于HDFS上block(. dfs.block.size)大小的文件. 大量的小文件会给Hadoop的扩展性和性能带来严重的影响. 动态分区插入数据,产生大量的小文件,从而导致map数量剧增. reduce数量越多,小文件也越多,reduce的个数和输出文件个数一致.

如何用Nginx搭建一个安全的、快速的微服务架构

于04-19 00:00 - - geek
本文改编自Chris Stetson发表在nginx.conf 上的一个有关如今的微服务以及如何使用Nginx构建一个快速的、安全的网络系统的演讲,. Chris Stetson:Hi,我的名字是Chris Stetson,我在Nginx带领专业服务部门,同时也领导微服务实践. 今天我们要谈论微服务以及如何使用Nginx构建一个快速的、安全的网络系统.

GitHub 上最著名的20个 Python 机器学习项目,值得收藏!

于04-10 00:00 - - geek
源 | kdnuggets|小象. 开源是技术创新和快速发展的核心. 这篇文章向你展示Python机器学习开源项目以及在分析过程中发现的非常有趣的见解和趋势. 我们分析了GitHub上的前20名Python机器学习项目,发现scikit-Learn,PyLearn2和NuPic是贡献最积极的项目. 让我们一起在Github上探索这些流行的项目.

数据库面试常问的一些基本概念

于03-28 00:00 - - geek
点击上方“Java知音”,选择“置顶公众号”. 链接:https://blog.csdn.net/u013142781. Javaweb练手项目源码下载. 1、超键、候选键、主键、外键. 超键:在关系中能唯一标识元组的属性集称为关系模式的超键. 一个属性可以为作为一个超键,多个属性组合在一起也可以作为一个超键.

机器学习算法选用指南

于02-27 00:00 - - geek
在从事数据科学工作的时候,经常会遇到为具体问题选择最合适算法的问题. 虽然有很多有关机器学习算法的文章详细介绍了相关的算法,但要做出最合适的选择依然非常困难. 在这篇文章中,我将对一些基本概念给出简要的介绍,对不同任务中使用不同类型的机器学习算法给出一点建议. 在文章的最后,我将对这些算法进行总结.

前端性能优化小纪 -

于02-21 00:00 - - geek
天下武功,无坚不破,唯快不破. 对前端而言,快意味着要求资源体量更小、数量更精简、内容更早呈现、交互更加人性化. 当项目做到一定程度,就应该考虑性能的问题,前端的性能优化有诸多有迹可循的理论和方法,比如 Yahoo. 性能军规、Google PageSpeed Insights Rules. 我们团队一个比较老的项目首屏加载大概需要20多秒,这严重影响了用户体验,于是进行了一次首屏加载的性能优化.

记一次HDFS性能问题排查

于02-21 00:00 - - geek
就最近现网读写HDFS时,阶段性比较慢,也不是一直都比较慢,慢的时候读取一次需要20秒左右,一般毫秒级就可以返回. 这种表现第一印象就是JVM GC导致的吧. jstat -gcutil [pid] [ []],(悲哀啊,伟大的华为不让内网对外发布文章,这篇文章只能在家里写,就不可以图文并茂了,sorry),发现每次fullGC都不会超过秒,都是毫秒级.

解锁新姿势 | 如何用配置中心实现全局动态流控?

于01-24 00:00 - - geek
摘要: 当资源成为瓶颈时,服务框架需要对消费者做限流,启动流控保护机制. 流量控制有多种策略,比较常用的有:针对访问速率的静态流控、针对资源占用的动态流控、针对消费者并发连接数的连接控制和针对并行访问数的并发控制. 在分布式架构中,应用和应用之间的调用类型分为以下两种,流控方式也略有不同. 当资源成为瓶颈时,服务框架需要对消费者做限流,启动流控保护机制.

2017双11技术揭秘—阿里巴巴数据库技术架构演进

于01-03 00:00 - - geek
摘要: 每年电商双11大促对阿里技术人都是一次大考,对阿里数据库团队更是如此. 经过9年的发展,双11单日交易额从2009年的0.5亿一路攀升到2017年的1682亿,秒级交易创建峰值达到了32.5万笔/秒. 支撑这一切业务指标的背后,是底层技术体系的一次次迭代升级. 每年电商双11大促对阿里技术人都是一次大考,对阿里数据库团队更是如此.

分布式事务中间件 TCC-Transaction 源码分析 —— 项目实战

于01-02 00:00 - - geek
摘要: 原创出处 http://www.iocoder.cn/TCC-Transaction/http-sample/「芋道源码」欢迎转载,保留摘要,谢谢. 本文主要基于 TCC-Transaction 1.2.3.3 正式版. 4.2 Confirm / Cancel 阶段. 微信公众号:【芋道源码】有福利:.

优化网站性能必备的6种架构方案,你知道吗?

于11-24 08:00 - - geek
一个成熟的大型网站(如淘宝、天猫、腾讯等)的系统架构并不是一开始设计时就具备完整的高性能、高可用、高伸缩等特性的,它是随着用户量的增加,业务功能的扩展逐渐演变完善的,在这个过程中,开发模式、技术架构、设计思想也发生了很大的变化,就连技术人员也从几个人发展到一个部门甚至一条产品线. 所以成熟的系统架构是随着业务的扩展而逐步完善的,并不是一蹴而就;不同业务特征的系统,会有各自的侧重点,例如:淘宝,要解决海量的商品信息的搜索、下单、支付,例如腾讯,要解决数亿用户的实时消息传输,百度它要处理海量的搜索请求,他们都有各自的业务特性,系统架构也有所不同.

分布式服务框架Dubbo疯狂更新!阿里开源要搞大事情?

于11-15 08:00 - - geek
阿里妹导读:最近,开源社区发生了一件大事——使用最广的开源服务框架之一Dubbo低调重启维护,并且3个月连续发布了3个维护版本. 这3个维护版本不仅解决了社区关心的一系列问题和需求,还让整个社区的活跃度得到了大幅提升. Dubbo启动维护后,阿里中间件(Aliware)组建了由专职人员和RPC技术专家组成的虚拟维护团队.

Sql性能优化梳理

于11-08 08:00 - - geek
本文主要针对的是关系型数据数据库MySql. 键值类数据库可以参考最简大数据Redis. 先简单梳理下Mysql的基本概念,然后分创建时和查询时这两个阶段的优化展开. 第一层:客户端通过连接服务,将要执行的sql指令传输过来. 第二层:服务器解析并优化sql,生成最终的执行计划并执行. 第三层:存储引擎,负责数据的储存和提取.

(面试感悟)一名3年工作经验的程序员应该具备的技能

于09-19 08:00 - - geek
因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章. 这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员的. 简单先说一下,LZ坐标杭州,13届本科毕业,算上年前在阿里巴巴B2B事业部的面试,一共有面试了有6家公司(因为LZ不想请假,因此只是每个晚上去其他公司面试,所以面试的公司比较少),其中成功的有4家,另外两家失败的原因在于:.

最近5年133个Java面试问题列表

于07-28 08:00 - - geek
Java 面试随着时间的改变而改变. 在过去的日子里,当你知道 String 和 StringBuilder 的区别就能让你直接进入第二轮面试,但是现在问题变得越来越高级,面试官问的问题也更深入. 在我初入职场的时候,类似于 Vector 与 Array 的区别、HashMap 与 Hashtable 的区别是最流行的问题,只需要记住它们,就能在面试中获得更好的机会,但这种情形已经不复存在.