更新于:09-21 09:10

有关[分析]分类推荐

Databus架构分析与初步实践(for mysql) | 网易乐得技术团队

于09-21 14:40 - -
Databus是一个低延迟、可靠的、支持事务的、保持一致性的数据变更抓取系统. 由LinkedIn于2013年开源. Databus通过挖掘数据库日志的方式,将数据库变更实时、可靠的从数据库拉取出来,业务可以通过定制化client实时获取变更并进行其他业务逻辑. 数据传输能保证顺序性和至少一次交付的高可用性.

限流降级神器-哨兵(sentinel)原理分析

于09-20 20:43 - -
Sentinel 是阿里中间件团队开源的,面向分布式服务架构的轻量级高可用流量控制组件,主要以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度来帮助用户保护服务的稳定性. 大家可能会问:Sentinel 和之前常用的熔断降级库 Netflix Hystrix 有什么异同呢. Sentinel官网有一个对比的文章,这里摘抄一个总结的表格,具体的对比可以点此 链接 查看.

使用Python进行相关性分析

于09-17 18:34 - 标点符 - 数据科学 程序开发 Python
在数据分析时,经常会针对两个变量进行相关性分析. 在Python中主要用到的方法是pandas中的corr()方法. corr():如果由数据框调用corr函数,那么将会计算每个列两两之间的相似度,返回DataFrame. corr(other):如果由序列调用corr方法,那么只是该序列与传入的序列之间的相关度,返回一个数值型,大小为相关度.

[分享发现] 汉语中的词频及笔画数分布规律探析

于09-15 12:59 - metaquant -
一篇汉字词频与笔画数规律的数据分析小文,和大家交流,也请大佬们多指教,V2EX 不能很好的显示数学公式,所以贴上自己的博文地址和 GitHub 仓库地址:. 博文地址: https://md.metaquant.org/2018/words.html. notebook 地址: https://github.com/sorrowise/chinese_data_analysis/blob/master/chinese_data_analysis_CH.ipynb.

流行 iOS Apps 被发现将用户位置数据发送给第三方数据分析公司

于09-08 20:04 - -
GuardianApp 的安全研究人员 发现,数十款流行 iOS Apps 被发现会将用户位置数据发送给第三方数据分析公司. 这些应用都需要位置数据才能正常工作,它们是气象、交友或健身类应用,而与第三方公司分享数据可以为免费应用产生收入. 这些应用收集的数据包括低功耗蓝牙信标数据,GPS 经维度数据,Wi-Fi SSID 和 BSSID,部分应用还收集加速计,广告标识符,电池状态和蜂窝网络信息等.

Uber 的实时数据分析系统架构 - 网站架构札记

于09-03 15:44 - -
Uber 实时系统的 Use case:. 举一个更详细些的例子,UberEATS 是 Uber 的外卖服务. 实时系统也为这个功能估算送餐时间. 所有来自乘客和司机的事件 event ,由 Kafka 收集. Kafka 使用 Pub-sub 的订阅发布模式. Uber 整个系统中各个 microservice 之间的通信也通过了 Kafka.

金融数据分析与挖掘具体实现方法 -1 - 汪凡 - 博客园

于08-29 07:07 - -
有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结. 首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补充知识来自互联网与个人整理,欢迎批评指正并补充说明. 1 先来了解一下什么是金融市场呢. 通常狭义的金融市场特指有价证券(股票、债券)发行和流通的场所.

Kylin在马蜂窝数据分析团队的应用实战

于08-24 14:13 - -
AI 前线导读:马蜂窝大数据平台自 2017 年下半年引入 Apache Kylin 以来,极大的提升了数据分析师对于数据探索的效率. 因为使用了 Apache Kylin,数据分析师可以直接查询大数据、无需排队、亚秒级响应,整体开发效率提高了 10 倍以上. 更多优质内容请关注微信公众号“AI 前线”(ID:ai-front).

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(2). Spark 通过调用 RowMatrix 的 computeSVD 方法会得到三个重要的矩阵 U、S、V , 而且:原始矩阵 近似等于 U * S * V. V: 每一行表示单词,列表示概念,矩阵的值表示单词在概念里面的重要程度.

Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1) - clebeg的个人空间 - 开源中国

于08-11 18:55 - -
Spark数据挖掘-基于 LSA 隐层语义分析理解APP描述信息(1). 结构化数据处理比较直接,然而非结构化数据(比如:文本、语音)处理就比较具有挑战. 对于文本现在比较成熟的技术是搜索引擎,它可以帮助人们从给定的词语中快速找到包含关键词的文本. 但是,一些情况下人们希望找到某一个概念的文本,而不关心文本里面是否包含某个关键词.

广东移动:终端行业分析报告

于08-09 23:45 - DinK - 智能手机 分析报告 广东移动 终端行业 终端行业分析报告
1)相较于第一季度,第二季度市场略有缩小. 2)华为表现不俗,市场占比,用户忠诚度均优于其他品牌. 3)选择在6-12月内的换机用户比例有较大幅度增长. 4)华为、苹果、OPPO、VIVO四大品牌中超50%的用户忠诚于原品牌. 5)用户更爱换至安卓机,流向苹果用户数量减少. (一)手机市场总洞察:第二季度销量下滑,华为超过苹果,iPhone以及OPPO机型表现出色  .

Linux IO 监控与深入分析 - Jamin Zhang

于06-20 20:43 - -
Linux IO 监控与深入分析. 接昨天电话面试,面试官问了系统 IO 怎么分析, 当时第一反应是使用 iotop 看系统上各进程的 IO 读写速度, 然后使用 iostat 看 CPU 的 %iowait 时间占比,(%iowait:CPU等待输入输出完成时间的百分比,%iowait的值过高,表示硬盘存在I/O瓶颈).

Nginx 502 Bad Gateway问题分析与踩过的坑 - 凝雨 - Yun

于06-11 10:48 - -
我相信使用Nginx的都会遇到过502 504 这种bad gateway错误,下面我把碰到这个问题分析过程记录并分享出来. 从字面上的意思理解,nginx从upstream没有接受到信息,第一感觉就是连接被close. 超时的话一般错误信息是 timeout. 下面是尝试解决这个问题尝试过的手段.

(转)服务器性能指标(一)——负载(Load)分析及问题排查

于05-21 21:03 - -
原创: Hollis Hollis. 负载(load)是linux机器的一个重要指标,直观了反应了机器当前的状态. 来看下负载的定义是怎样的:. It conventionally appears in the form of three numbers which represent the system load during the last one-, five-, and fifteen-minute periods.(wikipedia).

[原]文本分析论文资料

于05-11 15:38 - u011239443 -
《一揽子高效文本分类技巧》论文阅读. 计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域. 本算法支持Levenshtein Distance,Longest Common SubString,String Subsequence Kernel,Cosine,simhash_hamming五种相似度计算方式.

presto、druid、sparkSQL、kylin的对比分析,如性能、架构等,有什么异同? - 知乎

于05-09 16:02 - -
这几个框架都是OLAP大数据分析比较常见的框架,各自特点如下:. presto:facebook开源的一个java写的分布式数据查询框架,原生集成了Hive、Hbase和关系型数据库,Presto背后所使用的执行模式与Hive有根本的不同,它没有使用MapReduce,大部分场景下比hive快一个数量级,其中的关键是所有的处理都在内存中完成.

用 Python 进行股票分析,有什么好的入门书籍或者课程吗?

于04-19 14:00 - 景略集智 -
虽然这个问题也有些年头了,但相信现在仍然会有不少朋友对如何用Python分析股票很感兴趣,所以今天我们就分享一篇美国数据科学专家William Koehrsen 利用Python股票分析工具Stocker的实战教程. 相信本文会对你在这个问题上有不少启发. 对于数据科学研究来说,海量数据和免费的开源工具包很容易得到.

CBoard 分析工具选型 · yzhang921/CBoard Wiki · GitHub

于04-13 17:50 - -
数据可视化是BI生命周期里面非常重要的一个环节,当前数据可视化的几种常见模式如下:. 商业BI套件 能够提供BI生命周期全套的解决方案,业界比较知名BI套件老牌的有IBM的Cognos、SAP的BO、Oracle的BIEE,以及新生军Tableau、QlikView等等,这些产品前端可视化都做得非常强大,报表设计、Dashboard设计、Report邮件发送、OLAP分析都不在话下.

消息中间件选型分析——从Kafka与RabbitMQ的对比来看全局

于04-03 23:31 - - 技术杂记 转载 RabbitMQ Kafka
有很多网友留言:公司要做消息中间件选型,该如何选. 消息选型的确是一个大论题,实则说来话长的事情又如何长话短说. 对此笔者专门撰稿一篇内功心法: 如何看待消息中间件的选型,不过这篇只表其意未表其行,为了弥补这种缺陷,笔者最近特意重新撰稿一篇,以供参考. 温馨提示:本文一万多字,建议先马(关注)后看.

Java 堆内存溢出梗概分析

于03-30 10:13 - -
原文:Java Out of Memory Heap Analysis. 链接: https://dzone.com/articles/java-out-of-memory-heap-analysis. 译者:dreamanzhao, 无若. 任何使用过基于 Java 的企业级后端应用的软件开发者都会遇到过这种低劣、奇怪的报错,这些报错来自于用户或是测试工程师: java.lang.OutOfMemoryError:Java heap space.

开源的BI交互式多维报表设计和分析工具cboard

于03-08 09:16 - -
Support to connect one of the most popular open source multi-dimensional analysis of products Saiku2, and will be able to selectively create data and graphics.

运营商是怎么分析出数据通道中特定 App 的数据流量的? - 知乎

于01-26 11:47 - -
主要是通过DPI(Deep Packet Inspection)来实现的,一般称之为「深度报文检测」或「深度包检测」. 从字面意思来讲,所谓「深度」是相对于普通的报文检测而言的. 普通的报文检测仅分析IP包的层4以下5元素:源地址、目的地址、源端口、目的端口及协议类型. 而DPI除了对以上5元素进行分析外,增加了应用层分析,用来识别各种应用及其内容.

关于Python数据分析,这里有一条高效的学习路径

于01-21 20:29 - -
谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单……. 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…….

利用WireShark对听音乐的过程中传送的数据包进行分析

于01-17 13:00 - wujiaming123 - 工具 Wireshark 数据包
相信现在的每一个人都在网络上听过音乐,那么,在我们听音乐的过程中,究竟发生了什么呢. 下面我就利用 WireShark 给大家分析一下. 打开wireshark,选择本地连接进行监听. 之后,打开一个音乐软件,随便点击一首歌曲,然后播放这首歌曲. 等待音乐播放了十几秒之后,停止wireshark的监听,现在wireshark已经监听到许多的数据包了,如下图.

为什么70%的成功者都是性格内向?分析太到位

于01-05 20:22 - -
世界上70% 以上的成功者其实是性格内向的人. 内向对一个人的成功是有一定的影响因素,爱因斯坦、比尔盖茨、巴菲特、村上春树等都是内向性格的人, 内向性格的人为什么容易成功. 成功人士是能言善辩,面对大众款款而谈,在大多数人眼中外向的人似乎比内向的人更容易成功. 然而据调查显示,成功者中内向者所占比例大大高于外向性格.

使用python+机器学习方法进行情感分析(详细步骤) - 51CTO.COM

于01-05 17:49 - -
【限时免费】年底最强一次云计算大会,看传统、社区、互联网企业如何碰撞. 不是有词典匹配的方法了吗?怎么还搞多个机器学习方法. 因为词典方法和机器学习方法各有千秋. 机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会. 无论是主客观分类还是正负面情感分类,机器学习都可以完成任务.

分布式事务中间件 TCC-Transaction 源码分析 —— 项目实战

于01-02 00:00 - - geek
摘要: 原创出处 http://www.iocoder.cn/TCC-Transaction/http-sample/「芋道源码」欢迎转载,保留摘要,谢谢. 本文主要基于 TCC-Transaction 1.2.3.3 正式版. 4.2 Confirm / Cancel 阶段. 微信公众号:【芋道源码】有福利:.

智能投放系统之场景分析最佳实践

于12-29 22:23 - 美团点评技术团队 -
新美大平台作为业内最大的O2O的平台,以短信/push作为运营手段触达用户的量级巨大,每日数以千万计. 美团点评线上存在超过千万的POI,覆盖超过2000城市、2.5万个后台商圈. 在海量数据存在的前提下,实时投放的用户在场景的选择上存在一些困难,所以我们提供对场景的颗粒化查询和智能建议,为用户解决三大难题:.

缓存击穿问题分析

于12-26 14:54 - ludizhang -
缓存一般作为RDS的前置组件,将常用的资源缓存,用来减少RDS的读取压力,也是诸多系统常用的一种方案,如果允许访问缓存失败直接访问数据库,然后再将数据回写到缓存中,那么就会存在缓存击穿的问题,. 缓存击穿:缓存中的数据未被命中,进而请求直接对数据库进行查询,当大量的类似查询瞬间出现,就会出现数据库的压力爆炸甚至引起数据库的雪崩,本质就是一种缓存失效引发的极端问题.

Word2vec之情感语义分析实战(part3)--利用分布式词向量完成监督学习任务

于12-16 18:55 - u010665216 -
这篇博客将基于前面一篇博客 Part2做进一步的探索与实战. demo代码与数据: 传送门. 前面我们训练了单词的语义理解模型. 如果我们深入研究就会发现,Part2中训练好的模型是由词汇表中单词的特征向量所组成的. 这些特征向量存储在叫做syn0的numpy数组中:. 很明显这个numpy数组大小为(16490,300)分别代表词汇表单词数目及每个单词对应的特征数.