更新于:03-04 13:15

有关[数据]分类推荐

微服务下的数据架构

于05-23 00:00 - - dev
微服务是一个软件架构模式,对微服务的讨论大多集中在容器或其他技术是否能很好的实施微服务,而本文将从以下几个角度来和大家分享在微服务架构下进行数据设计需要关注的地方,旨在帮助大家在构建微服务架构时,提供一个从数据方面的视角:. 按照 Martin Fowler 的定义,微服务是一个软件架构模式,通过开发一系列的小型服务的方式来实现一个应用.

Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式 - CSDN博客

于05-17 15:36 - -
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了. 一、基于Receiver的方式. 这种方式使用Receiver来获取数据.

spring boot 2.0.1版本,多数据源支持

于05-12 09:30 - breezylee -
有时候我们需要在程序中加载多个数据源,用spring jpa可以实现,网上有许多资料,要指定哪个包下面的类使用哪个数据源,个人觉得这种方式不够灵活,不是我想要的. 我是想通过多个jdbcTemplate的实例,不同实例操作不同的数据源,甚至不同的实例操作同一类路径的实体对象. 下面记录下,实现加载读写分离两个数据源的过程.

最火实时大数据OLAP技术原理和实践

于05-09 15:28 - -
Druid在大数据领域已经不是新人了,因此可能很多读者都已经听说过Druid,甚至用过Druid,但是未必每个人都真正清晰地了解Druid到底是什么,以及在什么情况下可以用Druid. 同时,为了避免大家听了半天,却一直陷在各种细节中但仍然不知道到底在听什么东西,我们还是有必要在开始的时候先总体谈一谈Druid到底是什么.

使用ElasticSearch作为大数据平台的实时OLAP框架 – lxw的大数据田地

于05-09 15:24 - -
关键字:elasticsearch、olap. 一直想找一个用于大数据平台实时OLAP(甚至是实时计算)的框架,之前调研的Druid(druid.io)太过复杂,整个Druid由5、6个服务组成,而且加载数据也不太方便,性能一般,亦或是我还不太会用它. 后来发现使用ElasticSearch就可以满足海量数据实时OLAP的需求.

[原]Facebook如何运用机器学习进行亿级用户数据处理

于01-23 14:33 - qq_40027052 -
编译 | 刘畅、尚岩奇、林椿眄. 2017年末,Facebook应用机器学习组发布最新论文,对整个Facebook的机器学习软硬件架构进行了介绍. 纵览全文,我们也可以从中对Facebook各产品的机器学习策略一窥究竟. 论文中涉及到机器学习在全球规模(上亿级数据处理)上的全新挑战,并给出了Facebook的应对策略和解决思路,对相关行业和研究极其有意义.

微服务化的数据库设计与读写分离

于04-28 09:29 - aoyouzi -
数据库永远是应用最关键的一环,同时越到高并发阶段,数据库往往成为瓶颈,如果数据库表和索引不在一开始就进行良好的设计,则后期数据库横向扩展,分库分表都会遇到困难. 对于互联网公司来讲,一般都会使用My SQL数据库. 我们首先来看Mysql数据的总体架构如下:. 这是一张非常经典的Mysql的系统架构图,通过这个图可以看出Mysql各个部分的功能.

大数据-Hadoop小文件问题解决方案

于04-20 00:00 - - geek
HDFS中小文件是指文件size小于HDFS上block(. dfs.block.size)大小的文件. 大量的小文件会给Hadoop的扩展性和性能带来严重的影响. 动态分区插入数据,产生大量的小文件,从而导致map数量剧增. reduce数量越多,小文件也越多,reduce的个数和输出文件个数一致.

Oracle 移动数据文件的操作方法 - CSDN博客

于04-14 16:26 - -
将表空间和数据文件从一个位置移动到另一个位置的操作方法. OFFLINE 分为ALTER DATABASE 与 ALTER TABLESPACE OFFLINE,. 1.先将相应的数据文件 offline  . 2.把数据文件 copy 到新位置. 4. 介质恢复(offline 数据文件必须要介质恢复).

在数据库中存储一棵树,实现无限级分类

于04-10 14:57 - Kaciras - mybatis mysql java
在一些系统中,对内容进行分类是必需的功能. 比如电商就需要对商品做分类处理,以便于客户搜索;论坛也会分为很多板块;门户网站、也得对网站的内容做各种分类. 分类对于一个内容展示系统来说是不可缺少的,本博客也需要这么一个功能. 众所周知,分类往往具有从属关系,比如铅笔盒钢笔属于笔,笔又是文具的一种,当然钢笔还可以按品牌来细分,每个品牌下面还有各种系列....

Centos 更改MySQL5.7数据库目录位置 - CSDN博客

于04-10 15:23 - -
Centos7.3 安装Mysql5.7并修改初始密码. 基于 CentOS Mysql 安装与主从同步配置详解. yum安装(RPM分发进行安装)MySQL的几个人默认目录如下:. 假如要把目录移到/home/data下需要进行下面几步:. 1、home目录下建立data目录. /var/lib/mysql整个目录移到.

在这个连开源标注数据集都没有的领域,AI该如何落地?

于03-29 21:39 - 微胖 -
对于法律科技领域来说,2014 年元旦是一个重要分水岭. 这一天,最高人民法院《关于人民法院在互联网公布裁判文书的规定》生效实施. 即日起, 全国四级法院的生效裁判文书, 除涉及国家秘密、个人隐私、未成年人违法犯罪等特殊情形外, 应当在生效后七日内统一上传至中国裁判文书网. 」北京法意科技有限公司常务副总经理陈浩告诉我们.

数据库面试常问的一些基本概念

于03-28 00:00 - - geek
点击上方“Java知音”,选择“置顶公众号”. 链接:https://blog.csdn.net/u013142781. Javaweb练手项目源码下载. 1、超键、候选键、主键、外键. 超键:在关系中能唯一标识元组的属性集称为关系模式的超键. 一个属性可以为作为一个超键,多个属性组合在一起也可以作为一个超键.

DataMan-美团旅行数据质量监管平台实践

于03-21 21:27 - 美团点评技术团队 -
数据,已经成为互联网企业非常依赖的新型重要资产. 数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力. Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据质量问题,实际上是拆散业务流程的重要标志. 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套处理准则,而体量大、速度快和多样性的特点,决定了大数据质量所需的处理,有别于传统信息治理计划的质量管理方式.

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

于02-28 09:02 - - Spark big data 大数据 分布式 big data
原创文章,转载请务必将下面这段话置于文章开头处. 技术世界, 原文链接  http://www.jasongj.com/spark/skew/. 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等.

微服务开发中的数据架构设计

于03-20 10:03 - -
GitChat 作者:陈伟荣. 原文: 微服务开发中的数据架构设计. 关注微信公众号:「GitChat 技术杂谈」 一本正经的讲技术. 微服务是当前非常流行的技术框架,通过服务的小型化、原子化以及分布式架构的弹性伸缩和高可用性,可以实现业务之间的松耦合、业务的灵活调整组合以及系统的高可用性. 为业务创新和业务持续提供了一个良好的基础平台.

浅谈大数据平台基建的逻辑

于03-16 13:04 - -
这篇文章主要目的是面向初接触大数据的朋友简单介绍大数据平台基础建设所需要的各个模块以及缘由. 按照 Ralph Hughes的观点,企业数据仓库参考架构由下列几层构成:. 接入层(Landing):以和源系统相同的结构暂存原始数据. 整合层(Integration):持久存储整合后的企业数据,针对企业信息实体和业务事件建模,代表组织的“唯一真相来源”.

数据可视化的开源方案: Superset vs Redash vs Metabase

于01-10 17:29 - ronin47 -
人是视觉动物,要用数据把一个故事讲活,图表是必不可少的. 如果你经常看到做数据分析同事,在SQL客户端里执行完查询,把结果复制/粘贴到Excel里再做成图表,那说明你的公司缺少一个可靠的数据可视化平台. 数据可视化是Business Intelligence(简称BI)中的核心功能,有许多成熟的商用解决方案,如老牌的Tableau, Qilk,新生代的Looker,国内的FineBI等等.

批处理ETL已经消亡,Apache Kafka才是数据处理的未来吗?

于02-24 09:35 - -
最近的一些数据发展趋势推动传统的批处理抽取-转换-加载(ETL)架构发生了巨大的变化:数据平台要在整个企业范围内运行;数据源的类型变得更多;流数据得到了普遍性增长. 在实时ETL方面,早期采用的方式是企业应用集成(EAI),但是这里所用的技术通常是不可扩展的. 这给传统的数据集成带来了两难的选择:实时但不可扩展,或者可扩展但采用的是批处理方案.

爱该是理性的算计,还是不期而遇?丨大数据里的爱情

于02-18 23:27 - -
被埋进忙碌日常的问题统统浮出水面:. 相处了这么长时间,什么时候结婚. 认识才一个月,现在结婚是不是有些早. 非常喜欢TA,下一步是不是同居了. 在渴望恋爱和正在恋爱的人群当中,. 来看看这份几年前的大数据调查,.  大部分男性和女性均希望自己在经历. 2—3次情感经历后再考虑结婚;希望直接与初恋结婚的男女仅占到.

大数据在保险行业的风险防控方面起到了哪些作用?

于02-13 20:00 - 荆文宇 -
互联网保险快速发展的同时,也面临加强风险防控的巨大挑战. 大数据技术目前已在多个行业得到了广泛的发展和应用,在保险行业也同样如此. 互联网保险险种的多样化以及线上投保的便利程度会滋生出恶意骗保的用户欺诈行为,大数据风控技术可以从投保行为以及互联网平台的多种操作行为综合判定出保险欺诈风险,在投保和理赔环节进行有效风险控制;.

凯西·奥尼尔:盲目信仰大数据的时代必须结束 | 算法密码

于02-03 09:16 - -
麦法兰中学是位于华盛顿的一所平民社区高中,拥有如茵的草坪、联排红墙教学楼和多种族学生. 女教师莎拉·韦索奇2009年来到这里,她对教育非凡的热忱很快感染了同事和家长. “她是我见过最好的老师之一. ”麦法兰中学家长教师协会负责人布莱恩·多尔西说,他的女儿是莎拉的学生,“每次见她,她不是在辅导孩子,就是与他们谈心.

靠谱的数据开发从业指南

于01-29 00:00 - - dev
有小伙伴让我聊聊数据开发的职业规划和从业指南,因为数据开发从业人员的知识量实在是太太太大了,今天恰好这个机会好好聊聊. 我们先来看看 InfoQ 整理的这个图,技能树不是一般的庞大,如果你是大牛那忽略我上面说的一切,你能 handle 的. 但是作为一个初级人员,那具体应该从哪里去切入呢. 很多小伙伴一聊到数据挖掘呢,都会无法自拔地想到机器学习算法,其实嘛,绝大多数的数据岗位并不需要这么高深的知识.

大数据其实没那么有用,但是炒作它的人确实是都赚钱了

于01-28 17:17 - DinK - 大数据
都是未来是大数据时代,数据是新的石油,但是彭博的一篇文章却对此提出质疑. 文章研究了零售商的营业利润之后提出,并无迹象表明大数据能带来优势. 虽然未来在有用信息收集充分的情况下存在可能,但在目前的情况下,使用蛇油并不能给你带来竞争优势. 正在好几条战线上对技术巨头发起挑战的欧盟竞争委员会专员Margrethe Vestager又开辟了一条新的:“大数据”.

运营商是怎么分析出数据通道中特定 App 的数据流量的? - 知乎

于01-26 11:47 - -
主要是通过DPI(Deep Packet Inspection)来实现的,一般称之为「深度报文检测」或「深度包检测」. 从字面意思来讲,所谓「深度」是相对于普通的报文检测而言的. 普通的报文检测仅分析IP包的层4以下5元素:源地址、目的地址、源端口、目的端口及协议类型. 而DPI除了对以上5元素进行分析外,增加了应用层分析,用来识别各种应用及其内容.

关于Python数据分析,这里有一条高效的学习路径

于01-21 20:29 - -
谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单……. 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…….

巧用 Img / JavaScript 采集页面数据-云栖社区

于01-19 08:29 - -
我们发送重要邮件时为了确认对方已读,都会在邮件中设置一个“读取回执"标签以确定对方时候读信. 推广网页时,多少用户做了点击. 移动App运营活动页面,分析用户访问情况. 对这类个性化的采集与统计,针对站长CNZZ、百度统计,移动的Talking Data、友盟等都无法胜任. 个性化需求难满足:用户产生行为并非移动端场景,其中会包括一些运营个性化需求字段,例如:来源、渠道、环境、行为等参数.

利用WireShark对听音乐的过程中传送的数据包进行分析

于01-17 13:00 - wujiaming123 - 工具 Wireshark 数据包
相信现在的每一个人都在网络上听过音乐,那么,在我们听音乐的过程中,究竟发生了什么呢. 下面我就利用 WireShark 给大家分析一下. 打开wireshark,选择本地连接进行监听. 之后,打开一个音乐软件,随便点击一首歌曲,然后播放这首歌曲. 等待音乐播放了十几秒之后,停止wireshark的监听,现在wireshark已经监听到许多的数据包了,如下图.

开源 IP 地址定位库 ip2region 1.5 发布,升级数据

于01-16 15:17 - - 软件更新新闻
ip2region 是准确率 99.9% 的 IP 地址定位库,0.0x毫秒级查询,数据库文件大小只有 2.7M,提供了 Java、PHP、C、Python、Node.js、Golang 的查询绑定和 Binary、B树、内存三种查询算法,妈妈再也不同担心我的 IP 地址定位. ip2region 1.5 更新如下:.

安全日志系统数据网关实现

于01-11 15:12 - 糖果L5Q - 专栏 graylog python 大数据分析
日志分析的前期工作的是日志的收集与日志的存储. 数据的收集客户端程序有很多logstash、nxlog、filebeat等. 数据存储比较流行的就是ElasticSearch, 当数据的采集与存储阶段完成后,我们要做的是使用这些数据,ES提供数据检索功能,但这只最核心的检索API,从API到用户使用的交互界面之间,是数据检索的软件实现部分,将不同业务的数据分成不同的索引和不同的接口,或是有抽象出更高级一些的概念:流.