更新于:10-11 15:31

有关[数据]分类推荐

HTAP 会成为数据库的未来吗?

于03-28 00:00 - - tuicool
本文转载自InfoQ 官网. 在访问量和数据量急剧膨胀的今天,关系型数据库已经难以支撑庞大复杂的系统规模. 在此背景下,备受关注的数据库新理念 HTAP,会是一条“正确”的路吗. 在互联网浪潮出现之前,企业的数据量普遍不大,特别是核心的业务数据,通常一个单机的数据库就可以保存. 那时候的存储并不需要复杂的架构,所有的线上请求 (OLTP, Online Transactional Processing) 和后台分析 (OLAP, Online Analytical Processing) 都跑在同一个数据库实例上.

Logstash处理json格式日志文件的三种方法_数据库_很多时候,你缺少的不是知识而是热情-CSDN博客

于03-26 17:19 - -
假设日志文件中的每一行记录格式为json的,如:. 默认配置下,logstash处理插入进elasticsearch后,查到的结果是这样的:. 即会将json记录做为一个字符串放到”message”下,但是我是想让logstash自动解析json记录,将各字段放入elasticsearch中. 第一种,直接设置format => json.

百万级商品数据实时同步,查询结果秒出

于03-21 00:00 - - dev
前阵子老板安排了一个新任务,要建设一个商家商品搜索系统,能够为用户提供快速、准确的搜索能力,在用户输入搜索内容时,要能从商家名称和商品名称两个维度去搜索,搜索出来的结果,按照准确率排序,并按商家所属商品的关联关系,来组合数据结构,同时提供API给业务系统调用. 我们面临以下几个难题: ①商家数据库和商品数据库是多台不同的服务器,并且数据量达百万级,如何才能实现跨数据库的数据同步呢.

ProxySQL+Mysql实现数据库读写分离实战

于03-19 17:13 - 民工哥 - mysql linux 运维 程序员
前面也写过几篇关于Mysql数据的文章:. MySQL集群高可用架构之MHA. MySQL 同步复制及高可用方案总结. 官方工具|MySQL Router 高可用原理与实战. 今天给大家带来的是关于数据库读写分离相关的实战操作. ProxySQL是一个高性能的MySQL中间件,拥有强大的规则引擎. 具有以下特性: http://www.proxysql.com/.

当数据库遇到分布式

于03-05 03:55 - 阿娇 -
数据库通常有着完善的事务支持,但是局限于单机的存储和性能,于是就出现了各种分布式解决方案. 最近读了《Designing Data-Intensive Applications》这本书,所以做一个总结,供大家做个参考,有什么不对的请大家指正,一起讨论. 数据模型可以说软件开发中最重要的部分,因为影响着我们的思考方式、解题思路以及代码的编写方式.

RDF 和 SPARQL 初探:以维基数据为例

于02-23 20:38 - - Developer
维基百科有一个姐妹项目,叫做 "维基数据"(Wikidata). 你可以从维基百科左侧边栏点进去. "维基数据"将维基百科的所有数据,整理成一个可以机器处理的数据库,方便查询. 比如,山西省人口最多的地区是哪一个. 这种问题在维基百科查询,非常费时,必须人工从一个个条目提取信息. 但是,维基数据可以只执行一条命令,就返回答案(详见后文).

携程机票数据仓库建设之路

于02-21 00:00 - - dev
 华智,携程高级研发经理,现负责数据仓库技术架构、性能优化、数仓规范制定、数据模型设计以及数据应用开发. 随着大数据技术的飞速发展,海量数据存储和计算的解决方案层出不穷,生产环境和大数据环境的交互日益密切. 数据仓库作为海量数据落地和扭转的重要载体,承担着数据从生产环境到大数据环境、经由大数据环境计算处理回馈生产应用或支持决策的重要角色.

HBase BulkLoad批量写入数据实战 - 哥不是小萝莉 - 博客园

于02-09 19:17 - -
在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等. 这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、HBase Handler数等).

利用ogg实现oracle到kafka的增量数据实时同步 | 伦少的博客

于02-01 17:34 - -
ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json. 下面是我的源端和目标端的一些配置信息:. 注意:源端和目标端的文件不一样,目标端需要下载Oracle GoldenGate for Big Data,源端需要下载Oracle GoldenGate for Oracle具体下载方法见最后的附录截图.

关于数据库连接池大小 · brettwooldridge/HikariCP Wiki · GitHub

于01-29 16:48 - -
Brett Wooldridge编辑了此页面 on 8 Jan 2017 ·  29个修订. 开发人员经常会错误地配置连接池. 在配置池时,需要理解一些原则,对于某些原则可能是违反直觉的. 10,000个同时前端用户. 想象一下,您有一个网站,尽管它可能不是Facebook规模,但仍然经常有10,000个用户同时发出数据库请求-每秒约有20,000个事务.

Spark Streaming 数据限流简述

于01-24 00:00 - - dev
  Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;.   流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;.   由于流处理的数据流特征,使之数据流具有不可预测性,而且数据处理的速率还与硬件、网络等资源有关,在这种情况下如不对源源不断进来的数据流速率进行限制,那当Spark节点故障、网络故障或数据处理吞吐量下来时还有数据不断流进来,那将有可能将出现OOM进而导致Spark Streaming程序崩溃;.

在有序的KV引擎之上建造结构化数据库引擎

于01-15 19:30 - ideawu - SSDB
KV 数据结构极大地简化了存储引擎的接口和实现. 基本的 KV 接口一般就是 Get(), Set(), 实现上代码也很简单, 极简的实现可以直接利用编码语言提供的 map(哈希, 红黑树)来提供内存数据结构, 而且硬盘上直接 dump 内存数据即可(类似 Redis 的策略).. 不过, KV 存储引擎自己省事了, 但使用者不喜欢, 因为大部分的业务并不是 KV 所能表达的, 业务需要丰富的数据结构, 表格(table), 列表(list), map 等各种容器.

JAVA操作HBASE数据操作详解

于01-10 09:11 - -
Hbase对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空间. 对于数据操作,HBase支持四类主要的数据操作,分别是:. Put :增加一行,修改一行;. Delete :删除一行,删除指定列族,删除指定column的多个版本,删除指定column的制定版本等;.

Spring多数据源事务

于01-08 15:00 - xbmchina -
接着上一篇文章 Spring事务基础,本文主要是关于Spring多数据源的情况下如何保证事务正常回滚. 这里也是使用大家广泛使用的 jta-atomikos进行,我只是做一些总结方便以后自己直接拿来用. 如果你非常着急,那么可以直接下载这个项目看看即可:. 网上已经有很多关于jta-atomikos的相关文章,本文可能有点绕,不容易看得懂,所以在此描述一下思路:.

漫谈大数据平台安全风险与建设

于12-28 08:00 - superhuawei - 数据安全 大数据 平台安全
上篇文章【 漫谈大数据平台架构】大家应该对大数据平台有了一个整体架构上的理解和认识,作为姊妹篇,本篇着重讲解大数据平台安全风险与建设. 大数据平台安全伴随着大数据平台而生. 随着互联网和大数据应用的普及,新闻头条上发布的数据泄露、滥用、诈骗层出不穷,引发了一系列发人深思的社会事件和问题. 本文以大数据发展面临的安全挑战开篇.

基于大数据企业网络威胁发现模型实践

于12-27 00:00 - - dev
关于企业安全威胁数据收集分析是一个系统工程,每天在我们网络环境中,都会产生各种形式的威胁数据. 为了网络安全防护,会收集各种流量日志、审计日志、报警日志、上网设备日志,安防设备日志等等. 很多公司都有自己的数据处理流程,大数据管理工具. 我们根据过去的实践经验,总结出了一个威胁数据处理模型,因为引用增长黑客的模型的命名方式,我们称这种模式为:沙漏式威胁信息处理模型.

关于数据中台你最想知道的几个问题,我们这次聊了个透

于12-19 19:35 - - 智慧零售
如果在科技圈组织一次评选,选出过去一年里最火的技术概念,中台必定能收获不少选票. 从去年开始,阿里、腾讯、百度、京东、美团、滴滴等一众互联网巨头先后开始了组织架构调整,意图建立中台架构体系. 很快,不少中小企业也群起而效之,吹响了向中台架构转型的号角. 一时间,中台仿佛成了企业的万金油,不管什么毛病只要有了中台就能药到病除.

Oracle大规模数据快速导出文本文件 - 王亨 - 博客园

于12-17 12:19 - -
哈喽,前几久,和大家分享过如何把文本数据快速导入数据库(点击即可打开),今天再和大家分享一个小技能,将Oracle数据库中的数据按照指定分割符、指定字段导出至文本文件. 首先来张图,看看导出的数据是什么样子. 用到的就是Oracle的spool命令,可以将数据库数据导出一个文本文件,而且也可以指定数据分隔符,其中!^是数据之间的分隔符.

人工智能遇冷,腾讯云升级之后的大数据AI版图

于12-14 18:04 - - 业界
一年半以前,腾讯云副总裁王龙在与腾讯系创业公司内部分享时提出,AI期望值已经到了一个比较高的阶段,潜在风险浮现. 2019年这样的趋势变得更加明显,最典型的事实是从2017年的顶点到2019年,AI投资融资事件频次降落了70%. 本质上各大人工智能平台都是厂商自身能力外化的结果,和厂商原有业务属性高度相似.

架构师详解:从0-1构建大数据平台

于12-13 00:00 - - tuicool
如今大数据在各行业的应用越来越广泛:运营基于数据关注运营效果,产品基于数据分析关注转化率情况,开发基于数据衡量系统优化效果等. 美图公司有美拍、美图秀秀、美颜相机等十几个 app,每个 app 都会基于数据做个性化推荐、搜索、报表分析、反作弊、广告等,整体对数据的业务需求比较多、应用也比较广泛. 因此美图数据技术团队的业务背景主要体现在:业务线多以及应用比较广泛.

有赞数据中台建设实践

于12-11 00:00 - - dev
概述究竟什么是中台, 业界并没有一个标准答案, 各个厂商都有自己的定义. 笔者比较认可的一个定义是 ThoughtWorks 提出的"企业级能力复用平台". 各个领域涌现出很多中台产品, 如业务中台, 搜索中台, 数据中台等. 其中数据中台这个词汇越来越多的出现在视野中, 从百度指数中可以看到这一趋势.

基于 Flink SQL 构建实数据仓库:OPPO 数据中台之基石

于12-11 00:00 - - dev
本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor. - OPPO 实时数仓的演进思路;. - 基于 Flink SQL 的扩展工作;. - 构建实时数仓的应用案例;.

ElasticSearch 亿级数据检索深度优化

于12-02 00:00 - - dev
数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化,关于HBase,Hadoop的设计优化估计有很多文章可以参考,不再赘述. 在一业务系统中,部分表每天的数据量过亿,已按天分表,但业务上受限于按天查询,并且DB中只能保留3个月的数据(硬件高配),分库代价较高.

数据一致性检测的应用场景与最佳实践-云栖社区-阿里云

于12-01 12:07 - -
随着业务规模的扩张,企业系统变得越来越复杂,在这种复杂的分布式系统架构下,难免会出现远程调用失败,消息发送失败,并发 bug 等等问题,这些问题最终会导致系统间的数据不一致,导致用户体验受损,用户利益受损,对平台来说就是产生资损. 因此如何持续保障系统的业务稳定性对于企业来说是一个很重要的课题,本文旨在介绍一些常见业务应用场景下的业务数据一致性保障最佳实践.

数据仓库简介、发展、架构演进、实时数仓建设、与离线数仓对比

于11-23 00:00 - - Flink 大数据 流式计算
数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环. 本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容. 原地地址: https://ververica.cn/developers/how-to-do-real-time-counting/.

数据库分库分表思路

于11-17 23:04 - -
作者 | butterfly100. 链接 | cnblogs.com/butterfly100/p/9034281.html. 关系型数据库本身比较容易成为系统瓶颈,单机存储容量、连接数、处理能力都有限. 当单表的数据量达到1000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严重.

腾讯基于 PostgreSQL 历时 8 年研发的 HTAP 分布式数据库 TBase 开源了,对数据库有兴趣的同学可以去了解体验一下

于11-14 19:23 - jackdu -
github 地址: https://github.com/Tencent/TBase.

Spring Boot 2 整合 shard-jdbc 中间件,实现数据分库分表

于11-13 00:00 - - dev
以字段为依据,按照一定策略,将一个库中的数据拆分到多个库中. 每个库的结构都一样;数据都不一样;. 所有库的并集是全量数据;. 以字段为依据,按照一定策略,将一个表中的数据拆分到多个表中. 每个表的结构都一样;数据都不一样;. 所有表的并集是全量数据;. 二、Shard-jdbc 中间件. 1)、Sharding-JDBC直接封装JDBC API,旧代码迁移成本几乎为零.

大型互联网公司数据安全实践

于11-05 09:30 - 美团点评安全应急响应中心 - 企业安全 数据安全 美团点评
相信很多企业都面临数据泄漏的问题,例如用户投诉注册后收到了很多骚扰电话,内部员工频繁接到到猎头电话骚扰,业务上的竞争对手准确地掌握了公司的经营数据动态等. 而这些泄漏事件的追查难度又非常大. 如下图,用户的一个购买行为,沿途可能经过若干路径,每个路径下面又包含N多分叉. 最终交易成功,可能会被几百个服务调用,这些服务同时又对应到后台,最终可能有几千人会看到,究竟是谁泄漏了,如同大海捞针.

人脸识别新工具:数据少也能认识“国际脸”

于10-28 21:13 - -
日前,亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配,这一新闻引发关注. 人脸识别工具为何出现这样的错误. 其实,机器与人类一样,见到陌生的外国人也会有“脸盲”,只能识别“当地人”,对于来自其他国家/地区的“外地人”识别精度较低,这一问题如何解决呢. 引用公开的个人信息进行研究与验证 邓伟洪团队供图.