更新于:12-17 21:50

有关[数据]分类推荐

机构、研究员写文章的调研数据是从哪里找的 - 知乎

于01-13 14:25 - -
研究员写作文章的数据来源均有三大类: . 1、第一类是我们公司自有的一手数据,我司是深圳前瞻商业资讯有限公司,长期跟踪研究1000多个行业、与10万余企业有良好合作关系,从而积累了丰富的一手调研数据,并且建立了专业的数据库;. 2、第二类是来自于官方、协会数据,我司拥有国家统计局、国家税务局、海关总署、工信部、商务部等三十余个官方部门数据查询权限,并且与国内500余协会形成合作关系;.

使用logstash同步mysql 多表数据到ElasticSearch实践 - 三度 - 博客园

于01-13 09:26 - -
参考样式即可,具体使用配置参数根据实际情况而定. jdbc_connection_string => "jdbc:mysql://localhost/数据库名". jdbc_driver_library => "mysql-connector-java-5.1.45-bin.jar所在位置". type => "数据库表名1".

支撑700亿数据量的ClickHouse高可用架构实践

于01-07 08:00 - dbaplus社群 -
讲师介绍:蔡岳毅,携程旅行网酒店研发中心高级研发经理,资深架构师,负责酒店大住宿数据智能平台,商户端数据中心以及大数据的创新工作. 大家好,我是来自携程的蔡岳毅,今天给大家分享ClickHouse在我们大数据平台的应用,主要从应用的角度来介绍我们的高可用架构. 其实这个百亿,我没太纠结,来之前我查了一下,现在我的平台上面是将近700亿数据,压缩前是8T,存储是压缩后1.8T.

数据中台到底包括什么内容?一文详解架构设计与组成

于01-05 00:00 - - dev
导读:《 终于有人把数据中台讲明白了》一文讲到数据中台的定义和价值,本文将介绍 数据中台到底包括什么内容. 企业建设数据中台的过程中 哪些能力是必选项, 哪些是可选的,将在本文一一揭晓. 作者:陈新宇 罗家鹰 江威 邓通 等. 来源:大数据DT(ID:hzdashuju). 01  数据中台功能架构.

为什么MySQL不建议delete删除数据

于01-04 00:37 - 敖丙 -
有情怀,有干货,微信搜索【. 三太子敖丙】关注这个不一样的程序员. github.com/JavaFamily 已收录,有一线大厂面试完整考点、资料以及我的系列文章. 我负责的有几个系统随着业务量的增长,存储在MySQL中的数据日益剧增,我当时就想现在的业务方不讲武德,搞偷袭,趁我没反应过来把很多表,很快,很快啊都打到了亿级别,我大意了,没有闪,这就导致跟其Join的表的SQL变得很慢,对的应用接口的response time也变长了,影响了用户体验.

SpringBoot2.X整合Redis(单机+集群+多数据源)-Lettuce版

于01-04 14:58 - -
最近项目尝试从SpringBoot1.X升级到SpringBoot2.X, 但是 Spring Boot 2.0中 Redis 客户端驱动现在由 Jedis变为了 Lettuce, 所以尝试测试一下Lettuce的使用. 下面简单介绍一下Lettuce.. Jedis:是Redis 老牌的Java实现客户端,提供了比较全面的Redis命令的支持,.

数据管理流程,基础入门简介

于01-02 00:00 - - dev
数据在现在互联网的行业中可以说是最核心的话题,数据的价值已经被称为资产了,大部分的互联网应用都会源源不断的产生各种数据,如何管理和使用这些数据,让这些看似平常的数据产生更大的价值,一直是热门的探索领域. 比如常见的风控、营销、推广等各种业务,都需要依赖大量的用户行为数据作为依赖,才能精准的对相关流程做出分析判断.

数据库,主键为何不宜太长长长长长长长长?

于12-10 03:54 - 58沈剑_架构师之路 -
_沈老师,我听网上说,MySQL 数据表,在数据量比较大的情况下,主键不宜过长,是不是这样呢. 这个问题嘛,不能一概而论:. InnoDB 存储引擎,主键不宜过长;. MyISAM 存储引擎,影响不大;. 先举个简单的栗子说明一下前序知识. (2)name 建了普通索引;. MyISAM,其索引与记录的结构是这样的:.

微服务架构下你的数据一致了吗?

于12-30 00:00 - - dev
数据一致性问题首先是个业务问题,其次才是个技术问题. 在微服务架构下,我们期望每个服务职责单一,这种职责单一体现的是业务价值,如果微服务的拆分过小而导致业务难以实现,那这种拆分是不合理的,业务专家们非常有必要了解系统,从业务侧给出服务拆分的建议. 微服务架构的流行源于它能够带来更快的变化响应能力,比如独立部署,每个服务的能力职责是独立的,可以按需独立发布;再比如每个服务可以由不同的开发团队负责,每个服务的技术栈也可以不同,可以选择更快捷合理的方式实现不同的服务.

如何保证缓存与数据库的双写一致性?

于12-27 17:14 - aoxiang -
分布式缓存是现在很多分布式应用中必不可少的组件,但是用到了分布式缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题,那么你如何解决一致性问题. 最经典的缓存 数据库读写的模式,就是 Cache Aside Pattern. 读的时候,先读缓存,缓存没有的话,就读数据库,然后取出数据后放入缓存,同时返回响应.

用Flink SQL CDC + ES实现数据实时化真香!

于12-22 14:07 - -
本人目前参与的项目属于公司里面数据密集、计算密集的一个重要项目,需要提供高效且准确的 OLAP 服务,提供灵活且实时的报表. 业务数据存储在 MySQL 中,通过主从复制同步到报表库. 作为集团级公司,数据增长多而且快,出现了多个千万级、亿级的大表. 为了实现各个维度的各种复杂的报表业务,有些千万级大表仍然需要进行 Join,计算规模非常惊人,经常不能及时响应请求.

大厂也在用的 6种 数据脱敏方案,严防泄露数据的 “内鬼”

于12-09 03:18 - 程序员内点事 -
最近连着几天晚上在家总是接到一些奇奇怪怪的电话,“哥,你是 xxx 吧,我们这里是 xxx 高端男士私人会所...”,握草,我先是一愣,然后狠狠的骂了回去. 一脸傲娇的转过头,面带微笑稍显谄媚:老婆你听我说,我真的啥也没干,你要相信我. 过后揉揉脸细想想,肯定是哪个不道德的网站,又把我的个人信息给卖了,现在的人上网都处于一个裸奔的状态,个人信息已不再属于个人,时下这种事好像也见怪不怪了,不过,出现这种事大多是有 内鬼.

EA怎么建数据中台? 数据标准和数据规范怎么定义

于11-30 16:08 - -
如下图,EA 的游戏分为几大类:. 第一类是体育,比较有名的包括 FIFA 足球游戏、MADDEN 橄榄球游戏以及 NBA 游戏等;. 第二类是射击,比如 BATTLEFRONT;. 第三类是社交类的游戏,类似 SIMS4. 在 Moblie 方面,手机游戏比较有名的比如植物大战僵尸,很多人应该都玩过.

MySQL如何实时同步数据到ES?试试这款阿里开源的神器!

于11-05 00:50 - MacroZheng -
SpringBoot实战电商项目mall(40k+star)地址:. mall项目中的商品搜索功能,一直都没有做实时数据同步. 最近发现阿里巴巴开源的 canal可以把MySQL中的数据实时同步到Elasticsearch中,能很好地解决数据同步问题. 今天我们来讲讲 canal的使用,希望对大家有所帮助.

基于 Flink SQL CDC 的实时数据同步方案 (developer.aliyun.com)

于11-09 00:00 - - jianshu
整理:陈政羽(Flink 社区志愿者). Flink 1.11 引入了 Flink SQL CDC,CDC 能给我们数据和业务间能带来什么变化. 本文由 Apache Flink PMC,阿里巴巴技术专家伍翀 (云邪)分享,内容将从传统的数据同步方案,基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示.

数据显示:阿里超越IBM成为第四大公有云服务提供商

于11-09 16:52 - 小狐狸 - TechWeb
【TechWeb】11月9日消息,据国外媒体报道,最新数据显示,阿里巴巴超越IBM,成为第四大公有云服务提供商,仅次于亚马逊、微软、谷歌,但领先于甲骨文. 几周前,市场研究机构Synergy发布的最新数据显示,亚马逊在云基础设施市场上占据了33%的份额,排名第一,其次是微软(18%)、谷歌(9%)、阿里巴巴(5%)、IBM(5%)、Salesforce(3%)、腾讯(2%)、甲骨文(2%)、NTT(1%)、SAP(1%).

MySQL数据库优化二三事

于11-09 16:49 - -
平时在开发新项目时,有时因为工期紧张,经常会以实现功能为目标,不太注意效率问题,特别是在SQL语句上. 简单来说是加索引,重建结构,杀进程,杀DBA……如果在一个没有DBA的公司,上线一时爽,事后火葬场,卑微测试一不小心背黑锅. 测试人员也会和数据打交道,今天总结数据库的优化知识. 主要介绍可以从哪些方面优化数据库,提高数据库的执行效率.

【主数据架构】4种常见的主数据管理实现风格 | 首席架构师智库

于10-31 22:06 - -
主数据管理(MDM)系统的基础是什么,这取决于您所认同的实现风格,这为项目成功提供了最佳机会. 这在很大程度上取决于您在数据管理方面的业务情况. 有几种不同的实现样式可供选择,主要的区别在于是否从中心集线器控制数据,还是将集线器与现有数据源同步. 但是,为什么必须仔细考虑执行的风格呢?. 对大多数组织来说,在整个组织中维护一个单一版本的真相是一个高度优先级的任务——同时还要满足遵从性和监管义务.

数据分析的 5 种细分方法

于10-31 00:00 - - dev
在数据分析工作中,细分思维的重要性,我认为再怎么强调都不为过. 然而,很多人可能会采取一些「偷懒」的做法,浅尝辄止,不去寻找合适的细分方法,导致没有得出更有价值的分析结论. 下面我们通过一些示例,介绍 5 种常见的细分方法. 时间可以细分为不同的跨度,包括年、月、周、日、时、分、秒等等,不同的时间跨度,数据表现可能大不相同.

网易严选数据产品实践

于10-26 00:00 - - dev
数据产品是个新兴的产品分类,每个人眼里都有一个自己的数据产品,尽管在绝大部分人的概念中都是一堆报表. 在过去的3年里,我们在用户需求的推动下一步步构建了网易严选数据产品体系,下文分享我们在构建过程中自己的一些思考和总结.     本文内容来自我在2020产品经理大会上《网易严选数据产品实践与方法论》分享的文字总结,由于篇幅原因,只包含了实践部分.

利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) - 西西嘛呦 - 博客园

于10-26 16:09 - -
其中train存放的是训练集,answer存放的是测试集,具体看下train中的文件:. 下面有20个文件夹,对应着20个类,我们继续看下其中的文件,以C3-Art为例:. 每一篇都对应着一个txt文件,编码格式是gb18030.utf8文件夹下的是utf-8编码格式的txt文件. 其中C3-Art0001.txt的部分内容如下:.

火热的数据中台,是否终究一地鸡毛(201024)

于10-24 14:09 - 人月神话 - 微服务架构
在前面我写过关于数据中台,以及数据中台和大数据平台,业务中台区别的一些文章. 今天准备再谈下对当下火热的数据中台建设的一些看法. 要把这个问题谈清楚,我准备还是从企业最早的决策支持分析和BI系统入手,再谈BI系统到大数据平台的演进,最后再来谈数据中台建设. 通过这个发展演进路线的分析可以方便我们更好的来观察数据中台建设是否真正存在相关的价值和意义.

万亿级数据应该怎么迁移?

于10-23 03:33 - 咖啡拿铁 -
binlog还能这么用之Canal篇,在里面介绍了一些增量数据迁移的一些方法,但是对于整体的数据的迁移介绍得不是很深,这里想对迁移数据整体做一个介绍,希望能帮助到大家. 在星爷的《大话西游》中有一句非常出名的台词:“曾经有一份真挚的感情摆在我的面前我没有珍惜,等我失去的时候才追悔莫及,人间最痛苦的事莫过于此,如果上天能给我一次再来一次的机会,我会对哪个女孩说三个字:我爱你,如果非要在这份爱上加一个期限,我希望是一万年.

望海康信发布五大DRG方案:AI、大数据,如何掀起医保支付的“蝴蝶效应”?

于07-07 09:57 - - 未来医疗
6月18日,国家医保局为落实试点工作“三步走”目标,指导各地规范DRG分组工作,制定发布了《医疗保障疾病诊断相关分组(CHS-DRG)细分组方案(1.0版)》(以下简称“CHS-DRG细分组规范”). 不久后,望海康信发布了支持国家医保CHS-DRG细分组规范的分组器. 在这样的背景下,近日,望海康信发布了“DRG精益管理整体解决方案”,其中包含了 DRG质控与分组解决方案、成本解决方案、控费解决方案、专病运营解决方案、绩效解决方案等.

敏感数据加密方案及实现

于10-18 13:15 - 政采云前端团队 -
这是第 73 篇不掺水的原创,想获取更多原创好文,请搜索公众号关注我们吧~ 本文首发于政采云前端博客:. 现在是大数据时代,需要收集大量的个人信息用于统计. 一方面它给我们带来了便利,另一方面一些个人信息数据在无意间被泄露,被非法分子用于推销和黑色产业. 2018 年 5 月 25 日,欧盟已经强制执行《通用数据保护条例》(General Data Protection Regulation,缩写作 GDPR).

MySQL数据库规范 (设计规范+开发规范+操作规范) - 东山絮柳仔 - 博客园

于10-17 08:58 - -
      为了在软件生命周期内规范数据库相关的需求分析、设计、开发、测试、运维工作,便于不同团队之间的沟通协调,以及在相关规范上达成共识,提升相关环节的工作效率和系统的可维护性. 同时好的规范,在执行的时候可以培养出好的习惯,好的习惯是软件质量的保证.        本文档适用于开发、测试、QA及运维团队成员.

Android敏感数据泄露引发的思考

于10-11 08:18 - -
一个平淡的午后,我还悠哉悠哉的敲着代码品着茶. 突然服务端同事告诉我,关注接口正在被机械式调用,怀疑是有人在使用脚本刷接口(目的主要是从平台导流). 不会吧,因为据我所知接口请求是做了加密处理的,除非知道加密的密钥和加密方式,不然是不会调用成功的,一定是你感觉错了. 然而当服务端同事把接口调用日志发给我看时,彻底否定了我的侥幸心理.

MYSQL logstash 同步数据到es的几种方案对比以及每种方案数据丢失原因分析。

于10-07 15:59 - -
MYSQL logstash 同步增量数据到ES. 最近一段时间,在使用mysql通过logstash-jdbc同步数据到es,但是总是会有一定程度数据丢失. logstash-jdbc无非是通过sql遍历数据表的所有数据,然后同步到es. 对于表里面的所有字段都需要查出来然后同步到es中去. 数据同步脚本分为全量同步与增量同步.

大数据下的质量体系建设

于09-25 10:54 - -
      大数据、人工智能是当前也是未来几年IT部门的重点建设方向,新的技术可以为业务突破盈利瓶颈,带来新的增长点,同时我们也发现数据中台也频频在最近的企业财报予以体现,相关的技术岗位需求也是供不应求,与之形成对比的是,我们发现在招聘网站上很少有专职的数据测试岗位.       我们相信技术始终是为业务创造价值的,大数据也要输出他的产品(数据),产品必须要有质量的管控才可信,测试人员可以借助这个契机进行赛道的转换,在数据测试中形成自己的一套方法论参与到这个新技术引领的浪潮中.

踩坑记:Flink 事件时间语义下数据乱序丢数

于09-23 00:00 - - dev
❝ 本文详细介绍了在上游使用处理时间语义的 flink 任务出现故障后,重启消费大量积压在上游的数据并产出至下游数据乱序特别严重时,下游 flink 任务使用事件时间语义时遇到的大量丢数问题以及相关的解决方案. 「1.本次踩坑的应用场景」. 「2.应用场景中发生的丢数故障分析」. 「4.丢数故障解决方案及原理」.