谈谈”取数”的那些事儿

日志实时收集之FileBeat+Kafka

- - lxw的大数据田地

之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的：. 在日志的产生端（LogServer服务器），都部署了FlumeAgent，实时监控产生的日志，然后发送至Kafka. 经过观察，每一个FlumeAgent都占用了较大的系统资源（至少会占用一颗CPU 50%以上的资源）. 而另外一个业务，LogServer压力大，CPU资源尤其紧张，如果要实时收集分析日志，那么就需要一个更轻量级、占用资源更少的日志收集框架，于是我试用了一下Filebeat.

大规模集群下使用P2P技术软件（Murder）分发大文件

- - lxw的大数据田地

一般情况下，在运维多台服务器的时候，使用Ansible来完成文件的分发和命令的执行. 但如果运维的机器数量多，而且内网带宽有限的情况下，比如，需要向500台机器分发一个1G大小的升级包，这时候如果使用Ansible直接分发，那么肯定会引起带宽占满，导致SSH链接超时，Ansible执行卡死，分发任务执行失败.

关于Redis的数据清理

- - lxw的大数据田地

我们数据平台中有使用Redis来给线上提供低延时（20毫秒以内）的高并发读写请求，其中最大的Redis使用了阿里云的Redis集群（256G），存储的记录超过10亿，Key的有效期设置为15天，每天写入的记录大概5000万左右，QPS大概在6万左右. 由于过期Key的产生速度大于Redis自动清理的速度，因此在Redis中会有大量过期Key未被及时清理.

数据仓库

- Ran - Linux@SOHU

翻译：马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高，以及服务器价格的降低，让人们能够负担起大量的服务器，但是商业软件应用和监控工具快速的增加，还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者，以及初级数据库管理员发现，他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语，概念或工具.

谈谈”取数”的那些事儿

- - lxw的大数据田地

一个公司的业务运营，不论规模大小，什么行业，都离不开数据的支撑. 既然要数据，那么就得取数，谁来取数，怎么取. 可能是一个销售人员在用Excel取，可能是一个DBA从生产数据库中查，也可能是一个数据开发人员写SQL或者写程序从数据仓库中取. 作为一个多年从事数据相关的开发者，深受“临时数据提取”之苦，自己也是用尽十八般武艺，目的就是想尽可能的解决取数难、取数慢的问题.

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

- - lxw的大数据田地

本文想记录和表达的东西挺多的，一时想不到什么好的标题，所以就用上面的关键字作为标题了. 在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once. 本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的.

从定制到开放，四维图新 MineData 大数据平台的又一年

- - 爱范儿

「数据要盘活才有新的价值，数据要跨界才有新的故事」，在四维图新发展了一年 MineData 大数据平台后，四维图新高级副总裁、世纪高通总经理梁永杰得到了这样的感悟. 时隔一年，MineData 2.0 正式发布，在过去的一年里，MineData 位置大数据平台横跨了很多个行业，已经在交警、公安、规划、电信、保险、物流、车厂等领域开展了很多项目.

漫谈大数据平台安全风险与建设

- - FreeBuf互联网安全新媒体平台

上篇文章【漫谈大数据平台架构】大家应该对大数据平台有了一个整体架构上的理解和认识，作为姊妹篇，本篇着重讲解大数据平台安全风险与建设. 大数据平台安全伴随着大数据平台而生. 随着互联网和大数据应用的普及，新闻头条上发布的数据泄露、滥用、诈骗层出不穷，引发了一系列发人深思的社会事件和问题. 本文以大数据发展面临的安全挑战开篇.

数据仓库概念

- - 互联网 - ITeye博客

数据仓库：是一个数据库环境，它提供用户用于决策支持的当前和历史数据，这些数据在传统的数据库中不方便得到. 特点：面向主题，集成的，相对稳定的，反应历史变化的. 组成：数据仓库的数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布系统. 数据挖掘：就是从大量数据中获取有效的，新颖的，潜在有用的，最终可理解的模式的过程.

大数据仓库－kudu

- - 数据库 - ITeye博客

数据仓库里面存储引擎是非常重要的，存储引擎的好坏，基本决定了整个数仓的基础. cloudera公司最近发布了一个kudu存储引擎. 按照cloudera的想法，kudu的出现是为了解决，hbase,parquet不能兼顾分析和更新的需求，所以需要一个新的存储引擎可以同时支持高吞吐的分析应用以及少量更新的应用.

谈谈”取数”的那些事儿

固定报表

OLAP系统

自助分析系统

自助取数系统

临时数据提取需求

相关 [大数据平台数据仓库/数据库数据仓库 ] 推荐：

日志实时收集之FileBeat+Kafka

大规模集群下使用P2P技术软件（Murder）分发大文件

关于Redis的数据清理

数据仓库

谈谈”取数”的那些事儿

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

从定制到开放，四维图新 MineData 大数据平台的又一年

漫谈大数据平台安全风险与建设

数据仓库概念

大数据仓库－kudu

相关文章

订阅

谈谈”取数”的那些事儿

固定报表

OLAP系统

自助分析系统

自助取数系统

临时数据提取需求

相关 [大数据平台 数据仓库/数据库 数据仓库 ] 推荐：

相关文章

订阅

相关 [大数据平台数据仓库/数据库数据仓库 ] 推荐：