更新于:06-21 18:04

有关[数据]分类推荐

实用 | 从Apache Kafka到Apache Spark安全读取

于06-23 00:00 - - bigdata
随着在CDH平台上物联网(IoT)使用案例的不断增加,针对这些工作负载的安全性显得至关重要. 本篇博文对如何以安全的方式在Spark中使用来自Kafka的数据,以及针对物联网(IoT)使用案例的两个关键组件进行了说明. Cloudera Distribution of Apache Kafka 2.0.0版本(基于Apache Kafka 0.9.0)引入了一种新型的Kafka消费者API,可以允许消费者从安全的Kafka集群中读取数据.

90%的大产品是伪需求,所以没人买单-36大

于06-21 23:24 - -
我们看似已经进入大数据时代,到处都是各种各样的大数据产品. 但我可以负责任的讲,90%的大数据产品——. 要么,是闭门造车、臆想出来的“伪需求”,没有真正解决客户的需求和痛点,所以才会没人买单;. 要么,是概念导向、占领客户大数据认知的“假产品”,已经先入为主,让真正的大数据产品推广更加困难. 这就是大数据行业今天真实的业态,也是我们共同面临的问题.

基于大的银行反欺诈的分析报告

于06-21 00:00 - - bigdata
在我第一次接触大数据的时候,那个故事便是“啤酒和尿布”. 是美国沃尔玛超市的一则营销案例. 每到周末的时候,啤酒和尿片的销量很高,经分析,原来是周末电视转播球赛,男人们要一边喝酒一边看球,受冷落的妻子们只好出门逛街或找闺蜜吐槽,照顾孩子的任务自然就归了男人们. 于是,男人们在买啤酒的同时随手买尿片.

上海电信运用大打击营销和诈骗电话,可为违规行为精准画像

于06-20 07:38 - IT时报 - 大数据 运营商 投稿
“你好,我是你老板,请到我办公室来一下……”“你好,你的邮政包裹在我手上,需要提供身份证件……”“我是王宝强,需要你借1万元钱来缓解资金紧张……”一直以来,很多用户为陌生手机号码来电困扰,一接听才发现对方是在推销产品,甚至是进行诈骗. 面对“顽疾”,国内运营商开始主动出击,对过度营销电话和诈骗电话进行整治.

深入浅出解析大Lambda架构 - 天善智能:专注于商业智能BI和分析、大领域的垂直社区平台

于06-20 09:17 - -
Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病. 随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,又可以进行实时计算. 比如电商推荐系统,当你在京东浏览商品时,京东会根据你的浏览、加车、收藏、删除等行为,实时为你推荐商品.

平台架构技术选型与场景运用 - 极客头条 - CSDN.NET

于06-20 09:02 - -
导读:本文将大数据的工作角色分为三种类型,包括业务相关、数据科学相关和数据工程. 大数据平台偏向于工程方面,大数据平台一般包括数据源、数据采集、数据存储、数据分析等方面. 讲师从数据来源、数据源结构、数据变化程度和数据规模等4个维度对数据源进行分类,数据源分类维度的不同决定最后的技术选型. 讲师还对数据源分类的定义及选型方式进行详细讲解,最终联系到大数据的应用场景,让数据应用方式更加直观.

漫谈质量监控 - 简书

于06-20 08:50 - -
往往那些不起眼的功能,最能毁掉你的工作成果. 本篇分享一些和数据质量监控相关的内容. 数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的. 假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,这个异常还是由业务方发现的而不是你,根据我的经验是,它带来的负面影响会超过你之前做的100个业务带来的正面影响.

40个安全专家需要知道的网络安全

于06-17 06:00 - secist - 安全报告
随着互联网的不断发展,网络安全威胁也日益增长. 为了便于IT安全人员及时的掌握和了解当前的安全环境,许许多多的行业调查,供应商报告和研究报告也随之而来. 而面对如此规模庞大的报告数量,不免让我们感到有些眼花缭乱. 为此,我对大量的分析报告进行了梳理,以便于大家更好地阅读和了解这些内容. 以下是关于数据泄露,新兴威胁,软件漏洞,合规性相关问题,网络安全技能等问题的报告集合.

极光大:最新研究,王者荣耀用户画像

于06-16 00:00 - - bigdata
“蓝爸爸红爸爸”、“打野推塔带兵线”. 诸葛亮张良鲁班王昭君孙悟空大战亚瑟雅典娜安琪拉宫本武藏不知火舞. 如果你不知道上面在说什么,你可能已经OUT了. 是的,我说的正是那款史上火热度排名第一的手游《王者荣耀》. 极光大数据发布《王者荣耀研究报告》,从渗透率、日活跃用户数、月活跃用户数、日新增用户数、用户使用习惯及用户画像等方面,全方位剖析这款现象级手游的成长史及现状.

为你揭秘,发什么文章阅读高

于06-15 00:00 - - bigdata
下面将结合大数据为你揭秘——爆文有哪些特点. 西瓜数据收录并监测超过300万个公众号,据平台查询结果显示,五月爆文932626篇,阅读超过10万有30074篇,下面将结合大数据为你揭秘——爆文有哪些特点. 西瓜助手不乏高阅读的文章,覆盖各行业及垂直领域,通过分析高阅读的文章,发现上个月资讯、情感励志类、数码科技爆文比重偏高,占据前三名,而运动类爆文比重偏低.

配用电大项目中的架构研究与思考

于06-14 00:00 - - bigdata
智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网. 电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率.

机器学习及大相关面试的职责和面试问题

于06-01 00:00 - - bigdata
· 机器学习、大数据相关岗位的职责. 各个企业对这类岗位的命名可能有所不同,比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师,或简称算法工程师,还有的称为搜索/推荐算法工程师,甚至有的并入后台工程师的范畴,视岗位具体要求而定. 机器学习、大数据相关岗位的职责. 根据业务的不同,岗位职责大概分为:.

美团点评酒旅仓库建设实践

于05-26 20:51 - 美团点评技术团队 -
在美团点评酒旅事业群内,业务由传统的团购形式转向预订、直连等更加丰富的产品形式,业务系统也在迅速的迭代变化,这些都对数据仓库的扩展性、稳定性、易用性提出了更高要求. 对此,我们采取了分层次、分主题的方式,本文将分享这一过程中的一些经验. 随着美团点评整体的系统架构调整,我们在分层次建设数据仓库的过程中,不断优化并调整我们的层次结构,下图展示了技术架构的变迁.

和AI策略–面向投资的机器学习和另类方法(附280页报告

于05-23 16:59 - DinK - 199IT推荐文章 创业投资 大数据 投资&经济 研究报告
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌.

时代--Hive技术原理解析

于05-12 02:33 - -
Hive的运行原理,帮助使用者更好的了解在使用的过程中它做了些什么工作,深入的理解他的工作机制,提高开发人员理论层面的知识.        Hive是建立在 Hadoop 上的数据仓库基础构架. 它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制.

漫谈仓库之拉链表(原理、设计以及在Hive中的实现

于05-12 00:00 - - bigdata
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式. 先分享一下拉链表的用途、什么是拉链表. 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别. 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用, 我们会以Hive场景下的设计为例).

kafka可靠性深度解读

于05-02 11:29 - u013256816 -
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用. 目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成. Kafka凭借着自身的优势,越来越受到互联网企业的青睐,唯品会也采用Kafka作为其内部核心消息引擎之一.

高考志愿填报软件值得托付吗?看这篇测评就知道了

于04-28 16:10 - Rowson - 新闻&趣事
高考,作为中国一年一度的「地震级」大事件,不仅与 960 万考生息息相关,更与 960 个家庭紧密相连. 在巨大的利益驱动之下,「高考」在商人眼中和「诱人而庞大的市场」划上了等号. 高三一年,让人眼花缭乱的教辅书籍、课外辅导机构攫取了大部分利益;到了 6 月中下旬,利用家长和考生们「病急乱投医」的心理,高考志愿填报领域又成为新的「掘金圣地」.

日处理 20 亿,实时用户行为服务系统架构实践

于04-27 00:00 - - dev
携程实时用户行为服务作为基础服务,目前普遍应用在多个场景中,比如猜你喜欢(携程的推荐系统)、动态广告、用户画像、浏览历史等等. 以猜你喜欢为例,猜你喜欢为应用内用户提供潜在选项,提高成交效率. 旅行是一项综合性的需求,用户往往需要不止一个产品. 作为一站式的旅游服务平台,跨业务线的推荐,特别是实时推荐,能实际满足用户的需求,因此在上游提供打通各业务线之间的用户行为数据有很大的必要性.

积累和用户画像,我是这么做头条产品的

于04-27 06:51 - 小呆 - 产品设计 产品经验 头条产品
本文作者从0到1规划头条产品,在此想把自己的实操经验分享出来,值得一阅. 本来默默划船,在交流会上谈个性化推荐都不惹人注意的今日头条,毫无置疑现在已经被整个BAT围剿,内容领域的企业不自觉把今日头条当做竞争对手,非内容领域的互联网公司也都想来分一杯内容的羹,一夜间,互联网遍地都是feed流,不谈内容推荐算法都不好意思上桌了.

显示世界总人口已突破75亿大关

于04-26 12:35 - -
Worldometers网站的人口统计表明,地球总人口已达75亿. 该网站根据源于联合国,世界卫生组织以及世界银行的可靠数据实时计算地球的人口总数. 以下是关于地球人口你需要知道的6个事实:. 1.超过一半的地球总人口年龄在30岁及以下. 尼日利亚和摩纳哥分别是最年轻和年长的国家. 前者15岁以下的人口达1.89亿,而后者过半的人口年龄在50岁以上.

微信高可用分布式库 PhxSQL 设计与实现

于04-15 00:00 - - dev
“本文详细描述了PhxSQL的设计与实现. 从MySQL的容灾缺陷开始讲起,接着阐述实现高可用强一致的思路,然后具体分析每个实现环节要注意的要点和解决方案,最后展示了PhxSQL在容灾和性能上的成果. 互联网应用中账号和金融类关键系统要求和强调强一致性及高可用性. 当面临机器损坏、网络分区、主备手工或者自动切换时,传统的MySQL主备难以保证强一致性和高可用性.

[原]自学大:Hive基于搜狗搜索的用户日志行为分析

于08-29 14:58 - shifenglov -
”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的. 可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语. 很多朋友就想问,我想做大数据,但是没有这个条件,没有这个数据量,没有那么多业务场景,没有那多集群可以吗.

[原]自学大:基于Solr实现HBase的文本索引

于10-09 13:47 - shifenglov -
最近接触的项目中,需要针对HBase的数据进行索引查询,主要支持中文查询,分页查询等. 在此情况下,学习了搜索服务器solr. 总结了一些方法和经验,正好可以分享个大家,鼓励自己,共同学习. HBase目前只支持对rowkey的一级索引,对于二级索引还不支持,当然可以把所有要索引的字段都拼接到rowkey中,根据hbase的filter功能进行查询,但是这样操作数据会涉及到全表扫描,效率很低,速度慢,不利于后期扩展.

仓库的架构与设计

于04-01 10:44 - Trigl -
公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识. 数据仓库多维数据模型的设计. 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持. 这个定义的确官方,但是却指出了数据仓库的四个特点.

基于Hadoop生态圈的仓库实践 —— ETL(一

于07-01 22:54 - wzy0623 -
一、使用Sqoop抽取数据.         Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具. 它在2012年3月被成功孵化,现在已是Apache的顶级项目. Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6.

基于Hadoop的仓库Hive 基础知识

于02-27 00:00 - - bigdata
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策.

仓库中的SQL性能优化(MySQL篇

于04-30 09:46 - - data system mysql
做数据仓库的头两年,使用高配置单机 + MySQL的方式来实现所有的计算(包括数据的ETL,以及报表计算. 用过MySQL自带的MYISAM和列存储引擎Infobright. 这篇文章总结了自己和团队在那段时间碰到的一些常见性能问题和解决方案. P.S.如果没有特别指出,下面说的mysql都是指用MYISAM做存储引擎.

斗鱼大的玩法

于03-30 00:00 - - bigdata
本文来源于斗鱼数据平台部吴瑞诚先生在光谷猫友会的分享. 我是吴瑞诚,现在负责斗鱼数据平台部,今天给大家分享一下斗鱼大数据这块的玩法. 我先做个自我介绍,我是11年初华科通信硕士毕业就进入淘宝,主要做HBase相关开发,后来回武汉后在1号店转向应用架构方向. 我是14年9月加入斗鱼,当时斗鱼研发是30人的规模,从0开始搭建斗鱼大数据平台,单枪匹马一个人,大概干了三个月,招不到大数据开发,哪怕只是基本了解Hadoop的都很招不到,干的很苦.

一个小改进,解决Redis在线加载大痛点

于03-30 02:38 - 99527 - 运维干货 Redis
顾伟涛,曾任职于百度、奇虎360,现为杭州铭师堂教育资深DBA,擅长数据库监控、备份、高可用架构设计和自动化运维,对Redis和MongoDB方面有深入研究,关注分布式存储、大数据存储、消息队列、搜索引擎等后端技术. 在使用Redis加载数据过程中存在一个问题,就是必须要重启Redis服务,如果是Redis主从复制架构,这样加载数据,是一件很麻烦的事情,笔者根据Redis启动时加载数据的思想,对Redis进行了改进,实现了在线加载数据,在这里和大家一起探讨下.