更新于:09-23 05:20

有关[数据]分类推荐

用JAVA如何实现每天1亿条记录的存储,库方面怎么设计

于10-11 12:26 - linder -
一天秒数:60*60*24=86,400秒. 每天写入数据量:100,000,000条. 平均每秒写入数据量:100,000,000/86,400=1157.5条. 峰值每秒估算写入数:1157.5*10=11575条. 因此建议从以下几个层面处理. 1、数据库服务器磁盘采用高速SSD磁盘. 2、数据库采用2个节点的集群方式部署,每个集群节点3台服务器,1主2备,主数据库为写数据库,备数据库为读数据,采用读写分离,单集群节点内主备库数据实时同步,集群节点主库数据实时同步.

不学点分析怎么混

于10-08 06:49 - shendao - 极客互联
今天简单分享一下数据分析的学习心得. 何谓数据分析:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化的开发数据的功能,发挥数据的作用. 数据分析的目的是把隐藏在一批杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的规律. 数据分析分为:描述性数据分析,探索性数据分析,验证性数据分析.

[原]基于Spark的大精准营销中搜狗搜索引擎的用户画像挖掘

于12-19 16:17 - u011239443 -
转载请注明:转载 from. from CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛. “用户画像”是近几年诞生的名词. 很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像. 在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点.

Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时处理系统

于09-28 08:01 - -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统. 2015 年 7 月 27 日发布. 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要.

如何读懂“用户”和“”?李大学分享京东崛起的重大原因

于09-22 11:02 - 笔记侠 - 商学院
编者按:本文来自微信公众号 "笔记侠“(ID:Notesman),作者:李大学,磁云科技创始人,京东终身荣誉技术顾问;36氪经授权发布. 内容来源:2017年2017年8月19日,磁云科技董事长李大学在《正和岛约局实战营销大课》主讲“数字营销的'道法术'”. 笔记侠作为独家活动笔记合作伙伴,经主办方和讲者审阅授权发布.

解决POI大导出Excel内存溢出、应用假死

于09-18 00:00 - - bigdata
最近公司一个06年统计项目在导出Excel时造成应用服务器内存溢出、假死现象;查看代码发现问题一次查询一整年的数据导致堆内存被撑爆(<span style=”color:red;”>假死</span>),随后改用批量查询往Excel中写数据,同样的问题又出现了. 随后在网上查阅了部分资料只是在POI大数据导出API的基础上写的demo示例无任何参考价值….

Spark算子:RDD键值转换操作(4)–cogroup、join – lxw的大田地

于09-10 13:08 - -
关键字:Spark算子、Spark RDD键值转换、cogroup、join. cogroup相当于SQL中的全外关联full outer join,返回左右RDD中的记录,关联不上的为空. 参数numPartitions用于指定结果的分区数. 参数partitioner用于指定分区函数. ##参数为3个RDD示例略,同上.

马化腾:云计算、AI和大,是腾讯愿意大力投入的三点

于09-08 12:23 - 钛媒体 - 马化腾 腾讯
9月8日,腾讯董事会主席兼首席执行官马化腾在清华大学洞见论坛上发表演讲,谈及科技和商业的融合时表示,随着数字经济的发展,科技越来越融入到各行各业,在数字化和智能化的大浪潮里面,科技是我们所有产业界都必须要去关注的. 马化腾表示,有三点基础性的因素是腾讯正在大力投入的,分别是AI、云计算以及大数据. 他还强调,过去把用电量作为衡量一个工业社会发展的指标,未来,用云量也会成为衡量数字经济发展的重要指标.

哔哩哔哩大采集服务—Lancer系统设计与实践

于09-06 05:34 - -
        哔哩哔哩(以下简称B站)的日志采集肩负了B站的所有业务的日志收集并传输,提供离线数据和实时数据以满足离线或实时计算以及业务方订阅的需求. B站日志收集系统是基于Flume设计和搭建而成的.        数据采集是大数据的基石,近几年随着业务的高速增长,产生的数据量越来越大,并且会持续快速增长.

用Python爬取微博生成词云图片

于09-01 00:00 - -
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景. 一年一度的虐汪节,是继续蹲在角落默默吃狗粮还是主动出击告别单身汪加入散狗粮的行列就看你啦,七夕送什么才有心意,程序猿可以试试用一种特别的方式来表达你对女神的心意.

关于Redis的清理

于07-26 07:57 - lxw1234@qq.com - 大数据平台 redis
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右. 由于过期Key的产生速度大于Redis自动清理的速度,因此在Redis中会有大量过期Key未被及时清理.

驱动与用户画像

于08-23 08:25 - -
最近不少客户提出,希望与神策数据共同建设“用户画像”以驱动产品智能,但什么才是用户画像呢. 我们通过这篇文章,介绍我们理解的两种用户画像(User Persona 和 User Profile),以及如何构建用户画像(User Profile)的标签体系并驱动产品智能. 第一种用户画像(User Persona)是产品设计、运营人员从用户群体中抽象出来的典型用户:.

挖掘在交通领域有哪些应用

于07-22 13:30 - Han Hsiao -
对交通行业缺乏深入了解,如有兴趣建议看看:. 大数据理论如何指导交通数据分析. 有数据才有分析,交通领域的数据产量巨大. 这个很好理解,详细讨论需要另开一个问题 大数据对物流管理有什么影响. 交通局通过数据实时分析一方面可以控制公交车和地铁的发车班次和时间,减少空车率,疏导客流缓解城市道路压力;另一方面也可以进行线路优化.

挖掘(六):用XPath爬取链家网房价

于07-20 11:28 - czl389 -
编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和lxml两个. 还有一个Time库,负责设置每次抓取的休息时间. 开始抓取前当然应该了解一下目标网站URL结构咯. 链家网的二手房列表页面共有100个,URL结构为. /ershoufang/是频道名称. 我们要抓取的是南京的二手房频道,所以前面的部分不会变,属于固定部分,后面的页面码需要在1-100间变化,属于可变部分.

微服务下的一致性思考

于07-20 00:52 - -
之前讲到了数据库层和缓存层的改造思路,而对于业务层的改造,采用了集中式服务转微服务的架构方案. 既然是微服务,就意味着面临大量的服务间的内部调用及服务依赖,这就意味着,如果一次请求的调用涉及到两个或多个微服务之间的调用,恰好有下游的微服务调用失败,我们就必须要考虑到回滚及服务间保证数据一致性的问题.

库压缩技术探索

于07-19 04:21 - 十七树 - IT技术 数据库
作者:雷鹏,Terark核心技术发明人. 曾就职奇虎360,负责搜索引擎核心研发;曾就职Yahoo. 北研所负责搜索广告、广告交易(AdExchange)等项目. 在数据库、高性能计算、分布式、系统架构上都深有造诣. 作为数据库,在系统资源(CPU、内存、SSD、磁盘等)一定的前提下,我们希望:. 存储的数据更多:采用压缩,这个世界上有各种各样的压缩算法;.

Google 开源机器学习集可视化工具 Facets

于07-18 09:10 - - 综合新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

Redis“丢失”问题

于08-14 06:42 - - Redis Redis
Redis大部分应用场景是纯缓存服务,请求后端有Primary Storage的组件,如MySQL,HBase;请求Redis的键未命中,会从primary Storage中获取数据返回,同时更新Redis缓存. 如果少量数据丢失,相当于请求”缓冲未命中“; 一般对业务的影响是无感知的. 但现在Redis用作存储的业务场景变多,数据丢失对业务是致命的影响.

建设大平台,从“治理”谈起 - CSDN极客头条

于07-17 08:28 - -
一、大数据时代还需要数据治理吗. 二、如何面向用户开展大数据治理. 三、面向用户的自服务大数据治理架构. 一、大数据时代还需要数据治理吗. 数据平台发展过程中随处可见的数据问题. 大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人. 而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间.

风控用了什么模型?有效性如何

于07-13 14:00 - 京东白条 -
由于题主提出的问题围绕着风控模型,而讨论模型必定和实际的应用场景和数据源相关,因此就前四个问题一并回答. 首先金融科技公司大致分为三类,基于线上垂直领域(教育、医疗、电商)、基于特定客群(学生、蓝领、白领)、基于线下场景(车贷、租房). 不同公司在数据维度、授信客群、产品上都有较大区别. 基本而言,风险主要集中于 信用风险及 欺诈风险.

1 对多业务,库水平切分架构一次搞定

于07-11 00:00 - - dev
本文将以“帖子中心”为例,介绍“1对多”类业务,随着数据量的逐步增大,数据库性能显著降低,数据库水平切分相关的架构实践:. 典型问题的优化思路及实践. 所谓的“1对1”,“1对多”,“多对多”,来自数据库设计中的“实体-关系”ER模型,用来描述实体之间的映射关系. 一个用户只有一个登录名,一个登录名只对应一个用户.

一文读懂机器学习、科学、人工智能、深度学习和统计学之间的区别

于07-10 06:53 - -
选自datascience central. 作者: Vincent Granville . 在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学等领域的区别. 这些概念的区别也一直是人工智能领域热烈讨论的一个话题,Quora、多个技术博客都曾有过解答.

187个广场、500亿条,万达如何用技术推动整个集团的转型

于07-04 00:00 - - bigdata
万达集团并不是一个互联网企业,没有太多允许试错的机会,但是,如今的万达已经在尝试摘掉“地产公司”的标签,真正依靠技术的力量去推动创新. 近日,ITValue对万达集团信息管理中心常务副总经理冯中茜等实际操盘的高管做了深度专访,并走访了整个万达正在努力希望缔造的全新“智能化”产业生态. 如果仅从万达集团近两年的动向来看,你很难将它和一家“地产公司”联系到一起.

写给大开发初学者的话 | 附教程 | 大

于07-04 03:20 - -
第二章:更高效的WordCount. 第三章:把别处的数据搞到Hadoop上. 第四章:把Hadoop上的数据搞到别处去. 经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高. 如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么.

李虹含:大技术在商业银行中的应用——场景、优势与对策

于07-03 00:00 - - bigdata
2017年第8期(总第8期). 近日,中国人民银行成立金融科技(FinTech)委员会,旨在加强金融科技工作的研究规划和统筹协调. 随着金融科技在业务层面渗透率的逐步提升,大数据技术在金融机构中的应用日益广阔,对于商业银行如何在金融科技时代使用、提取、管理好大数据的讨论也更加深入. 一、大数据技术在银行业中应用的前景.

美团点评库高可用架构的演进与设想

于06-29 15:02 - 美团点评技术团队 -
本文介绍最近几年美团点评MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新. 同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望. 在2015年之前,美团点评(点评侧)长期使用MMM(Master-Master replication manager for MySQL)做数据库高可用,积累了比较多的经验,也踩了不少坑,可以说MMM在公司数据库高速发展过程中起到了很大的作用.

阿里巴巴利用驱动增长

于06-28 00:00 - - bigdata
如果数据是新石油,那马云就是新一代洛克菲勒. 他领导的中国电商阿里巴巴正发展成为一家大型数据综合企业. 如果数据是新的“石油”,那英语教师出身的中国首富马云(Jack Ma)就是新一代的约翰•D•洛克菲勒(John D Rockefeller). 像洛克菲勒的标准石油公司(Standard Oil)一样,马云的阿里巴巴(Alibaba)是一家利润丰厚、增长迅速的企业.

[原]Mahout 对推荐的抽象表示(上部分

于10-08 21:26 - huruzun -
学习Mahout推荐相关算法前,我们必须先要理解Mahout如何对推荐数据进行抽象表示. 首先来看下Preference,该抽象是最基本的抽象,这个抽象对象一般代表一个单独的 userID、itemID、Preference 分数,在具体实现层面首先是Preference接口:. * The ASF licenses this file to You under the Apache License, Version 2.0 * (the "License"); you may not use this file except in compliance with * the License.

[原]Mahout 对推荐的抽象表示(下部分

于10-10 22:09 - huruzun -
这篇博客是延续上部分的补充: Mahout 对推荐数据的抽象表示(上部分). 处理无Preference values 数据. 下面都是围绕Mahout对没有Preference values的数据的推荐. 有时进入推荐引擎的数据没有Preference values,而是只有相关联的一个userID、itemID,它们之间有多强的联系我们没有一个Preference values来量化衡量.

如何成功实现治理

于06-27 00:00 - - bigdata
如果你处理过大量数据,你也许听说过 “数据治理”一词,你可能会想, 它是什么. 简单来说, 数据治理就是处理数据的策略——如何存储、访问、验证、保护和使用数据. 数据治理包括制定获取方案:谁能访问、使用和共享你的数据. 这些问题正变得越来越重要, 因为企业依靠收集、存储和分析大量数据,来达成业务目标.