更新于:12-15 23:30

有关[数据]分类推荐

使用Python对数据进行归一化规格化

于12-14 10:14 - 标点符 - 程序开发 Python
数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待. 先前的文章中已经介绍了几种常见的 数据归一化的方法,这里对主要整理了如何将这些公式和方法转化程Python代码.

JAVA通过Gearman实现MySQL到Redis的数据同步(异步复制)

于12-11 11:34 - huangjinjin520 -
MySQL到Redis数据复制方案. 无论MySQL还是Redis,自身都带有数据同步的机制,像比较常用的 MySQL的Master/Slave模式 ,就是由Slave端分析Master的binlog来实现的,这样的数据复制其实还是一个异步过程,只不过当服务器都在同一内网时,异步的延迟几乎可以忽略.

如何开始数据分析

于12-11 12:06 - 精算狗 - IT技术 数据分析
菜鸟数据科学家、分析师,以及刚刚接触数据科学的管理人员,通常有这样的疑问. 他们的老板都在承受着压力,得证明花在系统上去收集、存储及组织资料的钱(更不用说还有那些花在数据科学家身上的钱)是有回报的. 他们偶尔很幸运——待解决的问题可能非常明确,而且被深入研究过(例如,预测哪个客户可能会取消手机合约).

App数据分析到底要分析什么

于12-07 00:00 - - bigdata
按大众化的分法,产品的生命周期(PLC, Product Lifetime Cycle)分为初创期、成长期、成熟期、衰退期,在产品的每个阶段,数据分析的工作权重和分析重点有所区别,下面按阶段结合案例来聊聊. 初创期的重点在于验证产品的核心价值,或者说验证产品的假设:通过某种产品或服务可以为特定的人群解决某个问题.

Solr之Mysql数据库全量、增量同步-yellowcong

于12-05 13:06 - yelllowcong -
1 修改solrconfig.xml. 修改solrconfig.xml 文件. 2 创建data-config.xml. 在solrconfig.xml的同级目录下创建data-config.xml文件,配置数据库连接和Solr与mysql数据的对应关系和查询语句. 使用的是Mysql测试的,我的oracle完犊子了.

Redis 数据类型及应用场景

于11-29 06:18 - waterandair - redis
所有数据存储在内存中,高速读写. 提供丰富多样的数据类型:string、 hash、 set、 sorted set、bitmap、hyperloglog. 提供了 AOF 和 RDB 两种数据的持久化保存方式,保证了 Redis 重启后数据不丢失. Redis 的所有操作都是原子性的,还支持对几个操作合并后的原子性操作,支持事务.

xLearn:专门针对大规模稀疏数据的机器学习库

于11-25 00:00 - - dev
xLearn does not rely on any third-party library, and hence users can just clone the code and compile it by using cmake. Apart from this, xLearn supports many useful features that has been widely used in the machine learning competitions like cross-validation, early-stop, etc..

spark结构化数据处理:Spark SQL、DataFrame和Dataset | smallx's sth.

于11-18 14:41 - -
本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容. 本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本也已发布许久),因此请随时关注.

万亿级数据洪峰下的分布式消息引擎

于11-14 01:43 - -
通过简单回顾阿里中间件(Aliware)消息引擎的发展史,本文开篇于双11消息引擎面临的低延迟挑战,通过经典的应用场景阐述可能会面临的问题 - 响应慢,雪崩,用户体验差,继而交易下跌. 为了应对这些不可控的洪峰数据,中间件团队通过大量研究和实践,推出了低延迟高可用解决方案,在分布式存储领域具有一定的普适性.

在真实数据集上的随机森林模型参数调优 - 简书

于11-14 09:58 - -
搞机器学习的人,都会有自己偏爱的某种算法,有的喜欢支持向量机(SVM),因为它公式表达的优雅和可利用方法实现的高质量;有的人喜欢决策树,因为它的简洁性和解释能力;还有人对神经网络非常痴狂,因为它解决问题的灵活性(一般在超大规模的数据集上,使用神经网络,效果会好于其他所有的机器学习算法). 但是就我本人而言,我最喜欢的算法是随机森林,理由如下:.

Spring主从数据库的配置和动态数据源切换原理

于11-13 04:03 - 廖雪峰 -
在大型应用程序中,配置主从数据库并使用读写分离是常见的设计模式. 在Spring应用程序中,要实现读写分离,最好不要对现有代码进行改动,而是在底层透明地支持. Spring内置了一个 AbstractRoutingDataSource,它可以把多个数据源配置成一个Map,然后,根据不同的key返回不同的数据源.

NLPIR技术助力中文智能数据挖掘

于11-13 08:12 - ljrj12345 -
  随着数据技术的飞速发展以及广泛应用,许多企业和部门建立了自身的数据管理系统,经过长年努力,已经积累了越来越多的数据. 于是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息. 虽然,目前的数据系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前和历史的数据去预测未来的发展趋势.

标签个性化数据在推荐排序中的应用

于11-11 08:15 - -
个性化是这个时代最耀眼的特征,谁能更好更快的抓住用户的个性化需求,谁就将赢得商业的未来”——《个性化,商业的未来》. 本文share的这个项目,是我们在个性化推荐上的一个小小的尝试. 通过捕捉用户实时的标签快速捕捉用户兴趣变化,用机器学习算法挖掘用户兴趣与实际消费行为的联系,及时调整推荐排序,提高推荐效果.

从MongoDB IPO谈谈企业级数据库市场

于11-07 00:00 - - bigdata
作者:巨杉数据库 联合创始人&CTO王涛. 10月20日,NoSQL数据库MongoDB在NASDAQ正式 IPO,当日收于 32.07 美元. 截至10月27日,MongoDB报收30.89美元,公司市值保持在15亿美元左右,可以说是分布式数据库的“第一股”. 作为同样数据库行业的一员,也是分布式数据库产品厂商,巨杉一直关注MongoDB的发展.

小白谈数据脱敏

于10-28 07:46 - - 数据库
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护. 在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户姓名、客户地址、等个人敏感信息都需要通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护.

用户数据使用合规实务指南

于11-01 01:46 - 高杉峻 -
高杉峻:本文是熊定中律师继 《数据竞争与司法裁判》. 、 《互联网平台对用户数据的权利起点》. 之后,互联网数据系列文章的第三篇. 这个领域的法律讨论至关重要但又刚刚起步,衷心期待该领域更多的优秀稿件. 作者|熊定中(北京清律律师事务所主任、首席合伙人,微信:siberwaage)、向子瞭(北京清律律师事务所律师助理).

【漫谈数据仓库】 如何优雅地设计数据分层

于10-19 06:03 - -
本文主要讲解数据仓库的一个重要环节:如何设计数据分层. 其它关于数据仓库的内容可参考之前的文章. 本文对数据分层的讨论适合下面一些场景,超过该范围场景or数据仓库经验丰富的大神就不必浪费时间看了. 数据建设刚起步,大部分的数据经过粗暴的数据接入后就直接对接业务. 数据建设发展到一定阶段,发现数据的使用杂乱无章,各种业务都是从原始数据直接计算而得.

用JAVA如何实现每天1亿条记录的数据存储,数据库方面怎么设计?

于10-11 12:26 - linder -
一天秒数:60*60*24=86,400秒. 每天写入数据量:100,000,000条. 平均每秒写入数据量:100,000,000/86,400=1157.5条. 峰值每秒估算写入数:1157.5*10=11575条. 因此建议从以下几个层面处理. 1、数据库服务器磁盘采用高速SSD磁盘. 2、数据库采用2个节点的集群方式部署,每个集群节点3台服务器,1主2备,主数据库为写数据库,备数据库为读数据,采用读写分离,单集群节点内主备库数据实时同步,集群节点主库数据实时同步.

不学点数据分析怎么混

于10-08 06:49 - shendao - 极客互联
今天简单分享一下数据分析的学习心得. 何谓数据分析:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化的开发数据的功能,发挥数据的作用. 数据分析的目的是把隐藏在一批杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的规律. 数据分析分为:描述性数据分析,探索性数据分析,验证性数据分析.

[原]基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

于12-19 16:17 - u011239443 -
转载请注明:转载 from. from CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛. “用户画像”是近几年诞生的名词. 很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像. 在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点.

Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统

于09-28 08:01 - -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统. 2015 年 7 月 27 日发布. 在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要.

如何读懂“用户”和“数据”?李大学分享京东崛起的重大原因

于09-22 11:02 - 笔记侠 - 商学院
编者按:本文来自微信公众号 "笔记侠“(ID:Notesman),作者:李大学,磁云科技创始人,京东终身荣誉技术顾问;36氪经授权发布. 内容来源:2017年2017年8月19日,磁云科技董事长李大学在《正和岛约局实战营销大课》主讲“数字营销的'道法术'”. 笔记侠作为独家活动笔记合作伙伴,经主办方和讲者审阅授权发布.

解决POI大数据导出Excel内存溢出、应用假死

于09-18 00:00 - - bigdata
最近公司一个06年统计项目在导出Excel时造成应用服务器内存溢出、假死现象;查看代码发现问题一次查询一整年的数据导致堆内存被撑爆(假死),随后改用批量查询往Excel中写数据,同样的问题又出现了. 随后在网上查阅了部分资料只是在POI大数据导出API的基础上写的demo示例无任何参考价值….

Spark算子:RDD键值转换操作(4)–cogroup、join – lxw的大数据田地

于09-10 13:08 - -
关键字:Spark算子、Spark RDD键值转换、cogroup、join. cogroup相当于SQL中的全外关联full outer join,返回左右RDD中的记录,关联不上的为空. 参数numPartitions用于指定结果的分区数. 参数partitioner用于指定分区函数. ##参数为3个RDD示例略,同上.

马化腾:云计算、AI和大数据,是腾讯愿意大力投入的三点

于09-08 12:23 - 钛媒体 - 马化腾 腾讯
9月8日,腾讯董事会主席兼首席执行官马化腾在清华大学洞见论坛上发表演讲,谈及科技和商业的融合时表示,随着数字经济的发展,科技越来越融入到各行各业,在数字化和智能化的大浪潮里面,科技是我们所有产业界都必须要去关注的. 马化腾表示,有三点基础性的因素是腾讯正在大力投入的,分别是AI、云计算以及大数据. 他还强调,过去把用电量作为衡量一个工业社会发展的指标,未来,用云量也会成为衡量数字经济发展的重要指标.

哔哩哔哩大数据采集服务—Lancer系统设计与实践

于09-06 05:34 - -
        哔哩哔哩(以下简称B站)的日志采集肩负了B站的所有业务的日志收集并传输,提供离线数据和实时数据以满足离线或实时计算以及业务方订阅的需求. B站日志收集系统是基于Flume设计和搭建而成的.        数据采集是大数据的基石,近几年随着业务的高速增长,产生的数据量越来越大,并且会持续快速增长.

用Python爬取微博数据生成词云图片

于09-01 00:00 - -
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景. 一年一度的虐汪节,是继续蹲在角落默默吃狗粮还是主动出击告别单身汪加入散狗粮的行列就看你啦,七夕送什么才有心意,程序猿可以试试用一种特别的方式来表达你对女神的心意.

关于Redis的数据清理

于07-26 07:57 - lxw1234@qq.com - 大数据平台 redis
我们数据平台中有使用Redis来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右. 由于过期Key的产生速度大于Redis自动清理的速度,因此在Redis中会有大量过期Key未被及时清理.

数据驱动与用户画像

于08-23 08:25 - -
最近不少客户提出,希望与神策数据共同建设“用户画像”以驱动产品智能,但什么才是用户画像呢. 我们通过这篇文章,介绍我们理解的两种用户画像(User Persona 和 User Profile),以及如何构建用户画像(User Profile)的标签体系并驱动产品智能. 第一种用户画像(User Persona)是产品设计、运营人员从用户群体中抽象出来的典型用户:.

大数据、数据挖掘在交通领域有哪些应用?

于07-22 13:30 - Han Hsiao -
对交通行业缺乏深入了解,如有兴趣建议看看:. 大数据理论如何指导交通数据分析. 有数据才有分析,交通领域的数据产量巨大. 这个很好理解,详细讨论需要另开一个问题 大数据对物流管理有什么影响. 交通局通过数据实时分析一方面可以控制公交车和地铁的发车班次和时间,减少空车率,疏导客流缓解城市道路压力;另一方面也可以进行线路优化.