更新于:02-09 01:03

有关[数据]分类推荐

机器学习中如何处理不平衡数据?

于02-17 14:53 - 机器之心 -
假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷. 你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%. 你的老板很惊讶,决定不再测试直接使用你的模型. 几个星期后,他进入你的办公室,拍桌子告诉你你的模型完全没用,一个有缺陷的产品都没发现. 经过一番调查,你发现尽管你们公司的产品中大约有 3.8%的存在缺陷,但你的模型却总是回答「没有缺陷」,也因此准确率达到 96.2%.

国内某人脸识别公司数据泄露 影响超250万人

于02-15 00:00 - - tuicool
2月15日,根据某404网站,以及微博安全应急响应中心消息,国内某人脸识别公司发生大规模数据泄露事件. 超过250万人的数据可被获取,680万条记录泄露,其中包括身份证信息,人脸识别图像及捕捉地点等. 这家公司的对外简介是将深度学习等前沿先进技术用于监控视频分析,实际上就是提供面部识别技术和人群分析技术,并提供公开数据库可在线查找.

初创公司数据科学项目全流程指南,一位资深数据科学家的经验谈

于01-22 17:59 - 大数据文摘 -
无论是管理人员还是创业公司中的不同团队,都可能会发现数据科学项目与软件开发之间的差异并不直观. 如果没有明确的说明与解释,可能会导致数据科学家与其同行之间的误解和冲突. 来自学术界(或高度研究型的行业研究小组)的研究人员在初入初创公司或小型公司时可能会面临各自的挑战. 他们可能会发现将新型输入(例如产品和业务需求、更严格的基础架构和计算约束以及客户反馈)纳入其研发过程中是很有挑战性的.

一个22万张NSFW图片的鉴黄数据集?我有个大胆的想法……

于01-13 14:57 - -
如果你想训练一个内容审核系统过滤不合适的信息,或用. GAN做一些大胆的新想法,那么数据集是必不可少的. 例如图像鉴黄,我们需要使用卷积神经网络训练一个分类器,以区分正常图像与限制级图像. 但限制级的图像很难收集,也很少会开源. 因此最近有开发者在 GitHub 上开源了一份 NSFW 图像数据集,这是不是你们想要的.

面向数据科学和 AI 的开发库推荐:Python、R 各 7 个

于01-10 17:00 - - 人工智能
雷锋网 AI 科技评论按:本文作者 Favio Vázquez 是一位数据科学家、物理学家和计算机工程师,他从 2018 年初开始写作并发布《数据科学和人工智能每周文摘:Python & R》系列文章,为数据科学家介绍,能真正帮助他们更好地完成各项任务的最好的开发库、开源项目、安装包以及工具. 随着一年结束,Favio Vázquez 也应读者需要,从该系列文章中盘点出了 Python/R 语言 7 大开发库.

日志数据脱敏方法研究

于12-23 00:00 - - dev
日志文件中的敏感信息比如密码,电话号码等等进行过滤处理. 第一个想到的方法就是去 log4j 中自定义 Appender,在 Appender 中正则匹配敏感信息进行过滤. log4j 日志框架在 之前的文章中也也说过,主要有三个组件,Logger,Appenders 和 Layout,要过滤日志内容解决方法也就是从这三个地方着手.

数据库智能运维探索与实践

于12-14 10:13 - 美团技术团队 - 美团 数据库 运维
从自动化到智能化运维过渡时,美团DBA团队进行了哪些思考、探索与实践. 本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容有更新. 近些年,传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求. 随着数据库规模急速扩大,各种NewSQL系统上线使用,运维逐渐跟不上业务发展,各种矛盾暴露的更加明显.

美团DB数据同步到数据仓库的架构与实践

于12-07 04:06 - 美团点评技术团队 -
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据. 在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类. 对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节.

阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

于03-05 18:29 - -
   08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步. .

大促场景下热点数据写(库存扣减)技术难题解决方案

于11-17 17:31 - -
《大促场景下热点数据写(库存扣减)技术难题解决方案》. 已经很久没有足够的时间让自己安静下来撰写一篇技术文章,确实近年来,大部分都花在了工作和2017年的新作品上. 今天难得自己给自己打了瓶100ML的鸡血,出一篇前段时间针对交易系统大促场景下热点数据写优化的相关案例. 当然,不同的企业有不同的解决方案和实现,但是万变不离其宗,还是那句话, 对于大型网站而言,其架构一定是简单和清晰的,而不是炫技般的复杂化,毕竟解决问题采用最直接的方式直击要害才是最见效的,否则事情只会变得越来越糟.

中国如何收集电动汽车数据

于12-03 20:14 - -
每隔 30 秒,在中国制造和行驶的每一辆电动汽车都必须向中国政府发送数据,包括汽车的位置、方向和速度等细节. 据一位参与该项目的工程师说,这些数据可以确定汽车所在位置,误差不超过一米,并为政府产生“疯狂的数据量”——大约每辆车每月 1 千兆字节. 所有生产电动汽车的公司都有义务根据中国过去三年通过的法律和技术标准收集和分享这些数据.

万豪数据泄漏门再敲警钟,酒店集团7步安全建议

于12-03 15:20 - 阿里云安全 - 资讯 万豪 安全建议
11月30日,万豪酒店官方发布消息称,多达5亿人次预订喜达屋酒店客人的详细个人信息可能遭到泄露. 万豪国际在调查过程中了解到,自2014年起即存在第三方对喜达屋网络未经授权的访问,但公司直到2018年9月才第一次收到警报. 万豪国际还表示,泄露的5亿人次的信息中,约有3.27亿人的信息包括如下信息的组合:姓名、邮寄地址、电话号码、电子邮件地址、护照号码、SPG俱乐部账户信息、出生日期、性别、到达与离开信息、预订日期和通信偏好;更为严重的是,对于某些客人而言,信息还包括支付卡号和支付卡有效期,虽然已经加密,但无法排除该第三方已经掌握密钥.

毫秒级从百亿大表任意维度筛选数据是怎么做到的?

于11-28 00:00 - - dev
业务背景 随着闲鱼业务的发展,用户规模达到数亿级,用户维度的数据指标,达到上百个之多. 如何从亿级别的数据中,快速筛选出符合期望的用户人群,进行精细化人群运营,是技术需要解决的问题. 业界的很多方案往往需要分钟级甚至小时级才能生成查询结果. 本文提供了一种解决大数据场景下的高效数据筛选、统计和分析方法,从亿级别数据中,任意组合查询条件,筛选需要的数据,做到毫秒级返回.

如何判断一个元素在亿级数据中是否存在?

于11-25 10:59 - - Guava Bloom Filter 算法 Hash
最近有朋友问我这么一个面试题目:. 现在有一个非常庞大的数据,假设全是 int 类型. 现在我给你一个数,你需要告诉我它是否存在其中(尽量高效). 需求其实很清晰,只是要判断一个数据是否存在即可. 但这里有一个比较重要的前提: 非常庞大的数据. 先不考虑这个条件,我们脑海中出现的第一种方案是什么.

新一代数据库TiDB在美团的实践

于11-23 00:00 - - geek
近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式. 而随着分布式数据库大放异彩,美团DBA团队联合基础架构存储团队,于 2018 年初启动了分布式数据库项目. 在立项之初,我们进行了大量解决方案的对比,深入了解了业界的 scale-out(横向扩展)、scale-up(纵向扩展)等解决方案.

分享一些 Kafka 消费数据的小经验

于11-20 00:02 - - Kafka Java 进阶 Kafka
之前写过一篇 《从源码分析如何优雅的使用 Kafka 生产者》 ,有生产者自然也就有消费者. 建议对 Kakfa 还比较陌生的朋友可以先看看. 就我的使用经验来说,大部分情况都是处于数据下游的消费者角色. 也用 Kafka 消费过日均过亿的消息(不得不佩服 Kakfa 的设计),本文将借助我使用 Kakfa 消费数据的经验来聊聊如何高效的消费数据.

使用ElasticSearch完成百万级数据查询附近的人功能 - tianyaleixiaowu的专栏 - CSDN博客

于11-08 13:45 - -
我们来看一下使用ElasticSearch完成大数据量查询附近的人功能,搜索N米范围的内的数据. 本机测试使用了ElasticSearch最新版5.5.1,SpringBoot1.5.4,spring-data-ElasticSearch2.1.4.. 新建Springboot项目,勾选ElasticSearch和web.

数据、算法、算力将是资产管理公司新核心能力

于11-04 18:42 - - Fintech&区块链
雷锋网AI金融评论报道,11月3日,中国机构投资者峰会--2019年资本市场高质量发展论坛在北京举行,中国万向控股副董事长、通联数据董事长肖风在峰会上表示,未来科技将从投资策略、估值方法、组织结构、核心能力、市场认知、公司文化等方面改变资产管理行业. 比如,在投资策略方面,肖风预测道,在AI技术成熟起来之后,也许主动投资策略会以另外一种形式重新回到这个市场的中心,成为主流投资策略.

谈Elasticsearch下分布式存储的数据分布

于10-31 00:00 - - geek
  对于一个分布式存储系统来说,数据是分散存储在多个节点上的. 如何让数据均衡的分布在不同节点上,来保证其高可用性. 所谓均衡,是指系统中每个节点的负载是均匀的,并且在发现有不均匀的情况或者有节点增加/删除时,能及时进行调整,保持均匀状态. 本文将探讨Elasticsearch的数据分布方法,文中所述的背景是Elasticsearch 5.5.

教你用几行Python和消费数据做客户细分

于10-26 12:01 - 大数据文摘 -
细分客户群是向客户提供个性化体验的关键. 它可以提供关于客户行为、习惯与偏好的相关信息,帮助企业提供量身定制的营销活动从而改善客户体验. 在业界人们往往把他吹嘘成提高收入的万能药,但实际上这个操作并不复杂,本文就将带你用简单的代码实现这一项目. 通过使用消费交易数据,我们将会通过创建一个2 x 2的有价值属性的矩阵来得到4个客户群.

Apache CarbonData 1.5.0 发布,华为大数据存储方案

于10-25 22:42 - - 软件更新新闻
CarbonData 1.5.0 发布了,该版本更贴近于统一分析. 我们希望能够从更多的引擎/库中读取CarbonData文件,以支持各种用例. 在这方面,我们增加了支持从C++库读取 CarbonData 文件的支持. 此外,可以使用Java SDK、Spark 文件格式接口、Spark、Presto 等读取 CarbonData 文件.

华为大数据存储方案 Apache CarbonData

于05-19 18:53 - - 大数据
Apache® CarbonData™是由华为开源贡献的大数据高效存储格式解决方案. 针对当前大数据领域分析场景需求各异而导致的存储冗余问题,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持“交互式分析、详单查询、任意维度组合的过滤查询等”多种大数据应用场景,并通过丰富的索引技术、字典编码、列存等特性提升了IO扫描和计算性能,实现百亿数据级秒级响应,与大数据生态Apache Hadoop、Apache Spark等无缝集成.

开源数据平台Kafka落选!InfoWorld最佳开源数据平台奖公布

于10-15 16:27 - -
AI前线导读:一年一度由世界知名科技媒体InfoWorld评选的Bossie Awards于9月26日公布,本次Bossie Awards评选出了最佳数据库与数据分析平台奖、最佳软件开发工具奖、最佳机器学习项目奖等多个奖项. 在最佳开源数据库与数据分析平台奖中,Spark和Beam再次入选,连续两年入选的Kafka这次意外滑铁卢,取而代之的是新兴项目Pulsar;开源数据库入选的还有PingCAP的TiDB.

将数据与应用分离

于10-07 08:50 - -
匿名读者 写道 " Solid(Social Linked Data 社交关联数据)是 Web 之父 Tim Berners-Lee 爵士所领导 MIT 团队的 Web 重新去中心化项目,基于 Linked Data(关联数据)原则以构建去中心化 Web 应用. 将数据与应用分离,数据存储在 POD(Personal Online Data 个人在线数据) 上,应用访问数据需被授权.

产品数据体系建设基础:一个产品的数据体系建设

于10-06 16:18 - 观花 - 数据分析 2年 初级 数据体系
本文抽象介绍了一个产品数据体系建设,以支持产品了解数据如何采集、计算与展现. 近期有师弟师妹不断问到产品经理必备技能中,数据分析是怎么回事. 简单了解了下其产生问题的原因与诉求,将其问题拆分为二:. 关于问题2,网上已经有足够丰富的资源进行学习与讨论,这里不再赘述,简而言之根据运营或迭代的目的进行深度思考与结论沉淀.

MySQL binlog 增量数据解析服务 - 简书

于09-28 09:56 - -
MySQL binlog 增量数据解析服务. 介绍如何借助于 MySQL 的 Master-slave 协议实现 MySQL 增量数据获取服务. 做过后端开发的同学都知道, 经常会遇到如下场景:. 后端程序根据业务逻辑, 更新数据库记录. 过了几天, 业务需求需要更新搜索索引. 又过了几天, 随着数据需求方的增多, 结构改成发送数据到消息中间件(例如 Kafka), 其他系统自行从消息中间件订阅数据.

基于Consul的数据库高可用架构 - yayun - 博客园

于09-28 03:25 - -
      几个月没有更新博客了,已经长草了,特意来除草. 本次主要分享如何利用consul来实现redis以及mysql的高可用. 以前的公司mysql是单机单实例,高可用MHA加vip就能搞定,新公司mysql是单机多实例,那么显然这个方案不适用,后来也实现了故障切换调用dns api来修改域名记录,但是还是没有利用consul来实现高可用方便,后面会说明优势.

美团数据库高可用架构的演进与设想 -

于09-27 17:10 - -
本文介绍最近几年美团MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新. 同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望. 在2015年之前,美团(点评侧)长期使用MMM(Master-Master replication manager for MySQL)做数据库高可用,积累了比较多的经验,也踩了不少坑,可以说MMM在公司数据库高速发展过程中起到了很大的作用.

工信部:2018年大数据产业发展试点示范项目名单

于09-26 15:52 - DinK - 工信部 大数据产业
2018年大数据产业发展试点示范项目名单进行公示. 根据《工业和信息化部办公厅关于组织开展2018年大数据产业发展试点示范项目申报工作的通知》(工厅信软〔2017〕987号)要求,工业和信息化部组织开展了相关申报和评审工作. 现将2018年大数据产业发展试点示范项目名单进行公示,请社会各界监督. 公示时间:2018年9月25日-2018年9月30日.

Redis数据备份方案-Luffy的梦-51CTO博客

于09-25 14:30 - -
###只是为了查询方便,方法为借鉴网络的文章,文章贴在这里供参考: http://blog.csdn.net/subuser/article/details/8157178. Redis提供了两种持久化选项,分别是RDB和AOF. 默认情况下60秒刷新到disk一次[save 60 10000 当有1w条keys数据被改变时],Redis的数据集保存在叫dump.rdb一个二进制文件,这种策略被称为快照.