更新于:06-11 13:30

有关[数据]分类推荐

ElasticSearch在数十亿级别数据下,如何提高查询效率? - 知乎

于05-31 07:11 - -
es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊. 这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥. 其实 es 性能并没有你想象中那么好的. 很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下. 5~10s,后面反而就快了,可能就几百毫秒.

别再说找不到数据啦!这里拥有全世界的数据

于05-29 12:11 - 小蚊子数据分析 - 数据分析
今天要为大家介绍的就是世界银行网站 ——一个发现世行数据的新工具和讲述关于世行数据的故事的平台. 网站提供了六大主题领域数据:贫困与不平等、人、环境、经济、国家和市场以及全球链接. 每个主题页面都简要地介绍或提供了可得数据的类型、专题指标清单以及关于广泛使用的方法和当前数据难题的信息. 网站的所有数据都可以免费使用,当然也有一些最低限度的限制,需要使用的话自己查阅.

大数据分析界的“神兽”Apache Kylin有多牛? – lxw的大数据田地

于05-26 09:24 - -
1.Apache Kylin是什么. 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持;而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL,Hadoop难以实现快速交互式查询等等.

CyberScan:用于数据包取证的渗透工具

于05-22 15:00 - secist - 工具 CyberScan 数据包
CyberScan是一个开源的数据包取证渗透工具,可用于数据包的分析,解码,扫描端口,pinging以及获取IP的地理定位包括(纬度,经度,地区,国家等). 你可以通过克隆Git存储库下载CyberScan:. CyberScan支持Python版本2.6.x和2.7.x开箱即用. CyberScan 模块使用.

哪些省才是真正的高考地狱模式?—数据量化全国31省高考难度,结论可能和想象中不太一样

于05-11 21:15 - -
不同省份的高考难度,一直是一个撕扯严重的问题. 当然了,每个地方的人,都会觉得自己是比较难的那一个. 因为其实不管在哪里,高考都是件不容易的事情. 但是周围的人讲什么地方考试难,大部分人都是以主观体验或者单一指标来讲的,比如周围学霸如何多,考试分数如何高,每天学习如何晚,主观体验,每个人都是不同的,就会出现撕逼许久,撕不出结论的情况.

7000 字深度总结:运营必备的 15 个数据分析方法

于04-29 20:19 - Alice - 数据分析 2年 GrowingIO 初级
这篇文章来自 GrowingIO 联合创始人 & 运营副总裁陈明先生,全文总结了 15 个运营必备的数据分析方法论. 不论是刚刚入行的萌新,还是深耕多年的老司机,这篇深度总结,都值得你再次回顾. 提起数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表. 其实,“ 分析 ”本身是每个人都具备的能力,比如根据股票的走势决定购买还是抛出;依照每日的时间和以往经验选择行车路线;购买机票、预订酒店时,比对多家的价格后做出最终选择.

Spring Boot 2.x监控数据可视化(Actuator + Prometheus + Grafana手把手)

于04-23 22:16 - - Spring Boot Spring Boot 监控 Actuator
本文基于Spring Boot 2.1.4,理论支持Spring Boot 2.x所有版本. 众所周知,Spring Boot有个子项目Spring Boot Actuator,它为应用提供了强大的监控能力. 从Spring Boot 2.0开始,Actuator将底层改为Micrometer,提供了更强、更灵活的监控能力.

四大模块,带你了解阿里大数据产品技术架构

于04-22 19:21 - 华仔 - 产品设计 3年 中级 产品技术架构 大数据
本文笔者将从数据采集层、数据计算层、数据服务层、数据应用层四大层次来带大家了解阿里大数据的产品技术架构. 2014年,马云提出:“人类正从IT时代走向DT时代”. 如果说在IT时代是以自我控制、自我管理为主,那么到了DT (Data Technology)时代,则是以服务大众、激发生产力为主. 以互联网(或者物联网)、云计算、大数据和人工智能为代表的新技术革命正在渗透至各行各业,悄悄地改变着我们的生活.

mXtract:一款功能强大的内存数据提取&分析工具

于04-20 15:00 - Alpha_h4ck - 工具 mXtract 内存数据提取
mXtract是一款开源的Linux安全工具,该工具可从目标系统的内存中提取并分析数据. 从本质上来说,mXtract是一款防御端渗透测试工具,它的主要功能是扫描目标系统内存并尝试通过正则表达式来从中提取出私钥、IP和用户密码等敏感数据. 请记住,扫描结果跟正则表达式的质量息息相关…. Verbose模式扫描单个IP正则式,扫描单个数据段,显示整个扫描进程信息以及扫描的环境文件.

人脸相关数据库 - marleylee的博客 - CSDN博客

于04-16 14:04 - -
在人脸检测、人脸识别和属性分析等方面,常用的 数据库可分为以下五部分. (1999年发布)CMU+MIT:180幅图像,共734个人脸. 包含3个正面人脸 测试子集和一个旋转人脸测试子集,其中正面人脸测试子集有130幅图像,共511个人脸;旋转人脸测试子集有50幅图像,共223个人脸. (2010年发布)FDDB:2845幅图像,共5171个人脸.

一次诡异的线上数据库的死锁问题排查过程

于04-10 00:00 - - dev
前几天,线上发生了一次数据库死锁问题,这一问题前前后后排查了比较久的时间,这个过程中自己也对数据库的锁机制有了更深的理解. 本文总结了这次死锁排查的全过程,并分析了导致死锁的原因及解决方案. 希望给大家提供一个死锁的排查及解决思路. 本文涉及到MySql执行引擎、数据库隔离级别、Innodb锁机制、索引、数据库事务等多领域知识.

微服务架构-数据中台和业务中台(3.27)

于03-27 19:45 - 人月神话 - IT咨询
首先我们看下阿里巴巴Aliware团队对企业中台的定义. 即企业中台是由业务中台和数据中台构建起数据闭环的运营体系,实现以数字化资产的形态构建企业核心差异化竞争力. 在原来我谈企业中台的时候,很少专门谈到数据中台和业务中台,更多谈的是技术中台和业务中台,技术中台类似我们原来说的技术平台层和业务不相关.

如何更好利用知识图谱技术做反欺诈? 360金融首席数据科学家沈赟开讲

于03-27 13:50 - 果青 - TechWeb
【TechWeb】3月27日,近日360金融首席数据科学家沈赟作为毕马威中国2019金融科技系列论坛课程授课专家,讲授知识图谱的有关技术和知识,分享了如何以知识图谱“精耕”反欺诈. 如何更好的利用知识图谱技术做到反欺诈. 沈赟分别从贷前、贷中和贷后三个环节以360金融为例进行了详细的论述. 贷前,360金融通过给客户进行打分,来发现其是否是潜在的多头客户.

68 款大规模机器学习数据集,涵盖 CV、语音、NLP | 十年资源集

于03-23 00:00 - - tuicool
参加 2019 Python开发者日,请扫码咨询 ↑↑↑. 出品 | AI科技大本营(ID:rgznai100). 此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla 的 1400 小时开源语音数据集; ApolloScape 的大规模自动驾驶数据集; 腾讯 AI Lab 的 “Tencent ML-Images” 项目,甚至还有谷歌团队推出的 Google Dataset Search(Google 数据集搜索)…….

数据科学难在实践,有哪些弯路可以不走?

于03-22 18:34 - 大数据文摘 -
数据科学这一名词流行了这么长时间,对于很多企业来说仍然是熟悉而又陌生的词汇. 对于积极向布局数据科学应用的企业来说,如何避免走弯路. Blue Yonder,一个成立于2008年的大数据分析平台,用他8年的数据科学经验告诉你,什么是真正的数据科学、有哪些弯路可以不走. 正如Blue Yonder创始人在采访中说到:“在这八年里,我们经历了不少痛苦的教训,尤其是在数据科学应用方面.

mxnet一键式训练自己的数据 - imistyrain/mxnet-oneclick: use mxnet to train your own data with just oneclick

于03-15 21:07 - -
mxnet一键式训练自己的数据. mxnet应用到工业项目大概包括收集数据、转换数据、定义模型、训练模型和评估模型等几个步骤,这里以常见的车牌字符识别为例讲解怎么用mxnet一键式训练自己的数据. 现在已经非常简单,装好python和pip后一句代码就能搞定:. 如果需要从源码编译安装,可以参照. 官网和[mxnet VS2015编译.pdf](mxnet VS2015编译.pdf).

Tomcat数据库连接池数据库密码加密

于03-06 23:08 - log_cd -
2、Factory中实现数据库密码解密. 3、将以上两个类打包(vajra-dbsecure.jar),并指定Main入口类. 4、tomcat全局数据源中使用加密后的数据库密码. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

Go 生态圈的 K/V 数据库 benchmark

于03-05 16:14 - - Go
Go生态圈有好几个K/V数据库,我们经常用它来做我们的存储引擎,但是这些数据库引擎的性能如何呢. 本文试图用性能而不是功能的数据考察这些数据库,我测试了几种场景: 并发写、并发读、单一写并发读、并发删除,得出了一些有趣的数据. 测试在两台机器上测试的,一台机械硬盘,一台固态硬盘,使用256字节作为value值的大小,9个字节作为key的大小,测试简单的读写删除操作,并没有测试批量读写操作.

机器学习中如何处理不平衡数据?

于02-17 14:53 - 机器之心 -
假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷. 你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%. 你的老板很惊讶,决定不再测试直接使用你的模型. 几个星期后,他进入你的办公室,拍桌子告诉你你的模型完全没用,一个有缺陷的产品都没发现. 经过一番调查,你发现尽管你们公司的产品中大约有 3.8%的存在缺陷,但你的模型却总是回答「没有缺陷」,也因此准确率达到 96.2%.

国内某人脸识别公司数据泄露 影响超250万人

于02-15 00:00 - - tuicool
2月15日,根据某404网站,以及微博安全应急响应中心消息,国内某人脸识别公司发生大规模数据泄露事件. 超过250万人的数据可被获取,680万条记录泄露,其中包括身份证信息,人脸识别图像及捕捉地点等. 这家公司的对外简介是将深度学习等前沿先进技术用于监控视频分析,实际上就是提供面部识别技术和人群分析技术,并提供公开数据库可在线查找.

初创公司数据科学项目全流程指南,一位资深数据科学家的经验谈

于01-22 17:59 - 大数据文摘 -
无论是管理人员还是创业公司中的不同团队,都可能会发现数据科学项目与软件开发之间的差异并不直观. 如果没有明确的说明与解释,可能会导致数据科学家与其同行之间的误解和冲突. 来自学术界(或高度研究型的行业研究小组)的研究人员在初入初创公司或小型公司时可能会面临各自的挑战. 他们可能会发现将新型输入(例如产品和业务需求、更严格的基础架构和计算约束以及客户反馈)纳入其研发过程中是很有挑战性的.

一个22万张NSFW图片的鉴黄数据集?我有个大胆的想法……

于01-13 14:57 - -
如果你想训练一个内容审核系统过滤不合适的信息,或用. GAN做一些大胆的新想法,那么数据集是必不可少的. 例如图像鉴黄,我们需要使用卷积神经网络训练一个分类器,以区分正常图像与限制级图像. 但限制级的图像很难收集,也很少会开源. 因此最近有开发者在 GitHub 上开源了一份 NSFW 图像数据集,这是不是你们想要的.

面向数据科学和 AI 的开发库推荐:Python、R 各 7 个

于01-10 17:00 - - 人工智能
雷锋网 AI 科技评论按:本文作者 Favio Vázquez 是一位数据科学家、物理学家和计算机工程师,他从 2018 年初开始写作并发布《数据科学和人工智能每周文摘:Python & R》系列文章,为数据科学家介绍,能真正帮助他们更好地完成各项任务的最好的开发库、开源项目、安装包以及工具. 随着一年结束,Favio Vázquez 也应读者需要,从该系列文章中盘点出了 Python/R 语言 7 大开发库.

日志数据脱敏方法研究

于12-23 00:00 - - dev
日志文件中的敏感信息比如密码,电话号码等等进行过滤处理. 第一个想到的方法就是去 log4j 中自定义 Appender,在 Appender 中正则匹配敏感信息进行过滤. log4j 日志框架在 之前的文章中也也说过,主要有三个组件,Logger,Appenders 和 Layout,要过滤日志内容解决方法也就是从这三个地方着手.

数据库智能运维探索与实践

于12-14 10:13 - 美团技术团队 - 美团 数据库 运维
从自动化到智能化运维过渡时,美团DBA团队进行了哪些思考、探索与实践. 本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容有更新. 近些年,传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求. 随着数据库规模急速扩大,各种NewSQL系统上线使用,运维逐渐跟不上业务发展,各种矛盾暴露的更加明显.

美团DB数据同步到数据仓库的架构与实践

于12-07 04:06 - 美团点评技术团队 -
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据. 在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类. 对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节.

阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

于03-05 18:29 - -
   08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步. .

大促场景下热点数据写(库存扣减)技术难题解决方案

于11-17 17:31 - -
《大促场景下热点数据写(库存扣减)技术难题解决方案》. 已经很久没有足够的时间让自己安静下来撰写一篇技术文章,确实近年来,大部分都花在了工作和2017年的新作品上. 今天难得自己给自己打了瓶100ML的鸡血,出一篇前段时间针对交易系统大促场景下热点数据写优化的相关案例. 当然,不同的企业有不同的解决方案和实现,但是万变不离其宗,还是那句话, 对于大型网站而言,其架构一定是简单和清晰的,而不是炫技般的复杂化,毕竟解决问题采用最直接的方式直击要害才是最见效的,否则事情只会变得越来越糟.

中国如何收集电动汽车数据

于12-03 20:14 - -
每隔 30 秒,在中国制造和行驶的每一辆电动汽车都必须向中国政府发送数据,包括汽车的位置、方向和速度等细节. 据一位参与该项目的工程师说,这些数据可以确定汽车所在位置,误差不超过一米,并为政府产生“疯狂的数据量”——大约每辆车每月 1 千兆字节. 所有生产电动汽车的公司都有义务根据中国过去三年通过的法律和技术标准收集和分享这些数据.

万豪数据泄漏门再敲警钟,酒店集团7步安全建议

于12-03 15:20 - 阿里云安全 - 资讯 万豪 安全建议
11月30日,万豪酒店官方发布消息称,多达5亿人次预订喜达屋酒店客人的详细个人信息可能遭到泄露. 万豪国际在调查过程中了解到,自2014年起即存在第三方对喜达屋网络未经授权的访问,但公司直到2018年9月才第一次收到警报. 万豪国际还表示,泄露的5亿人次的信息中,约有3.27亿人的信息包括如下信息的组合:姓名、邮寄地址、电话号码、电子邮件地址、护照号码、SPG俱乐部账户信息、出生日期、性别、到达与离开信息、预订日期和通信偏好;更为严重的是,对于某些客人而言,信息还包括支付卡号和支付卡有效期,虽然已经加密,但无法排除该第三方已经掌握密钥.