更新于:04-14 11:43

有关[数据]分类推荐

mXtract:一款功能强大的内存数据提取&分析工具

于04-20 15:00 - Alpha_h4ck - 工具 mXtract 内存数据提取
mXtract是一款开源的Linux安全工具,该工具可从目标系统的内存中提取并分析数据. 从本质上来说,mXtract是一款防御端渗透测试工具,它的主要功能是扫描目标系统内存并尝试通过正则表达式来从中提取出私钥、IP和用户密码等敏感数据. 请记住,扫描结果跟正则表达式的质量息息相关…. Verbose模式扫描单个IP正则式,扫描单个数据段,显示整个扫描进程信息以及扫描的环境文件.

人脸相关数据库 - marleylee的博客 - CSDN博客

于04-16 14:04 - -
在人脸检测、人脸识别和属性分析等方面,常用的 数据库可分为以下五部分. (1999年发布)CMU+MIT:180幅图像,共734个人脸. 包含3个正面人脸 测试子集和一个旋转人脸测试子集,其中正面人脸测试子集有130幅图像,共511个人脸;旋转人脸测试子集有50幅图像,共223个人脸. (2010年发布)FDDB:2845幅图像,共5171个人脸.

一次诡异的线上数据库的死锁问题排查过程

于04-10 00:00 - - dev
前几天,线上发生了一次数据库死锁问题,这一问题前前后后排查了比较久的时间,这个过程中自己也对数据库的锁机制有了更深的理解. 本文总结了这次死锁排查的全过程,并分析了导致死锁的原因及解决方案. 希望给大家提供一个死锁的排查及解决思路. 本文涉及到MySql执行引擎、数据库隔离级别、Innodb锁机制、索引、数据库事务等多领域知识.

微服务架构-数据中台和业务中台(3.27)

于03-27 19:45 - 人月神话 - IT咨询
首先我们看下阿里巴巴Aliware团队对企业中台的定义. 即企业中台是由业务中台和数据中台构建起数据闭环的运营体系,实现以数字化资产的形态构建企业核心差异化竞争力. 在原来我谈企业中台的时候,很少专门谈到数据中台和业务中台,更多谈的是技术中台和业务中台,技术中台类似我们原来说的技术平台层和业务不相关.

如何更好利用知识图谱技术做反欺诈? 360金融首席数据科学家沈赟开讲

于03-27 13:50 - 果青 - TechWeb
【TechWeb】3月27日,近日360金融首席数据科学家沈赟作为毕马威中国2019金融科技系列论坛课程授课专家,讲授知识图谱的有关技术和知识,分享了如何以知识图谱“精耕”反欺诈. 如何更好的利用知识图谱技术做到反欺诈. 沈赟分别从贷前、贷中和贷后三个环节以360金融为例进行了详细的论述. 贷前,360金融通过给客户进行打分,来发现其是否是潜在的多头客户.

68 款大规模机器学习数据集,涵盖 CV、语音、NLP | 十年资源集

于03-23 00:00 - - tuicool
参加 2019 Python开发者日,请扫码咨询 ↑↑↑. 出品 | AI科技大本营(ID:rgznai100). 此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla 的 1400 小时开源语音数据集; ApolloScape 的大规模自动驾驶数据集; 腾讯 AI Lab 的 “Tencent ML-Images” 项目,甚至还有谷歌团队推出的 Google Dataset Search(Google 数据集搜索)…….

数据科学难在实践,有哪些弯路可以不走?

于03-22 18:34 - 大数据文摘 -
数据科学这一名词流行了这么长时间,对于很多企业来说仍然是熟悉而又陌生的词汇. 对于积极向布局数据科学应用的企业来说,如何避免走弯路. Blue Yonder,一个成立于2008年的大数据分析平台,用他8年的数据科学经验告诉你,什么是真正的数据科学、有哪些弯路可以不走. 正如Blue Yonder创始人在采访中说到:“在这八年里,我们经历了不少痛苦的教训,尤其是在数据科学应用方面.

mxnet一键式训练自己的数据 - imistyrain/mxnet-oneclick: use mxnet to train your own data with just oneclick

于03-15 21:07 - -
mxnet一键式训练自己的数据. mxnet应用到工业项目大概包括收集数据、转换数据、定义模型、训练模型和评估模型等几个步骤,这里以常见的车牌字符识别为例讲解怎么用mxnet一键式训练自己的数据. 现在已经非常简单,装好python和pip后一句代码就能搞定:. 如果需要从源码编译安装,可以参照. 官网和[mxnet VS2015编译.pdf](mxnet VS2015编译.pdf).

Tomcat数据库连接池数据库密码加密

于03-06 23:08 - log_cd -
2、Factory中实现数据库密码解密. 3、将以上两个类打包(vajra-dbsecure.jar),并指定Main入口类. 4、tomcat全局数据源中使用加密后的数据库密码. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

Go 生态圈的 K/V 数据库 benchmark

于03-05 16:14 - - Go
Go生态圈有好几个K/V数据库,我们经常用它来做我们的存储引擎,但是这些数据库引擎的性能如何呢. 本文试图用性能而不是功能的数据考察这些数据库,我测试了几种场景: 并发写、并发读、单一写并发读、并发删除,得出了一些有趣的数据. 测试在两台机器上测试的,一台机械硬盘,一台固态硬盘,使用256字节作为value值的大小,9个字节作为key的大小,测试简单的读写删除操作,并没有测试批量读写操作.

机器学习中如何处理不平衡数据?

于02-17 14:53 - 机器之心 -
假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷. 你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%. 你的老板很惊讶,决定不再测试直接使用你的模型. 几个星期后,他进入你的办公室,拍桌子告诉你你的模型完全没用,一个有缺陷的产品都没发现. 经过一番调查,你发现尽管你们公司的产品中大约有 3.8%的存在缺陷,但你的模型却总是回答「没有缺陷」,也因此准确率达到 96.2%.

国内某人脸识别公司数据泄露 影响超250万人

于02-15 00:00 - - tuicool
2月15日,根据某404网站,以及微博安全应急响应中心消息,国内某人脸识别公司发生大规模数据泄露事件. 超过250万人的数据可被获取,680万条记录泄露,其中包括身份证信息,人脸识别图像及捕捉地点等. 这家公司的对外简介是将深度学习等前沿先进技术用于监控视频分析,实际上就是提供面部识别技术和人群分析技术,并提供公开数据库可在线查找.

初创公司数据科学项目全流程指南,一位资深数据科学家的经验谈

于01-22 17:59 - 大数据文摘 -
无论是管理人员还是创业公司中的不同团队,都可能会发现数据科学项目与软件开发之间的差异并不直观. 如果没有明确的说明与解释,可能会导致数据科学家与其同行之间的误解和冲突. 来自学术界(或高度研究型的行业研究小组)的研究人员在初入初创公司或小型公司时可能会面临各自的挑战. 他们可能会发现将新型输入(例如产品和业务需求、更严格的基础架构和计算约束以及客户反馈)纳入其研发过程中是很有挑战性的.

一个22万张NSFW图片的鉴黄数据集?我有个大胆的想法……

于01-13 14:57 - -
如果你想训练一个内容审核系统过滤不合适的信息,或用. GAN做一些大胆的新想法,那么数据集是必不可少的. 例如图像鉴黄,我们需要使用卷积神经网络训练一个分类器,以区分正常图像与限制级图像. 但限制级的图像很难收集,也很少会开源. 因此最近有开发者在 GitHub 上开源了一份 NSFW 图像数据集,这是不是你们想要的.

面向数据科学和 AI 的开发库推荐:Python、R 各 7 个

于01-10 17:00 - - 人工智能
雷锋网 AI 科技评论按:本文作者 Favio Vázquez 是一位数据科学家、物理学家和计算机工程师,他从 2018 年初开始写作并发布《数据科学和人工智能每周文摘:Python & R》系列文章,为数据科学家介绍,能真正帮助他们更好地完成各项任务的最好的开发库、开源项目、安装包以及工具. 随着一年结束,Favio Vázquez 也应读者需要,从该系列文章中盘点出了 Python/R 语言 7 大开发库.

日志数据脱敏方法研究

于12-23 00:00 - - dev
日志文件中的敏感信息比如密码,电话号码等等进行过滤处理. 第一个想到的方法就是去 log4j 中自定义 Appender,在 Appender 中正则匹配敏感信息进行过滤. log4j 日志框架在 之前的文章中也也说过,主要有三个组件,Logger,Appenders 和 Layout,要过滤日志内容解决方法也就是从这三个地方着手.

数据库智能运维探索与实践

于12-14 10:13 - 美团技术团队 - 美团 数据库 运维
从自动化到智能化运维过渡时,美团DBA团队进行了哪些思考、探索与实践. 本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容有更新. 近些年,传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求. 随着数据库规模急速扩大,各种NewSQL系统上线使用,运维逐渐跟不上业务发展,各种矛盾暴露的更加明显.

美团DB数据同步到数据仓库的架构与实践

于12-07 04:06 - 美团点评技术团队 -
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据. 在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类. 对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节.

阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

于03-05 18:29 - -
   08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步. .

大促场景下热点数据写(库存扣减)技术难题解决方案

于11-17 17:31 - -
《大促场景下热点数据写(库存扣减)技术难题解决方案》. 已经很久没有足够的时间让自己安静下来撰写一篇技术文章,确实近年来,大部分都花在了工作和2017年的新作品上. 今天难得自己给自己打了瓶100ML的鸡血,出一篇前段时间针对交易系统大促场景下热点数据写优化的相关案例. 当然,不同的企业有不同的解决方案和实现,但是万变不离其宗,还是那句话, 对于大型网站而言,其架构一定是简单和清晰的,而不是炫技般的复杂化,毕竟解决问题采用最直接的方式直击要害才是最见效的,否则事情只会变得越来越糟.

中国如何收集电动汽车数据

于12-03 20:14 - -
每隔 30 秒,在中国制造和行驶的每一辆电动汽车都必须向中国政府发送数据,包括汽车的位置、方向和速度等细节. 据一位参与该项目的工程师说,这些数据可以确定汽车所在位置,误差不超过一米,并为政府产生“疯狂的数据量”——大约每辆车每月 1 千兆字节. 所有生产电动汽车的公司都有义务根据中国过去三年通过的法律和技术标准收集和分享这些数据.

万豪数据泄漏门再敲警钟,酒店集团7步安全建议

于12-03 15:20 - 阿里云安全 - 资讯 万豪 安全建议
11月30日,万豪酒店官方发布消息称,多达5亿人次预订喜达屋酒店客人的详细个人信息可能遭到泄露. 万豪国际在调查过程中了解到,自2014年起即存在第三方对喜达屋网络未经授权的访问,但公司直到2018年9月才第一次收到警报. 万豪国际还表示,泄露的5亿人次的信息中,约有3.27亿人的信息包括如下信息的组合:姓名、邮寄地址、电话号码、电子邮件地址、护照号码、SPG俱乐部账户信息、出生日期、性别、到达与离开信息、预订日期和通信偏好;更为严重的是,对于某些客人而言,信息还包括支付卡号和支付卡有效期,虽然已经加密,但无法排除该第三方已经掌握密钥.

毫秒级从百亿大表任意维度筛选数据是怎么做到的?

于11-28 00:00 - - dev
业务背景 随着闲鱼业务的发展,用户规模达到数亿级,用户维度的数据指标,达到上百个之多. 如何从亿级别的数据中,快速筛选出符合期望的用户人群,进行精细化人群运营,是技术需要解决的问题. 业界的很多方案往往需要分钟级甚至小时级才能生成查询结果. 本文提供了一种解决大数据场景下的高效数据筛选、统计和分析方法,从亿级别数据中,任意组合查询条件,筛选需要的数据,做到毫秒级返回.

如何判断一个元素在亿级数据中是否存在?

于11-25 10:59 - - Guava Bloom Filter 算法 Hash
最近有朋友问我这么一个面试题目:. 现在有一个非常庞大的数据,假设全是 int 类型. 现在我给你一个数,你需要告诉我它是否存在其中(尽量高效). 需求其实很清晰,只是要判断一个数据是否存在即可. 但这里有一个比较重要的前提: 非常庞大的数据. 先不考虑这个条件,我们脑海中出现的第一种方案是什么.

新一代数据库TiDB在美团的实践

于11-23 00:00 - - geek
近几年,基于MySQL构建的传统关系型数据库服务,已经很难支撑美团业务的爆发式增长,这就促使我们去探索更合理的数据存储方案和实践新的运维方式. 而随着分布式数据库大放异彩,美团DBA团队联合基础架构存储团队,于 2018 年初启动了分布式数据库项目. 在立项之初,我们进行了大量解决方案的对比,深入了解了业界的 scale-out(横向扩展)、scale-up(纵向扩展)等解决方案.

分享一些 Kafka 消费数据的小经验

于11-20 00:02 - - Kafka Java 进阶 Kafka
之前写过一篇 《从源码分析如何优雅的使用 Kafka 生产者》 ,有生产者自然也就有消费者. 建议对 Kakfa 还比较陌生的朋友可以先看看. 就我的使用经验来说,大部分情况都是处于数据下游的消费者角色. 也用 Kafka 消费过日均过亿的消息(不得不佩服 Kakfa 的设计),本文将借助我使用 Kakfa 消费数据的经验来聊聊如何高效的消费数据.

使用ElasticSearch完成百万级数据查询附近的人功能 - tianyaleixiaowu的专栏 - CSDN博客

于11-08 13:45 - -
我们来看一下使用ElasticSearch完成大数据量查询附近的人功能,搜索N米范围的内的数据. 本机测试使用了ElasticSearch最新版5.5.1,SpringBoot1.5.4,spring-data-ElasticSearch2.1.4.. 新建Springboot项目,勾选ElasticSearch和web.

数据、算法、算力将是资产管理公司新核心能力

于11-04 18:42 - - Fintech&区块链
雷锋网AI金融评论报道,11月3日,中国机构投资者峰会--2019年资本市场高质量发展论坛在北京举行,中国万向控股副董事长、通联数据董事长肖风在峰会上表示,未来科技将从投资策略、估值方法、组织结构、核心能力、市场认知、公司文化等方面改变资产管理行业. 比如,在投资策略方面,肖风预测道,在AI技术成熟起来之后,也许主动投资策略会以另外一种形式重新回到这个市场的中心,成为主流投资策略.

谈Elasticsearch下分布式存储的数据分布

于10-31 00:00 - - geek
  对于一个分布式存储系统来说,数据是分散存储在多个节点上的. 如何让数据均衡的分布在不同节点上,来保证其高可用性. 所谓均衡,是指系统中每个节点的负载是均匀的,并且在发现有不均匀的情况或者有节点增加/删除时,能及时进行调整,保持均匀状态. 本文将探讨Elasticsearch的数据分布方法,文中所述的背景是Elasticsearch 5.5.

教你用几行Python和消费数据做客户细分

于10-26 12:01 - 大数据文摘 -
细分客户群是向客户提供个性化体验的关键. 它可以提供关于客户行为、习惯与偏好的相关信息,帮助企业提供量身定制的营销活动从而改善客户体验. 在业界人们往往把他吹嘘成提高收入的万能药,但实际上这个操作并不复杂,本文就将带你用简单的代码实现这一项目. 通过使用消费交易数据,我们将会通过创建一个2 x 2的有价值属性的矩阵来得到4个客户群.