更新于:07-30 01:38

有关[数据]分类推荐

挖掘在交通领域有哪些应用

于07-22 13:30 - Han Hsiao -
对交通行业缺乏深入了解,如有兴趣建议看看:. 大数据理论如何指导交通数据分析. 有数据才有分析,交通领域的数据产量巨大. 这个很好理解,详细讨论需要另开一个问题 大数据对物流管理有什么影响. 交通局通过数据实时分析一方面可以控制公交车和地铁的发车班次和时间,减少空车率,疏导客流缓解城市道路压力;另一方面也可以进行线路优化.

挖掘(六):用XPath爬取链家网房价

于07-20 11:28 - czl389 -
编写爬虫前的准备工作,我们需要导入用到的库,这里主要使用的是requests和lxml两个. 还有一个Time库,负责设置每次抓取的休息时间. 开始抓取前当然应该了解一下目标网站URL结构咯. 链家网的二手房列表页面共有100个,URL结构为. /ershoufang/是频道名称. 我们要抓取的是南京的二手房频道,所以前面的部分不会变,属于固定部分,后面的页面码需要在1-100间变化,属于可变部分.

微服务下的一致性思考

于07-20 00:52 - -
之前讲到了数据库层和缓存层的改造思路,而对于业务层的改造,采用了集中式服务转微服务的架构方案. 既然是微服务,就意味着面临大量的服务间的内部调用及服务依赖,这就意味着,如果一次请求的调用涉及到两个或多个微服务之间的调用,恰好有下游的微服务调用失败,我们就必须要考虑到回滚及服务间保证数据一致性的问题.

库压缩技术探索

于07-19 04:21 - 十七树 - IT技术 数据库
作者:雷鹏,Terark核心技术发明人. 曾就职奇虎360,负责搜索引擎核心研发;曾就职Yahoo. 北研所负责搜索广告、广告交易(AdExchange)等项目. 在数据库、高性能计算、分布式、系统架构上都深有造诣. 作为数据库,在系统资源(CPU、内存、SSD、磁盘等)一定的前提下,我们希望:. 存储的数据更多:采用压缩,这个世界上有各种各样的压缩算法;.

Google 开源机器学习集可视化工具 Facets

于07-18 09:10 - - 综合新闻
ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集. 为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具. Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像.

Redis“丢失”问题

于08-14 06:42 - - Redis Redis
Redis大部分应用场景是纯缓存服务,请求后端有Primary Storage的组件,如MySQL,HBase;请求Redis的键未命中,会从primary Storage中获取数据返回,同时更新Redis缓存. 如果少量数据丢失,相当于请求”缓冲未命中“; 一般对业务的影响是无感知的. 但现在Redis用作存储的业务场景变多,数据丢失对业务是致命的影响.

建设大平台,从“治理”谈起 - CSDN极客头条

于07-17 08:28 - -
一、大数据时代还需要数据治理吗. 二、如何面向用户开展大数据治理. 三、面向用户的自服务大数据治理架构. 一、大数据时代还需要数据治理吗. 数据平台发展过程中随处可见的数据问题. 大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人. 而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间.

风控用了什么模型?有效性如何

于07-13 14:00 - 京东白条 -
由于题主提出的问题围绕着风控模型,而讨论模型必定和实际的应用场景和数据源相关,因此就前四个问题一并回答. 首先金融科技公司大致分为三类,基于线上垂直领域(教育、医疗、电商)、基于特定客群(学生、蓝领、白领)、基于线下场景(车贷、租房). 不同公司在数据维度、授信客群、产品上都有较大区别. 基本而言,风险主要集中于 信用风险及 欺诈风险.

1 对多业务,库水平切分架构一次搞定

于07-11 00:00 - - dev
本文将以“帖子中心”为例,介绍“1对多”类业务,随着数据量的逐步增大,数据库性能显著降低,数据库水平切分相关的架构实践:. 典型问题的优化思路及实践. 所谓的“1对1”,“1对多”,“多对多”,来自数据库设计中的“实体-关系”ER模型,用来描述实体之间的映射关系. 一个用户只有一个登录名,一个登录名只对应一个用户.

一文读懂机器学习、科学、人工智能、深度学习和统计学之间的区别

于07-10 06:53 - -
选自datascience central. 作者: Vincent Granville . 在这篇文章中,数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学等领域的区别. 这些概念的区别也一直是人工智能领域热烈讨论的一个话题,Quora、多个技术博客都曾有过解答.

187个广场、500亿条,万达如何用技术推动整个集团的转型

于07-04 00:00 - - bigdata
万达集团并不是一个互联网企业,没有太多允许试错的机会,但是,如今的万达已经在尝试摘掉“地产公司”的标签,真正依靠技术的力量去推动创新. 近日,ITValue对万达集团信息管理中心常务副总经理冯中茜等实际操盘的高管做了深度专访,并走访了整个万达正在努力希望缔造的全新“智能化”产业生态. 如果仅从万达集团近两年的动向来看,你很难将它和一家“地产公司”联系到一起.

写给大开发初学者的话 | 附教程 | 大

于07-04 03:20 - -
第二章:更高效的WordCount. 第三章:把别处的数据搞到Hadoop上. 第四章:把Hadoop上的数据搞到别处去. 经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高. 如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么.

李虹含:大技术在商业银行中的应用——场景、优势与对策

于07-03 00:00 - - bigdata
2017年第8期(总第8期). 近日,中国人民银行成立金融科技(FinTech)委员会,旨在加强金融科技工作的研究规划和统筹协调. 随着金融科技在业务层面渗透率的逐步提升,大数据技术在金融机构中的应用日益广阔,对于商业银行如何在金融科技时代使用、提取、管理好大数据的讨论也更加深入. 一、大数据技术在银行业中应用的前景.

美团点评库高可用架构的演进与设想

于06-29 15:02 - 美团点评技术团队 -
本文介绍最近几年美团点评MySQL数据库高可用架构的演进过程,以及我们在开源技术基础上做的一些创新. 同时,也和业界其它方案进行综合对比,了解业界在高可用方面的进展,和未来我们的一些规划和展望. 在2015年之前,美团点评(点评侧)长期使用MMM(Master-Master replication manager for MySQL)做数据库高可用,积累了比较多的经验,也踩了不少坑,可以说MMM在公司数据库高速发展过程中起到了很大的作用.

阿里巴巴利用驱动增长

于06-28 00:00 - - bigdata
如果数据是新石油,那马云就是新一代洛克菲勒. 他领导的中国电商阿里巴巴正发展成为一家大型数据综合企业. 如果数据是新的“石油”,那英语教师出身的中国首富马云(Jack Ma)就是新一代的约翰•D•洛克菲勒(John D Rockefeller). 像洛克菲勒的标准石油公司(Standard Oil)一样,马云的阿里巴巴(Alibaba)是一家利润丰厚、增长迅速的企业.

[原]Mahout 对推荐的抽象表示(上部分

于10-08 21:26 - huruzun -
学习Mahout推荐相关算法前,我们必须先要理解Mahout如何对推荐数据进行抽象表示. 首先来看下Preference,该抽象是最基本的抽象,这个抽象对象一般代表一个单独的 userID、itemID、Preference 分数,在具体实现层面首先是Preference接口:. * The ASF licenses this file to You under the Apache License, Version 2.0 * (the "License"); you may not use this file except in compliance with * the License.

[原]Mahout 对推荐的抽象表示(下部分

于10-10 22:09 - huruzun -
这篇博客是延续上部分的补充: Mahout 对推荐数据的抽象表示(上部分). 处理无Preference values 数据. 下面都是围绕Mahout对没有Preference values的数据的推荐. 有时进入推荐引擎的数据没有Preference values,而是只有相关联的一个userID、itemID,它们之间有多强的联系我们没有一个Preference values来量化衡量.

如何成功实现治理

于06-27 00:00 - - bigdata
如果你处理过大量数据,你也许听说过 “数据治理”一词,你可能会想, 它是什么. 简单来说, 数据治理就是处理数据的策略——如何存储、访问、验证、保护和使用数据. 数据治理包括制定获取方案:谁能访问、使用和共享你的数据. 这些问题正变得越来越重要, 因为企业依靠收集、存储和分析大量数据,来达成业务目标.

使用Ettercap filter进行流量监听和篡改

于06-26 00:10 - xyt8023y -
Ettercap是一个综合性的中间人攻击工具,使用它可以进行ARP欺骗、拦截器、DNS欺骗等操作,本文将介绍使用ettercap的文本模式进行代码注入的方式和注意点. ettercap提供了对各个操作系统的支持,这里主要介绍macOS的安装方式. 这种安装方式较为简单, 但是安装的ettercap不支持Lua脚本,如果想要使用支持Lua脚本的ettercap,需要通过源码安装.

实用 | 从Apache Kafka到Apache Spark安全读取

于06-23 00:00 - - bigdata
随着在CDH平台上物联网(IoT)使用案例的不断增加,针对这些工作负载的安全性显得至关重要. 本篇博文对如何以安全的方式在Spark中使用来自Kafka的数据,以及针对物联网(IoT)使用案例的两个关键组件进行了说明. Cloudera Distribution of Apache Kafka 2.0.0版本(基于Apache Kafka 0.9.0)引入了一种新型的Kafka消费者API,可以允许消费者从安全的Kafka集群中读取数据.

90%的大产品是伪需求,所以没人买单-36大

于06-21 23:24 - -
我们看似已经进入大数据时代,到处都是各种各样的大数据产品. 但我可以负责任的讲,90%的大数据产品——. 要么,是闭门造车、臆想出来的“伪需求”,没有真正解决客户的需求和痛点,所以才会没人买单;. 要么,是概念导向、占领客户大数据认知的“假产品”,已经先入为主,让真正的大数据产品推广更加困难. 这就是大数据行业今天真实的业态,也是我们共同面临的问题.

基于大的银行反欺诈的分析报告

于06-21 00:00 - - bigdata
在我第一次接触大数据的时候,那个故事便是“啤酒和尿布”. 是美国沃尔玛超市的一则营销案例. 每到周末的时候,啤酒和尿片的销量很高,经分析,原来是周末电视转播球赛,男人们要一边喝酒一边看球,受冷落的妻子们只好出门逛街或找闺蜜吐槽,照顾孩子的任务自然就归了男人们. 于是,男人们在买啤酒的同时随手买尿片.

上海电信运用大打击营销和诈骗电话,可为违规行为精准画像

于06-20 07:38 - IT时报 - 大数据 运营商 投稿
“你好,我是你老板,请到我办公室来一下……”“你好,你的邮政包裹在我手上,需要提供身份证件……”“我是王宝强,需要你借1万元钱来缓解资金紧张……”一直以来,很多用户为陌生手机号码来电困扰,一接听才发现对方是在推销产品,甚至是进行诈骗. 面对“顽疾”,国内运营商开始主动出击,对过度营销电话和诈骗电话进行整治.

深入浅出解析大Lambda架构 - 天善智能:专注于商业智能BI和分析、大领域的垂直社区平台

于06-20 09:17 - -
Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病. 随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,又可以进行实时计算. 比如电商推荐系统,当你在京东浏览商品时,京东会根据你的浏览、加车、收藏、删除等行为,实时为你推荐商品.

平台架构技术选型与场景运用 - 极客头条 - CSDN.NET

于06-20 09:02 - -
导读:本文将大数据的工作角色分为三种类型,包括业务相关、数据科学相关和数据工程. 大数据平台偏向于工程方面,大数据平台一般包括数据源、数据采集、数据存储、数据分析等方面. 讲师从数据来源、数据源结构、数据变化程度和数据规模等4个维度对数据源进行分类,数据源分类维度的不同决定最后的技术选型. 讲师还对数据源分类的定义及选型方式进行详细讲解,最终联系到大数据的应用场景,让数据应用方式更加直观.

漫谈质量监控 - 简书

于06-20 08:50 - -
往往那些不起眼的功能,最能毁掉你的工作成果. 本篇分享一些和数据质量监控相关的内容. 数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的. 假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,这个异常还是由业务方发现的而不是你,根据我的经验是,它带来的负面影响会超过你之前做的100个业务带来的正面影响.

40个安全专家需要知道的网络安全

于06-17 06:00 - secist - 安全报告
随着互联网的不断发展,网络安全威胁也日益增长. 为了便于IT安全人员及时的掌握和了解当前的安全环境,许许多多的行业调查,供应商报告和研究报告也随之而来. 而面对如此规模庞大的报告数量,不免让我们感到有些眼花缭乱. 为此,我对大量的分析报告进行了梳理,以便于大家更好地阅读和了解这些内容. 以下是关于数据泄露,新兴威胁,软件漏洞,合规性相关问题,网络安全技能等问题的报告集合.

极光大:最新研究,王者荣耀用户画像

于06-16 00:00 - - bigdata
“蓝爸爸红爸爸”、“打野推塔带兵线”. 诸葛亮张良鲁班王昭君孙悟空大战亚瑟雅典娜安琪拉宫本武藏不知火舞. 如果你不知道上面在说什么,你可能已经OUT了. 是的,我说的正是那款史上火热度排名第一的手游《王者荣耀》. 极光大数据发布《王者荣耀研究报告》,从渗透率、日活跃用户数、月活跃用户数、日新增用户数、用户使用习惯及用户画像等方面,全方位剖析这款现象级手游的成长史及现状.

为你揭秘,发什么文章阅读高

于06-15 00:00 - - bigdata
下面将结合大数据为你揭秘——爆文有哪些特点. 西瓜数据收录并监测超过300万个公众号,据平台查询结果显示,五月爆文932626篇,阅读超过10万有30074篇,下面将结合大数据为你揭秘——爆文有哪些特点. 西瓜助手不乏高阅读的文章,覆盖各行业及垂直领域,通过分析高阅读的文章,发现上个月资讯、情感励志类、数码科技爆文比重偏高,占据前三名,而运动类爆文比重偏低.

配用电大项目中的架构研究与思考

于06-14 00:00 - - bigdata
智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网. 电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率.