zillow数据科学应用探索

标签: 数据挖掘 | 发表时间:2016-02-15 12:01 | 作者:bicloud
出处:http://blog.sina.com.cn/bicloud

zillow http://www.zillow.com/

data science at zillow

zillow 美国一家房地产租赁和销售企业。

Zillow serves the full lifecycle of owning and living in a home: buying, selling, renting, financing, remodeling and more.

Zillow described their 20TB dataset and the technology they use to estimate house values for more than 110 million homes in the US.

数据科学技术

基于R,python语言构建原型和生产环境,还会用到graphlab create构建模型

大数据

homes on zillow 110 million

home attributes 103

double precision 8byte

time series 220months

total 20T工具

R

python

R is used for prototyping work, such as proof-of-concept experiments on subsets of the dataset and also in production, mainly as an interface programming layer. The production computations avail of C++ technology. Zillow referenced proprietary R packages which they have developed in-house. One such package is ZPL(实现R并行计算), which provides a function similar to MapReduce. Both SQLserver and SQLite are used in Zillow.

应用

rent zestimate

计算租赁指数 zillow rent index

calculate raw median rent zestimates

应用平滑过滤

考虑季节性因素

质量控制

计算 房屋价值指数 zillow home value index

zillow地理信息技术

大多数开发在windows上完成

sql server 数据库

75%python,15% R,5% sql server,5% bash 和shell

linux-only database used for blazingly fast in memory and http look up

crawl->walk->run

数据挖掘模型

数据建模,寻找异常点,寻找脏数据,数据库清洗,缺失值插入

python在数据科学中的角色,科学计算中应用不断增长,机器学习算法实现更加容易

zillow常用python包,numpy,pandas,scikit-learn,textmining,

pymssql、pyodbc,sqlite3, graphlab create

使用sklearn构建欺诈检测模型,gbrt算法


总结:

基于大数据,数据科学技术,实现房产业务数据化,房产数据业务化,开发数据产品,进行精准营销。国内的安居客,搜房网等,需要接轨。​​

from:http://workinganalytics.com/zillow-opens-the-kimono-reveals-r-python-and-graphlab-create-underneath/​


 

相关 [zillow 数据科学 应用] 推荐:

zillow数据科学应用探索

- - 冰火岛
zillow 美国一家房地产租赁和销售企业. Zillow described their 20TB dataset and the technology they use to estimate house values for more than 110 million homes in the US..

房地產資訊龍頭 Zillow 成功 IPO,它的商業模式是…?

- 幻幽 or A書 - Mr. Jamie 看網路與創投
Zillow 這個名字對於亞洲這邊的朋友或許有些陌生,但你可別因為它聽起來像是發音不好的 Zero,就把人家小看了. 首先,Zillow 這個名字其實大有來頭,它可是 Zillion 和 Pillow 的組合. Zillion 是數不盡、無限多的意思,而 Pillow 則是枕頭. 所以,Zillow 從 2005 年設立開始,目標就是要幫消費者整理、分析所有的「枕頭」資訊,也就是所有人都關心的「住」的問題.

数据科学家炙手可热

- - 互联网分析
《哈佛商业评论》(Harvard Business Review)近期声称,21世纪最性感的工作是数据科学家. 这一美国商学院期刊表示,数据科学家集“数据黑客、分析师、沟通大师和受信任的顾问”于一身,并指出,这种技能的结合极为罕见. 这正是全球各地诸多企业的问题所在. 尽管公司经理深知大数据所能带来的效益,但他们难以找到拥有合适技能的人才.

信息平台和数据科学家的兴起

- 景峰 - 《程序员》杂志官网
文 / Jeff Hammerbacher. Facebook有了“自知之明”. 在2005年9月,Facebook首次向非大学生公开,允许高中生注册账号. 忠实的用户愤怒了,但Facebook团队认为这是为网站做出的正常方向. 那么它该如何证明它的方案是正确的呢. 此外,在几乎所有可登录Facebook网站的学校中,Facebook已经渗入学生当中,但还是在有部分学校中,该网站一直不受青睐.

linkedin 数据科学实习的5个经验总结

- - 冰火岛
这些可以使接下来的工作更加简单,结果更加可信. As a data scientist at LinkedIn, you have access to Petabytes of data (1 Petabyte as much data as is transferred when viewing HDTV for about 13.5 years).

Facebook数据科学家需具备的六大技能

- - 互联网分析
数据科学家到底应该具备哪些技能. 对于这个新兴职业的定位和展望,我们也许Facebook的招聘说明中找到答案. Facebook近日公开招募数据科学家,负责分析Facebook拥有的全球最大的人际关系数据库. 在 Facebook的数据科学家招聘说明中,数据科学家被归类到“软件工程职业”,但实际上Facebook的数据科学家的工作更多是在产品层面.

揭秘LInkedin数据科学家如何工作

- - 互联网分析
在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队. 作为社交网络, LinkedIn并不是最大的,也不是生长最快的. 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户.

数据科学家的职业发展前景如何?

- - 美国留学申请与就业找工作咨询博客|Warald|一亩三分地论坛
从2011年下半年开始,Warald注意到LinkedIn上Data Scientist相关工作在迅速增长,2012年更是增幅显著,好多公司都在扩充或者创建自己的data science or analytics team. 也有越来越多的人在自己的LinkedIn profile头衔里添加big data、data scientist、data analyst之类的字眼,希望被猎头或者公司直接搜索到.

数据科学家面试常见的77个问题

- - 互联网分析
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件. 或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题. 下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考. 1、你处理过的最大的数据量.

IT屌丝如何成为数据科学家?

- - IT经理网
数据科学家被《财富》杂志誉为21世纪最性感的职业,但遗憾的是大多数企业里都没有真正的数据科学家人才. 根据麦肯锡 报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万. 此外美国企业还需要150万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才. 那么,对于不同职业经历和专业背景的IT人士来说,如何才能尽快转型,加入数据科学家的钻石王老五的行列呢.