zillow数据科学应用探索

标签: 数据挖掘 | 发表时间:2016-02-15 12:01 | 作者:bicloud
分享到:
出处:http://blog.sina.com.cn/bicloud

zillow http://www.zillow.com/

data science at zillow

zillow 美国一家房地产租赁和销售企业。

Zillow serves the full lifecycle of owning and living in a home: buying, selling, renting, financing, remodeling and more.

Zillow described their 20TB dataset and the technology they use to estimate house values for more than 110 million homes in the US.

数据科学技术

基于R,python语言构建原型和生产环境,还会用到graphlab create构建模型

大数据

homes on zillow 110 million

home attributes 103

double precision 8byte

time series 220months

total 20T工具

R

python

R is used for prototyping work, such as proof-of-concept experiments on subsets of the dataset and also in production, mainly as an interface programming layer. The production computations avail of C++ technology. Zillow referenced proprietary R packages which they have developed in-house. One such package is ZPL(实现R并行计算), which provides a function similar to MapReduce. Both SQLserver and SQLite are used in Zillow.

应用

rent zestimate

计算租赁指数 zillow rent index

calculate raw median rent zestimates

应用平滑过滤

考虑季节性因素

质量控制

计算 房屋价值指数 zillow home value index

zillow地理信息技术

大多数开发在windows上完成

sql server 数据库

75%python,15% R,5% sql server,5% bash 和shell

linux-only database used for blazingly fast in memory and http look up

crawl->walk->run

数据挖掘模型

数据建模,寻找异常点,寻找脏数据,数据库清洗,缺失值插入

python在数据科学中的角色,科学计算中应用不断增长,机器学习算法实现更加容易

zillow常用python包,numpy,pandas,scikit-learn,textmining,

pymssql、pyodbc,sqlite3, graphlab create

使用sklearn构建欺诈检测模型,gbrt算法


总结:

基于大数据,数据科学技术,实现房产业务数据化,房产数据业务化,开发数据产品,进行精准营销。国内的安居客,搜房网等,需要接轨。​​

from:http://workinganalytics.com/zillow-opens-the-kimono-reveals-r-python-and-graphlab-create-underneath/​


 

相关 [zillow 数据 科学] 推荐:

zillow数据科学应用探索

- - 冰火岛
zillow 美国一家房地产租赁和销售企业. Zillow described their 20TB dataset and the technology they use to estimate house values for more than 110 million homes in the US..

房地產資訊龍頭 Zillow 成功 IPO,它的商業模式是…?

- 幻幽 or A書 - Mr. Jamie 看網路與創投
Zillow 這個名字對於亞洲這邊的朋友或許有些陌生,但你可別因為它聽起來像是發音不好的 Zero,就把人家小看了. 首先,Zillow 這個名字其實大有來頭,它可是 Zillion 和 Pillow 的組合. Zillion 是數不盡、無限多的意思,而 Pillow 則是枕頭. 所以,Zillow 從 2005 年設立開始,目標就是要幫消費者整理、分析所有的「枕頭」資訊,也就是所有人都關心的「住」的問題.

数据科学家炙手可热

- - 互联网分析
《哈佛商业评论》(Harvard Business Review)近期声称,21世纪最性感的工作是数据科学家. 这一美国商学院期刊表示,数据科学家集“数据黑客、分析师、沟通大师和受信任的顾问”于一身,并指出,这种技能的结合极为罕见. 这正是全球各地诸多企业的问题所在. 尽管公司经理深知大数据所能带来的效益,但他们难以找到拥有合适技能的人才.

福特首席数据科学家谈三点大数据经验

- - IT经理网
数据已经成了福特公司的“燃油”,从产品设计到商业智能,从汽车部件到社交网络上的用户,福特公司每天需要处理海量且快速增长的数据. 今日福特公司首席数据官Michael Cavaetta做客Structure Show, 介绍了福特公司的大数据处理经验,归结为三点:. 数周前福特公司在北美国际汽车展上亮相的F-150皮卡车型采用了轻型铝材取代钢材提高燃油经济性.

大数据工具,在数据科学家眼中是怎样的存在?

- - 199IT互联网数据中心
随着 大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道. 数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化. 但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度. 数据科学家们通常喜欢把后端技术扔给工程师来处理.

科学绘图与数据分析软件:SigmaPlot绿色版

- alex - 精品绿色便携软件
Systat SigmaPlot是一款专业的科学绘图软件,可用于绘制准确、高质量的图形和曲线,支持一百多种2D、3D科学图形. 2D图表如散点图、线性图、面积图、极坐标图、柱状图表、水平图表、盒状图、饼图、等高线图;3D图形如散点图、线性图、网眼图、柱状图等. SigmaPlot还具有强大的数据统计分析功能:从简单描述统计到复杂回归分析、从基本假设检验到复杂的重复测量方差分析.

信息平台和数据科学家的兴起

- 景峰 - 《程序员》杂志官网
文 / Jeff Hammerbacher. Facebook有了“自知之明”. 在2005年9月,Facebook首次向非大学生公开,允许高中生注册账号. 忠实的用户愤怒了,但Facebook团队认为这是为网站做出的正常方向. 那么它该如何证明它的方案是正确的呢. 此外,在几乎所有可登录Facebook网站的学校中,Facebook已经渗入学生当中,但还是在有部分学校中,该网站一直不受青睐.

科学绘图与数据分析软件:SigmaPlot绿色版

- Iamlongly - FeedzShare
来自: 精品绿色便携软件 - FeedzShare  . 发布时间:2011年07月24日,  已有 2 人推荐. Systat SigmaPlot是一款专业的科学绘图软件,可用于绘制准确、高质量的图形和曲线,支持一百多种2D、3D科学图形. 2D图表如散点图、线性图、面积图、极坐标图、柱状图表、水平图表、盒状图、饼图、等高线图;3D图形如散点图、线性图、网眼图、柱状图等.

linkedin 数据科学实习的5个经验总结

- - 冰火岛
这些可以使接下来的工作更加简单,结果更加可信. As a data scientist at LinkedIn, you have access to Petabytes of data (1 Petabyte as much data as is transferred when viewing HDTV for about 13.5 years).

揭秘LInkedin数据科学家如何工作

- - 互联网分析
在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队. 作为社交网络, LinkedIn并不是最大的,也不是生长最快的. 成立于2003年的LinkedIn, 花了500天, 才达到了100万用户.