数据挖掘（六）：用XPath爬取链家网房价数据

	followinfo	houseinfo	totalprice
0	158人关注 / 共59次带看 / 6个月以前发布	龙凤花园隽凤园 \| 4室2厅 \| 112.36平米 \| 南北 \| 简装 \| 无电梯	480
1	29人关注 / 共22次带看 / 22天以前发布	银城东苑紫荆苑 \| 2室2厅 \| 91.48平米 \| 南 \| 精装	360
2	114人关注 / 共132次带看 / 4个月以前发布	锁金三村 \| 2室1厅 \| 61.59平米 \| 南北 \| 其他 \| 无电梯	190
3	11人关注 / 共32次带看 / 18天以前发布	文思苑 \| 2室2厅 \| 95.79平米 \| 南北 \| 其他 \| 有电梯	335
4	156人关注 / 共106次带看 / 2个月以前发布	蓝岸尚城 \| 2室2厅 \| 49.01平米 \| 南 \| 精装	182

	xiaoqu	huxing	mianji	chaoxiang	zhuangxiu	dianti
0	龙凤花园隽凤园	4室2厅	112.36平米	南北	简装	无电梯
1	银城东苑紫荆苑	2室2厅	91.48平米	南	精装	None
2	锁金三村	2室1厅	61.59平米	南北	其他	无电梯
3	文思苑	2室2厅	95.79平米	南北	其他	有电梯
4	蓝岸尚城	2室2厅	49.01平米	南	精装	None

	followinfo	houseinfo	totalprice	xiaoqu	huxing	mianji	chaoxiang	zhuangxiu	dianti
0	158人关注 / 共59次带看 / 6个月以前发布	龙凤花园隽凤园 \| 4室2厅 \| 112.36平米 \| 南北 \| 简装 \| 无电梯	480	龙凤花园隽凤园	4室2厅	112.36平米	南北	简装	无电梯
1	29人关注 / 共22次带看 / 22天以前发布	银城东苑紫荆苑 \| 2室2厅 \| 91.48平米 \| 南 \| 精装	360	银城东苑紫荆苑	2室2厅	91.48平米	南	精装	None
2	114人关注 / 共132次带看 / 4个月以前发布	锁金三村 \| 2室1厅 \| 61.59平米 \| 南北 \| 其他 \| 无电梯	190	锁金三村	2室1厅	61.59平米	南北	其他	无电梯
3	11人关注 / 共32次带看 / 18天以前发布	文思苑 \| 2室2厅 \| 95.79平米 \| 南北 \| 其他 \| 有电梯	335	文思苑	2室2厅	95.79平米	南北	其他	有电梯
4	156人关注 / 共106次带看 / 2个月以前发布	蓝岸尚城 \| 2室2厅 \| 49.01平米 \| 南 \| 精装	182	蓝岸尚城	2室2厅	49.01平米	南	精装	None

	followinfo	houseinfo	totalprice	xiaoqu	huxing	mianji	chaoxiang	zhuangxiu	dianti	guanzhu	daikan	fabu
0	158人关注 / 共59次带看 / 6个月以前发布	龙凤花园隽凤园 \| 4室2厅 \| 112.36平米 \| 南北 \| 简装 \| 无电梯	480	龙凤花园隽凤园	4室2厅	112.36平米	南北	简装	无电梯	158人关注	共59次带看	6个月以前发布
1	29人关注 / 共22次带看 / 22天以前发布	银城东苑紫荆苑 \| 2室2厅 \| 91.48平米 \| 南 \| 精装	360	银城东苑紫荆苑	2室2厅	91.48平米	南	精装	None	29人关注	共22次带看	22天以前发布
2	114人关注 / 共132次带看 / 4个月以前发布	锁金三村 \| 2室1厅 \| 61.59平米 \| 南北 \| 其他 \| 无电梯	190	锁金三村	2室1厅	61.59平米	南北	其他	无电梯	114人关注	共132次带看	4个月以前发布
3	11人关注 / 共32次带看 / 18天以前发布	文思苑 \| 2室2厅 \| 95.79平米 \| 南北 \| 其他 \| 有电梯	335	文思苑	2室2厅	95.79平米	南北	其他	有电梯	11人关注	共32次带看	18天以前发布
4	156人关注 / 共106次带看 / 2个月以前发布	蓝岸尚城 \| 2室2厅 \| 49.01平米 \| 南 \| 精装	182	蓝岸尚城	2室2厅	49.01平米	南	精装	None	156人关注	共106次带看	2个月以前发布

	totalprice	xiaoqu	huxing	mianji	chaoxiang	zhuangxiu	dianti	guanzhu	daikan	fabu
0	480	龙凤花园隽凤园	4室2厅	112.36平米	南北	简装	无电梯	158人关注	共59次带看	6个月以前发布
1	360	银城东苑紫荆苑	2室2厅	91.48平米	南	精装	None	29人关注	共22次带看	22天以前发布
2	190	锁金三村	2室1厅	61.59平米	南北	其他	无电梯	114人关注	共132次带看	4个月以前发布
3	335	文思苑	2室2厅	95.79平米	南北	其他	有电梯	11人关注	共32次带看	18天以前发布
4	182	蓝岸尚城	2室2厅	49.01平米	南	精装	None	156人关注	共106次带看	2个月以前发布

- - CSDN博客推荐文章

编写爬虫前的准备工作，我们需要导入用到的库，这里主要使用的是requests和lxml两个. 还有一个Time库，负责设置每次抓取的休息时间. 开始抓取前当然应该了解一下目标网站URL结构咯. 链家网的二手房列表页面共有100个，URL结构为. /ershoufang/是频道名称. 我们要抓取的是南京的二手房频道，所以前面的部分不会变，属于固定部分，后面的页面码需要在1-100间变化，属于可变部分.

Xpath语法

- - ITeye博客

XPath 使用路径表达式来选取 XML 文档中的节点或节点集. 节点是通过沿着路径 (path) 或者步 (steps) 来选取的. 我们将在下面的例子中使用这个 XML 文档. XPath 使用路径表达式在 XML 文档中选取节点. 节点是通过沿着路径或者 step 来选取的. 下面列出了最有用的路径表达式：.

XPath 教程

- - Web前端 - ITeye博客

XPath 是一门在 XML 文档中查找信息的语言. XPath 可用来在 XML 文档中对元素和属性进行遍历. XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 同时被构建于 XPath 表达之上. 因此，对 XPath 的理解是很多高级 XML 应用的基础.

数据挖掘是神马？

- - 互联网分析

1、数据挖掘需要‘神马样’的流程. 2、哥，有没有详细点的，来个给力的. 4、数据在统计意义上有哪些类型. 9、知道这些工具不知道如何在工作中用呀. 11、还有没有更人性化、智能化的展现. 12、上面这图看起来很给力，背后很复杂吧. 16、转载的留个来源，毕竟是我辛苦收集和想出来的，谢谢. 忘记“大数据”，从“中数据”开始.

这就是数据挖掘

- - 互联网分析

当今数据库的容量已经达到上万亿的水平（T）— 1,000,000,000,000个字节. 在这些大量数据的背后隐藏了很多具有决策意义的信息，那么怎么得到这些“知识”呢. 也就是怎样通过一颗颗的树木了解到整个森林的情况. 计算机科学对这个问题给出的最新回答就是：数据挖掘，在“数据矿山”中找到蕴藏的“知识金块”，帮助企业减少不必要投资的同时提高资金回报.

关于数据挖掘

- - 牛国柱

以下内容来自网络，关于数据挖掘的一些最基本的知识. 数据挖掘是对一系列数据进行分析和挖掘的方法的统称，在精准营销领域，最常用的数据挖掘方法主要包括以下三类：分类、聚类、关联. 分类（Classify）属于预测性模型. 分类模型的构建需要“训练样本”，训练样本中的每一个个体的类别必须是明确的. 分类模型的特征变量一般称为“自变量”，又叫“预测变量”，类别变量称为“目标变量”.

[译]XPath和CSS选择器

- - 博客园_首页

原文: http://ejohn.org/blog/xpath-css-selectors. 我认为将这两种选择器的写法做一个比较是很有价值的.. 所有P元素的第一个子元素. 从语法上看,我非常惊讶这两种选择器在某些情况下的相似性,尤其是'>'和'/'两者之间.虽然他们并不总是有着相同的功能(XPath中要取决于正在使用的轴),但通常情况下他们指的都是某个父元素的子元素.还有,空白符' '和'//'都意味着当前元素的所有后代元素.最后是星号'*',类似于通配符,表示所有元素,而不管是哪种标签名..

数据挖掘（六）：用XPath爬取链家网房价数据

准备工作

抓取列表页

页面解析

清洗数据并整理到数据表中

相关 [数据挖掘 xpath 房价] 推荐：