从 HTML 提取文本的 7 个工具

标签: 工具与资源 工具 爬虫 | 发表时间:2016-12-17 15:14 | 作者:伯小乐
出处:http://blog.jobbole.com

本文包括了为初学者和小项目而设计的简单工具,还有需要一定的编码知识,旨在用于更大,更困难的任务的高级工具。

收集电子邮件地址、竞争分析、网站检查、定价分析和客户数据收集 — 这些可能只是你需要从 HTML 文档中提取文本和其他数据的几个原因。不幸的是,手动做这种事是很痛苦的而且效率很低,在某些情况下甚至不可能实现。幸运的是,现在有各种各样的工具可以实现这些需求。下面的 7 个工具包括了由为初学者和小项目而设计的非常简单的工具到需要一定的编码知识,旨在用于更大,更困难的任务的高级工具。

Iconico HTML 文本提取器 (Iconico HTML Text Extractor)

试想一下,你正在浏览竞争对手的网站,然后想提取出文本内容,又或是想看看页面背后的 HTML 代码。但十分不幸,你发现右键被禁用了,复制和粘贴也是如此。现在许多 Web 开发人员正在采取措施禁用查看源代码,否则锁定其页面。幸运的是,Iconico 有一个 HTML 文本提取器,你可以用来绕过所有的这些限制,而且这个产品非常易于使用。你可以高亮和复制文本,提取功能的运行使用轻易得像上网一样。

UiPath

UIPath 有一套自动化过程工具,里面包含了一个 Web 内容抓取实用程序。要使用该工具,并获得所需的几乎任何数据十分简单 — 只需打开页面,转到工具中的设计菜单,然后单击“网络抓取(web scraping)”。 除了网络抓取工具,屏幕抓取工具允许您从网页中拉取任何内容。 使用这两种工具意味着您可以从任何网页抓取文本,表格数据和其他相关信息。

Mozenda

Mozenda 允许用户提取 Web数据,并将该信息导出到各种智能商务工具。它不仅可以提取文本内容,还可以从 PDF 文件中提取出图像,文件和内容。然后,你可以将这些数据导出到 XML 文件,CSV 文件,JSON 或者可以选择使用 API。 提取和导出数据后,就可以使用 BI 工具进行分析和报告。

HTMLtoText

这款在线工具可以从 HTML 源代码中提取文本,甚至只是一个 URL 也可以。你所需要做的只是复制和粘贴,提供一个 URL 或者上传文件。 单击选项按钮,让工具知道你需要的输出格式和一些其他的细节,然后点击转换,你将获得你需要的文本信息。

(还有一个类似的工具 — www.htmlnest.com/htmltotext.aspx

Octoparse

Octoparse 的特征是它提供的是“点击”用户界面。即便是没有过编码知识的用户也可以从网站提取数据并将其发送到各种文件格式。这个工具包括从页面中提取电子邮件地址,从招聘板上提取职位列表等功能。该工具适用于动态和静态网页以及云采集(配置好采集任务关机也能采集数据)。它提供了一个免费版本,对于大多数使用场景应该足够应付,而付费版本则有更多丰富的功能。

如果你是为了进行竞争分析而抓取网站,可能会因为此活动而被禁止。因为 Octoparse 包含一个循环识别你的 IP 地址的功能,并能通过你的 IP 禁止你使用。

Scrapy

这个免费的开源工具使用网络爬虫从网站提取信息,使用这个工具需要一些高级技能和编码知识。但如果你愿意以你的方式去学习使用它,Scrapy 是抓取大型 Web 项目的理想选择。该工具已被 CareerBuilder 和其他主要品牌使用。因为它是一个开源工具,所以这为用户提供了很多良好的社区支持。

Kimono

Kimono 是一个免费的工具,从网页获取非结构化数据,并将该信息提取为具有 XML 文件的结构化格式。该工具可以交互使用,也可以创建计划作业以在特定时间提取你需要的数据。你可以从搜索引擎结果、网页、甚至幻灯片演示中提取数据。最重要的是,当你设置好每个工作流时,Kimono 会创建一个 API。这意味着当你返回到网站以提取更多数据时,不必再重新造轮子。

结论

如果你遇到需要从一个或多个网页中提取非结构化数据的任务,那么此列表中至少有一个工具应该包含你需要的解决方案。而且无论你的期望价格是什么,你都应该能找到你所需要的工具。了解清楚然后决定哪个是最适合你的。要知道,大数据在企业蓬勃发展中的重要性,并且收集所需信息的能力对于你来说也是至关重要。

从 HTML 提取文本的 7 个工具,首发于 文章 - 伯乐在线

相关 [html 文本 工具] 推荐:

从 HTML 提取文本的 7 个工具

- - 文章 – 伯乐在线
本文包括了为初学者和小项目而设计的简单工具,还有需要一定的编码知识,旨在用于更大,更困难的任务的高级工具. 收集电子邮件地址、竞争分析、网站检查、定价分析和客户数据收集 — 这些可能只是你需要从 HTML 文档中提取文本和其他数据的几个原因. 不幸的是,手动做这种事是很痛苦的而且效率很低,在某些情况下甚至不可能实现.

pdftohtml – 将PDF转化为HTML | 小众软件 > 实用工具

- Guan - 小众软件
pdftohtml 可以将 PDF 转化为 HTML ,便于嵌入网页中,并且可以提取 PDF 中的图片. pdftohtml 是一款开源、跨平台软件,支持 linux , win , mac 等. pdftohtml 没有 GUI 界面,需要在 CMD 中操作:. 把 PDF 文件复制到软件目录中,在 CMD 中运行 pdftohtml xxx.pdf ,软件会自动转化 HTML 文件并提取 PDF 中的图片.

收集免费的HTML/CSS/JS UI工具包

- - Jackchen Design 1984
随着HTML5和CSS3以及网页设计布局的全面翻新创新改革. 让很多网页设计者和界面设计师都知道一个道理. 这不仅仅是未来提高工作的效率,还能更好的去处理网页整体视觉效果. 优秀的工具包可以让您的工作事半功倍是肯定. 重要的是可以让流程更加清晰快速的呈现出来. 所以对于很多好的网站(比如Facebook,twitter,YaHOO等)你看第一眼就能知道他们所属的风格指向.

13个最常用的CSS和HTML快速开发工具

- - ITeye资讯频道
英文原文: 13 Most Used Speedy Tools To Write CSS And HTML Code. CleverCSS是个用于CSS开发的小型标记语言,从Python中得到灵感. 可以开发出干净、结构清晰的样式表. 在许多方面它比CSS2都更简洁、强大. 它与CSS最明显不同之处在于语法:CleverCSS采用了缩进式语法而不是对齐.

AppMobi公开HTML 5游戏开发工具

- - HTML5研究小组
AppMobi发布了公测版PlayMobi,这是一种HTML 5游戏开发工具,用于开发iOS,Android,Facebook游戏,同样为不同的支付系统提了“1touch”跨平台应用内购买方案. AppMobi说:PlayMobi游戏可为不同的支付系统自动完成转账交易,比如iOS的iTunes,Android版Google Payments,Facebook的Credits 及Open Web(即Facebook以外的游戏)的Paypal.

Jsoup-简单优雅的HTML dom解析工具

- - CSDN博客Web前端推荐文章
最近在做一个项目,需要在线从官网上下载选手的图片、名称信息,即做一个简易的网络爬虫,实时抓取最新官网选手数据. 在网上搜了很多开源工具,一开始试的是webharvest,搞了一个上午,终于被其奇怪的配置文件搞怕了,我就是想链接下载一个在线的HTML页面,然后解析其DOM元素,没有更好的工具吗. 终于,在google上找到了Jsoup,其官网( http://jsoup.org/)上的demo神奇的只有两句话.

Dabblet,简洁实用的HTML和CSS代码段在线测试工具

- - 36氪
跨浏览器兼容,对前端攻城师们来说是一个不得不处理的问题. 为了在浏览器间呈现统一的显示效果,攻城师们不仅要为每个游览器添加CSS前缀,甚至还需要用到一些特殊的CSS Hack技巧. 于是, jsFiddle、 JSBin等前端代码的在线测试工具应运而生. 然而,使用jsFiddle仍有很多 不便之处.

HTML 安全列表

- 火锅土豆 - 酷壳 - CoolShell.cn
下面这个网站罗列了,几乎所有的关于HTML 5 在各种主流浏览器上的安全问题,这些安全问题很有可能将会是黑客攻击你的网上的敲门砖,他们几乎都和Javascript都有关系,你就要好好注意了. IE6,7,8,9,和Opera 8.x, 9.x, 10.x 都支持这样的语法. 这个问题会存在于所有的Firefox版本中,可以让用户进行XSS(跨站脚本)攻击.

HTML学习笔记

- - CSDN博客推荐文章
超文本标记语言( 英文:HyperText Markup Language,HTML)是为“ 网页创建和其它可在 网页浏览器中看到的信息”设计的一种 标记语言. HTML被用来结构化信息——例如标题、段落和列表等等  点击打开链接. w3schools  点击打开链接 {语法大全,超赞.

html嵌套规则

- - Web前端 - ITeye博客
转载: http://www.studyofnet.com/news/412.html. 一、HTML 标签包括 块级元素(block)、内嵌元素(inline). 一般用来搭建网站架构、布局、承载内容……它包括以下这些标签:. 一般用在网站内容之中的某些细节或部位,用以“强调、区分样式、上标、下标、锚点”等等,下面这些标签都属于内嵌元素:.