开源网页正文提取cx-extractor

标签: 综合信息 | 发表时间:2012-07-21 08:00 | 作者:Administrator
出处:http://www.scriptlover.com
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

简述:

对于Web信息检索来说,网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现不足百行代码。但量不在多,在法。

项目网址: http://code.google.com/p/cx-extractor/

算法描述: 基于行块分布函数的网页正文抽取算法.pdf

相关 [开源 网页 cx] 推荐:

开源网页正文提取cx-extractor

- - 脚本爱好者
基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关. 对于Web信息检索来说,网页正文抽取是后续处理的关键. 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘. 能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题.

IObit Cloud Backup 與 CX 合作,推出 10GB 免費雲端儲存空間

- Nicholas - 免費資源網路社群
之前免費資源網路社群介紹過許多 IObit 的產品,最普遍為人所知的就是 IObit Advanced SystemCare 系統最佳化軟體、磁碟重組軟體 IObit Smart Defrag 與 IObit Malware Fighter 惡意程式掃描工具等等. IObit 也和 Cloud Experience(CX.com)合作推出 Cloud Backup 免費雲端空間,可以線上同步、儲存和共享你的所有檔案,免費帳戶有 10GB 空間,本身也有 Windows、Mac、iPhone、Android、BlackBerry 適用的應用程式.

3款开源PHP网页游戏

- san - 帕兰映像
网上各种Web游戏让我们应接不暇,还记得曾今Ogame的火热吗. 相信很多朋友都拥有一个支持PHP和MySQL 数据库的服务器,何不装上一个网页游戏,再邀上好友一起参与期中呢. 和Ogame一样是一款以太空为背景的策略游戏,在主机上安装和wordpress一样简单. 国内有论坛进行了汉化和优化,名字叫星痕.

IBM发布开源HTML5网页编辑工具Maqetta

- jiwei - Solidot
IBM推出了一个基于浏览器的开源HTML5网页编辑工具Maqetta,支持Google Chrome、Mozilla Firefox 3.5+(推荐Firefox 4)和Mac Safari 5,为用户体验设计师提供了一个可见即可得的可视化编辑环境. Maqetta目前发布了Preview 1版,可以在浏览器上直接使用,无需安装任何插件,用户也可以选择下载和安装到自己的服务器上.

雅虎开源其网页优化工具 YSlow

- - ITeye资讯频道
雅虎日前在BSD许可协议下,开源了其YSlow产品. YSlow 是雅虎创建的一个浏览器插件,发布于2007年. YSlow 可以帮助开发者发现其站点上的很多不足,并且可以提供改进和优化建议. 过去的5年中,YSlow的代码一直由雅虎维护. 现在雅虎将这些代码开源出来,基于BSD协议. 我们鼓励你使用这些源代码,学习它或者用它来创建你自己的项目.

My Mind – 开源的网页思维导图编辑器

- - 小众软件
My Mind 是一款开源的网页版思维导图编辑器,简单易用,支持 JSON、FreeMind、MindMup、Mind Map Architect 格式的思维导图. 思维导图是一种图像式思维的工具以及一种利用图像式思考辅助工具来表达思维的工具 ( via),非常适合表达、总结、展示某一种想法、事件.

8款替代Dreamweaver的开源网页开发工具

- - WebHek
Adobe Dreamweaver虽然非常好用,但它并不是唯一一个能够设计、开发、发布精彩网站的Web开发集成环境. 我们的开源世界里有很多非常棒的可以完全替代Dreamweaver的各种功能的优秀Web开发工具,更重要的,是免费的. 如果你正在寻找Dreamweaver的替代品,下面这8款软件你应该优先尝试一下.

Google开源LevelDB

- 酿泉 - Solidot
Google宣布在BSD许可证下开源其键值存储引擎LevelDB. LevelDB C++库可用于多种不同环境,如被浏览器用于存储最近访问的网页缓存,或者被操作系统使用去储存安装的软件包和依赖包清单,或被应用程序用于存储用户设置. Google称,即将发布的新版Chrome浏览器,就包含了基于LevelDB的IndexedDB HTML5 API实现.

再论开源

- - 谢益辉
几年前我写过一些关于开源的 想法,如今再来看开源,我觉得问题已经不在说教上,而是在趋势上. 倒退十年或更久,那时候程序员相对还比较稀缺,软件闭源开发出来之后别人模仿的成本高,而这些年计算机教育的普及让码农数量变得越来越多,更多人懂编程了,模仿的成本大幅下降. 写软件作为谋生的目的已经在弱化,更多的是为了自己的实际需求,或社区名声:你不开源.