互联网数据聚合

标签: Product Design RSS 互联网 数据 聚合 | 发表时间:2013-06-04 02:13 | 作者:四火
分享到:
出处:http://www.raychase.net

文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》

我们经常需要从互联网上获取数据,在很多情况下,你需要的是特定信息,或者说是符合某些条件的信息,比如:

互联网数据聚合

这条需求隐含着两个有普遍意义的步骤:

  1. 从互联网上聚合符合特定条件的信息;
  2. 当满足阈值条件时,以某种方式通知用户。

事实上有太多做互联网数据聚合的网站了,比如 酷讯机票,聚合了各大航空公司的机票信息:

互联网数据聚合

再比如一些博客聚合网站等等。现在想想这样的场景:

  • 每到一个新地方,自动给我的各个微博账号发一条地点签到微博;
  • 我关注的明星有最新的动态,邮件通知我,第一时间获得消息;
  • 我的股票一旦涨到某个值,短信提醒我该抛售了;
  • ……

其实这些事情不难实现。

IFTTT

不知道你是不是和我一样,当看到上面那两条步骤时,想到的第一个词就是 IFTTT。IFTTT是一个IF This Then That的网站,如果某件事发生,就做另一件事,不需要任何编程经验:

互联网数据聚合

当某rss feed有更新的时候,就给我的邮箱发送一个邮件。

可以发邮件通知,可以发短信通知(对我的联通手机号支持好像不行),很方便也很强大。从交互性来说,是类似网站中做得最好的。如果你没有尝试过,你一定要去试一试。但是IFTTT貌似不支持自定义网页XPath的条件。

这样的东西怎么能没有Copy-to-China的版本?中文抄袭版本叫做“ 如果云”,连界面都很像,现在处于邀请码发放阶段。

YQL

我在 上一篇博客里面已经讲到了YQL怎么使用,在console上测试自己写的查询语句,并将其暴露成一个简单的链接,任何时候需要查询结果的时候只要访问这个这个链接就可以了。你可以把它看做一个特定用途的非常简单的爬虫。YQL的语法和SQL很接近,再需要一点XPath的知识,很容易掌握。

Yahoo是很想做一些大事情的。对于互联网上千奇百怪的API,它想把他们都统一起来,可以用YQL类似于RDB执行SQL语句的方式来调用。也就是说,不仅仅让整个互联网更像一个数据库,还让访问统一化,更容易读写。

YQL有一些内置表,以便你可以轻松获取到Yahoo的web服务数据,以及一些离线数据。而开放数据表(Open Data Tables)则允许你创建和使用自定义的数据表,屏蔽那些复杂的web接口访问,让查询数据的人对于复杂接口的访问变得容易。如果你对它感兴趣,请访问它的 guide文档。比如,这个语句是从apple.itunes表中查找记录:

select * from apple.itunes where term='x' and media='all' and entity='allTrack' and attribute='allArtistTerm' and limit='100' and sort='recent';

执行这个语句就可以看到所有的表了:

show tables

和SQL语句看起来似乎没有什么区别。

JSinterpreter.xml为例,通过这样的定义,可以让YQL中执行js成为可能:

            <inputs>
              <key id="NEW" type="xs:string" paramType="variable" required="true"/>
              <key id="execute" type="xs:string" paramType="variable" required="true"/>
            </inputs>
            <execute><![CDATA[    
            var NEW= new XML(unescape(NEW));          
            eval(unescape(execute));
            ]]></execute>

使用:

USE "http://www.datatables.org/trygger/JSinterpreter.xml" as t1;
select * from t1 where NEW="%3Ctest%3E%3Cvalue%3EHello!%3C%2Fvalue%3E%3C%2Ftest%3E" and execute= "var%20res%20%3D%20NEW.value.*%3B%0Aresponse.object%3D%3Cresult%20status%3D'ok'%3E%7Bres%7D%3C%2Fresult%3E%3B"

现在如果你使用YUI,引入YQL查询组件就可以在页面代码里直接调用了:

YUI().use('yql', function(Y) {
    Y.YQL('select * from ...', function(r) {
          var results = r.query.results
          ...
    });
});

还可以找得到AWS服务的,OAuth的,GitHub数据访问等等的表定义文件。

Yahoo Pipes

Pipes是一个聚合、操作和混搭互联网内容的拼装工具。就像Linux的管道一样,几个简单的命令,就可以:

  • 合并许多RSS feed,然后排序、过滤和翻译;
  • 给你喜欢的feed按地理编码,然后再一个交互性的地图中浏览;
  • 输出成为网站上强大的widget/badge;
  • 以RSS、JSON、KML等等格式输出;
  • ……

互联网数据聚合

Pipes的还有一个特点是拖拖拽拽就可以把整个处理流程搞定,不需要很多编程技巧,另外,对YQL和XPath也提供原生支持,这就意味着它的功能非常强大,可定制性强。虽说最初的目的就是RSS聚合而已,但是它可以做的事情比这多得多。

ChangeDetection

现在从抓取网页信息的迷局中走出来,下面介绍一些监控网页的工具,这些工具并没有提供让你从网页中抓取特定信息的功能,但是你可以很容易地获知网页变化的信息。 ChangeDetection就是这样一个监控网页是否发生变化的网站,如果你是某个人的粉丝,想要监控他偶尔更新的网页动向;或者说是要监控Amazon上某个产品的价格变化,使用这个工具是最好的了。这个应用做得比较简单,只支持email通知而已。

互联网数据聚合

不过它的比较功能显得很直观,网页中增删改查的部分全部都可以看出来。

其它类似的工具还有:

把网页转换成RSS数据源

这算走了个歪路。监控网页变化的工具介绍过了,如果现在把网页转换成RSS数据源以后,就有许许多多新的工具来监控网页的变化了。转换网页成为RSS数据源的工具有:

对于RSS源监控的工具:

如果你不需要Email之类的特殊提醒工具,使用一般的RSS阅读器就可以搞定。

正如我之前提到过的,互联网就是一个数据非常充盈的数据库,也许数据统一性做得不够好,但是谁赢得了数据,谁就赢得了互联网。这里有太多机会让我们思考、寻找或者制作适当的工具去解决数据聚合的难题。

文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》

分享到:
你可能也喜欢:

相关 [互联网 数据 聚合] 推荐:

互联网数据聚合

- - 四火的唠叨
文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 我们经常需要从互联网上获取数据,在很多情况下,你需要的是特定信息,或者说是符合某些条件的信息,比如:. 这条需求隐含着两个有普遍意义的步骤:. 从互联网上聚合符合特定条件的信息;. 当满足阈值条件时,以某种方式通知用户. 事实上有太多做互联网数据聚合的网站了,比如 酷讯机票,聚合了各大航空公司的机票信息:.

移动互联网数据收集(1)

- - 曉生語錄
UC《2012年移动互联网趋势报告》. 1.UC用户量3亿,月活跃用户突破2亿,海外用户超过4000万. 2.Android月活跃用户超过4000万,年增长超过10倍,2012年Andorid智能终端有望达到1.8亿. 3.Android3.1-4寸大屏幕占79.7%,2.3固件占56.9%. 4.Android用户中,3G接入占11.4%,WIFI接入占25.4%.

NoSQL聚合数据模型 - 大CC

- - 博客园_首页
聚合数据模型的特点就是把经常访问的数据放在一起(聚合在一块);. 这样带来的好处很明显,对于某个查询请求,能够在与数据库一次交互中将所有数据都取出来;. 当然,以这种方式存储不可避免的会有重复,重复是为了更少的交互;. 聚合结构对某些交互有利,却阻碍另一些交互;. 比如:以学生学号聚合学生信息(含学生姓名、班级、年龄、等信息,甚至英语学科成绩),通过学号查询时,能够在一次交互中查询出该学生的所有信息,但如果想通过学生姓名来查询,就很困难;.

分析聚合数据的SDK

- - Solidot
Aveline Swan上周发现聚合数据(juhe.cn)的 SDK会偷偷上传用户通讯录至服务器,虽然聚合数据随后更新了SDK关闭了上传用户通讯录,但Swan指出在产品端更新SDK是个漫长的过程,旧版的SDK仍然在收集用户通讯录,而且合数据服务器上用于接收上传的通讯录的接口并没有被删掉,仍然能正常处理数据.

2011全球互联网数据大汇总

- - 博客园_新闻
导读: pingdom 网站收集各种资料汇总了一篇 2011 年的数据,涉及到 Email、网站、浏览器、服务器、移动、社交网络和互联网用户等方面. 内容也颇为丰富,并且有少量配图. 2011年已经悄然离去,我们迎来了崭新 2012 年. 回顾 2011,互联网风生水起,到底发生了多少事情. 全球有多少个 Email 账号.

2011年中国移动互联网关键数据解读

- - ITeye资讯频道
今天 网易应用中心联合 网易科技频道联合发布了 《2011网易移动互联网数据报告》,这份报告的数据来源涵盖超过5000万网易移动用户,超过100亿次用户启动数量及大量用户采样调查数据. 其中包含系统、应用、用户的众多指标性数据,对于互联网从业者、开发者、创业者都有较大的参考价值. RTdot以该报告为基准,给大家挑选了一些关键数据供大家参考.

手机上的大数据:移动互联网的入口

- - 雷锋网
【编者按】本文由百分点信息无线业务部高级总监李晓东、Talkdata COO徐懿以及成都电子科大的龚亮联合撰写. 随着移动互联网的的发展,一些在传统互联网上已经被解析无数次的“观念”也在移动互联网上出现. 例如,互联网的入口,在目前,移动互联网并没有一家独大的情况出现,似乎也没有这种情况出现的可能.

[转载]互联网广告的未来趋势——数据

- - 牛国柱
关于互联网广告的未来,也曾零碎的提到过:1、大数据应用的精准投放;2、广告投放的优化算法;3、跨平台、多屏的广告控制与监测,但一直没有进行详细的阐述,预期自己的总结也会在年后进行. 在总结文章没有写作之前,我们可以通过其他文章来了解广告的发展趋势. 下面由易传媒撰写的这篇文章很好的诠释了互联网广告的未来之一,数据应用方面的发展,值得一读.

Memcached for移动互联网:mcperf压测1k~10k数据笔记

- - ITeye博客
移动互联网场景中随着人机交互方式的改变,用户数据也发生了比较大的改变. 从以1k以下的文本为主数据,变为1k~10k的音频占很大比例的数据. 响应的后端服务的队列、存储、缓存也需要做一系列针对性调整. 这里就简单记录一下maoyidao对Memcached的压测情况. mcperf使用简单,输出报告清晰.

互联网金融:大数据和技术为王的时代

- - 动点科技
(编者:本文作者李张鲁Dennis Roudenko,是青年投资家俱乐部发起人、华创资本资深分析师. 华创资本投资了10多家互联网金融公司,同时与IDG合有互联网金融投资基金,投资范围在20-2000万美金. 互联网金融本身只是一个概念,是泛指那些通过互联网和大数据手段来完成并优化的金融业务. 历来现有的机构都在尝试运用这些手段去优化自己的业务,但2012年这一领域才开始火起来是因为时机成熟了,大可归功于两大点:大数据的出现与技术的普及与应用.