如何规避抓取别家数据的潜在风险?

标签: Coding 增长黑客 | 发表时间:2015-12-17 17:33 | 作者:xdash
出处:http://www.fanbing.net

我对星球大战的喜爱始于高中,那阵恰逢周五晚电影频道佳片有约安排播出。我看后便再也无法忘却天行者阿纳·金在塔图因的血色残阳下疾驰的身影。他悲剧性的黑化过程与对力量的迫切渴望成了我叛逆青春的注脚。

然而回到现实,一路创业跌跌撞撞走来,遇到的苦难问题不计其数,纯粹的「力量」似乎并不能解决一切问题,你必须提升「智力」,你的团队必须学会「敏捷」,尤其是在我朝这片土地上。

何况尘世间的事并不都像科幻电影里那样,能清晰地界定出原力的黑暗面与光明面,你从中选择一方站队。很多时候,你必须在灰色地带游走,怀揣光明之心,动用黑暗能量。这过程中,稍有不慎脚下踏空,或将万劫不复永堕业火,但也总有高人得以竹杖芒鞋凌波微步,火中取粟之后全身而退。

《增长黑客》里提到一些数据抓取解决冷启动的案例。其实在互联网行业里,依靠抓取来获取数据的做法,并不罕见(如果你觉得很新鲜,那只能说道行太浅)。但我敢于将其写出来,这当中自然会遭到一些质疑和非议,参加的大大小小活动也总有人提出如何规避风险的问题。

在此我就「如何规避抓取别家数据的潜在风险?」的问题在此简单阐述我的观点:

第一,技术是中立的,本身不带有任何倾向性。如何你觉得从别的平台「右键另存为」来获得素材运用到自己的产品里不构成任何问题,那么写脚本批量抓取没有改变这件事的性质,它只是帮你将原本需要人工操作三天的事情简化到三个小时内自动完成。

第二,平台各有自己的政策,不同平台的抓取策略不同。有的平台明确在自己的用户协议里声明,「本平台只承担数据存储的作用,内容版权隶属原作者所有」,这时候,你完全可以征得原作者同意之后,以你觉得方便的姿势去获取。至于如何快速大量获得原作者同意?通过写脚本批量发私信给目标群体就可以,这个行为的性质参见第一条。

第三,分清学习目的与商用目的。我专门查询过版权法等相关法律法规,其中对「出于学习目的」是有专门的分类讨论的。如果将抓取来的数据用于产品上线前内部的测试、参考、决策依据,我认为是属于这一范围的(当然还是得具体问题具体分析)。至于正式上线成为一款商业产品,那么还是小心为妙。

最后,你有没有越过界其实你自己心里清楚。

相关 [数据 风险] 推荐:

如何规避抓取别家数据的潜在风险?

- - XDash Weblog 范冰
我对星球大战的喜爱始于高中,那阵恰逢周五晚电影频道佳片有约安排播出. 我看后便再也无法忘却天行者阿纳·金在塔图因的血色残阳下疾驰的身影. 他悲剧性的黑化过程与对力量的迫切渴望成了我叛逆青春的注脚. 然而回到现实,一路创业跌跌撞撞走来,遇到的苦难问题不计其数,纯粹的「力量」似乎并不能解决一切问题,你必须提升「智力」,你的团队必须学会「敏捷」,尤其是在我朝这片土地上.

漫谈大数据平台安全风险与建设

- - FreeBuf互联网安全新媒体平台
上篇文章【 漫谈大数据平台架构】大家应该对大数据平台有了一个整体架构上的理解和认识,作为姊妹篇,本篇着重讲解大数据平台安全风险与建设. 大数据平台安全伴随着大数据平台而生. 随着互联网和大数据应用的普及,新闻头条上发布的数据泄露、滥用、诈骗层出不穷,引发了一系列发人深思的社会事件和问题. 本文以大数据发展面临的安全挑战开篇.

大数据在保险行业的风险防控方面起到了哪些作用?

- - 知乎每日精选
互联网保险快速发展的同时,也面临加强风险防控的巨大挑战. 大数据技术目前已在多个行业得到了广泛的发展和应用,在保险行业也同样如此. 互联网保险险种的多样化以及线上投保的便利程度会滋生出恶意骗保的用户欺诈行为,大数据风控技术可以从投保行为以及互联网平台的多种操作行为综合判定出保险欺诈风险,在投保和理赔环节进行有效风险控制;.

创业风险面面观

- Vincent - FT中文网_英国《金融时报》(Financial Times)
这是每一个想创业的人必须回答的终极问题. 在你开始创业之前,请认真思考一下,自己是否真的具备创业的决心和迫切欲望. 因为在生活中,荣耀的代价向来不菲,而在这个特殊的竞技场上,对于大多数人而言,代价可能更为高昂. 毕竟,当你不惜一切代价投身事业之时,“一切代价”不只是说说而已——它很可能成为现实. 你不能简单地仅以自己的资金来衡量创业的风险.

单面煎蛋,拿风险换美味

- ZX - 谣言粉碎机 - 果壳网
流言: 单面煎鸡蛋无法彻底杀死蛋内的残留细菌,容易引起恶心、呕吐和腹泻等中毒现象. 除此之外,生蛋白还会阻碍身体吸引维生素H,如严重的话,会导致皮疹、皮肤炎、脱发等状况. 真相: 鸡蛋是一种比较容易受到细菌污染的食品. 如果母鸡完全健康,刚刚下的鸡蛋中倒也不会有过多细菌. 不过,这种理想情况毕竟不大可靠,通常的母鸡体内可能会有一些致病细菌.

Godaddy的域名注册风险分析

- 0M - 月光博客
  据南方都市报的报道,国内知名的电影资料库网站时光网被关的原因终于有了答案,时光网关闭据称与涉黄有关,万网的工作人员称,万网是接北京市通信管理局的通知,称时光网“传播色情、淫秽”,因而停止了对该域名的解析,该工作人员还说,该通知并没有明确恢复解析的期限,“如果想恢复,必须找北京市通信管理局或者工信部.

使用ifttt背后的巨大风险

- Jack - 月光博客
  ifttt,是一个新生的网络服务平台,通过不同其他平台的条件来决定是否执行下一条命令. ifttt基于任务的条件触发,类似编程语言,让用户可以根据他们设计的流程设计一些小程序,让网络服务能够对某些行为作出反应.   ifttt 是一项创造性的应用,但是我和我的朋友们必须重视其背后隐藏的风险. this 称为 trigger,而 that 称为 action.

单面煎蛋,拿风险换美味

- Pony - 牛博国际
      许多人喜欢吃只煎一面的蛋. 对他们来说,尚未完全凝固的鸡蛋白与“溏心”的蛋黄实在是美味. 但如此烹饪出的鸡蛋,对健康是有风险的. 流言: 单面煎鸡蛋无法彻底杀死蛋内的残留细菌,容易引起恶心、呕吐和腹泻等中毒现象. 除此之外,生蛋白还会阻碍身体吸引维生素H,如严重的话,会导致皮疹、皮肤炎、脱发等状况.

生产分工与风险分工

- 肖 - 辉格
我在《金融对赌不是无价值交易》里分析了衍生品的风险配置功能,如何使得包含复杂风险的生意得以展开,从而推高整个经济水平;从我得到的一些反馈看来,许多朋友没能理解这一分析,或许通过类比和例子能够看的更清楚. 说到生产分工,一般想到的是效率改进和相应的成本节省,即,每个生产者若专注于某一工序,不断重复,会更加熟练高效;这没错,不过生产分工有另一个常被忽视但或许更加重要的效果:它拓展了生产的可能性,即,使得许多原本不可能的生产成为可能.

马云的风险更大了

- 辉 - 叶檀的BLOG
2011-6-21 每日经济新闻.     转型期的市场中经济中,最怕的是有人在市场的混沌中挑开潜规则,而挑开的目的表面是为了法律公义,实际上是为了自身的利益.     马云的“彻底守法”使许多采用协议控制(VIE)方式进行内外资合作的公司变得不守法、不合法. 所谓VIE,又称“新浪模式”、“搜狐模式”,主要应用于互联网公司的境外私募与境外上市,指离岸公司通过外商独资企业,与内资公司签订一系列协议来成为内资公司业务的实际收益人和资产控制人,以规避《外商投资产业指导目录》对于限制类和禁止类行业限制外资进入的规定.