Hadoop 之父 Doug Cutting 在清华的讲座记录

标签: dev | 发表时间:2017-09-14 08:00 | 作者:
出处:http://itindex.net/relian

0x00 前言

2014年,Hadoop之父Doug Cutting在清华开了一次讲座,当时三个小伙伴一起翘班骑自行车到现场听了这场讲座,很认真地做了笔记。 现在翻出来回顾一下感觉还是有不少感触的,稍加整理分享出来。

0x01 讲座记录

整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting 总共大概7张PPT,后半个小时互动。

Doug Cutting总共讲了大概7张PPT,每张PPT只有一个标题,正文是一张图片,内容主要讲的是自己的开源事业、lucene、hadoop等。

PPT One:Means For Change : Hardware

提了moore定律,讲了处理器、存储这些硬件更新的速度很快。这是一个硬件基础。

PPT Two:Fuel For Change : Data

这里讲了一个逻辑,引出来了Open Source的重要性。

首先提出来Software is eating the industry,软件飞速发展;由此会产生各种各样的数据,而且数据量非常大,价值非常高;因此需要有Tools来处理这些数据,继而引出了下一张PPT:OpenSource。

PPT Three:Seeds For Change :Open Source

关于开源软件的好处大概讲了一下,没有讲特别多,大致上也是方便开放,有用故而用之。

其中提到他自己开始开源事业的一个想法,就是在做lucene的时候,发现自己不适合搞Business,所以give it away~~

这张ppt还提到三个重要的component,没有听清是什么的三个组成部分,大概是整个计算机行业的?

三个分别是:Hardware、Data、Software

PPT Four:New DataStyle:Hadoop

这张PPT引出来了Hadoop,Hadoop大概介绍了一下。提到了GFS,hadoop的很多思想都是参考了gfs的。Google发表了论文,提出了它的这种理论,大家都很感兴趣,但是不是Google的原因,因此没法非常方便用。这时候Hadoop就出来了,OpenSource方便,易得。有其天然的亲民优势。

Doug Cutting提到自己去了Yahoo,因为Yahoo需要处理大量的数据,还有大量的硬件可以用,和自己很契合。

PPT Five:Style Catches on:Ecosystem

介绍了Hive、pig、spark等,没过多的讲。

PPT Six:Victor Emerges:Enterprise Data Hub

大致讲了自己在Cloudera工作,介绍了Enterprise Data Hub的重要。记得说了一句话: I am lucky in the right place in the right time.(语法感觉有点别扭)提到了这是future tool。

PPT Seven:The Data Multi-Tool

快结束了,说到了hadoop的一些存在意义,举了一个例子,这个例子正是PPT的图片,是个手机。大致意思是:手机可以干很多事,比如照相,但是照相的功能不如一些专业的相机。但是有一点可以确定,大家用手机照相的时间比相机多,为什么呢,因为手机一直在你身边,你什么时候都可以用,而且除了照相,我还可以把照片分享,总的来说,就是已经存在,而且方便。

Hadoop也类似,现在有很多的计算框架,Spark、Storm这类的。这种情况不必否认其他的存在,hadoop大家会比较熟悉,而且应用很广泛,在你需要的时候,可能你就有一个hadoop的集群环境,有些计算可能Spark性能更好,但是hadoop也可以做,方便使用。

这让我想到了操作系统,未必是windows最好,但是大家都习惯了,也就是够用了,再出现一个新的操作系统,除非你让我感觉有了你我就不想用windows了,windows已经够用了,不必非要把它换掉,类似道理。

0x02 现场问答

最后是提问时间,大该记录了几个问题。

1.安全问题。

Doug Cutting回答的大概意思是:技术解决+Social Solution。

感觉这是个难题,最近这几年安全问题越加严重。

2.relational database和 nosql

这个其实不是新问题了,Doug Cutting说的一句重点:each has its uses

3.spark,storm的存在

比如spark是用memory的,hadoop现在是hdfs,是否要向spark学习一下呢

Doug Cutting的大概回答是,这是ecosystem,每个component都有其作用,各善其职即可,I am happy to see spark。还有就是,这是开源软件,并不是一个公司控制了hadoop另一个控制spark,两个公司在竞争。因为是开源,最终的目的都是为大家所用。

现在的Hadoop和Spark的确是一个打的生态系统,不是竞争,是一种共生的感觉。

4.什么是bigdata

Doug Cutting回答了很长一串,最后听出来重点是:Not the size,it’s the style。

喏,bigdata是一种思想,一种处理方式上的体现。我是否可以理解为数据多少不重要,重要的是处理的方法?

5.Cloudera和Hortonworks

Doug Cutting也回答了一些客套的话,然后说的是:Happy competition。

0xFF 总结

在翻之前笔记,一晃眼就三年了,感觉的确挺快的,那时候还是个学生。 三年时间变化也挺大,以前对大数据懵懵懂懂还不知道自己会不会走上这条路,现在已经在这个行业混迹了接近两年了。

感谢Doug Cutting这些大佬,感谢开源社区,创造了千千万万的就业机会。


相关 [hadoop doug cutting] 推荐:

Hadoop 之父 Doug Cutting 在清华的讲座记录

- - IT瘾-dev
2014年,Hadoop之父Doug Cutting在清华开了一次讲座,当时三个小伙伴一起翘班骑自行车到现场听了这场讲座,很认真地做了笔记. 现在翻出来回顾一下感觉还是有不少感触的,稍加整理分享出来. 整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting 总共大概7张PPT,后半个小时互动.

Doug Edwards 新书里揭露的 10 个 Google 早期趣闻

- Cubic - 谷奥——探寻谷歌的奥秘
第59号Google员工的新书I'm Feeling Lucky上架,昨天我们已经爆了一些书里写的内幕,今天我们再挖一些料出来. Google第6号员工曾经发现有人连续查询了39,000次“this is the CIA”(这里是中央情报局)这个关键字,他以为这是一个试图改进某网站搜索排名的自动机器人在不停的访问同一个搜索结果链接地址,其实这是一个CIA的工作人员不小心将一本书压在了回车键上.

Google 第 59 号员工 Doug Edwards 爆公司早期内幕的书终于上架

- mornlee - 谷奥——探寻谷歌的奥秘
1999年,Doug Edwards成为Google的第59号员工,担任Google首位市场和品牌经理的他似乎跟其他员工看起来与众不同──他当时已经四张儿多了,而且之前是做报纸业务的记者. 这周,Houghton Mifflin开始发行他对Google公司早期的回忆录I'm Feeling Lucky.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu's home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.

HADOOP安装

- - OracleDBA Blog---三少个人自留地
最近有时间看看hadoop的一些东西,而且在测试的环境上做了一些搭建的工作. 首先,安装前需要做一些准备工作. 使用一台pcserver作为测试服务器,同时使用Oracle VM VirtualBox来作为虚拟机的服务器. 新建了三个虚拟机以后,安装linux,我安装的linux的版本是redhat linux 5.4 x64版本.

Hadoop Corona介绍

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/hadoop-corona/hadoop-corona/. Hadoop Corona是facebook开源的下一代MapReduce框架. 其基本设计动机和Apache的YARN一致,在此不再重复,读者可参考我的这篇文章 “下一代Apache Hadoop MapReduce框架的架构”.

Hadoop RPC机制

- - 企业架构 - ITeye博客
RPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议. Hadoop底层的交互都是通过 rpc进行的. 例如:datanode和namenode 、tasktracker和jobtracker、secondary namenode和namenode之间的通信都是通过rpc实现的.