云计算时代:运维人员会踩到哪些坑?

标签: 系统运维 | 发表时间:2015-06-01 10:05 | 作者:99527
出处:http://www.blogread.cn/it/

标签:   云计算   运维

   近期在ChinaUnix论坛有一场讨论,标题是——云计算时代:运维人员会踩到哪些坑?

   整个讨论过程非常活跃,大概有50个答复,运维派这就给大家整理了一些讨论的优质内容分享给大家。

   =============================================

    背景:

   在云计算领域,运维人员就是这样的存在,小到一条短信,大到一次网上交易,只要和IT相关的业务就需要这些运维人员,没有他们在背后的支持,生活是会出大乱子的。

   可是到了云计算时代,不少人说IT人要下岗了,是否真会如此呢?云计算的出现是否会使得整体行业对运维的需求萎缩了呢?

   面对传统的几十台服务器时,运维人员还能手动处理一些问题,但是当机器发展到1000台、甚至是10000多台时,自动化运维必须得派上用场了。企业根据业务来分配和释放资源,运维人员不仅需要一个强大的控制系统来控制对网络流量、CPU利用率、进程、内存等等节点,还需要一个资源管理系统来管理这些资源的生命状态,还有权限管理,就像AWS的IAM一样。

    话题讨论:

   1.云计算时代,运维人员是否会面临着失业的风险?

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   3.对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

    下面就来看看运维的小伙伴们都是怎么回答的?

    网友stukirito的回答:

   1.云计算时代,运维人员是否会面临着失业的风险?

   以上说的是整体的国内运维趋势   如今云计算时代 对运维保障的要求自然更上一个台阶  失业不失业完全取决于自己.

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   既然使用到了虚拟化技术 那这个是具体问题具体分析。

   3.对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

   可监控的软件多的去了 不过我相信目前大多数企业开始使用开源软件的多 譬如 catic、nagios、zabbix等都可以 关键在于这些监控软件如何适应你现有环境 那取决于运维对企业业务的熟悉度 对服务器环境的熟悉度等 才能因地制宜的去部署构建相关的监控环境 并根据相关反馈给的数据进行分析判断

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   如果是托管类的直接找云服务商去看 如果是私有云就要慢慢找原因了

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

   这个比较难说  目前大多数企业选择混合云 就是担心云服务提供商提供的服务会有中断  所以看企业自身需求做选择吧

    网友stay_sun的回答:

   1.云计算时代,运维人员是否会面临着失业的风险?

   在it圈里技术的革新总是很快的,当你跟不上技术的发展的时候。你永远面临着淘汰。原来的vb,daifei,等等。传统的运维注定被淘汰。自动化运维会持续发展

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   新的数据中心虽然池化了,但是他对应的还是物理主机。检查的难度更大。但是对于单点的故障解决就简单多了。我觉得,云的运维最有难度的是平台的故障。很不好解决

   3.对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

   最好的方法是调用系统的命令来收集你需要的数据。完成相应的问题。达到资源的最大化。

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   运用这种平台云服务器,及本可以保证使用。偶尔这种问题,也是没有办法的。毕竟他是寄宿在实体机上面,多个主机总会有资源的冲突。找供应商。解决问题吧。没有办法的

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

   我还是考虑自建云平台。作为互联网公司。这个东西使用太贵了

    网友pure_lotus的回答:

   1.云计算时代,运维人员是否会面临着失业的风险?

   不会,云平台也需要有人运维,云计算时代产生的云平台运维新岗位比普遍运维更重要,工资还高了。但对于一般性的非IT企业的某些基础架构类IT运维人员,是存在失业的风险,需要加紧转型。

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   资源都虚拟池后后,故障定位和排除明显是痛点,很容易牵一发而动全身;另外自动化运维管理本身的可靠性要求也更高;还有运维是如何满足客户的安全审计要求也是难题。

   3.对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

   多吧,一般在开源基础上做订制开发,而且要分层级,平台层和应用层要开分开。

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   原因不明,猜测可能当时云服务厂商由于资源达到临界点,在调整后台部署或者做整体性的升级维护,造成临时性的IO瓶颈。

   解决办法就是打电话或者等,有钱也可以选择远程冗员的硬盘空间备份,临时切换到备份空间来操作。

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

   国内嘛,估计以后微软云和阿里云前景更好一些。主要是平衡成本和服务质量,微软自有软硬件产品比较多,使用顾客拥有成本比较低;阿里的中小客户基数大。

    网友xuexiaogang的回答:

   1.云计算时代,运维人员是否会面临着失业的风险?

   如果有自动化运维的,那么运维人员的要求更加高,而且压力也越来越大,技能还要提升。如果没有自动化运维,那么运维人员不仅不会失业,而且人员还要不断增加。

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   全面监控难度大,而且问题排查不容易。很多是虚拟化来完成的,内部出现问题不好查也不好定位。

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   扇区,块等都会产生碎片或者逻辑故障等。需要的是经常的维护和检查。空间回收和坏块的处理尤为重要。

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

   百度云、360云、新浪云还有七牛等都是不错的云存储供应商。在很多技术交流上都和他们接触过并且使用过。感觉还可以。

    网友“淡定与洒脱”的回答:

   1.云计算时代,运维人员是否会面临着失业的风险?

   还奉行老思路吃老本的大龄运维,其实已经相当危险了,存在感将不断下降,手工作坊式的低技术含量运维将越来越out。建议年轻入行的运维,一定要多学点开发技术,光会用几个开源工具,养不起老婆孩子的。

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   如果是公有云,那完全没脾气,只有选一个服务好的厂家了。如果是私有云,自己可以把原理性的东西研究清楚,提高troubleshooting能力。

   3.对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

   saltStack、puppet、nagios、cacti、zabbix。。。现在有一堆开源监控和配置管理工具了,但问题是,如果只是会用这些工具,运维的价值何在?作为一个有理想的运维,应该搞点自己的小工具,成为这些工具的补充。

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   有冗余,不用怕,往往重启后就恢复了。具体原因,还得问厂家。

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

   看企业老板是什么思路,有的不差钱,有的很差钱。贵的一般都好一些。

    网友forgaoqiang的回答:

   1.云计算时代,运维人员是否会面临着失业的风险?

   这个是肯定滴,现在的趋势就和农民种地类似,整体的岗位数量在下降,每个人管理的“田地”(服务器等IT资源)在增加。小型企业的运维人员需求(哪怕是兼职的网管)也在减少,小公司会把大部分的IT运维迁移到一些公有云上,管理简单,成本也可以接受。中型企业可能也会用公有云和部分自己的服务器,至于大型公司,基本上都在维护自己的私有云,几乎不会使用其它公司的服务。

   所以整体来说,工作岗位数量在下降,但是对于运维人员的技能要求却在上涨,运维开始成为高大上的职业,只有真正具有高技能的运维人员不会面临失业,而是面临涨工资。

   2.传统的数据中心里,设备是真实存在的,管理起来相对简单,而虚拟化技术将这些资源都“池化了”,一旦故障发生,需要检查排除,云时代下您觉得在运维管理方面存在哪些痛点困扰呢?

   个人感觉云时代的时候更像是一个统计学的结论,只要集群整体运行正常就算是正常了,对于“池”中的某条“鱼”(硬件设备)死了,可以短暂的不用去理会,定期替换维修即可。云时代下大家都是看着各种“仪表盘”来进行管理,很少关心底层的硬件,经过层层抽象导致的结果就是排查难度上升,需要一层一层的去检查,最终故障很有可能发生在最下一层的物理层次上。

   3.对云计算而言,一大堆机器和设备放在一起,安全成为了一大挑战。有哪些监控工具可以实现对资源的管理,对网络流量、CPU利用率、进程、内存等状态监控呢?

   工具非常多,很多商业化的工具、开源的管理工具等等,比较经典的仍然是 Zabix、Cacti 等开源监控程序,同事Puppet等管理工具也具有监控功能,这些工具都是开源的,能够根据自己的需要进行定制,很多支持插件模式,可以使用很多其它人已经开发好的插件完成一些个性化的需求,完整整个运维的监控工作。

   4.在使用云服务,比如阿里云、腾讯云等,磁盘用到一定时候就会不稳定,很莫名其妙,磁盘I/O会变慢,到底是什么原因?您是否遇到过类似的经历?当时是如何解决的?

   是的,这个情况的确有遇到,很多时候是因为自己的业务系统出问题了,整体来说感觉阿里云还是比较稳定和公正的,磁盘和CPU资源限制的比较准确,作为IaaS的基础设施,它们除了对硬件性能进行限制之外,剩下的都是客户的OS操作系统在处理自己的业务。对于I/O变慢的情况,好多都是自己的程序过度使用磁盘I/O造成的。

   5.考虑到安全性问题,大多数企业都会选择混合云,选择IBM的云,稳定但贵,您比较看好哪些云服务提供商?为什么?

   现在国内有多种云服务提供商,有些针对性的提供对 消息语音队列,有些是针对存储,有些则能够提供 平台托管,有些就是提供IaaS级别的,目前公司主要采用的服务是阿里云的,也考虑过腾讯云,看上去目前阿里是技术上做的最好的,SAE、BAE等平台不太适合我们的业务。对于消息队列还是比较看好 语音云 这家提供商。至于基础设施类的,个人感觉还是vmware或者xenserver的比较靠谱,但是费用高昂,中小型公司不会采用。

   对于中大型企业应该会采用商用的私有云服务,但是对于阿里、腾讯、百度,它们应该是完全自主的云管理系统。

   =============================================

   文章由运维派整理自http://bbs.chinaunix.net/thread-4170556-1-1.html

您可能还对下面的文章感兴趣:

  1. 51CTO专访腾讯高级运维工程师刘天斯 [2015-04-08 13:52:31]
  2. 开发者的黄金时代=运维人员的恶梦? [2015-04-08 13:41:50]
  3. Java应用运维 [2012-02-01 18:03:07]
  4. redis运维的一些知识点 [2011-05-30 13:56:44]
  5. Cassandra运维之道 [2010-06-24 09:38:31]

相关 [云计算 时代] 推荐:

云计算时代:运维人员会踩到哪些坑?

- - IT技术博客大学习
标签:   云计算   运维.    近期在ChinaUnix论坛有一场讨论,标题是——云计算时代:运维人员会踩到哪些坑.    整个讨论过程非常活跃,大概有50个答复,运维派这就给大家整理了一些讨论的优质内容分享给大家.    在云计算领域,运维人员就是这样的存在,小到一条短信,大到一次网上交易,只要和IT相关的业务就需要这些运维人员,没有他们在背后的支持,生活是会出大乱子的.

[转][转]云计算时代,我与Go语言难解的缘分

- - heiyeluren的blog(黑夜路人的开源世界)
来源: http://www.ituring.com.cn/article/14092. 我在新浪微博、《Go语言编程》一书中下了一个论断:Go语言将超过C、Java,成为未来十年最流行的语言. 我曾在2007年第2届ECUG大会上提到了我对未来软件产业趋势的判断:存储与计算将向服务端转移;PC单机转换为强悍的服务器+多元化的终端.

理解云计算

- 车东 - oneoo's 私家花园
  现在互联网最热门的关键字“云计算”,大大小小的公司纷纷加入到这块领域. 简单来说,目前的“云计算”主要分为:SaaS、PaaS和IaaS三大类.   其中SaaS云计算,为软件即服务的概念. 把传统客户端软件部署在互联网上,用户只需要一个浏览器就可以使用到软件的模式. 其实早在2000年就已经有B/S结构的软件服务,与现在所说的SaaS云计算相近,但此前的B/S结构软件服务,数据库等服务端是需要用户自行部署的,而非由软件提供商进行统一部署.

10问云计算

- - 《商业价值》杂志
与数百位关注和实践云计算的CIO们共同解读云计算热点问题. 被视作IT界第三次革命的云计算,已经从炙手可热的概念逐渐走向了实际应用. 2011年8-11月, ITValue社区联合英特尔公司,与数百位关注和实践云计算的CIO们一起展开深入探讨,话题涉及云计算的商业价值、安全性、开放性、高效性、简单性等方面.

云计算的困局

- Star Ocean - It Talks--上海魏武挥的博客
有个媒体朋友打电话咨询我一个事. 说在江浙一带,有一位搞国际货运代理的民营企业家,想利用云计算来整合各种资源,比如运输车队、仓库、集装箱乃至货船. 这些资源的调配信息对任何一家从事外贸的企业都很重要,如果将这些信息放在所谓的“云”上,并加以运算,这些企业再以各种设备联入这个“云”,这位企业家觉得是一个很有前途的买卖.

开源云计算ERP ErpCore

- Le - 开源中国社区最新软件
  ErpCore是一套强大的云计算ERP开发框架,集数据库设计、软件建模、模型自动生成、界面可视化设计、业务流可自定义、全自动生成用户所需系统于一体. 在此框架上扩展出所有行业的业务系统,它让软件工程师从“建模——写代码——测试”所有繁琐重复的工作变为全自动化生成,大大简化了企业软件的开发时间和成本;同时,使用该框架扩展的所有业务子系统能够无缝连接进行数据共享,这也是云计算ERP的实现基础,杜绝了传统ERP的子.

“云计算”是什么?

- Aaron Xu - 译言-每日精品译文推荐
  作者:Eleanor Miller . 发布日期:2011年10月28日,上午10点28分.        人们都在聊“云计算”,预测人士称,到2010年,云计算创造的市场总值将达到2亿4100万美元.        但是云计算究竟是什么呢.        云计算意味着可以把计算用作服务,而不是用作商品.

谁来拯救云计算?

- - 雷锋网
当前的“云计算”一词已经被神话,似乎快成了放之四海皆准的时髦真理,就好比当初言必称“希腊”一般,表面光芒四射,但实际上却无比教条、且越来越令人生厌. 作为“云计算”的一个普通开发者和是推广者,很有必要通过亲身实践,以正视听,希望能让后来者(云计算系统的开发者)少走弯路——有所为、有所不为. 我们所要谈论的不是商业领袖们所热衷的云计算概念、云计算市场,而是讨论技术人员眼中云计算具体形态和切实的实现办法.

中小银行的云计算后台

- Draven - 每日鲜果精选
城市商业银行规模虽小,但对IT的需求却与大银行没有太大差别. 云计算给了他们解决这一矛盾的思路. 中国的中小银行一直以来都有一个尴尬的现实——虽然规模小,业务却大而全. 因此,中小银行对IT系统的要求,与大型银行几乎差别不大. 但是从资源和实力上来讲,中小银行却与大银行相差甚远. 根据易观国际的统计,2010年我国城市商业银行等区域性银行的IT投入是41.8亿元,2011年将达到47.7亿元.

2011云计算展望(图解)

- Zhaojing - 南都周刊