新浪财经

研发云计算系统10年 中国工程院院士王坚:愿意做就是最大的成功

人民日报

关注

原标题:用10年时间主持研发拥有自主知识产权的云计算平台,构建了完整的产业生态 王坚:愿意做就是最大的成功(潜心科研 砥砺创新)

人民视觉

人物小传

王坚,中国工程院院士、云计算技术专家,现任阿里巴巴集团技术委员会主席。他首创“以数据为中心”的分布式云计算体系架构,率先提出采用计算作为公共服务的产业模式,主持研发以大规模分布式计算系统“飞天”为核心、拥有自主知识产权的云计算平台。通过创办“云栖大会”和创立“云栖小镇”,构建了完整云计算生态,实现了从“飞天”技术平台到云计算产业的突破。

前不久,2020云栖大会如期举行。受疫情影响,数以万计的与会者无法在线下相聚,但“上云”的会议本身就是云计算快速发展最生动的注脚。无论是装在口袋里的“云电脑”、更加灵动的机器人,还是“飞天”云平台、城市大脑3.0……万物皆可“云”,正在成为信息时代的新标配。

早在2009年,许多人还不明白什么是云计算的时候,王坚便一头扎进这个领域。前三年,人们不理解他在做什么,甚至认为这个项目纯属“浪费资源”。2011年,在云栖大会的前身——“阿里云开发者大会”上,王坚还是笃定地认为:“云计算与移动互联网的结合,将形成蝴蝶效应,给人们生活带来巨大的变革。”而后来云计算的发展证明,王坚的路走对了。

“我们经常讲‘从0到1’不容易,其实‘从无到0’也很难”

采访王坚,是在杭州云栖小镇一个叫“科技博悟馆”的地方。这栋玻璃外墙的灰色建筑里,陈列着50余件与计算、数据和互联网相关的艺术品,既包括古老的账本、算盘、老式机械计算器,也有关于未来科技城市的想象。这些艺术品绝大部分的创意均出自王坚本人,“计算”无疑是其中的关键词。

格子衬衫、双肩包、运动鞋,很多人对王坚几乎一成不变的装扮再熟悉不过。有人调侃,唯一的变化是有时格子大一点,有时格子小一点,就像多年来他对云计算的坚持一样。“我们经常讲‘从0到1’不容易,其实‘从无到0’也很难。”王坚口中的“0”,就是一件事情的起点,放在10年前,这个“0”就是云计算。

2008年,王坚来到阿里巴巴集团担任首席架构师,当时的阿里正面临一个棘手的问题——“脑力”不够用了。“脑力”,就是今天我们所熟知的算力。在那个阶段,国内企业要搞信息化,基础设施全部要靠进口:服务器、数据库、存储设备无一例外都要找国外厂家购买。王坚肩负的是一件当时看来几乎不可能完成的任务:自主研发云计算。

它要便宜、好用,要能同时调度数千台计算机,组成一个巨型“大脑”……而这一切的一切,都要从零开始。“当时做云计算,除了外面很多人不看好,内部也有非常大的阻力。”王坚回忆道,这让项目几乎从一开始就举步维艰。

2008年10月,这个想象中属于中国的云计算系统被团队命名为“飞天”,源自古代神话中的形象。王坚带着团队搬到一间连暖气都没有的小办公室。一直到年底,“飞天”团队才勉强凑够了30位工程师。后来他们发现,这间办公室几乎用不上暖气。由于摞满了测试设备,相当于放了个巨大的火炉,一到夏天,烤得大家热汗直流。为了不影响进度,王坚干脆每天叫冰场送两大块冰来,塞在办公室桌椅下物理降温。

云计算的研发难度,似乎要比糟糕的办公条件更超乎想象。2009年,当“飞天”系统第一次投入使用时,数据传输、计算稳定性、处理速度等都是问题,各种漏洞层出不穷。王坚带着所有的技术工程师,直接住在了办公室,24小时连夜开发、加班修复系统。直到几个月后,“飞天”系统发布了一次版本升级,问题才初步解决。

“对于大多数人来说,有时候做不成事也是财富”

采访中,关于“飞天”的成功,王坚讲得很少。反而是失败,他说得很多。“一做事情就成功了,那是天才,我劝大家不要学。对于大多数人来说,有时候做不成事也是财富。”

失败很快到来。当时飞天系统有个内部的目标,就是用云计算系统统一调度5000台服务器。这个“5K”(即5000)关卡如果不能突破,算力就会碰到瓶颈。从2010年到2012年,整整三年,王坚和同事们没日没夜地加班,最后收获的只是一个接一个的系统错误。

压力接踵而至。没有成绩、没有进展,整个部门年年都在集团的考核中拿最低分。扛不住了,有超过一半的成员选择离职、转岗,工位一个个地空了出来。集团内部也很快流言四起。王坚说,那几年,他挨了一辈子都没有挨过的骂,“‘创始人’自然应该是挨骂挨得最多的人。”

2012年公司年会,很多已经离职的员工也来到会场。王坚在台上讲起一位员工的妻子抱怨丈夫晚上总是不回家时,几次欲言又止,最后泣不成声。就是在这样的压力下,他带着剩下的工程师,把一行行代码累积起来,把一个个漏洞排除出去。直到2013年6月底,“5K”项目进入最后的测试阶段。

其中的一项测试出奇地简单,就是直接拔掉服务器的电源。因为只有撑过这种“暴力断电”,才能证明云计算系统具备真正的稳定性。拉电的同事一连问了三遍“拉吗”?最后才颤抖着双手拉下电源。4个小时后,系统完全恢复运行,虽然牺牲了10台服务器,但数据毫发无损,“5K”项目、“飞天”系统终获成功!至此,阿里云也成为中国第一家拥有完整云计算能力的企业。

王坚说,自己当时的压力大,还有一个重要的原因,就是已经有很多客户选择“上云”。“我们的系统如果不够稳定,重启一次,可能一家互联网公司就消失了!”

2013年阿里云开发者大会举办时,云栖小镇(当时只是一个云计算产业园)连个像样的房子都没有,将近4000人只能露天开会。王坚这样总结:“把计算做成了一个系统,又从一个技术系统变成一个产业,最后有一个以小镇为载体的生态聚集地,云计算这件事情我们终于在中国做成了。”

“哪怕能为这个世界做一点别人没做过的事,我觉得就很了不起”

王坚一直觉得自己是个“幸运儿”,不只是因为他赶上了10年来云计算的一波浪潮,更重要的是他坚持做了。“对我来讲,创新不要先问对错,而是问自己愿不愿意做,愿意做就是最大的成功。换句话讲,如果这件事你自己都不愿意做10年,凭什么要求人家跟着你做10年?”

2009年,王坚在《中国计算机学会通讯》杂志上发表过一篇文章,提出“云计算是下个10年中我们遇到的非常独特的机会。我们大家要充满热情为实现这个梦想努力,静下心来做好这件事,不能有任何投机的心理”。他认为,做创新第一要承诺投入足够的时间,第二要能够接受这件事没有做成。“做的研究很好,最后却没有取得理想的成果,也是确实存在的。而真正遗憾的是,明明是能干的,但是没能坚持干完。”他说,所以我们更需要宽容失败,这不应仅仅是一种态度,更要有相应的机制。

王坚讲话很快、思维跳跃,谈论的内容似乎都带着“历史的刻度”。比如,他讲起人们对云计算的信任问题时,又会突然聊起中国最早的纸币——交子。很多人认为,这可能和王坚的背景有关:虽然他曾经是微软亚洲研究院常务副院长,又成为阿里巴巴集团首席技术官,却不是程序员出身。

1990年,王坚从杭州大学(后并入浙江大学)毕业,是全国第一个被授予工学博士学位的心理学专业学生,30岁晋升教授,31岁成为博士生导师。有人说他是天才,能在工程心理学和信息技术两个领域都做得如此出色。做云计算最困难的时候,也有人因此嘲笑他:“一个学心理的博士,居然当上CTO(首席技术官),心理学学得真好啊!”

王坚并不在意这些评价。在他看来,这恰恰是科技发展面临的一大挑战。采访中,他多次谈到诸多学科对自己的影响。“那时候,我们是工程心理学专业第一届学生,教学大纲都没有,因此上了很多看似不着边际的课,物理学、生物学,甚至连金属工艺学都学过。”

在“科技博悟馆”二楼的橱窗里,摆放着王坚收藏的很多航空器模型。他是个航空迷,他说航空器是从“图纸上飞出来的梦想”,也是多种技术综合应用的体现,“飞天”系统也是如此。“科技发展到今天,‘一股技术’比‘一丝技术’更具力量,系统创新、集成创新的重要性更加迫切。”王坚认为。

这也是近年来王坚大力倡导“2050大会”的原因。“2050大会”是一场以“‘年青人’因科技而团聚”为主题的交流活动,包括各式各样的活动和上百场论坛。王坚有时会和参会者一起露营,大家彻夜长谈。他的想法很简单:“哪怕能为这个世界做一点别人没做过的事,我觉得就很了不起。”

加载中...