数人云王璞:PaaS蝶变背后是三大技术趋势和三大落地方法

杨y 发表了文章 • 0 个评论 • 16 次浏览 • 5 天前 • 来自相关话题

11月16日,由中国开源云联盟WG6容器工作组和数人云联合主办的“PaaS Innovation 2017,构建灵动新IT”大会在北京召开。本次大会由于汇聚了前瞻的PaaS洞察,着眼PaaS技术创新和演进趋势;梳理PaaS落地行业痛点,分享金融标杆客户最佳行业实践、重磅发布企业级容器云平台标准及推导PaaS落地方法,而广受业界瞩目。来自行业的专家、媒体朋友、生态伙伴,以及金融、能源、快消、制造等传统行业客户300余人参加了此次大会。








企业IT变革:轻量化、敏捷化、开源化

数人云CEO王璞博士做了以《云计算之PaaS进化:潮涌、碰撞、变革》为主题的开场演讲。传统商业正在被技术深度改变,互联网与传统行业结合的模式探索开始在各行业展开,新金融、新零售、新制造等新的业态不断涌现。在探求数字化转型过程中,无论是技术、人员,还是体制、运营管理,都并非简单的架构调整即可为之,传统业务和互联网场景应用将长期双态并存。

在互联网+重构业务形态的驱动下,传统企业纷纷开拓互联网业务来加大自身的行业竞争优势,这给复杂的响应缓慢的传统IT架构带来严峻挑战。企业IT部门和IT管理者疲于奔命。

王璞在演讲中指出,轻量化、敏捷化和开源化是近年企业IT架构三大最重要的技术演变趋势。






首先,应用容器化、架构微服务化,使得企业级应用变得越来越轻。其次,传统企业开始践行DevOps理念,打造开发运维一体化。将整个从开发到运维的全生命周期整合为统一的流程,研发人员可以专注业务开发本身,无需关注底层技术细节。运维人员大量采用自动化运维平台和工具,运维效率显著提升。由此,敏捷开发和业务敏捷性有了实现的可能。

第三,IT基础设施软件全面拥抱开源。开源技术能够增强企业的自主可控能力,开源可拓展的IT成为企业CIO和其他IT管理者在进行技术选型和新项目建设时的重要选择方向。同时,开源技术更新迭代频繁,也对企业级IT在技术选型上提出了挑战,需要不断在各种技术之间取长补短。

PaaS技术变革:应用容器化、服务网格化、生态行业化

PaaS正在成为云计算市场中增长最快的一极。尽管在大众的印象中,云计算三层之前始终是两家独大,不过最近几年,PaaS表现出强劲的发展势头。据IDC最新的全球半年度公有云服务支出指南,2017年PaaS支出增速五年复合年增长率为32.2%。







PaaS通过技术不断创新积累,深入到企业应用领域,赢得市场,为应用交付、资源管理、运维效率、业务支撑提供了基于新一代IT架构的重要支撑体系。凭借团队在互联网应用架构和企业级IT的丰富经验,并扎根行业,做深做透客户业务特性,王璞在演讲中指出,当前PaaS呈现出应用容器化、服务网格化和行业生态化三大技术趋势。

容器经过4年的迅速发展,已经成为云计算原生应用的标准交付方式,能够对底层基础架构资源实现快速、标准化和更轻量级的管理。其次,微服务将成为云计算原生应用的标准开发架构,传统企业客户对微服务应用的管理需求日益强烈。敏捷开发和部署举步维艰,其中最大的障碍是应用太复杂,以至于单个开发者很难搞懂。微服务架构下,技术选型去中心化,团队可以自由选择合适的技术栈。同时,当需要对技术栈进行升级,面临的风险也小得多。

在以微服务和容器技术为核心的技术转型下,新一代服务网络技术方兴未艾。服务网格技术在云环境下,能够对应用进行更好地管理。开发人员在开发应用时,不必考虑后端管理上的诉求,让开发变得更透明。另外,服务网格技术对后期应用程序的管理维护能够提供更丰富的手段,以及更细粒度的管理。

行业生态化也是PaaS演进的一大重要趋势,企业级IT服务逐步向行业云过渡。数人云通过与生态伙伴合作共同落地私有云、行业云,整合行业内云产业链上IaaS、PaaS和SaaS三层资源,为企业客户提供整体解决方案。王璞强调,在行业云发展的过程中,不仅业务特性突出的SaaS具备行业属性,偏下层的IaaS和PaaS同样具备行业属性,如此更好地实现企业IT资源和服务整合。

PaaS表现出强劲的发展势头,也是行业生态化使然。随着企业应用市场的爆发和成熟,SaaS对PaaS层的要求越来越高,应用要打通、跨层、效率、协作等,这在客观上推动了PaaS体量猛增。

PaaS落地:数人云DataMan OS+EAMS

数人云是国内轻量化PaaS的首倡者,具备PaaS层面丰富的产品线,通过DataMan OS和EAMS两大产品帮助企业客户建立标准化、统一化、模块化的企业级IT体系,落地敏捷IT能力。








DataMan OS是数人云产品的底座,利用容器实现应用标准化交付和统一化运维管理,为用户IT系统带来高可用、弹性伸缩。

EAMS产品基于Spring Cloud微服务开发框架,实现针对微服务应用的统一化服务治理、业务应用模块化,落地敏捷开发,帮助传统企业落地贯穿应用全生命周期的DevOps最佳实践。

“企业要获得敏捷IT,落地DevOps能力,从开发源头上,首先必须进行开发框架的标准化。微服务开发框架解决了应用的复杂性,推而广之,实现测试和运维的标准化,敏捷支撑上面的业务应用和场景。”王璞说道。

数人云始终围绕PaaS和应用来帮助企业客户交付IT能力。将关注的重心转向微服务架构的逻辑在于,架构对于企业IT来说是最根本的,关乎到长期的IT环境的先进性和高效,保障应用的持续迭代,业务快速响应。一个有长久生命力的系统必然有一个设计高明的架构,架构必须具备灵活性,同时易用性、安全性、稳定性恒久不变。“微服务架构是云时代的IT架构,在云化转型的时代,企业客户最匹配的就是微服务云计算原生架构。”








在云生态方面,数人云先后与宇信科技、高阳金信等金融领域领先IT解决方案提供商,以及首都在线等基础IaaS厂商结成合作伙伴,共同深挖行业,为客户交付从应用到平台更完善的IT能力,推动企业云化转型。

招银云创:容器已成熟采摘正当时

招银云创是招商银行的全资子公司,致力于将招商银行IT系统30年稳定运行的成功经验和金融IT成熟解决方案开放给金融同业。招银云创战略研究院总监陈沙克受邀在此次大会上做了《容器已成熟 采摘正当时》的主题演讲,分享招银云创的容器PaaS实践。

他指出,金融行业云有突出的行业特性:强监管、强安全和高复杂度。随着Fintech驱动业务创新和互联网的普及,银行IT不仅要支撑传统核心业务,系统定制化满足大客户需求,而且要重视发展2C业务。

面对互联网化IT和客户定制化双重需求,招银云创构建的容器PaaS平台包括SpringCloud开发框架、容器运行时管理平台和容器周边管理配套工具三方面。回顾招银云创PaaS经验,陈沙克强调,目前招银云创最关注的是容器周边管理工具,这是“企业用好容器的关键”。容器让金融行业云应用变得标准化、简单化,打造了快速应变,构建开放、弹性、安全可控新型IT,满足了银行业务的创新需求。对于招银云创来说,容器和PaaS正在让“开发人员再也看不到IaaS”。

作为PaaS Innovation大会的联合主办方,中国电子技术标准化研究院软件工程与评估中心主任、中国开源云联盟秘书长周平莅临现场并致开幕辞,他分享了开源技术如何推动产业创新,以及国内开源技术现况,并与开源云联盟容器工作组成员单位共同权威发布《企业级容器云平台》联盟标准。容器标准的发布意味着容器技术迅速成熟,进入全面落地阶段,产业化进程将大大加速。

此外,大会还邀请到了国家青年千人计划学者、清华大学交叉研究院助理院长徐葳,他在《数据中心和“智能”》的主题演讲中,和与会嘉宾分享了GPU容器集群、AI等更智能数据中心的最新研究成果。

在大会最后的圆桌环节,嘉宾们就PaaS认知、传统企业如何切入PaaS、PaaS在企业数字化转型中的作用,开源技术商业化,以及如何看待云计算风口等话题展开了热烈的圆桌讨论。在全面云化的今天,PaaS作为平台层崛起风口已现,上下游合作伙伴将一起携手推进传统企业上云,为传统企业提供更多贴近业务场景的技术、应用和解决方案。

关于数人云

数人云成立于2014年,创始团队来自谷歌、红帽和惠普,作为领先的云计算开源技术实践者,数人云致力于帮助传统企业提升IT对业务的支撑能力,帮助客户统一管理资源和应用,加速应用交付、提升运维效率,建设新一代基于云计算技术的IT架构体系。

数人云重点聚焦打造基于容器的极轻量级PaaS平台,在实现应用全生命周期管理的同时,管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析。数人云产品体系创新性地升级为企业应用架构管理体系(EAMS),实现业务、应用、架构和IT管理四者和谐统一,满足企业双态IT需求,实现IT敏捷化自动化。借鉴国外SRE的实践经验支持DevOps落地,提升企业IT工业化程度,构建灵动新IT。

数人云为中国开源云联盟理事单位、Linux&CNCF基金会成员,并加入OCI(The Open Container Initiative)联盟,携手与国内外云计算伙伴共同推动云计算领域容器等开源技术的落地与发展。 查看全部
11月16日,由中国开源云联盟WG6容器工作组和数人云联合主办的“PaaS Innovation 2017,构建灵动新IT”大会在北京召开。本次大会由于汇聚了前瞻的PaaS洞察,着眼PaaS技术创新和演进趋势;梳理PaaS落地行业痛点,分享金融标杆客户最佳行业实践、重磅发布企业级容器云平台标准及推导PaaS落地方法,而广受业界瞩目。来自行业的专家、媒体朋友、生态伙伴,以及金融、能源、快消、制造等传统行业客户300余人参加了此次大会。


QQ图片20171117150208.png



企业IT变革:轻量化、敏捷化、开源化

数人云CEO王璞博士做了以《云计算之PaaS进化:潮涌、碰撞、变革》为主题的开场演讲。传统商业正在被技术深度改变,互联网与传统行业结合的模式探索开始在各行业展开,新金融、新零售、新制造等新的业态不断涌现。在探求数字化转型过程中,无论是技术、人员,还是体制、运营管理,都并非简单的架构调整即可为之,传统业务和互联网场景应用将长期双态并存。

在互联网+重构业务形态的驱动下,传统企业纷纷开拓互联网业务来加大自身的行业竞争优势,这给复杂的响应缓慢的传统IT架构带来严峻挑战。企业IT部门和IT管理者疲于奔命。

王璞在演讲中指出,轻量化、敏捷化和开源化是近年企业IT架构三大最重要的技术演变趋势。

2.png


首先,应用容器化、架构微服务化,使得企业级应用变得越来越轻。其次,传统企业开始践行DevOps理念,打造开发运维一体化。将整个从开发到运维的全生命周期整合为统一的流程,研发人员可以专注业务开发本身,无需关注底层技术细节。运维人员大量采用自动化运维平台和工具,运维效率显著提升。由此,敏捷开发和业务敏捷性有了实现的可能。

第三,IT基础设施软件全面拥抱开源。开源技术能够增强企业的自主可控能力,开源可拓展的IT成为企业CIO和其他IT管理者在进行技术选型和新项目建设时的重要选择方向。同时,开源技术更新迭代频繁,也对企业级IT在技术选型上提出了挑战,需要不断在各种技术之间取长补短。

PaaS技术变革:应用容器化、服务网格化、生态行业化

PaaS正在成为云计算市场中增长最快的一极。尽管在大众的印象中,云计算三层之前始终是两家独大,不过最近几年,PaaS表现出强劲的发展势头。据IDC最新的全球半年度公有云服务支出指南,2017年PaaS支出增速五年复合年增长率为32.2%。

3.png



PaaS通过技术不断创新积累,深入到企业应用领域,赢得市场,为应用交付、资源管理、运维效率、业务支撑提供了基于新一代IT架构的重要支撑体系。凭借团队在互联网应用架构和企业级IT的丰富经验,并扎根行业,做深做透客户业务特性,王璞在演讲中指出,当前PaaS呈现出应用容器化、服务网格化和行业生态化三大技术趋势。

容器经过4年的迅速发展,已经成为云计算原生应用的标准交付方式,能够对底层基础架构资源实现快速、标准化和更轻量级的管理。其次,微服务将成为云计算原生应用的标准开发架构,传统企业客户对微服务应用的管理需求日益强烈。敏捷开发和部署举步维艰,其中最大的障碍是应用太复杂,以至于单个开发者很难搞懂。微服务架构下,技术选型去中心化,团队可以自由选择合适的技术栈。同时,当需要对技术栈进行升级,面临的风险也小得多。

在以微服务和容器技术为核心的技术转型下,新一代服务网络技术方兴未艾。服务网格技术在云环境下,能够对应用进行更好地管理。开发人员在开发应用时,不必考虑后端管理上的诉求,让开发变得更透明。另外,服务网格技术对后期应用程序的管理维护能够提供更丰富的手段,以及更细粒度的管理。

行业生态化也是PaaS演进的一大重要趋势,企业级IT服务逐步向行业云过渡。数人云通过与生态伙伴合作共同落地私有云、行业云,整合行业内云产业链上IaaS、PaaS和SaaS三层资源,为企业客户提供整体解决方案。王璞强调,在行业云发展的过程中,不仅业务特性突出的SaaS具备行业属性,偏下层的IaaS和PaaS同样具备行业属性,如此更好地实现企业IT资源和服务整合。

PaaS表现出强劲的发展势头,也是行业生态化使然。随着企业应用市场的爆发和成熟,SaaS对PaaS层的要求越来越高,应用要打通、跨层、效率、协作等,这在客观上推动了PaaS体量猛增。

PaaS落地:数人云DataMan OS+EAMS

数人云是国内轻量化PaaS的首倡者,具备PaaS层面丰富的产品线,通过DataMan OS和EAMS两大产品帮助企业客户建立标准化、统一化、模块化的企业级IT体系,落地敏捷IT能力。


4.png



DataMan OS是数人云产品的底座,利用容器实现应用标准化交付和统一化运维管理,为用户IT系统带来高可用、弹性伸缩。

EAMS产品基于Spring Cloud微服务开发框架,实现针对微服务应用的统一化服务治理、业务应用模块化,落地敏捷开发,帮助传统企业落地贯穿应用全生命周期的DevOps最佳实践。

“企业要获得敏捷IT,落地DevOps能力,从开发源头上,首先必须进行开发框架的标准化。微服务开发框架解决了应用的复杂性,推而广之,实现测试和运维的标准化,敏捷支撑上面的业务应用和场景。”王璞说道。

数人云始终围绕PaaS和应用来帮助企业客户交付IT能力。将关注的重心转向微服务架构的逻辑在于,架构对于企业IT来说是最根本的,关乎到长期的IT环境的先进性和高效,保障应用的持续迭代,业务快速响应。一个有长久生命力的系统必然有一个设计高明的架构,架构必须具备灵活性,同时易用性、安全性、稳定性恒久不变。“微服务架构是云时代的IT架构,在云化转型的时代,企业客户最匹配的就是微服务云计算原生架构。”


5.png



在云生态方面,数人云先后与宇信科技、高阳金信等金融领域领先IT解决方案提供商,以及首都在线等基础IaaS厂商结成合作伙伴,共同深挖行业,为客户交付从应用到平台更完善的IT能力,推动企业云化转型。

招银云创:容器已成熟采摘正当时

招银云创是招商银行的全资子公司,致力于将招商银行IT系统30年稳定运行的成功经验和金融IT成熟解决方案开放给金融同业。招银云创战略研究院总监陈沙克受邀在此次大会上做了《容器已成熟 采摘正当时》的主题演讲,分享招银云创的容器PaaS实践。

他指出,金融行业云有突出的行业特性:强监管、强安全和高复杂度。随着Fintech驱动业务创新和互联网的普及,银行IT不仅要支撑传统核心业务,系统定制化满足大客户需求,而且要重视发展2C业务。

面对互联网化IT和客户定制化双重需求,招银云创构建的容器PaaS平台包括SpringCloud开发框架、容器运行时管理平台和容器周边管理配套工具三方面。回顾招银云创PaaS经验,陈沙克强调,目前招银云创最关注的是容器周边管理工具,这是“企业用好容器的关键”。容器让金融行业云应用变得标准化、简单化,打造了快速应变,构建开放、弹性、安全可控新型IT,满足了银行业务的创新需求。对于招银云创来说,容器和PaaS正在让“开发人员再也看不到IaaS”。

作为PaaS Innovation大会的联合主办方,中国电子技术标准化研究院软件工程与评估中心主任、中国开源云联盟秘书长周平莅临现场并致开幕辞,他分享了开源技术如何推动产业创新,以及国内开源技术现况,并与开源云联盟容器工作组成员单位共同权威发布《企业级容器云平台》联盟标准。容器标准的发布意味着容器技术迅速成熟,进入全面落地阶段,产业化进程将大大加速。

此外,大会还邀请到了国家青年千人计划学者、清华大学交叉研究院助理院长徐葳,他在《数据中心和“智能”》的主题演讲中,和与会嘉宾分享了GPU容器集群、AI等更智能数据中心的最新研究成果。

在大会最后的圆桌环节,嘉宾们就PaaS认知、传统企业如何切入PaaS、PaaS在企业数字化转型中的作用,开源技术商业化,以及如何看待云计算风口等话题展开了热烈的圆桌讨论。在全面云化的今天,PaaS作为平台层崛起风口已现,上下游合作伙伴将一起携手推进传统企业上云,为传统企业提供更多贴近业务场景的技术、应用和解决方案。

关于数人云

数人云成立于2014年,创始团队来自谷歌、红帽和惠普,作为领先的云计算开源技术实践者,数人云致力于帮助传统企业提升IT对业务的支撑能力,帮助客户统一管理资源和应用,加速应用交付、提升运维效率,建设新一代基于云计算技术的IT架构体系。

数人云重点聚焦打造基于容器的极轻量级PaaS平台,在实现应用全生命周期管理的同时,管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析。数人云产品体系创新性地升级为企业应用架构管理体系(EAMS),实现业务、应用、架构和IT管理四者和谐统一,满足企业双态IT需求,实现IT敏捷化自动化。借鉴国外SRE的实践经验支持DevOps落地,提升企业IT工业化程度,构建灵动新IT。

数人云为中国开源云联盟理事单位、Linux&CNCF基金会成员,并加入OCI(The Open Container Initiative)联盟,携手与国内外云计算伙伴共同推动云计算领域容器等开源技术的落地与发展。

《企业级容器云平台》联盟标准在数人云PaaS Innovation大会发布

杨y 发表了文章 • 0 个评论 • 22 次浏览 • 5 天前 • 来自相关话题

11月16日,由中国开源云联盟WG6容器工作组和数人云联合主办的“PaaS Innovation2017,构建灵动新IT”大会在北京成功举办。会上,中国开源云联盟权威发布了企业级容器云平台标准。这是继去年由中国开源云联盟发布首个国内容器白皮书之后,容器技术发展的又一里程碑,标志着容器技术进入成熟稳定落地阶段。

近年来,容器技术逐渐成为继虚拟化技术之后对云计算领域影响深远的技术变革。容器技术从2013年传入国内,为各行业应用云计算提供了新思路,逐渐被研发人员和企业客户所接受。不断成熟的容器技术也对云计算的交付、效率和PaaS平台构建产生着深刻影响。容器已经成为企业落地微服务架构,实现DevOps理念的重要支撑技术。

企业级容器云平台标准权威发布


在发布环节,中国开源云联盟秘书长周平、常务副秘书长杨丽蕴、中国电子技术标准化研究院云计算标准资深专家陈志峰、CNTV运维总监王雷、Intel高级工程师杜永丰、数人云CTO肖德时作为代表共同进行了发布。







中国开源云联盟常务副秘书长杨丽蕴致辞

容器标准的编制由中国开源云联盟牵头并完成,参与单位包括数人云、Intel、央视网、腾讯云、阿里云、华为、联想、网易云等十数家联盟单位。其中数人云为容器工作组组长单位,Intel和CNTV为副组长单位。

容器云平台是Gartner提出来的云管理平台的衍生,共有两方面功能。第一,功能需求,管理容器运行引擎、容器网络,容器编排。第二是非功能需求,可用性,兼容性,安全和易用性,负载优化。容器云平台最终的目标是,应用在云平台上运行时取得最优化的效果。

该标准草案的制定参考了CNCF的理论框架,对容器所涉及的基础设施、运行时环境、容器编排和管理、中间件及DevOps、云管理平台、监控日志追踪等功能组件都定义了清晰的要求。同时,对容器的非功能特性,如性能、兼容性等,也提供相应的规范条款。

标志容器技术进入成熟落地阶段

云计算和 DevOps 都是 “敏捷 IT” 理念下的技术组合,目的在于快速开发并交付业务,而且大规模稳定运行。敏捷的挑战主要来自“高速度”和“低风险”。面对互联网海量用户和海量数据的挑战,未来速度和风险的矛盾将愈演愈烈。其次,互联网和大数据对于传统IT从架构到运维都是“从零到一”的过程,相关经验一直由互联网企业和开源社区掌握。传统 IT 厂商从产品到实践无法提供能落地的支持,企业往往陷入难以起步、一试就错的困境,难以进入通过快速迭代来培养队伍的正向循环。

企业级容器云平台包括三个层面的功能:针对异构资源纳管的容器运行环境,针对微服务和分布式架构支撑的基础架构 PaaS (iPaaS — infrastructure PaaS)和帮助用户快速搭建分布式应用的应用 PaaS (aPaaS — Application PaaS)。

标准草案的发布,旨在顺应国内企业从传统单体架构向微服务架构转变的趋势,满足传统企业业务高速发展的需求。随着开源技术的发展,推动容器技术的成熟稳定和不断落地,敏捷IT有了实现的可能和契机。以Docker为代表的容器技术近几年迎来发展热潮,其轻量化、快速部署、可移植等特性受到追捧。

此次容器云平台标准的推出,标志着容器技术发展日渐成熟,将加速容器云在国内企业的落地。当技术沉淀到标准中,形成容器PaaS的相关标准,企业应用有准可依,技术产业化进程将会大大加速。

关于中国开源云联盟

中国开源云联盟(简称“COSCL”)由Intel、新浪网、中标软件和上海交大于2012年8月共同发起创立,是中国最早专注于OpenStack的专业联盟,一直致力于在中国推动OpenStack技术开发、操作系统支持、性能优化、规模部署等工作。

2016年,在工业和信息化部信息化和软件服务业司的指导下,中国开源云联盟正式挂靠中国电子技术标准化研究院,推进联盟后续工作。中国电子技术标准化研究院作为工信部直属的电子信息领域标准化研究机构,一直致力于联合产业界推动开源软件技术和开源标准化工作的发展,探索开源标准与国家标准、国际标准的有机结合,并努力推动开源标准化工作思路和模式的创新。

关于WG6容器工作组

WG6—容器工作组由中国电子技术标准化研究院主办,数人云任工作组组长,CNTV,Intel任副组长,包括国电通、国航、去哪儿网、阿里云、VMware、华三等在内的多个单位参与,主要目的是推动容器开源技术在国内的落地;提升容器开源技术在国际容器社区的贡献比例,推动国内用户落地容器技术规范的标准化(包括网络、存储、安全、测试、扩展性、可用性、应用场景等)。

关于数人云

数人云成立于2014年,创始团队来自谷歌、红帽和惠普,作为领先的云计算开源技术实践者,数人云致力于帮助传统企业提升IT对业务的支撑能力,帮助客户统一管理资源和应用,加速应用交付、提升运维效率,建设新一代基于云计算技术的IT架构体系。

数人云重点聚焦打造基于容器的极轻量级PaaS平台,在实现应用全生命周期管理的同时,管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析。数人云产品体系创新性地升级为企业应用架构管理体系(EAMS),实现业务、应用、架构和IT管理四者和谐统一,满足企业双态IT需求,实现IT敏捷化自动化。借鉴国外SRE的实践经验支持DevOps落地,提升企业IT工业化程度,构建灵动新IT。

数人云为中国开源云联盟理事单位、Linux&CNCF基金会成员,并加入OCI(The Open Container Initiative)联盟,携手与国内外云计算伙伴共同推动云计算领域容器等开源技术的落地与发展。 查看全部
11月16日,由中国开源云联盟WG6容器工作组和数人云联合主办的“PaaS Innovation2017,构建灵动新IT”大会在北京成功举办。会上,中国开源云联盟权威发布了企业级容器云平台标准。这是继去年由中国开源云联盟发布首个国内容器白皮书之后,容器技术发展的又一里程碑,标志着容器技术进入成熟稳定落地阶段。

近年来,容器技术逐渐成为继虚拟化技术之后对云计算领域影响深远的技术变革。容器技术从2013年传入国内,为各行业应用云计算提供了新思路,逐渐被研发人员和企业客户所接受。不断成熟的容器技术也对云计算的交付、效率和PaaS平台构建产生着深刻影响。容器已经成为企业落地微服务架构,实现DevOps理念的重要支撑技术。

企业级容器云平台标准权威发布


在发布环节,中国开源云联盟秘书长周平、常务副秘书长杨丽蕴、中国电子技术标准化研究院云计算标准资深专家陈志峰、CNTV运维总监王雷、Intel高级工程师杜永丰、数人云CTO肖德时作为代表共同进行了发布。

QQ图片20171117150919.png



中国开源云联盟常务副秘书长杨丽蕴致辞

容器标准的编制由中国开源云联盟牵头并完成,参与单位包括数人云、Intel、央视网、腾讯云、阿里云、华为、联想、网易云等十数家联盟单位。其中数人云为容器工作组组长单位,Intel和CNTV为副组长单位。

容器云平台是Gartner提出来的云管理平台的衍生,共有两方面功能。第一,功能需求,管理容器运行引擎、容器网络,容器编排。第二是非功能需求,可用性,兼容性,安全和易用性,负载优化。容器云平台最终的目标是,应用在云平台上运行时取得最优化的效果。

该标准草案的制定参考了CNCF的理论框架,对容器所涉及的基础设施、运行时环境、容器编排和管理、中间件及DevOps、云管理平台、监控日志追踪等功能组件都定义了清晰的要求。同时,对容器的非功能特性,如性能、兼容性等,也提供相应的规范条款。

标志容器技术进入成熟落地阶段

云计算和 DevOps 都是 “敏捷 IT” 理念下的技术组合,目的在于快速开发并交付业务,而且大规模稳定运行。敏捷的挑战主要来自“高速度”和“低风险”。面对互联网海量用户和海量数据的挑战,未来速度和风险的矛盾将愈演愈烈。其次,互联网和大数据对于传统IT从架构到运维都是“从零到一”的过程,相关经验一直由互联网企业和开源社区掌握。传统 IT 厂商从产品到实践无法提供能落地的支持,企业往往陷入难以起步、一试就错的困境,难以进入通过快速迭代来培养队伍的正向循环。

企业级容器云平台包括三个层面的功能:针对异构资源纳管的容器运行环境,针对微服务和分布式架构支撑的基础架构 PaaS (iPaaS — infrastructure PaaS)和帮助用户快速搭建分布式应用的应用 PaaS (aPaaS — Application PaaS)。

标准草案的发布,旨在顺应国内企业从传统单体架构向微服务架构转变的趋势,满足传统企业业务高速发展的需求。随着开源技术的发展,推动容器技术的成熟稳定和不断落地,敏捷IT有了实现的可能和契机。以Docker为代表的容器技术近几年迎来发展热潮,其轻量化、快速部署、可移植等特性受到追捧。

此次容器云平台标准的推出,标志着容器技术发展日渐成熟,将加速容器云在国内企业的落地。当技术沉淀到标准中,形成容器PaaS的相关标准,企业应用有准可依,技术产业化进程将会大大加速。

关于中国开源云联盟

中国开源云联盟(简称“COSCL”)由Intel、新浪网、中标软件和上海交大于2012年8月共同发起创立,是中国最早专注于OpenStack的专业联盟,一直致力于在中国推动OpenStack技术开发、操作系统支持、性能优化、规模部署等工作。

2016年,在工业和信息化部信息化和软件服务业司的指导下,中国开源云联盟正式挂靠中国电子技术标准化研究院,推进联盟后续工作。中国电子技术标准化研究院作为工信部直属的电子信息领域标准化研究机构,一直致力于联合产业界推动开源软件技术和开源标准化工作的发展,探索开源标准与国家标准、国际标准的有机结合,并努力推动开源标准化工作思路和模式的创新。

关于WG6容器工作组

WG6—容器工作组由中国电子技术标准化研究院主办,数人云任工作组组长,CNTV,Intel任副组长,包括国电通、国航、去哪儿网、阿里云、VMware、华三等在内的多个单位参与,主要目的是推动容器开源技术在国内的落地;提升容器开源技术在国际容器社区的贡献比例,推动国内用户落地容器技术规范的标准化(包括网络、存储、安全、测试、扩展性、可用性、应用场景等)。

关于数人云

数人云成立于2014年,创始团队来自谷歌、红帽和惠普,作为领先的云计算开源技术实践者,数人云致力于帮助传统企业提升IT对业务的支撑能力,帮助客户统一管理资源和应用,加速应用交付、提升运维效率,建设新一代基于云计算技术的IT架构体系。

数人云重点聚焦打造基于容器的极轻量级PaaS平台,在实现应用全生命周期管理的同时,管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析。数人云产品体系创新性地升级为企业应用架构管理体系(EAMS),实现业务、应用、架构和IT管理四者和谐统一,满足企业双态IT需求,实现IT敏捷化自动化。借鉴国外SRE的实践经验支持DevOps落地,提升企业IT工业化程度,构建灵动新IT。

数人云为中国开源云联盟理事单位、Linux&CNCF基金会成员,并加入OCI(The Open Container Initiative)联盟,携手与国内外云计算伙伴共同推动云计算领域容器等开源技术的落地与发展。

大会演讲PPT|数人云王璞:《云计算之PaaS进化:潮涌、碰撞、变革》

杨y 发表了文章 • 0 个评论 • 26 次浏览 • 5 天前 • 来自相关话题

 
11月16日,由中国开源云联盟WG6容器工作组和数人云联合主办的“PaaS Innovation 2017,构建灵动新IT”大会在北京召开。数人云CEO王璞博士做了以《云计算之PaaS进化:潮涌、碰撞、变革》为主题的开场演讲。以下是本次演讲的PPT:
 





























  查看全部

幻灯片1.JPG


幻灯片2.JPG


幻灯片3.JPG


幻灯片4.JPG


幻灯片5.JPG


幻灯片6.JPG


幻灯片8.JPG


幻灯片9.JPG


幻灯片10.JPG


幻灯片11.JPG


幻灯片12.JPG


幻灯片13.JPG


幻灯片14.JPG


幻灯片15.JPG


幻灯片16.JPG


幻灯片17.JPG


 
11月16日,由中国开源云联盟WG6容器工作组和数人云联合主办的“PaaS Innovation 2017,构建灵动新IT”大会在北京召开。数人云CEO王璞博士做了以《云计算之PaaS进化:潮涌、碰撞、变革》为主题的开场演讲。以下是本次演讲的PPT:
 
幻灯片18.JPG


幻灯片19.JPG


幻灯片20.JPG


幻灯片21.JPG


幻灯片22.JPG


幻灯片23.JPG

 

演讲实录 | 招银云创:容器PaaS正在让开发人员再也看不到IaaS

杨y 发表了文章 • 0 个评论 • 11 次浏览 • 2 天前 • 来自相关话题

嘉宾介绍:陈沙克,招银云创战略研究院总监,从2010年开始从事云计算相关工作,做OpenStack七年有余,目前在招银云创负责PaaS相关工作。此文为陈沙克在数人云PaaS Innovation 2017,构建灵动新IT大会上的演讲实录。

招银云创是招商银行的全资子公司,代表招商银行进行科技的输出,致力于将招行30年的经验和技术积累输出给广大金融企业,帮助同业同行快速的金融创新。

容器快速交付提高金融的互联网化

金融行业特性与其他行业在思维方式上有很大不同。

金融是强监管行业,尝试新技术面临监管的要求。那么,强监管下如何跟上变化的需要呢?这里面展开可以有很多故事。在Fintech互联网金融影响下,银行在监管上其实有所放松。其次,银行业有非常严格的安全性要求。由于历史原因,银行内部IT系统非常复杂,通常每家银行都有上百个系统。








中国的银行体系非常庞大,这可能跟金融行业外朋友的感知不同。这些银行包括农村信用社、农村银行、城市商业银行等,他们都有巨大的IT系统托管需求。招银云创就是服务以上这些客户。








随着银行业务的发展,之前系统托管和所服务的客户都是场地托管,系统灵活性不足。但随着互联网以及业务的发展,客户开始提出一些定制化的需求,对银行业务的开展产生巨大挑战。








互联网化的金融IT需求如何应对?客户定制化需求如何满足?金融行业云在互联网金融汹涌来袭的背景下,面临巨大挑战。有同行强调,银行要做金融的互联网,而不能由互联网来主导金融。其实,今天在金融行业的人都应该有这个想法。

招银云创PaaS平台希望将各种行业的应用放在PaaS平台上,帮助企业更快地落地。假如银行有100多个项目同时开发,对于前面提到的大多数银行来讲是不现实的,希望有一个平台能帮助企业实现快速交付。

如何才能做到快速交付?招银云创认为,只有标准化形成规模,才能够将很多东西以一种标准化的形式提供出去,同时也要满足企业未来发展的需求。容器就是一种在标准化和简单化之间找到平衡的技术。








成熟的容器正在让开发人员再也看不到IaaS

现在简单介绍一下招银云创PaaS平台的架构。对于银行来说,金融行业全部应用都是基于JAVA来开发。但现在,新的应用都要求基于Spring Cloud框架来开发,只有用Spring Cloud框架开发,放在PaaS平台上才能体现出优势。容器的管理平台现在已经比较成熟。Kubernetes在新一轮的编排工具大战中胜出,但仅仅一个Kubernetes满足不了金融PaaS的需求,容器周边还需要诸多辅助系统,从而让开发和运维人员更好地使用。







在过去的两个多月,招银云创一直在推动将自己的Spring Cloud应用迁移到PaaS平台。这次迁移团队也积累了很多经验和教训。

首先,配置管理。Spring Cloud的配置管理是用git来管理的。当把应用搬到PaaS平台上时,运维人员会向开发人员提出配置管理的要求,比如要求开发人员对配置要统一管理,不能到处放置配置文件。








开发人员很乐意接受这个建议。以往推PaaS平台时,对开发人员的工作改动量很大。现在,新的PaaS平台开发人员感受到的,不是改动多少代码,而是带来多少便利,以及给出很合理的需求。

招银云创希望在整个Spring Cloud里面配置管理,不仅可以用Git管理,而且开发自己的配置管理中心来完善PaaS平台。

日志管理向来复杂,银行的日志则会更加复杂。原因在于,日志含有大量交易信息,这些信息不仅需要保留,而且要检索。除了系统日志,还包含应用的日志,应用日志量非常庞大,甚至达到每天T级别的日志量,尤其采用微服务后。那么,这些日志应该如何处理呢?













招银云创希望日志管理简单化。对于传统的金融行业来讲,技术没有那么丰富,采用的技术眼花缭乱任何团队想完全Hold住都有压力。招银云创同时希望日志标准化,实现日志的统一管理。招银云创的应用多是自己开发,对应用的日志输出做出要求,这样整个PaaS平台能够真正用起来。

如今,监控已不像以前那么眼花缭乱,Prometheus也实现了一统江湖。加之官方的展示,基本满足招银对监控屏展示的要求。








持续集成则跟开发密切相关。以前在做OpenStack时,经常谈到怎么用OpenStack虚拟机来做持续集成,那个过程很痛苦。因为虚拟机的启动、安装、部署代价非常高,持续时间周期很长。在OpenStack上做开发,如果要跑一两个小时才能出结果,这在传统企业是根本无法接受的。采用容器的CI以后,这种局面得到彻底改观。所有的提交以及镜像发布到测试,可以做到分钟级解决。借助各种内网的源,整个镜像和发布过程很快。







对于新的PaaS平台来说,重点工作之一是通过发布管理去发布。PaaS平台偏运维,在招银云创内部,运维人员能够深切地感受到对自身带来的巨大帮助,以前纯手工的过程全部自动化完成。在过去的两个月,招银云创内部推动PaaS平台积极性最高的也是运维人员,实现了从手工到完全自动化,甚至智能化。招银云创已经做到代码一提交,马上去做镜像,然后推送到发布的一体化流程,这在以往不可想象。在没有容器之前,哪怕采用Spring Cloud开发应用,也无法发挥它的特点。







回到镜像管理,镜像管理能够看到很多方案,但对企业来说,镜像积累到一定程度,变成企业的资产,日后有可能代替电子仓库。云创镜像积累的很好,一些不同版本都能够得到快速满足,实现快速迭代,满足开发需求。







经过两个月PaaS平台的使用,运维人员感触最深的是“开发人员已经看不到IaaS平台了”。为什么这么说?以前开发人员经常要在IaaS平台里面启动各种虚拟机,来进行测试、完善。用了PaaS平台后,开发、发布、交付生产线,都已经不需要关注底层是虚拟机还是物理机,只需要关注一个PaaS平台。





  查看全部

1.png



嘉宾介绍:陈沙克,招银云创战略研究院总监,从2010年开始从事云计算相关工作,做OpenStack七年有余,目前在招银云创负责PaaS相关工作。此文为陈沙克在数人云PaaS Innovation 2017,构建灵动新IT大会上的演讲实录。

招银云创是招商银行的全资子公司,代表招商银行进行科技的输出,致力于将招行30年的经验和技术积累输出给广大金融企业,帮助同业同行快速的金融创新。

容器快速交付提高金融的互联网化

金融行业特性与其他行业在思维方式上有很大不同。

金融是强监管行业,尝试新技术面临监管的要求。那么,强监管下如何跟上变化的需要呢?这里面展开可以有很多故事。在Fintech互联网金融影响下,银行在监管上其实有所放松。其次,银行业有非常严格的安全性要求。由于历史原因,银行内部IT系统非常复杂,通常每家银行都有上百个系统。


2.png



中国的银行体系非常庞大,这可能跟金融行业外朋友的感知不同。这些银行包括农村信用社、农村银行、城市商业银行等,他们都有巨大的IT系统托管需求。招银云创就是服务以上这些客户。


3.png



随着银行业务的发展,之前系统托管和所服务的客户都是场地托管,系统灵活性不足。但随着互联网以及业务的发展,客户开始提出一些定制化的需求,对银行业务的开展产生巨大挑战。


4.png



互联网化的金融IT需求如何应对?客户定制化需求如何满足?金融行业云在互联网金融汹涌来袭的背景下,面临巨大挑战。有同行强调,银行要做金融的互联网,而不能由互联网来主导金融。其实,今天在金融行业的人都应该有这个想法。

招银云创PaaS平台希望将各种行业的应用放在PaaS平台上,帮助企业更快地落地。假如银行有100多个项目同时开发,对于前面提到的大多数银行来讲是不现实的,希望有一个平台能帮助企业实现快速交付。

如何才能做到快速交付?招银云创认为,只有标准化形成规模,才能够将很多东西以一种标准化的形式提供出去,同时也要满足企业未来发展的需求。容器就是一种在标准化和简单化之间找到平衡的技术。


5.png



成熟的容器正在让开发人员再也看不到IaaS

现在简单介绍一下招银云创PaaS平台的架构。对于银行来说,金融行业全部应用都是基于JAVA来开发。但现在,新的应用都要求基于Spring Cloud框架来开发,只有用Spring Cloud框架开发,放在PaaS平台上才能体现出优势。容器的管理平台现在已经比较成熟。Kubernetes在新一轮的编排工具大战中胜出,但仅仅一个Kubernetes满足不了金融PaaS的需求,容器周边还需要诸多辅助系统,从而让开发和运维人员更好地使用。

6.png



在过去的两个多月,招银云创一直在推动将自己的Spring Cloud应用迁移到PaaS平台。这次迁移团队也积累了很多经验和教训。

首先,配置管理。Spring Cloud的配置管理是用git来管理的。当把应用搬到PaaS平台上时,运维人员会向开发人员提出配置管理的要求,比如要求开发人员对配置要统一管理,不能到处放置配置文件。


7.png



开发人员很乐意接受这个建议。以往推PaaS平台时,对开发人员的工作改动量很大。现在,新的PaaS平台开发人员感受到的,不是改动多少代码,而是带来多少便利,以及给出很合理的需求。

招银云创希望在整个Spring Cloud里面配置管理,不仅可以用Git管理,而且开发自己的配置管理中心来完善PaaS平台。

日志管理向来复杂,银行的日志则会更加复杂。原因在于,日志含有大量交易信息,这些信息不仅需要保留,而且要检索。除了系统日志,还包含应用的日志,应用日志量非常庞大,甚至达到每天T级别的日志量,尤其采用微服务后。那么,这些日志应该如何处理呢?


8.png


9.png



招银云创希望日志管理简单化。对于传统的金融行业来讲,技术没有那么丰富,采用的技术眼花缭乱任何团队想完全Hold住都有压力。招银云创同时希望日志标准化,实现日志的统一管理。招银云创的应用多是自己开发,对应用的日志输出做出要求,这样整个PaaS平台能够真正用起来。

如今,监控已不像以前那么眼花缭乱,Prometheus也实现了一统江湖。加之官方的展示,基本满足招银对监控屏展示的要求。


10.png



持续集成则跟开发密切相关。以前在做OpenStack时,经常谈到怎么用OpenStack虚拟机来做持续集成,那个过程很痛苦。因为虚拟机的启动、安装、部署代价非常高,持续时间周期很长。在OpenStack上做开发,如果要跑一两个小时才能出结果,这在传统企业是根本无法接受的。采用容器的CI以后,这种局面得到彻底改观。所有的提交以及镜像发布到测试,可以做到分钟级解决。借助各种内网的源,整个镜像和发布过程很快。

11.png



对于新的PaaS平台来说,重点工作之一是通过发布管理去发布。PaaS平台偏运维,在招银云创内部,运维人员能够深切地感受到对自身带来的巨大帮助,以前纯手工的过程全部自动化完成。在过去的两个月,招银云创内部推动PaaS平台积极性最高的也是运维人员,实现了从手工到完全自动化,甚至智能化。招银云创已经做到代码一提交,马上去做镜像,然后推送到发布的一体化流程,这在以往不可想象。在没有容器之前,哪怕采用Spring Cloud开发应用,也无法发挥它的特点。

12.png



回到镜像管理,镜像管理能够看到很多方案,但对企业来说,镜像积累到一定程度,变成企业的资产,日后有可能代替电子仓库。云创镜像积累的很好,一些不同版本都能够得到快速满足,实现快速迭代,满足开发需求。

13.png



经过两个月PaaS平台的使用,运维人员感触最深的是“开发人员已经看不到IaaS平台了”。为什么这么说?以前开发人员经常要在IaaS平台里面启动各种虚拟机,来进行测试、完善。用了PaaS平台后,开发、发布、交付生产线,都已经不需要关注底层是虚拟机还是物理机,只需要关注一个PaaS平台。

14.png

 

微服务架构企业级增强产品:数人云推出统一配置中心Hawk

杨y 发表了文章 • 0 个评论 • 2 次浏览 • 3 小时前 • 来自相关话题

11月16日,数人云在PaaS Innovation大会上,正式发布企业应用架构管理体系EAMS,这是数人云轻量化PaaS平台的重要产品体系,也是数人云向微服务方向延伸,践行微服务落地的战略调整。传统企业对微服务应用的管理需求日益强烈,微服务也成为云计算原生应用的标准开发框架,是落地敏捷开发和部署的关键。如今,EAMS产品家族又多了一位核心成员——数人云统一配置中心Hawk。

互联网企业和传统金融等行业具有业务配置复杂,配置数据量大,配置容易出错等特点,如何能将配置数据与程序包解耦,避免对环境的依赖成为一大难点。特别是引入微服务后,业务配置数量急剧增加,出错概率也同步增加,如果能统一管控,支持多环境管理成为运维的一大难点和痛点。

基于微服务理念打造的分布式统一配置中心Hawk支持多种类型配置如Spring Cloud、Dubbo、Kubernetes Configmap、Logback、Linux Environment等等,具有完善的配置管理流程、配置实时推送、支持多集群多环境、多版本控制,更提供配置细力度的管理如灰度管理、任意版本重置等丰富功能。整个体系兼容开源社区的Spring Cloud Config以及Kubernetes的Configmap,极大降低使用者的学习门槛以及降低业务对于平台的耦合。相应的管理流程也规范了配置的使用和降低因为配置带来的发布错误等。

Hawk的主体架构








在功能方面,数人云分布式统一调度平台Hawk具备完善的企业级功能:

配置流程管理:完善的配置流程管理,确保配置下发前必须获得确认和授权。
认证与授权:提供 LDAP 集成,以及多角色权限管理。
支持操作审计:确保配置操作有据可查。
支持多种配置文件:支持Spring Cloud Config、Dubbo、Logback、Linux Environment、Nginx、Tomcat等等,并持续增加中。
支持Spring Cloud服务治理配置和管控:支持Spring Cloud自有的Hystrix的微服务治理如熔断、Fallback等等。
无缝集成 Kubernetes 的 Configmap 以及 Secrets:无缝集成 Kubernetes 的 Configmap 以及 Secrets 的配置管理,并提供增强的企业管理流程。
支持配置实时推送以及实时生效:配置变更能触发应用实时生效,避免应用重启来激活配置,从而降低服务中断的风险。
支持多版本管理:支持多版本管理,并支持历史版本的激活。
支持多配置集群、多环境配置。
优美的监控台:提供多维度 Dashboard 以及监控视图,支持配置灰度和回滚。
支持配置灰度和回滚。
支持数据全局备份和恢复:进一步提升配置数据的容灾能力
提供OpenAPI:支持多系统集成的便利手段、支持配置应急预案处理






数人云的轻量级PaaS平台,在容器平台的基础上延伸出丰富的产品线,致力于成为云时代的新PaaS,为客户快速打造互联网应用的系统和架构支持。在开发以及运维层面,分布式统一配置中心Hawk是EAMS体系的进一步增强。据悉,数人云EAMS体系下,一系列开发管理框架以及智能管理工具尚在持续研发中,以期帮助客户降低运维难度和复杂度,快速应对业务迭代,帮助客户构建敏捷IT能力。 查看全部

1.png



11月16日,数人云在PaaS Innovation大会上,正式发布企业应用架构管理体系EAMS,这是数人云轻量化PaaS平台的重要产品体系,也是数人云向微服务方向延伸,践行微服务落地的战略调整。传统企业对微服务应用的管理需求日益强烈,微服务也成为云计算原生应用的标准开发框架,是落地敏捷开发和部署的关键。如今,EAMS产品家族又多了一位核心成员——数人云统一配置中心Hawk。

互联网企业和传统金融等行业具有业务配置复杂,配置数据量大,配置容易出错等特点,如何能将配置数据与程序包解耦,避免对环境的依赖成为一大难点。特别是引入微服务后,业务配置数量急剧增加,出错概率也同步增加,如果能统一管控,支持多环境管理成为运维的一大难点和痛点。

基于微服务理念打造的分布式统一配置中心Hawk支持多种类型配置如Spring Cloud、Dubbo、Kubernetes Configmap、Logback、Linux Environment等等,具有完善的配置管理流程、配置实时推送、支持多集群多环境、多版本控制,更提供配置细力度的管理如灰度管理、任意版本重置等丰富功能。整个体系兼容开源社区的Spring Cloud Config以及Kubernetes的Configmap,极大降低使用者的学习门槛以及降低业务对于平台的耦合。相应的管理流程也规范了配置的使用和降低因为配置带来的发布错误等。

Hawk的主体架构


2.png



在功能方面,数人云分布式统一调度平台Hawk具备完善的企业级功能:

配置流程管理:完善的配置流程管理,确保配置下发前必须获得确认和授权。
认证与授权:提供 LDAP 集成,以及多角色权限管理。
支持操作审计:确保配置操作有据可查。
支持多种配置文件:支持Spring Cloud Config、Dubbo、Logback、Linux Environment、Nginx、Tomcat等等,并持续增加中。
支持Spring Cloud服务治理配置和管控:支持Spring Cloud自有的Hystrix的微服务治理如熔断、Fallback等等。
无缝集成 Kubernetes 的 Configmap 以及 Secrets:无缝集成 Kubernetes 的 Configmap 以及 Secrets 的配置管理,并提供增强的企业管理流程。
支持配置实时推送以及实时生效:配置变更能触发应用实时生效,避免应用重启来激活配置,从而降低服务中断的风险。
支持多版本管理:支持多版本管理,并支持历史版本的激活。
支持多配置集群、多环境配置。
优美的监控台:提供多维度 Dashboard 以及监控视图,支持配置灰度和回滚。
支持配置灰度和回滚。
支持数据全局备份和恢复:进一步提升配置数据的容灾能力
提供OpenAPI:支持多系统集成的便利手段、支持配置应急预案处理

3.png


数人云的轻量级PaaS平台,在容器平台的基础上延伸出丰富的产品线,致力于成为云时代的新PaaS,为客户快速打造互联网应用的系统和架构支持。在开发以及运维层面,分布式统一配置中心Hawk是EAMS体系的进一步增强。据悉,数人云EAMS体系下,一系列开发管理框架以及智能管理工具尚在持续研发中,以期帮助客户降低运维难度和复杂度,快速应对业务迭代,帮助客户构建敏捷IT能力。

大会实录|清华徐葳:人工智能让数据中心更好运维

杨y 发表了文章 • 0 个评论 • 2 次浏览 • 3 小时前 • 来自相关话题

 
嘉宾介绍:徐葳,清华大学交叉信息研究院助理院长,青年千人学者,博士生导师,UC Berkeley 计算机系 PhD,曾供职于 Google。主要方向为基础架构的监控,日志等,目前以分布式系统以及人工智能等方向为主、包括人工智能、隐私保护、反欺诈等内容。
以下为徐葳在数人云PaaS Innovation 2017,构建灵动新IT大会上的演讲实录。清华大学数据中心运维那点事儿

我(徐葳)显然是个科研人员,同时还管理很多行政事务等,但有些人“命不好”,就是系统管理员的命。所以花了很多时间去管一个IT系统,学院的机房、云平台,基本上夜里大家都睡了,还要登陆上去看看日志,该修点什么就修点什么,我这个人有个毛病,就是看不得机器坏了,看不得什么东西不行,就得马上修好。

清华有系统管理员,就如同我一样都有系统管理员病,很喜欢做系统管理,但他们都是白天上班,因为没有加班费,所以不好意思让人晚上加班,所以晚上一般都由我来管。

这个数据中心做的是人工智能,现在人工智能很热,科研领域清华做的非常前沿,这是最最聪明的应用,但是跑在最最傻的基础架构上。

因为曾经供职于Google,非常想在清华复制一套Google的架构,但这并非一两个人就能开发出来。所以,即便在Google,唯一不能用的地方就是系统运维领域,这是灯下黑,这也是本次讲演的主题叫:“数据中心与智能”。
今天给大家分享几个方面:
首先,数据中心运维,这是和百度合作的一个数据分析的事情,会给大家展示几个有意思的结果。其次,讨论下现在的新架构,Deep Learning深入学习,如何维护这个框架,怎么把数据中心改造成可以进行支持。最后,数据中心现在如此复杂,怎么能再利用一些人工智能的东西放在数据中心里帮助运维。
如何平衡硬件+软件+运维?

首先,这是和百度合作的一件事,百度有很多的机器,有个部门叫硬件运营部,他们收集了很多故障报修,各种产品线,各种不同的产品报修了硬件,硬件运维部就派人去处理一下,大部分处理的方法就是找厂商换新的。所以叫做出了问题的Ticket,几年内积累了29万个,我们可以帮助它的地方是,到底什么东西坏了,拿出来看看,什么时候报修的,大概什么故障,什么部件坏了,这里有很多结果,但因为时间关系,就不挨个赘述了。

报修了一个故障,多长时间会修?如同百度这样管理非常好的公司,报修之后多长时间会有人去处理?不是说修好它,修了不一定能够修好,但至少是去修了,该换什么就换什么,硬盘报错,坏了,就换一个硬盘。

具体时长看起来会非常奇怪:平均需要42天报完错可以修,中位数的修理时间是6.1天,其中有10%的是140天之后仍然没有修,但是没人修并不代表永远都不要这个东西了,过了200天以后仍然有人去处理它,而并没有忘记。
感觉这个时间过长,到底是因为什么?因为机器太多了?又或者系统管理员太忙了?其实未必。

因为如百度、Google这样的公司,系统架构非常容错,硬件出问题是不可避免的,它坏了,既然能容错,就像四个轱辘掉了一个还能跑,为什么要去修呢?所以逻辑是有一个超级容错的系统,在运维时对故障就没有那么敏感。从好的方面来说,可以省钱,因为一次修一个也得跑一趟,修若干个也得跑一趟,因此还不如一次批量的修。
当然硬件损坏无法避免,是否能降低一些容错的复杂性呢?大家目前越来越多的都在讨论这件事,就是三者的平衡,运维的可靠性、软件的成本、硬件的成本之间的三者平衡,现在越来越重要了。

另外,不管如何运维,运维的系统都是非常重要的,任何运维都不是登到界面上去敲几行命令,然后就派出一一件事,这个都是无法做到的,所以不管如何,系统的运维,从一个地方生成这样配置的操作,从一个地方生成的部署,都很重要。
以上讲的是硬件、软件、运维,这三个部分成本如何平衡,现在这个状态下,尤其是大规模的数据中心,有可能和过去小的企业数据中心不同。基于数人云的Docker管理环境

现在深度学习火了,每个人都想要深度学习的机器。最开始一个人要的时候,没关系,从桌面虚拟机集群拆出两台来,装上GPU,自己去用。现在这样的人多了,装了60几块GPU仍然不够,所以这种集群如何共享这60几块GPU,非常麻烦。

后面做了一个什么事情呢?找数人云做GPU虚拟化,虽然GPU支持虚拟化但太贵所以不买,买的都是消费者级别的GPU,因为便宜。当它不支持虚拟化时联合容器,所以将GPU集群上放上了Docker,又找了数人云,帮助开发一个数人云的管理系统,是基于Mesos的开源软件。同时写Mesos的人是我在伯克利的同学,因此对它的印象很好。

将来的就是这样的架构,好处是解决了一个问题,即服务封装,DeepLearning这事真的不复杂,如果你玩过,会发现很简单,其实就是找一个开源的软件框架,上面有很多模型,将其下载下来,都是开源的,这些模型甚至都是训练好的,可以跑人脸识别应用,或者跑其他的什么识别应用,虽然没有专业跑的好,但也不会太差。
但它的问题在于是基于框架,尤其在中国,版本不一样,升级版本升级的特别快,随便动一个升级,其他人都烂了,而不同人就要不同的版本,为什么,因为它下的那个模型是基于某个特定版本开发的,在别的版本上跑不出来,所以在这种情况下,大家去到无数多个配置好的镜像和环境,这个场景挺好,Docker、数人云有它的界面,将这个东西配置好,这种Docker配置的这种Docker,只有这个Docker里面用的是那种版本的东西,因为Docker是一层一层的,不用做那么多镜像,只有一点点区别没有关系,那么多借点有一点点区别,占不了那么多空间,好多镜像,各自用各自的Docker。
所以这解决了一个叫软件分发部署的问题,但有一个问题,总得有训练数据,有点什么东西在里面,完成后改了配置等等,这些东西不可能存回到那个镜像里头去,就想那怎么办呢?可能过了两个星期之后还用呢?所以就不上Docker,留着,等两个星期后再说,但两个星期后做别的项目去了,机器就卡在那里,所以这是个问题,存储它的周边结果存在哪里,是个好大的问题。
简单的方法,有OpenStack,集群上500块硬盘总是有的,挂上NFS,每台机器上面有一个Ceph的NFS,把这些东西对接好,想把这个东西存在那个上面保证安全的,关了以后重启时再挂回来,设计了这样一套存储。
那有什么问题呢?DeepLearning的模型也很大,有些人直接在上面跑,本想让它存储一个备份数据用,跑到上面做一下其实还是存在本地。

所以后来自己改造了存储的架构,做了一个开源项目Alluxio,也是伯克利实验室的一个同学做的。

Alluxio缓存非常有用,它还为Ceph和NFS适配了一个接口,还有Hadoop集群,HDFS里面也有几百块盘,将这三种东西适配城了两个借口,适合放在Docker里面,也适合放在Hadoop里面,且它加了些缓存,这样用机器人内存吸收了很多流量,上图就是大概的基本架构。

HDFS也可以支持,同时也能顺便支持Hadoop,但是如果有一些大的文件,愿意用HDFS的,就用HDFS。

有写机器内存还蛮多的,就是当年趁内存时买了一些内存,还是很有用的,可以将内容缓存住。分布式内存很有意思。用人工智能帮助数据中心运维

最后说一下很多做DeepLearning的程序,这张图片解释了一个词“复杂”,OpenStack觉得自己很干净,为什么?拿个笔都能画出来,但是这张图很复杂,复杂的原因不光是因为有这么多图,凡是看见的都是数据库,数据库是一个持久性的状态,每个组件里都有自己持久的状态,那如怎么保证一致?讨论了这么久分布式系统的一致性,它一旦跨了组件,尤其是跨了开源项目,谁也不会再说这件事。

但若组件坏了,里面还有一个复杂的结构,它一层一层的封装起来,所以什么东西坏了,你可能根本不知道,没坏的时候什么都特别好,但坏了就会很麻烦。
我是个很好的系统管理员,这点特别有信心,但是搞不定这个,因为我不是每天都在配这个,记不得这些东西到底在什么地方,随便查一个什么东西,后面的参数那么长,咱们记不住,但别人天天都在做当然可以记住。

那么,如何能动呢?我们说通过挖掘日志、系统里的状态、跑一些系统里的命令、看一些系统里的数据库,在里面找一些相关的事情,这是纯从样子上找到的,跟语义没有关系。比如ID长那样,那个ID就是ID,IP地址就是IP地址,将这些东西都找在一起,把这些关联性插在一起,就能生成知识图。

另外,为什么三台机器一起坏了,有可能用户只看到一台机器坏了,但其实另外两台也是如此,因为它坏的原因是一个物理机,要坏肯定是三台一起坏,所以都可以找到系统里的一些东西,这有多少个节点?看这个系统看三天,120台物理机不算大,待该有60多个存储的借点,120多个虚拟机的节点,大概出来的结果是几千万个状态,如上图所示,所以可以想象为什么这东西老坏。

最后总结一下,运维是个什么样的过程?刚才说到DevOps,过去的系统管理员如何适应DevOps是一个非常大的挑战,因为DevOps,运维的人是靠开发程序来自动化运维数据中心的,这是必然的趋势,听起来都对。但DevOps推广起来非常难。
DevOps想要推行,一定要把DevOps这些东西的接口配置到过去的系统管理员能懂的那些地方,基本的意思是,预生几个命令行,别说那么多分布式的东西,感觉就是几个配置文件,点点什么东西,这个接口怎么配置,是一个非常大的挑战。
以上是小数整理的徐葳教授在PaaS Innovation 2017上的演讲实录,后台回复“1116”即可下载本次大会的PPT资料。 查看全部
 
嘉宾介绍:徐葳,清华大学交叉信息研究院助理院长,青年千人学者,博士生导师,UC Berkeley 计算机系 PhD,曾供职于 Google。主要方向为基础架构的监控,日志等,目前以分布式系统以及人工智能等方向为主、包括人工智能、隐私保护、反欺诈等内容。
以下为徐葳在数人云PaaS Innovation 2017,构建灵动新IT大会上的演讲实录。清华大学数据中心运维那点事儿

我(徐葳)显然是个科研人员,同时还管理很多行政事务等,但有些人“命不好”,就是系统管理员的命。所以花了很多时间去管一个IT系统,学院的机房、云平台,基本上夜里大家都睡了,还要登陆上去看看日志,该修点什么就修点什么,我这个人有个毛病,就是看不得机器坏了,看不得什么东西不行,就得马上修好。

清华有系统管理员,就如同我一样都有系统管理员病,很喜欢做系统管理,但他们都是白天上班,因为没有加班费,所以不好意思让人晚上加班,所以晚上一般都由我来管。

这个数据中心做的是人工智能,现在人工智能很热,科研领域清华做的非常前沿,这是最最聪明的应用,但是跑在最最傻的基础架构上。

因为曾经供职于Google,非常想在清华复制一套Google的架构,但这并非一两个人就能开发出来。所以,即便在Google,唯一不能用的地方就是系统运维领域,这是灯下黑,这也是本次讲演的主题叫:“数据中心与智能”。
今天给大家分享几个方面:
  • 首先,数据中心运维,这是和百度合作的一个数据分析的事情,会给大家展示几个有意思的结果。
  • 其次,讨论下现在的新架构,Deep Learning深入学习,如何维护这个框架,怎么把数据中心改造成可以进行支持。
  • 最后,数据中心现在如此复杂,怎么能再利用一些人工智能的东西放在数据中心里帮助运维。

如何平衡硬件+软件+运维?

首先,这是和百度合作的一件事,百度有很多的机器,有个部门叫硬件运营部,他们收集了很多故障报修,各种产品线,各种不同的产品报修了硬件,硬件运维部就派人去处理一下,大部分处理的方法就是找厂商换新的。所以叫做出了问题的Ticket,几年内积累了29万个,我们可以帮助它的地方是,到底什么东西坏了,拿出来看看,什么时候报修的,大概什么故障,什么部件坏了,这里有很多结果,但因为时间关系,就不挨个赘述了。

报修了一个故障,多长时间会修?如同百度这样管理非常好的公司,报修之后多长时间会有人去处理?不是说修好它,修了不一定能够修好,但至少是去修了,该换什么就换什么,硬盘报错,坏了,就换一个硬盘。

具体时长看起来会非常奇怪:平均需要42天报完错可以修,中位数的修理时间是6.1天,其中有10%的是140天之后仍然没有修,但是没人修并不代表永远都不要这个东西了,过了200天以后仍然有人去处理它,而并没有忘记。
感觉这个时间过长,到底是因为什么?因为机器太多了?又或者系统管理员太忙了?其实未必。

因为如百度、Google这样的公司,系统架构非常容错,硬件出问题是不可避免的,它坏了,既然能容错,就像四个轱辘掉了一个还能跑,为什么要去修呢?所以逻辑是有一个超级容错的系统,在运维时对故障就没有那么敏感。从好的方面来说,可以省钱,因为一次修一个也得跑一趟,修若干个也得跑一趟,因此还不如一次批量的修。
当然硬件损坏无法避免,是否能降低一些容错的复杂性呢?大家目前越来越多的都在讨论这件事,就是三者的平衡,运维的可靠性、软件的成本、硬件的成本之间的三者平衡,现在越来越重要了。

另外,不管如何运维,运维的系统都是非常重要的,任何运维都不是登到界面上去敲几行命令,然后就派出一一件事,这个都是无法做到的,所以不管如何,系统的运维,从一个地方生成这样配置的操作,从一个地方生成的部署,都很重要。
以上讲的是硬件、软件、运维,这三个部分成本如何平衡,现在这个状态下,尤其是大规模的数据中心,有可能和过去小的企业数据中心不同。基于数人云的Docker管理环境

现在深度学习火了,每个人都想要深度学习的机器。最开始一个人要的时候,没关系,从桌面虚拟机集群拆出两台来,装上GPU,自己去用。现在这样的人多了,装了60几块GPU仍然不够,所以这种集群如何共享这60几块GPU,非常麻烦。

后面做了一个什么事情呢?找数人云做GPU虚拟化,虽然GPU支持虚拟化但太贵所以不买,买的都是消费者级别的GPU,因为便宜。当它不支持虚拟化时联合容器,所以将GPU集群上放上了Docker,又找了数人云,帮助开发一个数人云的管理系统,是基于Mesos的开源软件。同时写Mesos的人是我在伯克利的同学,因此对它的印象很好。

将来的就是这样的架构,好处是解决了一个问题,即服务封装,DeepLearning这事真的不复杂,如果你玩过,会发现很简单,其实就是找一个开源的软件框架,上面有很多模型,将其下载下来,都是开源的,这些模型甚至都是训练好的,可以跑人脸识别应用,或者跑其他的什么识别应用,虽然没有专业跑的好,但也不会太差。
但它的问题在于是基于框架,尤其在中国,版本不一样,升级版本升级的特别快,随便动一个升级,其他人都烂了,而不同人就要不同的版本,为什么,因为它下的那个模型是基于某个特定版本开发的,在别的版本上跑不出来,所以在这种情况下,大家去到无数多个配置好的镜像和环境,这个场景挺好,Docker、数人云有它的界面,将这个东西配置好,这种Docker配置的这种Docker,只有这个Docker里面用的是那种版本的东西,因为Docker是一层一层的,不用做那么多镜像,只有一点点区别没有关系,那么多借点有一点点区别,占不了那么多空间,好多镜像,各自用各自的Docker。
所以这解决了一个叫软件分发部署的问题,但有一个问题,总得有训练数据,有点什么东西在里面,完成后改了配置等等,这些东西不可能存回到那个镜像里头去,就想那怎么办呢?可能过了两个星期之后还用呢?所以就不上Docker,留着,等两个星期后再说,但两个星期后做别的项目去了,机器就卡在那里,所以这是个问题,存储它的周边结果存在哪里,是个好大的问题。
简单的方法,有OpenStack,集群上500块硬盘总是有的,挂上NFS,每台机器上面有一个Ceph的NFS,把这些东西对接好,想把这个东西存在那个上面保证安全的,关了以后重启时再挂回来,设计了这样一套存储。
那有什么问题呢?DeepLearning的模型也很大,有些人直接在上面跑,本想让它存储一个备份数据用,跑到上面做一下其实还是存在本地。

所以后来自己改造了存储的架构,做了一个开源项目Alluxio,也是伯克利实验室的一个同学做的。

Alluxio缓存非常有用,它还为Ceph和NFS适配了一个接口,还有Hadoop集群,HDFS里面也有几百块盘,将这三种东西适配城了两个借口,适合放在Docker里面,也适合放在Hadoop里面,且它加了些缓存,这样用机器人内存吸收了很多流量,上图就是大概的基本架构。

HDFS也可以支持,同时也能顺便支持Hadoop,但是如果有一些大的文件,愿意用HDFS的,就用HDFS。

有写机器内存还蛮多的,就是当年趁内存时买了一些内存,还是很有用的,可以将内容缓存住。分布式内存很有意思。用人工智能帮助数据中心运维

最后说一下很多做DeepLearning的程序,这张图片解释了一个词“复杂”,OpenStack觉得自己很干净,为什么?拿个笔都能画出来,但是这张图很复杂,复杂的原因不光是因为有这么多图,凡是看见的都是数据库,数据库是一个持久性的状态,每个组件里都有自己持久的状态,那如怎么保证一致?讨论了这么久分布式系统的一致性,它一旦跨了组件,尤其是跨了开源项目,谁也不会再说这件事。

但若组件坏了,里面还有一个复杂的结构,它一层一层的封装起来,所以什么东西坏了,你可能根本不知道,没坏的时候什么都特别好,但坏了就会很麻烦。
我是个很好的系统管理员,这点特别有信心,但是搞不定这个,因为我不是每天都在配这个,记不得这些东西到底在什么地方,随便查一个什么东西,后面的参数那么长,咱们记不住,但别人天天都在做当然可以记住。

那么,如何能动呢?我们说通过挖掘日志、系统里的状态、跑一些系统里的命令、看一些系统里的数据库,在里面找一些相关的事情,这是纯从样子上找到的,跟语义没有关系。比如ID长那样,那个ID就是ID,IP地址就是IP地址,将这些东西都找在一起,把这些关联性插在一起,就能生成知识图。

另外,为什么三台机器一起坏了,有可能用户只看到一台机器坏了,但其实另外两台也是如此,因为它坏的原因是一个物理机,要坏肯定是三台一起坏,所以都可以找到系统里的一些东西,这有多少个节点?看这个系统看三天,120台物理机不算大,待该有60多个存储的借点,120多个虚拟机的节点,大概出来的结果是几千万个状态,如上图所示,所以可以想象为什么这东西老坏。

最后总结一下,运维是个什么样的过程?刚才说到DevOps,过去的系统管理员如何适应DevOps是一个非常大的挑战,因为DevOps,运维的人是靠开发程序来自动化运维数据中心的,这是必然的趋势,听起来都对。但DevOps推广起来非常难。
DevOps想要推行,一定要把DevOps这些东西的接口配置到过去的系统管理员能懂的那些地方,基本的意思是,预生几个命令行,别说那么多分布式的东西,感觉就是几个配置文件,点点什么东西,这个接口怎么配置,是一个非常大的挑战。
以上是小数整理的徐葳教授在PaaS Innovation 2017上的演讲实录,后台回复“1116”即可下载本次大会的PPT资料。