华为希望通过端到端的整合优化,在数据的全生命周期内,让数据好用,实现每比特价值最大化、每比特成本最优化。这就是华为数据基础设施的本质和价值所在。
01启动 · 加速
时间回溯到2019年5月15日,华为北京研究所,华为面向全球发布人工智能原生数据库GaussDB和高性能OceanStor分布式存储,同时旗帜鲜明地提出,将以“数据+智能”的理念重新定义数据基础设施。
时间来到2019年9月19日,在华为全联接2019大会上,华为Cloud & AI产品与服务总裁侯金龙清晰阐述了华为计算产业战略,用一句话概括就是“一云两翼双引擎,全面拥抱开放生态”。
此刻,2019年11月19日,华为全球数据基础设施论坛正在深圳举行。面向鲲鹏计算产业,侯金龙宣布全面启动数据基础设施战略。这也是继基于“鲲鹏+昇腾”双引擎全面启航计算战略后,华为从数据角度对计算战略的再度深入诠释。
从提出数据基础设施的理念,到创新整合的数据基础设施解决方案的推出,再到通过共建生态加速数据基础设施的落地,2019年可以称为华为的数据基础设施年。
在数字经济时代,数字产业化、产业数字化加速推动实体经济与数字经济的融合,数据成为关键生产要素。数据驱动体验、数据驱动决策、数据驱动流程,数据成为一切的核心。数据是新的生产资料,算力是新的生产力,而5G、AI和云则是新的生产工具,这三者的共同作用,将有力地推动数字经济的发展。
在这样的大背景下,华为致力于打造“一云两翼双引擎”的产业布局,构筑开放的产业生态,让AI与数据基础设施深度融合,让“智能+数据”全面普惠,使能不同区域与国家、不同行业与实体更好实现可持续发展。
02数据基础设施原来是这样的
今天,越来越多的企业认识到,数据基础设施是数字经济成功的关键。正是数据“存不下、流不动、用不好”等问题促成了各行业积极构建新型数据基础设施,加速实现数据价值变现。
在本次全球数据基础设施论坛上,中国信通院与华为联合发布了《数据基础设施白皮书2019》。白皮书对数据基础设施的定义、数字应用的现状、构建数据基础设施的挑战以及未来发展趋势等进行了详细阐述。
基于“鲲鹏+昇腾”双引擎的强大算力,华为持续围绕数据构建计算、存储、智能化能力,加强研发投入和技术创新。华为数据基础设施包括数据存储、数据处理、数据管理系统、数据虚拟化引擎等,它包含以下三大特征:
融合:基于在存储、数据库、大数据等技术领域的突破,打破“存储内部系统墙”、“数据库与存储链路墙”、“大数据与存储配置墙”、“数据库与大数据协同墙”四堵墙。这四堵墙的打破,让数据融合更彻底,帮助客户实现TCO降低30%以上、据访问和处理性能提升两倍、分析效率提升100%。
智能:基于AI芯片、存储和华为云的三层架构,通过云上云下结合,云上训练和云下推理,让系统越用越快、越用越省。
开放:针对找数难、取数难、用数难的问题,推出数据虚拟化引擎HetuEngine,屏蔽数据类型差异、地域差异、语法差异,让数据治理、使用简单。
华为智能数据与存储领域总裁周跃峰指出,华为提供融合、智能、开放的数据基础设施,支持交易型、数据湖、边缘计算等不同场景,让客户和合作伙伴可以像使用数据库一样使用大数据,更简单、高效地从数据中获取价值。
业务与数据的多样性,以及所有场景、所有数据类型的处理都需要多样化且充沛的算力。只有融合的数据基础设施才能满足多样化的应用需求。基于在存储、数据库、大数据等领域的技术创新与突破,华为致力于打破数据基础设施内外存在的各种壁垒,让数据融合得更彻底。比如,通过打破存储内部壁垒,采用一套架构实现生产、分析、备份、容灾、归档的统一管理、数据平滑流动,从而减少副本冗余,降低30%以上的TCO ;再比如,通过打破存储、数据库与大数据之间的壁垒,采用存算协同、算子下移、融合分析等技术,可以实现数据的零搬迁,分析效率提升100%。
在“智能+”时代,计算将无处不在,智能也将无处不在。以数据为核心的基础设施本身必须具有足够强大的智能化功能,同时还要支持智能化的数据应用。华为创新地提出数据基础设施三层AI协同管理架构,通过云上云下结合,进行大规模的云上模型训练和云下推理。比如,依托昇腾处理器的AI能力,自动学习和识别IO流,提升Cache预取命中率,系统整体性能提升20%;再比如,依托鲲鹏处理器的多核算力,根据不同的数据类型,实时优化数据缩减算法,让TCO降低25%。结合华为云自身大规模运维运营经验,当前可以实现提前14天预测硬盘故障,提前60天预测性能瓶颈,提前365天预测容量不足,其中30%的故障可以自我修复。从芯片到软硬件系统再到云,华为将智能化融入到数据基础设施和云服务中,融会贯通。
如今,开放、开源已经成了基础架构领域最知名的标签。华为面向企业级通用服务器架构平台的操作系统EulerOS开源(开源名是openEuler),它能够支持鲲鹏处理器和容器虚拟化技术,在系统可靠性、安全性和保障性方面具有很强的竞争力。华为自研的关系型数据库GaussDB开源(开源名是openGauss),它首次将AI技术融入分布式数据库的全生命周期,实现自运维、自管理、自调优、故障自诊断和自愈,首创基于深度强化学习的自调优算法,调优性能比业界平均水平提升85%。在本次论坛上,华为再次发出开源强音:数据虚拟化引擎HetuEngine开源(开源名是河图引擎,openHetu),以实现更快、更好的业务系统对接。
华为数据虚拟化引擎HetuEngine向上可以接入海量应用,向下可以接入海量数据,通过一个标准、统一的接口,轻松解决海量业务应用与数据基础设施对接的难题。数据虚拟化引擎屏蔽了数据基础设施的复杂度,让开发者可以像使用数据库一样使用大数据,将开发效率提升2~10倍。据了解,openHetu将于2020年6月上线。华为将开源内核,开发者可以基于开源代码进行定制,包括数据源扩展、SQL执行策略等,实现应用快速对接,提升开发效率。
在云原生、大数据、人工智能、5G等的影响下,企业的工作负载越来越复杂,而混合形态的数据基础设施若想统一高效地管理和调度也绝非易事,更何况还要让数据基础设施与业务应用进行无缝对接,可谓难上加难。HetuEngine的使命就是让数据基础设施与业务应用的对接更加简单,通过统一SQL接口、数据全域共享、数据零搬迁和完整的数据开放保护能力,打造“一个入口、一个目录、一份数据、统一安全”的平台,从而实现数据应用开发效率的提升、数据秒级获取、数据实时处理,以及数据应用可信。
服务器操作系统开源、数据库开源、数据虚拟化引擎开源,华为针对数据基础设施的这套开源组合拳,目标明确,就是简化数据基础设施的构建与部署;路径清晰,通过开源开放的方式,联合数据基础设施领域的各路合作伙伴,互惠共赢,共同推动数据基础设施的创新与发展;措施有利,依靠鲲鹏智能数据产业联盟旗下的数据库、大数据、智能边缘等几个产业推进组,分工合作,由点及面,积小赢为大胜,从数据库、大数据、智能边缘等不同层面和领域不断夯实数据基础设施。
03“数据+智能”是主脉络
对于企业数字化转型和新型数据基础设施的打造,不同行业的用户也有自己的独特体验和深刻洞察。
招商银行与华为成立了联合创新实验室,主要在华为GaussDB数据库,以及基于华为鲲鹏计算平台打造容器平台等方面进行深入合作。展望未来,招商银行信息技术部总经理周天虹指出,整体软件架构向云转型、微服务化、平台化和开放化将是招商银行实现数字化转型的主攻方向。
广东省机场管理集团致力于打造全流程智慧机场服务。从2014年开始,广东省机场管理集团开始落地其数字化规划,建立了包括服务云、管理云和生产云在内的“三朵云”,实现了跨单位、跨部门的数据共享。接下来,广东省机场管理集团还将继续加强数据深度融合,将其管理的现实世界中的6个机场变成数字世界中的“一个机场”。在数字化的过程中,广东省机场管理集团与包括华为在内的多家厂商进行了合作。
深圳市打造数字政府,核心在政务,难点在资源共享。以前,业务和应用的“烟囱”、数据孤岛导致了数据碎片化,也是造成行政效率低下的主要原因。今天,深圳市是政务信息共享国家示范市,它在解决数据共享问题时,从制度、平台开发和促进应用三个方面入手,建立了深圳市政务大数据中心,以及两地三中心容灾系统,让数据融合有蓝图所依、数据融合更具客观性,实现了秒批秒办、一站式创业创新等。
成立26年的金蝶公司,每天超过8000万用户在使用金蝶的产品和云服务。2014年,金蝶从一家传统软件公司向云转型,当前金蝶云苍穹PaaS平台、EAS Cloud等都运行在华为云上。近几年,借助云平台,金蝶服务了大量各种规模的客户。金蝶集团董事会主席兼CEO徐少春深有感触,“数据+智能”是企业数字化转型之道,而思维模式的转变是最难的。把笔记本电脑、服务器、办公室甚至ERP都砸了的徐少春,正带领金蝶“化茧成蝶”,成为一家云服务公司。
《数据基础设施白皮书2019》指出,数据基础设施应具备融合、协同、智能、安全、开放5大特征,以帮助企业实现存储智能化、管理简单化和数据价值最大化。华为数据基础设施主要包含数据存储、数据处理、数据管理系统和数据虚拟化引擎等,其特征可以归纳为六个字——“融合、智能、开放”。其实,这不仅仅适用于华为的数据基础设施,也是整个数据基础设施行业未来发展的主要方向。
我们必须清醒地认识到,企业向数据驱动型企业转型的过程不会一蹴而就,随着企业在每个阶段对自身数据认知的不断加深,对数据基础设施的要求也会逐步增加。不断成长的数据基础设施,需要依靠开放的产业生态来推动,更需要在各种不同的场景实践中不断打磨和提升自己。
让人备感兴奋的是,数据基础设施不仅仅是一幅蓝图,而是已经“动起来了”。
(审核编辑: 林静)