【链世纪对话系列No.9】浪潮存储资深架构师叶毓睿:浪潮如何助力分布式云存储数据中心快速发展?
分布式存储在数字时代越发重要,关于分布式存储的技术、产品、应用场景,成为分布式存储产业链参与者争相学习与参与的对象。链世纪财经针对分布式存储领域的发展,特推出《链世纪对话分布式存储》专题栏目,与广大从业者共同见证分布式存储的快速发展。
3月24日下午,由链世纪财经和浪潮主办,BTRAC全球数字网络高等智库、聚英国际、科烛焦谈和Ever链动联合主办的《链世纪财经对话分布式存储No.9-浪潮如何助力分布式存储数据中心快速发展》线上AMA如期举办,本次活动特别邀请到了浪潮存储资深架构师叶毓睿老师做客链世纪直播间为大家解读分布式存储数据中心热点话题,共同探索分布式云存储数据中心的技术发展和商业机遇。
同时,本次活动在金色财经和50余家社区同步直播,覆盖10万余人,由布洛克科技、Cointelegraph、星际视界、鸵鸟区块链、八宝饭五家业界优秀媒体和金色财经、火星财经、币世界、41财经、链叨叨等50余家区块链知名媒体倾情传播。话不多说,让我们一起看看有哪些干货吧!
精彩内容呈现
特邀嘉宾:Peter Ye(叶毓睿)
浪潮存储资深架构师、区块链存储概念首倡者、《软件定义存储:原理,实践与生态》作者、《VMware软件定义存储:原理剖析和设计指南》译者。
主持人:Christina(焦仕可)
链世纪财经CEO、BTRAC全球数字网络高等智库合伙人、亚洲区块链学会西北分会长、链世纪对话系列的主持人。撰写了《2020分布式存储产业链研究报告》和《分布式存储,未来存储的刚需》专题报告。研究领域:分布式存储、区块链、IPFS。
主持人焦仕可:【问题一】浪潮为何看好IPFS分布式云存储这个领域?
叶毓睿老师:先介绍一下浪潮。浪潮致力于成为云计算,大数据领导厂商,已经形成涵盖IaaS,PaaS,SaaS三个层面的云服务解决方案能力,凭借浪潮高端服务器,海量存储,云操作系统,信息安全技术为客户打造领先的云计算基础架构平台。浪潮是科技部首批认定的创新型企业,拥有IT领域重点实验室——浪潮高效能服务器和存储技术重点实验室,以及亚太地区最大最先进的柔性服务器生产线和研究中心。
根据IDC公布的2020年中国企业级存储市场跟踪报告,浪潮存储全年出货量中国第二,同比增长95.7%,二十倍于市场增速,稳居中国市场增速第一。浪潮存储坚持“云存智用 运筹新数据”核心理念,布局分布式存储和全闪存储两大新存储平台,聚焦业界首个“多合一”极简架构和iTurbo智能加速引擎技术实现七大极致能力,为用户带来“安全可靠、经济高效、易用易管”的存储平台。
浪潮存储分布式存储提供业界唯一以“一套架构承载多种数据服务”的极简架构,在Gartner全球分布式存储客户之选报告中用户评分全球第一,并在中国移动NFV、全球最大天文望远镜FAST、清华大学活脑成像、中山大学精准医学、方特动漫3D电影制作、中南医院影像大数据等项目提供数据服务。
再简单介绍一下IPFS。IPFS是Inter Planetary File System,也就是星际文件系统。它是由斯坦福出来的一群计算机爱好者组建的协议实验室开发的一个项目,最早的时间可以追溯到2014年。它是要打造一个类似于和HTTP协议完全不同的,新一代的,点对点的分布式文件存储系统。
这样的一个存储系统,它具有和中心化HTTP方式完全不同的一些特点。比如说HTTP也就是 Web网站,是中心化的模式。在面对成万上亿访问量的时候,首先,压力会很大。
第二,如果有一些恶意的DDos攻击时,Web服务器是很容易遭受巨大压力。
第三,中心化还有隐私数据泄露的风险,例如FaceBook 剑桥分析事件影响了美国总统竞选。
第四、从效率的角度,IPFS这种点对点,以及就近访问的方式能够提升响应速度。比如说我们用动物界的蜂群来做一个比喻,蜂群中没有强制的中心控制,当中有三五个出了问题,不会影响整个蜂群的路线。同样的,在IPFS里由几十个节点甚至上百个节点构建一个分布式文件存储系统,如果其中某几个节点出了问题,由于点对点的特性,它会有很强的自愈能力。
IPFS也是一种分布式存储,或者说是广义的软件定义存储。软件定义存储分成三个步骤,第一是抽象,第二是池化,第三是自动化。实际上IPFS就相当于第二个步骤池化这里。它这个池从原来的一个数据中心机房,延展到了可以跨城市、跨洲际,相当于跨全球的存储池,是一个更广义的分布式文件存储。
从IDC数据宇宙统计来看,非结构化数据的增长比摩尔定律还要高,每18个月新增的数据量是过去所有数据量的总和。在工业界,硬盘介质的生产实际上是跟不上数据膨胀的速度的,这种情况下,如果我们希望把这些数据存放起来,必然要采用一些手段,比如去重、压缩等。另外还要做一些尽可能利用剩余存储空间的手段。这些恰恰给了IPFS这样一种广义的分布式存储一个非常好的机会。
区块链现在正在如火如荼的发展,其IT基础设施也应该逐渐完备起来。区块链IT基础设施中很重要的一环就是区块链存储,实际上IPFS就是区块链存储的一个明星项目。我们关注到的有一些用户,不管是在公有链的用户,或者联盟链的用户,也在考虑利用IPFS去存放数据。链上数据是在一个点对点的,或者是一个多中心化的方式存在的,如果我们要做到一个端到端的中心化方式,实际上也要求底下数据的存放,也是一个多中心化的。不能因为有一个中心化的个体或者组织的管控,导致一些数据丢失或者泄露。
IPFS及其激励层也为人类探索更大规模,更细颗粒度的IT基础设施共享开辟了新的道路。例如,IPFS及其激励层,所蕴含的一种新的共享哲学,三权分置,类似Airbnb、滴滴顺风车。三权分别指所有权、运营权(或叫经营权)和使用权。运营权指的是,运维、管理、升级等权利。早先时候,业务用户的IT部门是成本中心,不是利润中心,因此所有权和运营权大多数都是二合一,不需要分得那么清楚。
云计算出现之前,例如企业的数据中心,或机房,所有权、运营权和使用权是紧紧地耦合在一起的。云计算出现之后,实现了部分系统所有权和使用权的分离。假设业务用户除了IaaS,其他软件都是它自己购买并部署的。当然有不少情况并非如此,比如用户直接使用SaaS。为了讨论简便,这里忽略细微差异,抓住主要矛盾。例如淘宝数据魔方,它把许许多多业务用户的数据进行抓取、整合并分析。从提高生产力的角度来看,虽然做为业务用户的你可能感觉不舒服或者无奈,但似乎也合情合理。例如:你个人的网上数据画像,对你个人用处不大,但成千上万的人的数据汇总分析后就非常有价值了,例如出分析报告,影响生产端;再如精准营销。早期,FaceBook或者其他互联网巨头的用户,其实有点吃亏,让渡了隐私权,个人数据被平台方(FaceBook)使用,但并未得到回报。
构建区块链基础设施(其实就是一种去中心化的云,结合激励机制,以三权分置的方式促进人类资源的极大共享)的计算、网络、存储都是由散落在全球各地的建设者搭建而成的。以区块链存储(这里指公链,跨全球的存储结合激励)的明星项目IPFS及其激励层为例,业务数据的存储空间(对于硬件系统)是很难被窥探和操控的。因为,当业务数据准备使用区块链存储空间的时候,通常会进行加密和分片,这些分片占据了不同节点的存储空间,即使是区块链公链项目方也无法一窥全貌,更无法操控这些数据了。只有用户自己,通过私钥,才能访问存储空间,获取整个数据集合。好的区块链项目,是可以尽其所能保护业务用户对业务数据的拥有、管理和使用,极大提高了数据的隐私性。
具有重大意义的进步是,继所有权和使用权相分离后;为业务用户提供基础设施服务的这一方,也即区块链项目方,运营权和所有权也分离了。无论是硬件系统,还是软件系统(公链),区块链项目方没有所有权了,只有运营权!因为区块链公链提倡代码开源、无需许可即可加入到网络里,使得这一体系具有极大的公信力,换句话说人们不担心里面有猫腻。这也是可信互联网这个称呼的原因。其软件系统的更改和迭代,需要多方认可,包括开发人员、用户社区、矿场矿工。例子:想想为何区块链激励机制里会分叉?运营它,并不一定要所有权,会让地球上的资源尽可能的优化配置。物理世界里已经有很多成功案例,例如Airbnb、 滴滴顺风车等。
1、在物理世界里,随着人口的不断增加,物质的不断丰富(物品的丰富,降低了人怕失去物品的危机感),使用但不必拥有某个物品,这里的使用包含部分使用或者使用部分(前者如分时间使用的共享单车,后者如分空间使用的共享办公),逐渐变得更为合理;
2、在数字世界里,同一份数据,以及软件系统可以被多人使用,除了具有鲜明个性特点和创新的知识产权(专利、设计、想占领高地的思想等),追求使用权而不是所有权,才能物尽其用;
3、从心理上分析,当区块链项目方操控得越少,使用方对你的信任可能会越多,尤其是这份信任背后有数学或者算法的加持;众所周知,数学是不同国家不同民族不同文化普遍认可的真理,是具有最大共识的一种信用;
4、厉害的平台,就是通过更好的算法,更好的运营,以宽阔的胸襟吸引万物来此生长。如此才能汇聚更多的需求方(如DApp),更多的供给方(如区块链基础设施相关的矿工矿机),继而最大限度的实现供需资源的匹配。这有点类似姚前提出的算法经济。
浪潮看好这一趋势,以及在这个趋势中涌现出的优秀代表如IPFS及其激励层。总结一下,基于浪潮对企业级存储技术的专业化研究,IPFS的技术优势和分布式存储趋势,我们认为未来的发展前景非常广阔。
主持人焦仕可:【问题二】从技术角度看,现在分布式云存储数据中心面临什么样的挑战?
叶毓睿老师:
对于挑战可以主要总结为以下两点:
1. 对存储设施的稳定性和可靠性要求极高。现在分布式云存储,实际上相当于一个存储基础设施。它上面所存放的就是银行的数据资产,大家知道数据资产是很重要的数据,不能出现丢失,数据丢了就意味着资产的丢失。所以对于稳定性和可靠性是要求极高的。
2.对存储可扩展性和数据管理要求极高。数据资产以及它的承载体是随着时间变化进行不断扩展的,比如说裸容量或者说数据量的扩展。
在这个过程中,势必带来两个问题:
第一个问题,是存储的扩展性,它是不是很容易去扩展?扩展的过程中,对业务的影响的情况如何?第二个问题,当数据达到一定量的时候,数据的管理就会变得非常复杂。是不是有一些比较方便,容易监控的管理方式?
我们注意到,IPFS激励层网络每天新增30PB,每天消耗近2000块16TB硬盘。这在传统To B领域不可想象。因此过段时间后,服务商会发现如此大的存储容量,运维管理是很大的挑战!这些实际上都是在分布式云存储数据中心所面临的比较重要的挑战。
主持人焦仕可:【问题三】浪潮在分布式云存储数据中心的技术解决方案上做了哪些创新?如何提升行业参与者的竞争力?
叶毓睿老师:
浪潮存储观察到两个趋势:
1. 组装机往品牌机发展。
2. 软硬件分离朝软硬件一体机发展。
(1)从数据资产安全角度来看:早期,一些方案商以往用组装机的方式来构建方案,很多组件是不同品牌厂商拼在一起的,不是同一品牌的。但随着大家逐渐意识到数据资产的重要性,尤其是某一个存储节点出了问题,或者某个硬件出了问题,就会导致数据资产的巨大损失。而这个损失甚至是比购买一台存储设备的成本还要高出很多倍。这就使得这些方案商开始逐渐考虑从组装机往品牌机的发展。因为售后服务、备件供应、协调不同公司的工程师运维都是挑战。
(2)从技术发展和运维经验的角度来看,大家开始意识到品牌机的重要性。比如说像浪潮存储AS13000-M60,它是4U60个盘位的。我们知道头部互联网行业都大量采用这种架构的,这就意味着浪潮这个品牌机的高质量、高可靠,且经过了市场的打磨和头部客户的充分认可。我们再进一步看浪潮存储,尤其是浪潮分布式存储已经积累了有上千个用户,其中有很多是属于数据量非常大的,比如说在某些资源卫星、中国FAST天眼,积累了数十个PB,甚至有些是数百个PB,已经经过了海量数据的考验和挑战。
(3)面对海量数据量,我们也给用户提供了便捷运维的管理方式。所以我们能够帮助用户很好的解决以往组装机对稳定性和可靠性的担忧。
(4)软硬一体机的趋势:不同品牌的存储软硬件搭配,带来了一定的方便,比如说选择的灵活性,也带来了一定的隐患。存储软、硬件的适配要兼顾很多方面,比如SSD、HDD、网卡、操作系统、各种组件,每一种组件都可能有不同的微码版本,因此软件和硬件适配的组合有可能在成千上万种,纯软件的方式很难有余力去把每一种组合都去做测试。而软硬一体就可以很好的解决这个问题,很好的保障稳定性和可靠性。举一个简单的例子,中国移动在过去的三到四年里纯软的采购的份额,从最早高达25%,逐渐较低到12-13%左右,最后到个位数百分比。我们可以看到,分布式存储解决方案提供商,也必定会由软硬件分离朝软硬一体机的方向发展。
主持人焦仕可:【问题四】近日,关于分布式云存储集群扩容问题,受到行业从业者的关注,浪潮如何从技术上为从业者提供新思路?
叶毓睿老师:
首先,需要有很好的扩容支持,也就是说IPFS激励层底下的承载体本身有一个很强的扩容能力。我们的浪潮分布式存储,AS13000能支持数千个节点的集群,而且我们在已经部署的用户当中,也有上百个节点的集群。
第二,扩容中数据重构的良好。在扩容过程中,因为上面运行的业务是不中断的,时时刻刻会有一些数据的写入和读出,用户自然希望对业务的影响比较小,我们提供了一个统一命名空间的增加扩容方案。本质上来讲,就是一个目录可以跨域扩容。它是什么概念呢?比如说原来我挂载了一个文件夹是ABC,这是一个旧的存储池。那么当我需要再扩容的时候,传统情况下,旧存储池再去增加一些节点,可能会在某种情况下引起数据的重构,对业务就会有一些影响。当然我们也提供这种选择。在此之外,我们还多了一个选择,用户新增加的这个节点,是另外一个池,我们新增加了一个功能可以实现一个目录如ABC,进行跨池。也就是说原来的挂载体,在用户那一层是不需要去调整的,可以直接把目录所对应的存储空间进行扩容增加。这样的话,就给用户提供了一个很方便的扩容方式。
第三、我们的服务商在构建分布式云存储的时候,不只一个集群,可能有多个集群,运维管理会有一定的挑战。我们有一个软件叫做Inview智能存储管理软件,如果你买了浪潮存储系统,这个Inview几乎免费赠送。这个管理软件非常强大,它能够以单点登陆的方式,比如说一个地址,一个用户名密码,登陆进去以后,可以管理多套分布式存储集群,甚至可以把集中式存储加进去同一管理。我们会有一个概览页面,能够看到总体存储情况,包括每一个存储集群、盘的使用情况、节点情况、故障情况、裸容量以及已使用容量等等,很方便的以大屏展示的方式去呈现。研发这个软件团队的核心骨干在参加2020年阿里天池大赛(全球有1400多个团队)中,获得了第四名的优异成绩。使用这个软件,如果用户希望做一些更细致的管理,这个时候可以去点某一个集群的标签。它会以一个新标签页的方式去观察某个集群的实际情况,做更详细的管控和管理,而不需要再登陆。所以,这些都使得分布式云存储的集群扩容会更加的简便、容易操作。
主持人焦仕可:【问题五】相比起市场上的解决方案提供商,浪潮存储在分布式云存储数据中心的独特优势是什么?
叶毓睿老师:
首先,从自研创新的能力。浪潮存储是国内前列的,具备非常完备的存储自研体系,包括芯片级部件、软件栈到整机的整体研发能力。我们有近千人的研发团队,能够去根据算法的调整进行优化创新,研发出更合适的软硬件方案。
第二,浪潮已经连续多年服务全球互联网、云计算厂商,我们硬件、软件具备很高的品质,能够保障极致的稳定性和可靠性。
第三,浪潮有完备的备件库,在全球各地城市也有运维工程师。一旦出现问题,可以在更快时间内去做出响应。还有一点就是在分布式云存储里面,最终用户突然想增加更多的节点或集群,那么对供应链会有非常挑战的要求,需要在很短的时间内满足供应链需求。浪潮连续多年在中国服务器排第一,甚至在全球都能排到前二、前三,浪潮存储在2020年也跃居中国前二,对于这样一个大型IT厂商来讲,供应链建设会比较充分和完善。
前面,我们从自研能力,从经过市场考验的高品质,从备件库以及备件工程师的分布,还有从供应链的完整性,我们做了一些分享。除此之外,从硬件的角度,我们提供AS13000-M60 4U60盘位的分布式存储高密节点,机柜深度只有80厘米,这样的话标准机柜就能够放得下。对于用户来说,在IDC数据中心就能够节省空间,因为这个费用也是比较昂贵的。浪潮通过业内独有的4U60高密分布式存储节点,相比于传统的4U36机型,单盘平均功耗下降13%,空间利用率提升66%,并提供13类部件的热维护,显著提高运维效率,降低成本。
所以整体来讲,浪潮存储具备自研创新能力,具备软件、硬件、供应链、备件库能力,还有整个存储解决方案能力。
自由问答环节:
Q1:IPFS对存储有什么特别的性能要求吗?
叶毓睿老师:整个IPFS激励层 最核心的概念莫过于复制证明和时空证明了,事实证明,这也是这个系统难点所在,根据 IPFS激励层 测试网络的测试结果来看,如何快速生成有效的复制证明和时空证明,将是整个项目最大的挑战。浪潮将这些难点总结为三大IO特征场景;
第一,sealing大文件大带宽的封装写入;
第二,windowpost针对所有sector的随机读抽查;
第三,wining post出块权,针对赢的sector进行检验。
在windowpost阶段,需要在一天的48个窗口内,对所有的partition进行随机抽查,并且在规定的时间内提交完成,对存储读取的要求,通常需要在3-4分钟内完成。集群总容量3.5PB以内,每个partition有2349个sector需要进行随机检查,而随着集群规模的继续增大,每个partition所含有的sector也会进行增长,每增加3.5PB容量,单partition会增加2349个sector,而对要求提交的时间却仍然为3-4分钟,故大规模存储集群下,windowpost的随机读压力对存储也是有极高的挑战。
在sector sealing阶段,因IPFS庞大的数据封装写入,有大带宽的写入需求,每个文件大小为32G,业内优化比较好的厂商和浪潮合作的厂商能实现单worker每日封装2TB-6TB,而每个存储集群可接入几十上百个worker,故整体对存储集群的大文件顺序写入有极高的要求。
Q2:浪潮存储能否保障IPFS的长久稳定运行?
叶毓睿老师:具体来说:浪潮分布式存储在底层硬件上采用通用的X86服务器,但在firmware上进行了独特的加固处理,优化异常情况的处理,降低异常处理风险。同时,在生产上,通过独特的筛盘机制,从成千上万块硬盘中,筛选出最符合要求的硬盘,用于分布式存储的部件,大幅降低机械硬盘的故障率。
除此之外,在软件上,通过纠删码、RAS架构、慢盘检测等技术,大幅提升系统可靠性,已累计部署超1000套,经受过市场的检验,并在金融、能源、通信等核心领域广泛应用。在IPFS业内也与一些区块链头部厂商有合作,可满足IPFS场景下的存储需求,方案成熟稳定。同时针对IPFS客户,浪潮免费赠送InView智能管理平台,实现多套存储集群的统一监控管理,支持历史性能统计、磁盘故障预测、性能趋势预测、容量趋势预测等功能,并能提供北向API接口被集成。大幅提升客户的易用性,并降低运维成本。
Q3:浪潮如何提供极致性价比的IPFS存储解决方案?
叶毓睿老师:浪潮针对IPFS IO模型独特优化和设计后,形成了差异化领先的IPFS存储解决方案,为客户提供更具性价比的方案,在保证性能满足的情况下,借助极致的性能技术,极限优化配置,降低不必要的CPU、内存、SSD、导轨等开销,并提供业内领先的大比例纠删来提高整体的出盘率,从而提升单位容量的性价比,综合成本每TB下降10%-20%。
此外浪潮通过业内独有的4U60高密分布式存储节点,相比于传统的4U36机型,单盘平均功耗下降13%,空间利用率提升66%,并提供13类部件的热维护,显著提高运维效率,降低成本。
(感谢以上媒体的大力支持)
本期到这儿就告一段落啦,我们下一期再会!
【聚链财经版权及免责声明】本文仅代表作者本人观点,与聚链财经立场无关。本站所有内容不构成投资建议,币市有风险、投资请慎重。如需转载文章,请注明来源聚链财经(www.juliancaijing.com)及作者姓名,违者必究。