
Data Domain高级架构师刘文中
各位大家好,我是Data Domain的柳文中,我非常感谢金融时报还有埃普威公司能给我们这个机会,跟中国金融业用户和行业内的专家们进行交流,我的演讲的题目是金融企业国际化数据保护的基石--Data? Domain的重复数据删除技术。我大概要讲的内容也是比较简单,第一个就是磁带备份,我们回顾一下磁带备份会有什么样的它的历史、及其问题等等。第二个就是什么是重复数据删除,那么这个概念可能国内已经有了一段时间,有很多人在讲,究竟什么是重复数据删除?希望能有一个比较清晰的一个解答。第三个就是说,在评估重复数据删除的方案上面,我们从哪几个方面来看,怎么样看一个重复数据删除的技术,它是好的还是一般的还是差的,等等,还是说怎么样,能不能适应我们的实际情况。第四个就是Data? Domain,我们的重复数据删除是什么样?那么最后会有一个小节。
对于这个异地容灾入库的现状,这个题目就是说,大家去过美国的可能知道,美国大多数州的它的高速公路的限速都是65迈每小时,但是如果要是卡车带拖车的话,这个限速的话就是55迈,就是不是所有的车都是这个限速,那么它的意思就是说,现在绝大多数做这个异地数据复制或者入库的这个解决方法的做法,都是在用磁带来做,就是说磁带现在目前来讲还是做异地入库的一个主要的解决方法,现在在备份这个领域里面用磁盘备份已经是有很多了,大家都知道磁盘备份,那么磁盘备份,用现场备份还可以,但是在异地为什么现在就是没有这么普遍,这是为什么呢?就是说在统计里面,90%的磁带的恢复都不能百分之百地满足你所要达到的这个恢复目的,并不是说都恢复不了,但是这有可能就是说恢复的时间比你要求的要长,或者说是所要操作的问题就是你没有意料到的。
关于磁带备份,它所带来的问题包括它的物理操作、人员,还有可靠性,包括前面IBM的同行讲的一些备份的问题,这些都是存在的,我们的看法也都是一致的,没有什么异议。还有作为磁带来讲,用户要不断地购买磁带,这个磁带首先就是容量在不断地增加,再一个就是磁带的老化是比必一般的电子介质要快,这些都是一些实际的问题。那么还有就是对IT工作人员的工作量的要求,这也都是很高,你就是对他的这个智力要求并不一定很高,但是对体力要求比较高。
那么现在,美国一个很权威的一个关于存储的一个杂志(Storage Magazine),他们有一个统计的结果,就是在现在全部的异地容灾用户当中只有15%的做法是采用网络的异地容灾,剩下85%都是基于磁带的,我不知道大家听没听到几个故事。有一个很大的IT公司,我不说名字了,大概是在去年的时候,他们一卡车磁带丢了,包括他们员工,包括他们曾经的员工的社会安全号和他们的雇佣记录都在里面,所以他们就给他们所有涉及到的人都要发一封信告诉他们,对不起我丢了你们的记录,如果有什么问题告诉我们,就包括在我们公司的一些员工,他们是十年前这个公司的雇员,那么现在这个情况还在出现。那么还有就是跟金融有关的就是美洲银行在几年前也出现过这个情况,这个是报纸上登的,这个我可以说名字。
那么既然磁带有这么多的缺陷,为什么现在它还在起着一个非常主力的作用,为什么大家不换掉它,大家已经听到了,磁带总会要消亡的,这个话十年前就有人在讲,为什么到今天来讲还是存在?其实原因就像这个图上大家都已经看到了,原因是备份的数据量太大,因为你应用的数据就像冰山的一角,但是你备份的这个容量必须能浮起这个冰山水面上的部分,下面的那个大的空间,这个是你实际需要的备份的数据量,那么数据太大,你只有把成本降下来,只有采取别的办法。
为什么使用磁带呢?是因为这个原因了,就是说在我们衡量一个存储的价值的话,都是按照每TB多少价钱来衡量对吧?那么最好能达到跟磁带同样的水平,这样的话你才有可能取代磁带的技术。那么对于异地复制,问题在哪里?就是带宽的问题,带宽是很贵的,我们是有没有必要就是说,用花这个代价来做这样的一个异地复制的安全保证,这就看用户自己怎么来判断这个事情。备份就像保险一样,你有一辆车,你这个车值15万,你不可能再花15万去配这个保险,你可能希望这个保险是3000、2000这是合理的,要说10万这肯定是不合理的,就是说你怎么来配?
那么对于日益增长的这个异地入库的这个暂时的解决办法,我们讲刚才看那个冰山的话,就是说由于最近几年,我们对备份的要求越来越高,有很多新的名词也出现了,比如说复制,那么复制的话我们在这里讲的是通常意义下的复制,还有就是广域文件系统VTL,那么这些东西我们认为它都是一些暂时的解决方法。这个为什么说呢?比如说这个复制,这个复制跟它所对应的资源,就是说带宽就回到我们刚才那个话题,就是保险的概念,你想花多少钱来做这个复制,你想要做到很高的话这个价钱就上去了,就像保险一样。那么它对于数据量足够小还可以,如果你的数据量要达到一定程度的话,同样也有带宽的问题,另外一个问题就是技术的问题能不能做到,你要达到TB级别的话它还可以不可以做。
那么VTL大家可能更容易理解了,VTL你可以解决本地的备份问题,但是你作为这个远程的容灾的复制,VTL不能解决这个问题。所以呢就是说,我们要是用磁带,用卡车的这种概念来做容灾的话那是不可取的。那么假如说我们要有一种方法能把数据量减下来,做到足够小,那么我们就可以想象应该是怎么样,就可以发生什么样的情况?所以数据的传输的话应该是在网络上,应该是电子介质上,而不是物理介质上,不应该再用磁带来运送数据,这肯定是不好的,今天因特网时代,我们不可能用磁带来运送数据。那么磁带呢就是说,它是应该做这种数据集中或者永久存放,这是磁带的功能,并不是说磁带一点儿用处没有,这是它的用处。那么数据应该是在线的,而且这个容灾应该是自动的,而不是人工的。数据移动的路线应该是在主存储移动到近线存储,然后再移动到异地,这个应该是磁带在整个的过程当中,它移动的路径应该是这个样子。
那么采用的这个技术应该是基于计算机技术的,而不是物理技术,不是卡车、不是人工。那么过程呢必须是可靠、安全,而且最好是要做到跟它的存储数据是同样地可靠和安全,而且还可得。那么一旦这个数据,这个备份的数据量下来以后,我们就可以想象,对于带宽的要求没有那么高的话,这种异地的在线的这种数据容灾我们就可以实现。那么重复数据删除,实际上就是基于这样一个背景来产生的,而且现在已经是形成了一个市场,那么它所做到的就是说数据是存放这个磁盘上快速恢复,而不是存放在磁带上那种慢速恢复,在磁盘上保存的数据要达到足够的时间长,也就是说要达到他那个用户的SLA,而不是说仅仅是因为采用了磁盘,而把这个保存的时间给缩短了,不应该是出现这种情况,保存的增量备份和全量备份,而且所用的这个空间呢,比你使用,比你通常的增量备份所耗的物理空间应该还要小,这是重复数据删除的目的,通过减少物理空间的这个占用,那么磁盘备份D2D造价应该相当于磁带,我刚才也有介绍过,这个造价要下来,而不是说像买保险一样,保险的价格跟你车的价值一样或者是差不多,这应该是不对的。那么自动的异地容灾,这个异地容灾应该是自动的,减少带宽的需求,降低容灾的成本,这就是说的磁盘备份和这个存储的备份,它的不同的地方是在这个地方。
那么对于Data? Domain或者其他厂家提供的这个重复数据删除的这个技术,这是一个简单的示意图,我们以Data? Domain的这个重复数据删除为例,那么最左边就是说我们看到了,我先介绍一下架构。从上往下看,从备份软件或者说备份服务器看来,往那个重复数据删除的设备看,那么他看到的是普通的文件系统或者是VTL,这个VTL就不是传统的VTL,那么数据流自上往下是到了备份设备里面。是有它的方式,我们在下角看到的那个,是做重复数据删除的一个数据参考基值。在右下角我们看一下图表的示意,那个红的是数据重复删除之前的原始的用户数据,那个第二个黄的是重复的数据,最下边那个蓝的就是已经压缩过以后的数据,重复数据删除的这个做法就是说,像我们看的第一个,最左边的全备份,就是第一次全备份,会对设备进行分块,这是一个示意了,然后呢在这些数据块中间找它的重复性,举一个例子就是中间的第一个A就是重复的,所以这里面第二个A就跟第一个A是重复的,它就不再存放。之后的这个增量备份它的数据进来以后还做同样的处理,那么AB跟前一次的备份会有重复,那么它也会不再存储,那么同样的话它和最后第二次的全备份,第二次全面备份我们看到,它所重复的数据块就已经很多了,这个是一个很简单的一个重复数据删除技术的一个示意。
那么所要达到的这个要求,最好是做到左下角这些,第一个是与应用无关,就是说我来的数据类型应该是无所谓的,什么样的数据我应该都能做,不能说有的数据能做有的数据不能做,或者说有的数据好、有的数据坏,这个是不是太好的。第二个是与通信协议无关,就是说你是普通文件系统进来的数据也好,VTL进来的数据也好,应该不分你我的,应该都是可以的。第三个就是以文件路径名无管,就是这个文件是数据源是在哪里,应该是没有关系的,第四个呢这是与数据块地址无关,就是说从第一次全备份也好,第二次全备份也好,这个应该都是可以找出他这个重复性来的。
那么其效果呢,这是Data? Domain的一个平均的数值,而不是我们最好的数值,这是一个平均的数值,我们能够做到在我们看横轴,它是那个星期,那么从第一个星期、五个星期一直到十五个星期都是这样,下面我们看到红的,有一个很窄的一条,实际上是从零开始升起来的,这个红的是对于我们存储空间的消耗,而这个蓝的线性增长的斜线是实际用户写进来的数据的增长。那么随着时间的推移,就是说这两条线实际上斜率代表了它的增长率了,是不一样的。那么那个蓝的写入的数据量的增长,它是根据实际的用户的数据量来增加的,但是这个红的呢它会越来越饱和的,那么到了某种程度的时候呢,它会达到一个值,而基本上不怎么增加。
那么对数据的减少的话,对一个典型的应用来讲,就是说我们第一次全备份可以到三到四倍的这个效果,那么文件级的增量备份是六到七倍,这是第一次,然后之后的全备份可以达到50到60倍,那么总共的全备份也达到20周左右这样的话,就能达到20倍,这是一个平均值,那么好的用户的使用情况可以达到50倍我们也有很多。
那么Data? Domain重复数据删除作为容灾来讲就变得非常简单了,在这个图里面我们看,从最左边看,这是用户的从客户机使用它的服务器,前端应用很多都是这样,他的数据会放在主存储上面,对于这个主存储数据进行备份的话,会通过备份服务器写到左边的那个,这是相当于Data? Domain的第一个BOX,数据进到这个BOX以后已经产生了,数据量已经由蓝的变成红的了,我们在做复制的时候,我们只复制红的那一块就可以了,而不是说整个复制蓝的那么大量的数据。
到了远端的话,就是到了远程的话,就是它的一个容灾的站点,那么容灾的站点就可以对这个数据进行各种各样的处理,你或者是做恢复也好,或者是做数据集中也好,或者说是在远程站点统一写到一个磁带库上做归档也好,这都是看你怎么样来应用了。
那么传统的备份软件还是在这里是一样的,没有任何的什么的差别。那么我们是用那种线性,因为线性这个词可能翻译也不太准,我们是INLINE,它可以连接任何的备份软件,连接任何的连接协议,这些都是前端的通信协议,备份服务器和Data? Domain之间的通信协议。那么复制是在远程站点之间或者远程办公室和这个数据中心之间,它所复制的就是剔除冗余之后的数据,这个数据量是很小的,对带宽的要求也是非常非常低。
那么下面我们谈一下就是说,如何评价这个重复数据删除方案的准则,我们这里列出来五个准则,第一个就是看它是存储级别还是软件级别,现在做重复数据删除的有很多厂家,那么各种各样的做法都有,有的是做appliance,就是提供一种专门的存储级别的重复数据删除,有的是装个软件,在后端随便装一个磁盘阵列这也可以做,这是软件级别,那么这两种方法就是说优缺点在哪里呢?我们一会儿会看。那么如果是大家遇到这样的问题,第一个考虑的应该是从这个方面去看,是存储的还是软件的。
第二个这是一个适用所有数据类型还是个别数据类型,刚才我也提到了,就是你这个技术是不是对特定的数据类型才可以呢?还是对所有的数据类型都可以?比如说有的我只对数据库可以,而对文件系统不行。等等当然就是说你要从这个方面来看,当然是看你的需要是什么了。
第三个就是说它使用的磁盘量,有的需要一百块磁盘,那么有的需要十块磁盘,那么这个磁盘量的多少,也直接决定了这个产品本身的造价的高低,而且跟管理的难易程度也是有很大的关联,要从这个方面要看。
第四个是看他达到这个它需要多少时间?就是说我数据从开始备份一直到数据到了远程这个时间需要多长时间?有的需要两个小时、有的需要两天,那你看这个时间,能不能满足你的要求。
最后一个呢就是数据的可恢复性,因为磁带的一个问题就是说,把数据写到磁带里面,把磁带拿出来以后,我不知道这个数据能恢复还是不能恢复,我需要确认这个,要是磁带的话你怎么确认呢?你只能读出数据来你才能知道,不读出来你只是希望是,或者说我人格担保,那人格不管用。那你怎么来确保这个数据是可恢复的?那么结论实际上也是很简单,就是越简单越好,不要无必要地把它搞得复杂。那么说在存储级还不是软件级,那么在存储级的就是说在硬件的解决方案上,因为时间的问题我就快点讲了,就是说我们希望是它在存储级,存储级是基础设施这一级,就是说你放在这个上面以后,而不是做成一个软件级的话,对于你生产系统的压力或者说额外的负担就没有那么大,所以应该是在存储级这样是一个很好的业绩方案,而且呢它还能最好是适用到备份以外的领域,那么Data? Domain的话我们是一个存储级,而且我们现在除了备份之外,我们可以在归档的领域里面,我们的设计也是适用的。
当然是适应所有的数据类型是最好的,而不是有些的数据类型,那么这样的话就是不是在做之前,不是先数据类型进行甄别,然后再做,而是对这个技术本身它是适合所有的数据类型。当然使用磁盘的数量是越少越好,这个图我们看到的是横轴是使用多少磁盘数,纵轴是它达到的性能情况,当然了还有它的造价,那条红线是我们的做法,就是说同样要做到200M/S的话,我们的磁盘数实际上是只有15块磁盘,而有些其他的竞争对社,他要达到200M/S的话,他需要的磁盘是要达到100多块,200块磁盘,那么有的没有那么多,但是他要用光纤盘,这也是一个很不合理的一个做法,你备份设备为什么要用光纤盘,这是一个对磁盘数的一个大家的一个甄别。
对于线性的重复数据删除处理的话,它跟对应的事后处理,他的这个区别就在于,事后处理是把数据先读进来不做处理,然后事后进行处理,那么这样的话一个是他的整个过程需要时间长,再有一个是他要要求一个空间,首先要把这个数据原封不动地存下来,那么这样的话他对空间的要求也是很高,所以INLINE要好于事后。
那么INLINE处理的结果就是这样,在我们有了数据之后你就进行,那么备份完了以后,也很快就会完成了,那么这是下面的一个,它要先备份到这个里面,那么这个时间是非常长。
对于配置来讲,就是对于广域网的配置我们也有很多灵活的配置方式,有的是这种星形配置,就是说我们有远程办公室给它集中到一个数据中心,这个我们叫数据集中,然后在数据中心对数据进行各种各样的处理,比如说入库、归档、写入磁带。还有呢就是异地备份,异地备份的话就是说两个站点之间我们互相备份,这也是一种应用方式。我一会儿再讲这个顺序有一点儿问题。
那么对于确保数据的完整性,Data? Domain的这个做法就是说,我不是说把数据写到我们Data? Domain的BOX里面我们就不管了,不是写的时候没问题就认为它永远没问题,这个大家可能都知道,你烧了一个CD,你过了一段时间以后,也有可能会发现其中某些文件是恢复不了了,那么Data? Domain的做法不是说写一次就认为它是可以了,我们对这个数据在我们Data? Domain的这个BOX里面的存在,是要不断进行检验,看它是不是可恢复?看是哪一个级别的问题,我们会进行处理或修复这就是我们体系结构中的一个很重要的环节,上面的蓝字就是DIA,我们叫数据无损架构。
回来再讲前面一个,这是我们真实的一个金融客户的一个应用实例,这是美国的一个客户,就是大家可能知道AIG是一个很大的一个银行,那么它呢就是采用了我们这种星形结构,做数据集中处理,就是波士顿和旧金山和印度他们的分行集中到纽约,那么这种做法的话它使用的带宽只要求原始带宽的1%到5%,这是使用了Data? Domain这个技术之后的一个效果。
那么我这是简单总结一下,对于Data? Domain这个数据保护的技术,就是说重复数据删除在存储里面越来越变得必须,就是说现在可能是备份、归档,那么将来在任何存储里面,都会涉及到这些,是不是需要它?因为数据增长的这个曲线如果是这样的话,如果你没有重复数据删除的话,你这个存储空间也要这样增长。那么如果你要有的话,你就不用做这个数据增长的曲线。
那么重复数据删除是简单易行的,Data? Domain这个产品的设计我们是采用,就是简单的设计,那么这种方式对用户使用起来都是非常非常简单,而不是那么很复杂,而不是要求用户有很高的对于重复数据删除、存储有很高的了解、很高的技能,没有这么高的要求,使用起来很简单,就是安装完了以后,你不用管他了。
这个是我们一个联系信息,这个网站是我们中文的网站,我们公司自己的这个主网站就是www.data domain.com,那么这是我们的中文网站,这上面有我们中文的白皮书,有我们的用户实例,还有在线的影像,我们最近做的一些方法、一些案例或者是公司的高层的一些演讲。
我们的联系方式,这是我们中国团队的联系方式,我的介绍就到此,谢谢大家。
|