打破传统方式,全面灾难防御 |
|
|
|
|
美国飞康软件公司中国区技术总监颜军
大家好今天我演讲的题目是突破传统方式,构造新型的灾备系统。大家可能会关注这个在传统的灾备体系和新型的灾备体系之间有一些什么样的不同。那么我的议程是这样子,总共我分这样几个部分,一个是对飞康公司的情况做一个简单的介绍,那么下面我会重点阐述现在在金融行业包括保险、银行以及证券基金行业。大家可能采用的很多传统的灾备方式,为我们带来的收益以及它的一些不足。
那么最后我会来重点介绍,现在比较新型的容灾和备份技术,也就是连续数据备份技术,CDP技术,这也是飞康公司力主倡导的一个新型的灾备技术。后面呢我们简单地对几项技术做一个效果的对比,最后呢我们会介绍公司的一些在金融行业以及其他行业的一些灾备的成功案例。
??? 那么大家听说飞康公司可能都会知道,它是虚拟存储的一个领头公司,它最早利用虚拟化技术把存储行业产生了很大的一个变化,利用虚拟技术为我们带来什么?能够带来更新的备份体系,更新的容灾体系等等,那么大家待会儿看我的介绍,可以去体会虚拟技术为什么能带来这么大的优势,那么这是飞康公司的一个简况,我们是在2000年在美国纳斯达克成立的一家虚拟存储公司,那么是率先把这个存储技术采用了虚拟之后呢?来为用户的系统提供数据的保护。那么虚拟技术呢我们一共主要集中在这样几项虚拟技术上,一个是CDP技术,就是连续的数据备份技术,还有一个呢大家可能都比较知道的就是虚拟磁带库技术,叫VTL这个技术,那么也是比较盛行的一种虚拟技术,那么还有就是利用虚拟技术实现的灾备DR。
公司的情况我不再过多地做介绍,大家可以看到,如今谈到灾难备份,你选择技术道路的时候,往往都会看到利用虚拟技术实现灾备的这样一条新型的道路,而且它的走势是越来越兴旺。这是飞康VTL技术在全球的一个占有率,这是虚拟磁带库技术的一个市场占有,你可以看到在今天的备份市场上,在传统的磁带库和新型的磁带库之间呢,那么新型的磁带库技术的发展是很快的,也就是VTL的技术,而VTL的技术的发展中呢?众多的厂商都采用了飞康的核心技术,所以大家今天在看到很多厂商提供的VTL技术中,你们可能往往会惊奇地发现,怎么都采用的是飞康的VTL的核心技术呢?那么在这里面这个右边我们可以看到很多这个勾都是飞康的核心技术提供出来的,这是飞康公司的众多代表性的客户,这是飞康众多的OEM客户,像IBM、SUN、惠普、EMC等等,众多的厂商都是飞康的OEM客户。
下面呢我们就转入正题来介绍一下在传统的灾难备份技术和新型的灾难备份之间,我们如何来进行取舍,这是一个在金融行业包括基金证券行业一个典型的IT架构,这个我就不再过多重复了。
那么我们在对这样的一个IT架构进行保护的时候,大家往往会想到很稳定,用了很长时间的磁带备份技术,那么这个磁带备份技术呢,也就是说最典型的一种IT系统的保护架构,它是利用备份软件把各种的数据库以及系统的数据备份到磁带库里面,然后磁带库既可以作为一份技术的存放,也可以进行异地的另外一份数据的存放等等。那么大家知道备份技术的主要目的是解决数据的丢失,也就是说在丢失的时候,我有历史数据可以从磁带里面拿出来,但是要解决业务的连续运行不是靠备份技术来完成的,也就是说当你希望的是业务不中断,那么大家往往想到的是灾备技术,也就是远程的数据复制。所以呢大家会发现,往往很多系统你要想既要解决历史数据的恢复问题,又要解决你业务不中断问题,那么你往往得把远程的复制技术,也就是异地的灾备技术和备份技术合起来,共同地提供给你的系统,这是一个最典型的传统的异地灾备系统。在这个系统中呢大家可以看得很清楚。在生产中心和灾备中心呢?都会有磁带库的系统,同时中间呢又有传统的灾备复制链路等等。那么建立了这样的系统呢?大家会发现其实它的灾难防御的标准并不是十分之高,为什么?第一就是说,当然咱们不说成本了,这个成本构建是十分高的,这是肯定的,因为你是把备份和容灾你要建两套这样的系统。但是呢你要想获得高级别的灾难防御目标呢,也就是说RPU和RTO都要达到很高的指标的时候,你会发现它还有很大的缺陷。
比如说我举个例子,那么你数据库数据丢失的时候,用这样的系统能在几分钟之内恢复吗?用容灾你会发现在异地它也丢失了,你恢复不出来,那么你还要取决于你的备份系统,而备份系统对于磁带库的这种恢复呢,往往要几个小时、数个小时的时间,所以你可能会发现,当你的系统中平常出现了一些意外的灾难的时候,这样的系统他不能做到快速响应,数据丢失、数据库瘫痪都一样。数据库瘫痪也是这样子,没有五个小时你想把瘫痪的数据库修复起来,这是很困难的事情,这就是我们面临的大多数行业传统的灾备的方式。那么当然很多人也去研究过,说主流的灾备模式是什么呢?在传统的灾备分类中,无外乎这样几种,一个是异地的磁带存放,一个是在主机之间进行数据复制,还有一个呢是在磁盘之间进行磁盘之间的对拷等等,这是传统的灾备方式。
当然这些方式各有它的优劣,这个我也在很多的论坛上也都给很多用户也都做过介绍。那么在主机复制技术上,它走的基本上是指IP链路进行远程复制,但是它的优点呢,它是对存储设备等等是开放的,那么它有一个不足的地方呢就是对主机的CPU啊等等各种的开销呢,可能会随着你的带宽的不同有所不同,那么还有就是维护相对地比较复杂,所以主机的技术有它的优也有它的劣。
那么在磁盘复制技术中,是另一种主流复制技术,通过磁盘阵列之间的对拷,那么这种技术呢它的原来的使用的是比较广的,那么它最大的一个特长呢就是它比较简单,在磁盘之间进行对拷,但是它也有很大的一个不足的地方呢,就是它占用的带宽相当大,这种技术它采用磁盘块的传输,你如果没有一个很高很高的带宽采用这种技术你会发现它的运行是适得其反,不仅会拖慢你的系统,甚至于根本不能发挥它的作用,另外就是建设成本非常之高。所以很多用户对于这样的技术,说实在的也经常找我来探讨,有没有替代这些传统技术的新的技术,为什么有优有劣,而且有一些弱点呢,会使我们的系统建设功败垂成。
那么我们需要的是什么呢?其实不管选择什么样的技术,我们提出的目标就是无论发生什么样的问题数据不能丢失,这是一个问题。还有呢就是说,无论发生任何问题,业务系统必须在最短的时间内恢复,所以我们建立容灾系统呢要的是两个问题,一个是数据不能丢失,一个是业务要在什么时间内恢复,那么这两个命题所采用的技术路线要想完全满足,那技术路线是相当复杂的一件事情。很多用户往往会觉得,谁都能满足这样两个目标,其实不然。因为我们讲的是无论发生任何问题,也就是说你要把你的问题列出来,你才能知道哪些技术路线能够满足你的要求。
好我们看看我们经常面对什么样的灾难呢?可以说大家都很清楚硬件设备故障、软件以及软错误的故障等等,过去我们一讲灾备系统大家往往都想在硬件灾难上、自然灾害、物理故障等等。但是呢我们会发现其实在我们的日常的业务运行中,很多一部分错误来自于我们逻辑的错误,来自于我们数据库的意外的中止,来自于我们数据的意外的丢失,可以说这样的错误在过去的灾备体系中,往往是束手无策的。打一个补丁把系统打死了,这是经常出现的事情。
那么我们看看,很多系统它都建立了传统的容灾方式,但是你会发现往往它又面临着新的问题,也就是新的风险出现了,一个就是数据丢失怎么修复?能修复吗?好多用户会发现,你拿这个同步进行异地同步的时候,数据的丢失它会传递到异地的,是无法修复的,那么数据库的瘫痪能不能修复?那么还有一个很大的问题,就是传输网络能不能支持?很多的灾备技术为我们提出了很高的传输网络要求,要求我们把现有网络升级五倍、六倍,那是什么样的成本?你现在的业务网能不能支持它的不传输?你会发现还真有可能是不能支持。那么还有就是说,你现有的业务传输可能能支持了,如果你增加业务,那么你的传输网络大概是又无法支持了等等等等,好多用户他建立灾备的过程中一个问题接着一个问题,今天满足了,明天他发现又有新问题出现了。还有就是说在很多常见的灾难中,能不能进行本地修复呢?这个是好多用户他没有想这个问题,其实对我们来讲灾难修复最快、最具有效率的方式,是要在本地进行修复,如果你动不动就采用异地灾备,大家知道在业务连续性计划中,你启动灾备中心,要经过几个流程?你的响应时间是多少?这都不是一个很简单的事情,那么如果你能够在本地就对大量的灾难进行修复的话,那么对于我们的业务的连续运行和数据的快速恢复,无疑是最有力的一个工具。那么还有就是说,我们平常系统中,其实有一类故障大家最怕了,就是磁盘的系统故障,这个在各个行业已经是屡见不鲜了磁盘崩溃。那么可以说磁盘系统故障依然是知名故障,无论你怎么建立灾备系统等等。
还有就是说有些人会发现,我在主机上安装了一些数据库软件,结果发现数据库的结构从此不能更改,这是新的问题等等。
那么这里介绍的是一个带宽问题,在传统的方式中呢,大家很多人没有去想这个容灾到底占用什么样的贷款?我每天假如说有一个G的数据增量,那我给它带宽,是能满足这一个G的数据增量吗?你选择不同的技术路线完全不一样,如果我们采用的是一种硬件的同步方式的话,你会发现实际上带宽要比你计算大十倍,因为它采用的数据块的方式,基本上是有16K到64K的这样一个比例,当你数据发生了小的改变的时候,但是它会以磁盘块的形式进行异地的传输。所以呢大家会发现,上了灾备就是高带宽,就是宽带,这是它的一个原理,就是整块整块进行移动。
那么容灾系统在你建立这个系统之后,是安全和可靠的吗?在金融行业呢我们都知道,建立任何系统安全是第一位的,永远是说既要保障我系统的安全,它自身也要是安全的,这是两个安全,但是你会发现建立了之后,数据库仍然有可能不安全,它并没有得到安全的保障,磁盘系统依然是令人担忧的,业务演练往往不能随心所欲。另外就是说容灾系统为我们带来的是,往往可能是高的维护成本和复杂的控制。所以很多人听见容灾啊,这个脑袋挺发怵的,觉得挺复杂的,然后厂商也不让我自行维护等等,我也不知道发生了故障以后的第一响应应该怎么做等等,所以大家看到很多行业出现灾难的时候,很多的时候是忙做一团就是复杂,太复杂了,维护比较困难。
可以说烦恼是什么?如果我们采用了很不合理的一些灾备技术的话,不仅会消耗我们大量的投资,你这些投资可能会带来一些新的不稳定的因素。所以今天呢很多人在考虑能不能为我们建立新型的灾难备份系统?它的目标是把我的IT系统中的所有灾难要包含在之内,把我的恢复要求的所有要求,应该都包含在内,那么这就是说,数据保护技术开始发生了变革。在今天呢数据保护技术的变革开始走向了多元化的数据恢复的技术,那么包含有数据备份、复制、快照以及连续数据保护等等多种功能,所以待会儿大家看到飞康的CDP产品的时候,你会发现它的功能是很强大的,它涵盖了数据保护的多个元素在里面。
那么我们到底有什么样的新技术来提高我们的备份和恢复的能力呢?我们看到这是今年在SNW存储网络世界上一个发布的趋势,个趋势中很显然的一点,就是当我们把目标给提升到,我的数据恢复时间要在几分钟,我的数据丢失的时间也要控制在几分钟内的时候,那么现在的主流趋势已经走向了连续数据备份的技术,叫CDP技术等等,所以今天呢我们重点介绍的就是这样的技术。
那么在这样的技术之下,还采用传统的方式吗?当然你可以有很多的理由,说有些系统都在用着呢等等,但是呢也有很多的用户他也有理由说我要突破传统啊,为什么?因为我希望呢是具有本地恢复的能力,因为我需要有简单的维护方式,因为我要低的建设成本等等,我需要来对我丢失的数据具有恢复的能力。所以呢你提出这些要求的时候,你就发现传统的方式确实不满足了。
那么在灾备体系的核心指标中,RPU和RTO是所有人必谈的指标,那么我们关注数据丢失RPO指标的时候,一定要重点地去分析它的两项,一个是静态,一个是动态两个指标。那么静态RPO呢它是以最后的灾难发生点为单元进行恢复,也就是俗称的,当你发生自然灾害的时候,我的业务数据会恢复到什么时间?那么动态RPO呢指的就是说,当我的数据意外地丢失,有很长的时间的时候,我以我数据丢失的那一点为单元我恢复到哪一个时间,一定要考虑这样两个指标,如果你只考虑静态你是解决不了历史数据恢复这样的问题的。
那么下面我们看看什么是飞康的CDP技术,那么今天在金融行业也有很多用户都体验过飞康的CDP技术了,它的核心呢就是这样一个飞康的CDP管理器,这个管理器内呢,它通过实时的复制抓取技术,从你的主机中抓取存储数据,当你每一个I/O发生写入操作的时候呢,它会同时写向飞康的CDP管理器,那么CDP管理器呢,除了保存有你最新的这一份I/O数据之外呢,同时呢它还会保存有多个快照点,那么我们最多呢对每一个应用可以提供255个快照,也就是说你既有你每一个生产数据的最新数据,你也有你每一个生产数据的255个历史数据,也叫做书签,那么通过异地复制呢,又可以把这样的数据完整地复制到异地,那么同时异地它也具有这样子的能力。那么我们看到,我们采用这样的体系之后,为我们带来了什么呢?一个是我有255份历史数据,当我发生数据库瘫痪的时候,我可以从本地很快地提取出,在两分钟的时间就可以找到你想要的任何一份完整的数据库,我有255个。
还也呢在这个体系中,你会发现你的磁盘阵列故障了,你还担心吗?我会告诉你不用担心,因为它根本就不中断,磁盘阵列故障以后,那么飞康的CDP管理器会立刻顶替你的存储,把刚才完整的最新数据提供给你的I/O,你会发现闹半天磁盘都崩溃了,我的应用居然可以不停,这就是它的效果。你看当你的业务数据崩溃的时候,它的I/O是走向了飞康的CDP,这时候你有充分的时间去修复你的磁盘,修复完之后做一个反向同步,一切就完成了。
那么对于你的办公系统而言,可能是windows的系统,那么你有更多的恢复手段了,你有硬盘、内部的系统盘崩溃的时候你都不需要担心,因为你可以从飞康的CDP管理器中间直接进行系统启动,你的系统数据已经完整地被我们保护起来了,而且这些数据是可以启动的数据,不是备份的格式等等。所以呢你会发现,当我们遇到很致命的系统灾难,像磁盘故障、系统崩溃等等的时候,你的系统居然可以在几分钟之内全部挺过来。
那么这是一个邮件服务器,当我们发生张三、李四这样整个邮箱的被攻击、丢失的时候呢,以前我们拿备份软件要花多少时间?大概四五个小时很正常,在今天你只需要三分钟,你就可捉到你用户级别的任何邮箱,因为你的所有的时间点都在飞康的CDP管理器中间,这就是它神奇的地方。今天我们看到其实灾备技术的核心已经转移到恢复上了,这么多的类型的灾难,你会发现采用CDP技术,怎么都是几分钟啊?甚至于可能连停都不带停。我们看到当你数据库发生崩溃的时候,你的备份数据,你利用飞康的CDP管理器打开他的一份快照,那简直就是一秒钟的事情,管理员在图形上一点,他立刻快照就会提取出来,当然你启动数据库花个几分钟,你会发现一个完整的数据库又展现在你的面前了。
最后我们把完整的数据去填补到丢失的数据库里面去,一切恢复过程结束了。那么以前我们在谈备份的时候,这么多的数据几十个T,我们要花多少时间备份啊?备份窗口是多少?但是你采用CDP技术之后,你会发现没有备份窗口,他根本就不会再集中在某一个时间段进行备份,它是实时进行的,无时不刻,你的网线只要一插上,你的系统数据每一个I/O都会转移到CDP中间,那么对主机几乎没有任何的影响,这个我们在很多系统中,已经验证过了。很多用户都看到了,像中国人民银行总行的系统,都利用飞康的技术在很多生产系统上进行了实施。那么当然有一些用户说,我还要数据进行归档,还要进行磁带库的出库,这时候你只需要在飞康的CDP后面呢加一个磁带库,它可以在不占用你任何应用主机的情况下,把数据备份到磁带库中间,你会发现这时候的备份随心所欲,因为它不会占用你的任何的业务主机,这就叫无主机备份。
所以我们总结一下飞康的CDP保护技术的特点就是连续的数据获取,多份自动快照,历史数据可以轻松地拿到,那么它的所有恢复机制都是瞬间恢复机制,基本上不会超过十分钟,那么对于数据库它有一个代理,保证数据库启动的时候,永远是保持一致性的,不会花几个小时进行重演这种恢复。这是CDP的异地灾备方案,当我们建立了本地的CDP体系之后,我们可以通过异地再配置一台CDP服务器,就可以让你的业务数据既获得本地保护,又同时能在异地有一份完整的数据和完整的业务恢复能力,这就叫CDP、CDR的技术,那么在CDR技术,也就是异地恢复技术中,主要是利用CDP之间的这个模块来进行的。那么在异地的灾备技术中,这个飞康有几个关键技术,一个是他利用了小单元技术,使得飞康的异地灾备占用的带宽很小,它可以定为512字节的传输单元。所以很多用户在进行实测的时候发现2M的带宽在我的一个金融体系上,居然可以做容灾,除了飞康大概找不出第二个技术了。那么还有就是差异比对技术,如果我的灾备中心的数据跟你生产中心不一样了,有没有办法进行校验呢?你大概采用别的技术这是很难的事情,但是采用飞康的事情,无论你灾备中心停了几天,你关电关了几天,网络传输断了几天,起来之后你可以利用飞康的差异比对,它两边进行校验,校验完了发现不同的块进行增量传递,所以说你的系统永远是一致的,有了这样的技术,当然这个快照技术是它的一个很大的一个特长,这个快照技术来恢复我们历史数据是很简单的事情等等。那么可以说飞康的CDP和容灾技术呢,它既解决了所有的硬错误,又解决了所有的软错误,它是一个全面的故障覆盖的机制。
那么在飞康的几项技术的合力之下,你会发现它可以使你的传输数据达到四比一甚至于八比一的这样的压缩比,因为我们内部还有一个压缩技术在里面。那么这样强大的功能,你会发现你只需要在图形上拖动一下鼠标,几个小时部署居然就完了,那么平常的故障处理也是通过鼠标一拖动就可以把很多的故障都给轻易地给解决。这是很多的技术细节了,我不再过多地做介绍了,就是在异地传输中间,我们可以进行连续的传输,我们可以进行增量的传输,我可以设定时间间隔是多少,我也可以设定每一个I/O都进行传输等等各种的这个。另外这个是小单元传输技术为我们带来的带宽节省是多少,这是一个统计。这个呢我就过去。
总之呢你可以说,在这么强大的这个恢复能力上面呢,你最后发现你的带宽却很节省,比常规的带宽要节省80%左右,但是你的整体拥有成本却很低,所以飞康的CDP技术对很多人而言,他会发现这么多的功能,却没有让我们带来很高的成本,这是他的一个特点。从功能角度呢CDP几乎拥有了你想要的各种防御能力。
那么这是一个总结,我们总结来说,CDP的保护技术就是镜像、备份、容灾、数据归档。当你把存储的安全体系中间的每一个环节都考虑到的时候,你会发现CDP一个技术它都为你考虑到了,这是一个主要功能的对比,各种技术的对比,这个我就不再做很多的介绍了,后面呢我想我们的案例简单地介绍一下。
那么我们的愿望是什么?你想打造全面的灾备体系吗?你想拥有最为安全的灾备技术吗?还有就是说你希望能对你的业务发展做出贡献吗?因为你希望建立的灾备系统和你的灾备网络不仅支持现在的业务,也要支持未来的业务?可以说你想让,还有呢就是说你想让备份和灾备一起解决吗?当你有这么多的愿望的时候,你可以考虑你去考察一下CDP能不能实现你的愿望?
那么有几个案例,一个是国内的一家基金公司采用飞康的CDP技术呢,实现了异地的灾备,这个系统可以说也是基金行业一个典型的代表,投资成本很低,但是获得的灾备的服务能力,可以说是至今都是为人称道的。
中间只有2M的带宽就能够把整个基金行业的业务给支撑起来。这是实际监控的一个界面,从网络上,传输网络获得的界面,它发现采用了CDP带宽节省数倍。这个是用户为什么选择飞康公司,很多用户他追求先进的技术的时候,他都会去研究飞康的技术,那么在这个用户中大家可以看到,他们重点关注的是什么?带宽,简易的管理方式,多种的复制策略,FC/IP的多存储协议,以及随心所欲的演练机制,用户的这些要求,在CDP上来都得到了满足。
这是纽约银行的一个灾备,纽约银行的灾备他是做了一个同城灾备又做了一个异地灾备,也是采用了飞康的技术实现了,既有同城又有异地备份。
这是项目的一个介绍,台湾的第一银行的灾备系统,这是另外一个今年在国内的一个大型的电力行业的一个灾备项目,拥有六大型的UINUX服务器和两大类高端存储,那么采用飞康的CDP技术,很轻松地就实现了灾难备份,这个完成的效果是相当地好的,不仅实现了异地的灾备,还实现的磁带的,刚才我们讲到的自动出库,从CDP里把数据完整地归档到磁带库里面去,整个流程全部都完整地实现了。
??? 好那么今天我的题目就到这里,谢谢大家。
|
|
|
|
|
|
| 演讲阵容 |
代表性金融机构:
 |
| 特约合作伙伴 |
|
|
|
|
|
|
|
|
|
|
|
财经门户:
金融界(战略财经门户支持媒体)、搜讯网、中国金融网、中国金融界网、中国财经网
国脉金融服务网
存储专业门户:
存储在线、存储时代
IT媒体:
网易科技、新浪科技、中国信息产业网、IT168、51CTO、中国IT实验室、人民邮电报
|
|
|