
IBM亚太区软件集团资深存储解决方案专家倪敦
非常感谢各位专家和领导参加会议,在到这儿我们可以深入交流存储的题目。今天我讲的题目也是关于数据保护的,因为今天前面已经讲了很多的容灾技术,所以我就讲一下最底层的数据备份吧。我单独讲一下备份这个部分,要不然因为有各种的数据保护技术,比如说CDP啊,什么容灾啊磁盘镜像啊,讲很多最后大家可能会反而更糊涂了。所以实际上,今天我的重点就是讲一下在金融行业,现在我们在数据保护和备份这方面,我们需要做的一些事情,以及相关的一些技术和IBM在这方面的解决方案。
因为从目前的金融行业大家可以看到,尤其是在几大行和一些我们的大中型的银行,它们的数据中心的大数据上收已经基本完成了,现在已经构建成了由数据中心、业务的数据中心以及我们的测试中心,有的还包括容灾中心和测试中心是放在一起的,这样一个完整的结构。然后在各分行,又有自己各省分行的业务系统,同时还有我们总行总推分的各种业务系统。所以在这样一个复杂的环境中,今天我重点想提的就是在一个金融行业企业级这种大数据和多业务系统的环境中,我们怎么来考虑这个备份问题。所以正像我说的,这样在我们一个典型的大行的环境中,在这个数据中心中,往往是拥有几百个应用系统,分别的各种应用系统服务器,甚至我们分布式的数据中心。就是首先银行的一个重要部分是主机我就不单谈了,那么分布式业务系统,往往可能有几百台到上千台服务器,那在这个环境中,我们怎么样满足各个部门的用户的需求,怎么样来解决它集中备份和集中管理的问题。因为我们实际上是每个行负责备份的工作人员呢,可能没几个人,那怎么样来完成这样大型的数据集中备份的管理工作?那这是我们需要讨论和实现的。
现在看看在各个金融系统的数据备份的现状,实际上在2000年以后,各个主要的大中型银行已经选定了备份系统产品的选型,到现在已经有了比较长时间的使用经验。但是通过这五六年的使用,现在我们发现从去年开始到现在,大家在考虑一些新的问题,因为在我们备份系统已经稳定运行了多年之后,实际上我们遇到了很多的新的问题,这些面临的问题要求着我们一些新的技术的选择。
首先,就是实际上我们现在金融系统的备份首先遇到的问题就是由于我们很多时候的备份采购选型是分业务系统的,例如按不同的核心业务系统、网银系统等是分别选型的,那现在随着我们金融行业IT集中化管理的这种结构化调整,我们现在面临的就是,如何把不同技术、不同厂家的备份系统做一个整合,同时我们在存储系统的硬件选型中,往往由多个不同厂家,不同类型技术的硬件设备组合在一起,比如说有的备份系统,我们是使用虚拟带库的,有的备份系统比如说是用SDK带库做的,有的是用IBM带库做的,那这样的话我们怎么样把这样不同的异构的环境整合在一起,做集中设计、集中管理,这是现在金融客户备份系统面临的一个很大的问题,就是一个集中的问题。
第二,随着我们银行数据安全性的管理要求的提高和各种业务系统的增加,我们在备份管理的过程中,增加了各种新的技术和业务要求,比如说数据加密的需求,那数据加密的需求到底是从核心的存储交换机一出来之后数据就加密,还是说数据备份完成之后,进行离线数据加密?同时的话我对于业务系统的管理人员,往往在很多的时候需要通过备份软件,设置了不同的权限。但设置了不同的权限之后,对于有些人是否应该有权限能够查询?看到所有的数据?那我是否应该限定不同类型管理人员的权限,那这些都是我们在数据安全管理方面,在备份方面的一些要求。第二部分就是满足新的备份要求。
另外一方面我们看到呢,随着我们以前(大概四五年以前)建立的备份系统,现在多年以后,我们的业务系统不断地增加,我们的数据量不断地增加,在原有规划的备份窗口中,已经难以满足现在新增加的业务系统容量和数据量的这样的一个增长了,因此我们不得不不断地缩减各种应用系统的备份窗口,同时减少一些不重要业务系统的备份的频次,以此来保证我核心业务系统备份的安全。那采用这种方式,造成我们原来的数据保护的等级逐渐降低。那怎么样来解决这个备份窗口缩减的问题呢?同时我们看到现在虽然我们建立了很多复杂的容灾系统,比如说我们实时的磁盘镜像,然后同时再做复制和接管。但是通过我们积累的很多的经验和教训,我们发现数据的底层备份是永远不可能替代的,一个离线的磁带级的备份系统是不能缺少的。所以第一个无论是现在我们用了什么样的实时容灾技术,但是我们基于数据备份技术,这样来建立一个数据的拷贝型的保护,然后进行长期保存,这种技术是无法替代的。第二方面,通过磁带或者是光盘,我备份完之后做一个离线的一个异地保存,那这一点的话是我所有数据安全必不可少的一部分,无论是采用什么级别的硬件设备,都无法替代的。那这样的话我们现在,我们现有的备份系统,由以前单纯数据备份必然要扩展到并融入一个支撑整个业务数据这样的容灾异地保护和恢复的管理体系中,那怎么样使得备份系统升级支持到这种容灾的架构当中?这是我们现在面临的一个问题。
还有一个关键的问题就是随着我们数据量不断增加,应用系统不断扩展,那我怎么样通过原有的仅有的两三个备份系统管理员,同样来维护现在这样不断增加的这种数据备份系统。因为有的时候,有的银行数据中心的备份系统都达到几百个服务器,那让一两个系统管理员来维护这个系统,显然是越来越难以支持了,那如何通过一个更有效率的方式,来实现一个集中的备份管理和监控,这是我们现在要考虑的问题。同时现在各个大的银行和业务系统,大家现在都在上了各种我们的ECC,我们的总控中心,我们的流程、我们的管理流程系统,那这样的话呢怎么样把我们的备份系统纳入到我们的流程化管理中,纳入到我们的服务管理中,也是我们现在面临的一个重要问题。就是实际上我们现有的系统,如何升级扩展到支持我们这么多新的需求,这个是我们现在面临的问题。因此IBM公司,大家也熟悉,一直致力于设计,推出最先进的金融的支持和管理解决方案。所以我们在数据备份方面,也是相对领先的,尤其是在企业级的这种大的数据中心的备份解决方案中,IBM一直是最优秀的。我们看IBM从最早在1980年基于我们主机系统下移的这种技术,通过我们二十多年的发展,我们的备份软件一直非常有序地不断地扩展和增加,而且同时很关键的一点就是,无论是我们产品的名字更换了,它的版本更新了,很多的时候TSM更好地支持了一个向下兼容的技术概念,保证了新老版本和技术的混合使用。比如说我们在很多银行的业务系统中,看到了有很多新旧业务系统和服务器同时使用的情况,在现有的情况下,如果我们升级到最新的备份软件的话,我们可以看到TSM5.5的服务器,它就可以支持我们以前TSM3.1和TSM2.1的版本,这样的话可以保证我们在这种新老业务系统混合的系统中,通过采用TSM解决方案,能够很好地兼容新老业务系统同时运行这样的备份要求。这样的话我们进行业务系统备份的升级,我们不用必须考虑备份系统的整体升级,我只要具体分析,哪个业务系统进行了相应的操作系统和它的应用软件的升级,必须升级备份软件,我们再单独升级它的备份系统就可以了,而不会影响到整个备份系统。
所以实际上TSM作为企业级的备份管理平台来说,它有几大突出的特点。第一个它支持了各种主流的操作系统平台,它不仅支持以IBM平台为主,同时支持了现在业界所有的主流的操作系统平台,像今天前面讲的像VMware的最新技术,这些都是可以很好支持的。同时它支持各种主流应用的在线备份,包括现有的各种数据库、邮件系统、ERP系统以及其他的一些相关的软件。TSM还有一个很大的特点,它的异构性使它能够支持现在业界所有主流的存储设备作为它的备份的存储支撑设备。所以我们可以在TSM支持网站上看到,现在TSM支持的硬件设备现在已经达到了超过800种以上,将近900种,这个不止是讲义中的500种了。所以现存的各种存储设备,包括磁盘阵列,无论是光纤的还有包括我们的物理带库、光盘库,各种虚拟存储设备等,所有的设备都可以用来做TSM的备份数据储存的工具。所以这样的话让我们来看一下整个数据备份软件的架构。在这里面可以看呢,作为TSM来说它能够支持包括了我们现在所有的网络连接方式,包括通过广域网、局域网、光纤存储网络以及无线网的数据,都可以通过TSM来备份,同时我们看TSM在底层,我们刚才提的这八百多种存储设备,都可以用来做TSM底层的存储空间。这是因为TSM使用的虚拟存储池的技术来管理存储设备,这主要是因为我们的TSM从一开始就使用了IBM主机高端下移的技术,我们的虚拟存储技术。在这个技术中,TSM并不把每种存储设备当作顺序存储介质单独来标识和使用,它把每种存储设备都可以定义成TSM的一个虚拟化的存储空间,所以无论是磁盘阵列还是光盘库,对于TSM来说,完全可以定义成简单的一级存储、二级存储和三级存储。所以在TSM的这种备份存储池的管理中,早在90年代的时候,它就使用了我们现在流行的HSM的分级存储迁移的技术。因此通过使用TSM可以真正实现在我们这样一个大型的银行系统和一个大的数据中心中,实现用一个单一的工具、单一的界面,完成我们所有的存储管理的工作。因此我们IBM在这几年一直在这些大的银行客户中做了充分的测试,我想这些测试和具体的功能,在座的大家都已经很熟悉了。
所以实际上作为TSM来说,我们看到就是作为IBM的存储管理解决方案,它不能看做一个简单的数据备份工具,它实际上是一个完整的数据管理平台。它的优点在中低端,这样的一个级别并不是特别突出,越是低端越不明显,越是升级到企业级,那TSM管理的优势越明显,这方面的主要是由TSM它的先进架构决定的。
首先像我们刚才讲的TSM支持各种网络传输,支持各种存储设备,同时TSM的架构还有它最开始的核心技术,就是TSM是最早采用先进的关系型数据库架构来做它的catalog管理工具的,这个技术是IBM拥有专利的技术。我们看到了现在,以前各种友商的不同的备份管理工具,都是用一些文件来存储这个系统的,例如ASCII码文件,但是现在它们都接受了采用外挂的关系数据库来做catalog管理数据库的技术。因此我们看到主要的备份技术提供商,这几年以来,全都外挂关系数据库了。但是同样使用关系数据库,在这个过程中有一个问题,比如说如果你是用文件来进行管理,或者说是你把一部分的索引信息放在磁带里面做二级管理即组合索引,那在使用过程中,可能对于中小型数据量的数据备份,可能非常方便,但是在海量存储备份的时候,可能会有一个容量问题。反过来,如果你采用直接外挂一个关系型数据库的方式,又会引出新的问题。比如说我这个数据库增大到TB级之后,这些外挂数据库的友商必须处理一些复杂的问题,例如在备份的同时,我同时往数据库写,做数据库的校验,这个过程中经常就会出现一些数据的错误和同步问题。那这个问题怎么解决呢?实际上作为TSM来说呢,它作为我们这个关系型数据库备份管理技术的专利的拥有者,我们首先在备份的过程中,不仅是采用了它来管理这个过程,而且通过一个LOG的二次确认,来确认这个备份的成功性,同时的话我们把这个关系数据库巧妙处理,把它直接内置到我们的备份软件里面。我们大家也知道,这种能力只有IBM才能做,因为对于其他的存储软硬件厂商而言,它们本身没有拥有专利的关系型数据库,而且也不拥有备份catalog数据库的专利,而IBM可以随便把它直接免费集成到我们的备份软件里面,就可以完成这个工作。所以这样一来,我们的TSM产品从TSMV3一直到V5,今年是5.5版,现在都是采用我们的一个数据库内核,而在我们今年在十月份,我们会发布最新的TSMV6,我们新的大的版本。在V6的备份管理过程中,我们直接采用了一个V9版的DB2。这样进一步完善了TSM的备份管理,以前如果我们要看这个备份系统的内部的时候,可能是比较困难的,我们需要通过TSM各种接口来做,但是现在我们通过V9的数据库可以直接通过各种标准的数据库接口程序,直接来查询到我们相关的信息,同时的话也方便基于TSM这个备份软件做的二次开发,然后提供了更丰富的存储管理手段。
所以实际上TSM是IBM的一个存储管理数据管理的一个软件平台,在这个平台中我们可以实现所有与数据备份、管理相关的功能,包括数据的备份、归档,基于备份的灾难恢复,以及各种数据库和应用的在线保护,以及我们基于底层,就是在线和离线数据之间的HSM空间管理,还有我们现在流行的各种其他备份方式,以及CDP持续数据保护,这些需求都是可以通过TSM系列的解决方案来实现的。TSM的解决方案还有一个突出优点,就是我们相关的工具功能,它们都是以TSM的这种管理技术为核心为平台。这样不同的数据管理功能通过一套TSM系统,可以很好的整合在一起。那这样基于我不同的业务系统,有不同的备份需求的话,我可以通过一套TSM,基于TSM为平台的备份系统完成所有的数据备份的功能。同时我们可以看到,TSM还有一些其他特殊的优点,非常适合于在金融行业的数据备份中使用。比如说第一个我们备份策略的颗粒度,像TSM它的备份策略的颗粒度非常的细,可以做到文件一级的,而且随时在备份系统正在运行的过程中,可以实时地改变;第二,我们说到TSM有一个单一的用户接口,通过TSM的一个单一的管理界面,可以管理整个银行的备份,比如说全国银行系统、备份系统中的几百个备份服务器,然后那几百个备份服务器呢,可能会备份着上千台业务服务器,那这样的一个系统中,我通过一个单一的一个远程管理界面,可以实现我对所有的备份服务器、所有的业务备份的,无论是到策略、到物理设备的设置,以及到它的这个维护的过程中,以及到每一个用户的权限定义,都可以通过单一的界面集中来完成;第三,TSM还可以实现备份的数据在存储池之间的随需迁移,现在在我们大的银行的方案中备份的数据,往往都是先备份到一级磁盘阵列,然后再迁移到带库或者我直接备份到VTL,通过VTL再迁移到带库,那这个过程中通过TSM都可以来随需调整,自由迁移,根据我们的定义可以随便完成;第四,TSM还有很好的空间的管理,通过TSM,它可以像我们经常做的磁盘碎片整理一样,它可以定期地整理我们所有带库备份的数据空间,把我们失效的数据,随时从整个备份系统中清理出去,那通过这种方式,达到的一个最大的好处就是,控制整个备份系统的规模和提高它的效率,规模缩小使效率提高。往往在一些大的项目中,我们可以看到很多以前用一些其他备份管理工具,当系统的备份窗口的容量已经到了极限大的时候,无法再扩展的过程中,通过TSM来替换它,我们可以把整个备份的时间和整个的备份容量缩小到原有的二分之一左右。其中有一个很典型的例子就是在美国有一个很著名的阿拉莫斯核实验中心,它里面就是存储的数据达到上PB级,它一共有几千个服务器,在这个中心的数据备份建设中,原来是用了一个友商的备份软件,然后在备份的过程中,最后用了几百个驱动器,有好几台大的STK的环形带库,最后在集中备份的过程中,用户发现他的备份系统已经难以再扩展了。所以最后的唯一解决方案是由IBM推荐用TSM来备份整个中心,重新做了一个备份系统迁移这样的一个项目。在这个项目中最后我们实际上发现通过TSM的空间按需回收、整理的过程中,最后完成所有原有的备份周期和备份策略的过程中,TSM使用的空间只有原来友商的一半左右。因此不仅大大节省了它的这个容量,而且实际上是以前很难再继续扩展下去的系统,实现了最终能够满足业务的备份和恢复的需求。
现在随着我们系统运维的水平不断地提高,我们越来越需要的就是基于WEB的远程管理和我们各种完整的监控报表功能,通过报告来反映我备份系统的运行状态,我们不可能像以前一样,比如说每个机器每个机器检查,或者每天早晨系统管理员查所有的LOG来看我的备份状态。所以这样的话每天通过我们的系统,我们可以查出我备份系统是否正常运行了。比如说在TSM的一个备份管理界面ISC,通过ISC我们每天可以看到整个备份进程到底有多少成功了,那我可以通过ISC把它不成功的备份点击进去,直接重新启动,直接重新备份一下就可以了。
我们看这是我们在一些大的银行中,经常推出的一个典型方案,在这个方案中我们可以看到,以TSM为核心,集成了IBM很多的存储管理工具,构成了一个完整的存储备份的方案!在这个方案中我们可以看到,在主的生产中心中,可能会有几百台服务器,我们通过一个HA的TSM备份服务器,把我的数据备份到我们的核心的存储系统中,现在经常会一级使用VTL,二级用物理带库。当然我们随着带库的性能越来越高,我们也可能直接用几个大型的带库直接代替VTL,在这个过程中我们是根据我们项目的需求来考虑的,同时在这个过程中通过IBM的TPC,通过它来监控备份系统的状态,因为TPC目前在几大行,都是用TPC来进行存储空间监控的,大家可以知道它实现的是包括存储的容量、数据分析,磁盘阵列的性能分析,以及整个存储连接状态的监控以及包括生成相关的报表。所以通过TPC我们可以分析相关的数据,有了第一个,我们要备份的业务数据的访问频次,我们备份数据每天的增长量,备份系统的容量的变化状态,这样可以很容易地规划我们备份系统的备份策略,同时来前瞻性的设计它,来设计一个非常合理的备份状态,然后同时通过IBM的系统管理解决方案,以及通过ITM/Netcool,我们可以收集到跟备份相关的存储设备的它的事件和信息,这样在这个备份过程中,我并不只是在监控备份服务器,同时我们也监控所有跟备份相关的信息,做一个关联汇总和处理。因此备份的管理员由以前的这种被动管理,变成备份的集中管理的、系统管理的项目经理,它直接可以通过我们的报告,备份的状态反馈来处理备份系统的运行状态。同时在我们的测试中心或者是容灾中心,我们还设置另外一台TSM备份服务器,然后通过两大中心之间的网络连接,把备份数据做一个远程的复制,这个复制并不是我们现在做的基于硬件的复制,因为TSM服务器之间,有三种方式可以进行数据容灾的传输,这种传输的就是可供我们选择的技术方案很多,TSM跟其他厂家不一样,不是一个简单的唯一的复制技术。我们在TSM服务器之间,可以把一些相关服务器的备份数据,把它传输到远程的备份服务器,然后可以在远程的服务器随时来恢复这个数据,实现基于备份的远程容灾。在这个方案中我们可以看到,随着我们现在备份技术的提高,对于一些以前出现的备份难题,我们可以采用新的技术灵活化解。比如说像备份窗口过小,然后过于缩减那怎么办呢?我们在备份的过程中,我们集成了很多的硬件的技术,比如说对于高端的磁盘阵列,我们可以直接通过FLASH拷贝这种快速复制的方式,通过复制出一个数据卷,然后由备份服务器连接到这个数据卷来做数据备份,那这个过程中就达到了数据备份对于应用服务器是没有任何影响的。那对于中低端存储系统的话,我们就通过VSS的方式,实现快速备份。我们还通过NDMP的方式来进行NAS快速备份,通过这样多种方式,可以把我们以前备份系统需要由应用服务器直接备份到带库,每天要保持很长时间运行的过程中,直接变成结合硬件的快速复制的方式,来实现的我们的这种一个数据的实时的复制、实时的备份,这些都是一些详细的新的技术说明了,我就不直接再一一讲解了。
下面呢我再想讲几个特点,第一个我们基于TSM的备份的技术,它是和整个系统管理运维的技术集成在一起的,所以在IBM的解决方案中我们可以看到,它不仅可以简单地完成数据管理,同时可以完成备份作业,存储资源以及相关的存储设备的集中监控和管理。那第二点的话在这个解决方案中,还包括了存储流程管理解决方案,是TSM存储的流程管理工具,通过这个管理工具可以很简单地实现把我们的存储和备份管理纳入到整个IT流程管理的范围中。如图,在这个过程中它的前端是来操作我们的备份和存储监控工具,然后后端把相关的数据储存到Tivoli的CCMDB,就是我们的变更和配置管理数据库,在这个方案里,备份系统和整个系统管理的流程管理结合在一起,可以自动完成我们最基本的存储管理流程比如说数据的增加,数据的清除,然后以及存储容量扩展,像刚才我们提到的VMware虚拟存储技术可以随意增加存储空间,但是有了虚拟存储技术,我们什么时候来扩展这个存储空间呢?这就需要通过我们的存储管理的流程化管理工具,它可以感受到前端各种监控工具的传输来的数据,然后这样的话根据业务的需求,直接启动存储空间和数据清除的流程,这样把我们以前的一些需要手工操作的工作,直接通过这个我们的工具就可以自动化地完成了。
最后,我们总结一下,通过这个方案我们可以集成以TSM为核心的存储备份管理平台,可以实现,尤其是在大型的金融中心这种核心数据系统,然后以及我们的海量数据系统的备份和存储管理,从IDC的分析报告我们可以看出,目前TSM在全球的数据归档和备份的管理方案中,在IDC分析中一直是处于第一位的,因此也是目前尤其是在大的企业级金融备份系统中用得非常普遍成功的一个解决方案。在国内的金融行业,IBM也有很多的案例,例如人行的清算中心,深发展,中行网银系统等等,以及像我们几大银行的很多分行,它的备份的技术都是通过TSM来实现的。因此可以说IBM在我们现在在各大行,在这个备份系统面临整合和这种集中的过程中,基于IBM的丰富经验和优秀的产品,我们可以为大家提供一个最佳的方案来满足我们在数据备份中的所有新的需求,完成数据中心备份系统的整合。
谢谢大家。
|