活动概览

时间:2008年4月10日
地点:北京-金融街威斯汀大酒店

主办单位:金融时报社
承办单位: 埃普威
支持单位:相关商业银行、保险、证券、基金机构
总人数:300人

近期活动一览

>2007'金融行业网络信息安全高峰论坛
>首届中国金融业呼叫中心行业评选
>2007'通信行业网络信息安全高峰论坛

近期活动回顾

>2007'金融行业网络信息安全高峰论坛

 2008'中国金融行业存储峰会介绍 | 存储议题 | 峰会议程 | 合作联系 | 注册参会 | 组织单位介绍
存储在中小规模金融企业的应用

 

 

国泰基金信息技术部总监管勇

  很高兴有机会在这里和各位交流一下存储设备的使用。我首先介绍一下国泰基金,国泰基金是中国国内第一家规范成立的基金公司,成立了已经有十年了,伴随着国泰基金的成立就掀开了中国规范化基金公司发展的历史。经过十年的发展,国泰基金旗下已经拥有了十二支公募基金和两个社保组合,旗下的产品涵盖了从货币基金、固定收益型基金、保本基金到混合型基金到股票型基金,成为现在开业的六十家基金公司当中,为数不多的同时拥有公募基金,专户理财资格、企业年金资格和QDII资格的多元化的资产管理公司。这里我演讲的题目是为什么说是中小规模金融机构呢?因为基金公司同证券公司和保险公司不一样,从资产管理规模来讲,现在经过前两年的一个爆发式增长,基金公司的资产规模已经可以和某些保险公司甚至地方性的城市商业银行的资产规模相匹敌,但是它的分支机构却很少,所以我们把它定义成叫中小规模的金融机构。
  2007年我们国泰基金存储设备进行了更新,我们从安全性、可靠性和数据处理容量、处理效果方面进行了测试,选择了我们认为性价比比较好的产品,那在这个过程中,我们提炼了一下作为一个中小规模的金融机构对存储设备的关注点。
首先作为金融机构来讲,无论规模的大小、业务多么简单,刚才上午的时候多位专家也提到了,数据都是我们的生命。就拿我们基金公司来讲,就像我刚才提到的,也没有几个分支机构或分公司,但是呢全国各地的客户都在购买基金,保存有几百万甚至上千万的客户信息,最大的基金公司客户数量可能已经达到了2千万。数据的存储基本上是依赖各公司自己的一个注册登记系统,一旦数据出现问题很难追溯,无法向投资者交待。目前为考虑系统的安全性和单点故障,各公司在主机上都采取了双机热备的模式,但是双机热备模式的基础是共用存储,存储上的数据是不能够出现问题的,一旦出现问题后果将不堪设想。所以金融机构在选择存储设备的时候,最大的关注点还是一个安全性的问题、可靠性的问题。这两年随着中国经济的发展,金融行业也得到了一个快速的发展,尤其是基金行业在近两年内得到了一个快速的增长,业务数据突然爆增,很多机构的设备都无法承受这样的压力,处理时间要比原来增加好几倍。我记得行业内有一家基金公司,它的清算速度非常地慢,但是出现这样的问题,要命的在哪里呢?他们刚刚才更换了主机系统,真是一筹莫展。后来有人支了一个招,更换了存储设备,它清算所需要的时间就压缩到原来的七八分之一,可见存储的性能好坏,对系统整个性能来说是非常重要的, 数据沉淀多了各种系统的应用也随之而来,最困难的就是要跨不同的平台取数据。为了便于管理,就要求数据要集中存储,数据集中到一个存储上管理是方便了,但是集中的还有风险,如何做好数据备份又成了非常关键的问题,一般的公司都制订有定期的全备份和每天的增量备份,购买带库进行统一管理。但是如果说是设备突然坏了或者说是误操作造成系统瘫痪,要恢复的数据都是短时间前的,用这些备份来恢复的话,就要找到一个全备份、所有的增量备份,然后敲入一大堆命令就是长时间的等待,上面有一个专家说了,要恢复这样的数据可能要四、五个小时。且不说数据恢复有没有问题,就是说长时间的等待也是业务所不能容忍的,特别是作为我们证券行,更不能容忍长时间的等待。现在存储自身提供的这个快照功能,就可以负责完成近期数据的备份,配合其他的快速恢复软件,如果再遇到这样的问题,那么我们可以在秒级内就可以恢复到几分钟前,几小时前,如果快照足够多的话还可以恢复到几天前。
  还有异地灾备系统的建设,不用说最好的方式是存储级的镜像,但是这样的话呢变动的数据量就太大,异地间的带宽要求就很高,传输的时间无法得到保证,我们现在可以根据不同公司对RPO、RTO的要求制订不同的策略,比如说我们国泰基金就采用了定时快照,传输速度可以满足当前的需要。还有存储管理的便捷性、容灾性都成为我们的关注点,另外还有一项制约的就是我们的一个成本的问题。我们必须考虑存储设备的性价比和可扩充性,不仅仅是存盘容量的可扩充,还要求能够在线扩充,尤其是我们证券基金行业这个业务,基本上都是在线的,不能够要求宕机来扩容,还有要求能够保证现有资产的重复利用,如何才能以最少的时间对数据采取最安全的方式实现设备的升级,这也是我们对存储设备的关注点。
  下面介绍一下国泰基金部署的存储的特点,我们首先实现了部分业务的存储集中,通过存储设备的定时快照镜像功能,完成了小带宽情况下的异地灾备系统的数据传输,利用快照和快速恢复软件完成了数据的快速备份和秒级的恢复,利用克隆技术,完成了系统数据的测试,采用了NFS文件卷管理,实现了主机与存储间的动态管理,采用了虚拟存储的技术,实现了存储空间的在线伸缩。下面介绍一下各项功能在我们公司实际的应用情况。
  我们知道在金融机构采购设备都要求采购稳定性好、容量尽可能大、性能尽可能好的设备,也就是说性价比比较高的设备。当时国泰基金的情况也是这样,采购两台高端存储设备费用太高,一台设备呢又担心出现单点故障。我们在进行了充分的市场调研之后,采购了双机头、双系统设计的存储设备,可以使存储的单点故障降到最低,以低成本、低性能开销,不增加系统复杂度的前提下,将两台独立的Filer耦合起来,一旦设备的一个机头故障停止运行,并且不能重新启动的话,另一个机头就会自动接管这个机头的全部工作,保证系统的正常运行。以后我们再考虑经费充足的情况下,再购买另外一台单独的存储设备做备份。硬盘也采用了双奇偶校验,一个传统的水平奇偶校验和一个对角线的奇偶校验,能够保证同一个RAID组上的两个硬盘发生故障,也能够使数据得到保护。
  另外值得一提的就是对存储人员的储备也是必须的,所谓的存储设备的可靠性达到99.9%,这种可靠性都是要依赖于有人能够及时发现问题。我可以举一个例子,有的公司的存储设备在运行了一段时间以后,应用程度的速度会越来越慢,大多数人都认为是数据量增加的原因造成了系统性能的不足,采用的方式就是更换更高性能的设备,当然这样肯定能够解决问题。但实际上呢有可能的原因就是因为控制Cache电池达到了使用寿命,这样的话Cache根本就起来不到作用,数据处理的速度就会缓慢,像这样的问题必须要有专业的技术人员才能够解决。一般的存储设备都会提出一个概念叫做可靠性在99.9%时每T数据的cost,但是这个仅仅是指存储数据的费用,还没有包括人工的费用,所以无论是购买维护还自己培养技术人员,费用都比较难以计算。实际上无论公司怎么样,内部都必须要有这样的专门维护存储设备的人员,这样安全性才能大大提高。
  现有的存储设备帮助我们完成了许多工作,包括备份、恢复、异地灾备等,这些工作的基础都依赖于快照技术,就是将存储当前状态与上一次快照时的状态进行比较,生成数据变动块的增量备份文件,但是像我们这种用于存放数据库文件的存储在进行快照时往往还有一部分数据在缓存中,没有及时刷新硬盘数据,所以说快照备份技术还必须与数据库的备份模式相结合,才能够实现有效的在线备份。
  快照也可以自己定义拍摄的时间,保存的个数,我们选用的存储设备最多可以保存250个快照,这个已经能够满足我们的使用。快照是一个增量备份,如何快速地恢复快照,存储厂商提供了适用于不同应用的各种软件,目前我们应用到的是快速恢复软件,可以在秒级的时间内将存储数据状态恢复到任意一个快照的状态。这种方式非常适合于数据在原有的存储上恢复,但是不太适合测试,因为一旦恢复了数据,测试完成后,就要重新开始同步所有被恢复快照后的数据,这样如果说是恢复较早时间的快照的话,同步的数据量就会太大,小带宽无法承受。当然存储厂商也提供了一些硬件设备,容量大、体积小、携带方便,可以将存储上的数据镜像到这套设备上去,然后再带到需要恢复的存储上再镜像回去,这样速度相对快一些。但是还是比较麻烦,为了便于测试有一个很好的软件那就是克隆软件,就是采用克隆技术,选择一个需要恢复的快照,做一个临时卷,然后把这个要恢复的快照恢复到这个临时卷上去,这种方式占用的存储空间比较少,而且可以和原来的卷一样地操作数据,测试完成以后只要把这个卷删除了就可以了,原来的数据还可以照样使用,甚至在做镜像的卷都不用将镜像断掉,数据可以继续传输,这种方式非常适合于这个测试。当然这个测试完成之后,要删除这个临时卷,否则的话就会造成超过设定数量的新的快照没有办法生成,对备份将是一个很大的问题。
  现在有一种非常强烈的需求,就是对存储卷的扩大是否可以不用配置,主机自动识别?甚至有人提出概念说购买存储的时候就考虑到需要使用的存储容量,比如说一个T,那么就购买足够的硬盘建立一个T的存储卷,在主机上创建一个10个T的存储文件,为什么呢?就是要考虑到将来存储的扩容,这样既可以节省硬盘的费用,因为硬盘随着时间的推移折价率会比较高,又可以实现不下系统,就是不宕系统(特别是对于我们证券基金行业来说下系统是一个比较麻烦的事情)来直接扩容,但是对于像我们这样采用双机热备的扩文件卷,还需要两个机器之间做同步,比较麻烦。这个想法是很不错的,但是问题就在于主机如何识别存储空间只有一个T?当存储空间快满的时候给出提示。对于主机上删除的文件,存储如何才能够识别出来?因为主机上删除文件的时候,一般只是给出一个标记。在我们目前性能足够的情况下,我们采用了主机挂网络文件的存储方式来访问存储,这样以网络资源的消耗换取了系统的灵活配置,这种方式主机自动识别存储的大小,存储卷的伸缩不受主机的限制和影响,在扩充存储的时候就不需要任何配置,方便管理。
  去年在证监会要求的情况下,我们公司完成了灾备系统的建设,灾备单选择了上证通的灾备机房,由于带宽的限制,在RPO和RTO允许的情况下,我们采用了存储提供的基于快照的镜像功能,完成了自动异步数据复制,生产端和备份端的带宽只有2M。目前我们采用的异地备份存储是利用存储提供的镜像方式中的多对一的方式,就是本地有多套存入设备,分别存放不同的卷,异地端只有一个存储设备。两端的存储容量一致,通过存储硬件实现快照镜像的方式,将生产端的数据复制到备份端。这样基于磁盘的镜像功能,使备份的数据随时处于最新状态,只要打破镜像就可以直接使用。可以在秒级的状态下,恢复到任何一个快照备份。
  下面简单介绍一下我们灾备的架构,在数据备份方面,完全依赖于存储提供的快照镜像功能,生产端有两台存储设备,通过一根2M的SDH专线,将生产端与备份端之间互联,将生产端设备分别定义了A和B,备份端也划分了A和B进行对应,生产端A和B又划分了不同的文件卷,通过文件卷的一一对应,进行快照的镜像传输,这样我们在灾备端就实现了生产端运能一半的备份,当然我们希望灾备端永远都不要启用。
  存储设备的更新不仅在容量、性能和安全性方面有了很大的提高,对系统管理方面也有很大的简化,以前的存储都是用UINUX命令,一大堆苦涩的命令集合才能够完成一项功能,就拿启用灾备功能来说,都是要敲入一堆专用的命令。现在的存储为了便于管理在命令方面做了很大的改进,日常管理只要几十条命令就可以了,甚至可以基于WEB界面,方便而且功能较多,当然作为专业的技术人员来讲还是喜欢用命令行的,因为这样比较简洁。像我们采用的存储设备最初的系统配置大概只需要15分钟。
  我们还要关心的是设备的高扩容性,大家都知道随着业务的不断地发展,数据量不断增长,对设备的性能要求必然会增加,考虑到这些情况很多人都希望在购买设备时,就具有很强的扩充性,甚至在采购的时候就要购买大量的硬盘,但是往往这样的硬件费用会比较高,而且和其他电子产品一样过了使用年限都需要更新。如何在最短的时间内完成设备的更新,特别是数据移植方面?进行数据移植肯定会存在数据丢失的一个风险,而且数据量大移植的时间长。我们希望存储设备能够提供不同型号设备间的系统复用,那么在升级系统的时候,只要更换一个机头或者一个机壳,增加一些硬盘就可以了。通过对虚拟存储卷的扩充来完成系统的升级。有很多型号的存储设备在同等级的各种型号设备之间可以适合互用,但是在跨等级的设备间就无法实现,这样对我们进行设备的选型就有很大的局限性。
  下面再谈一谈我们公司在存储上的规划,目前我们是仅仅实现了在部分业务上的存储的集中,以后会逐步实现应用服务器的集群和存储的全部集中,将存储设备从现在的一个中档的设备更换成更高档的存储设备,存储容量进行扩充,这样在公司的内部设备就形成了两大集中,一个是服务器的集中,一个是存储的集中,实现统一调度完成资源的统一管理、统一分配,通过两个存储之间的协同,完成主机对两个存储设备的同时读写,降低设备的单点故障。存储双机头控制,实现单设备的安全保障,另外通过存储之间的快照镜像功能,实现异地的数据备份。
  在存储内部继续沿用虚拟存储池的概念,将本地硬盘划分成两个统一的存储池,在存储池上建立起不同的文件卷,可以在线动态地扩充大小,将不同的文件卷再分配给不同的主机来进行应用。灾备的异地端可以采用单机头控制的存储,划分成单个存储池,在存储池上建立起文件卷,分配给不同的主机甚至是同一个主机不同的文件卷,只是说性能可能是略差一点儿。

  由于时间的关系我就谈这么一些,我们作为存储设备的用户角度来讲,我们谈到的只能是我们在使用存储设备的过程当中遇到的一些问题和想法,可能和有一些专家和嘉宾谈到的观点不相同,我们有机会可以再进一步探讨,谢谢大家。


如何参会

方式一:
下载《参会回执表》,填好后传真至010—62072957参会

方式二:在线报名参会
注:欢迎金融机构人士免费参加,额满截止

演讲阵容
代表性金融机构:
特约合作伙伴
财经门户:
金融界(战略财经门户支持媒体)、搜讯网、中国金融网、中国金融界网、中国财经网
国脉金融服务网
存储专业门户:
存储在线、存储时代
IT媒体:
网易科技、新浪科技、中国信息产业网、IT168、51CTO、中国IT实验室、人民邮电报

 
 
2008'中国金融行业存储峰会组委会