随着虚拟存储技术的发展,虚拟磁带库正在逐渐成为一种成熟可用、高性价比的数据备份设备,并由此引导着一场备份技术的革命。虚拟磁带库利用磁盘阵列作为存储设备,通过内置软件虚拟为现存的主流磁带库,兼有磁盘设备的高性能、易维护和磁带设备先进成熟的介质管理两方面的优势,受到市场和用户的广泛关注。
本方案主要从传统磁带库用户面临的困扰入手,逐步分析虚拟磁带库的技术优势和应用模式,介绍虚拟磁带库技术的发展现状,帮助用户了解这种有更高性能价格比的优秀解决方案。
2 、传统磁带库用户面临的困扰
几年前,越来越多的用户已经意识到数据保护的重要性,纷纷采购磁带库和数据备份管理软件构建自己的数据备份系统。通过磁带库,用户可以进行复杂周密的介质管理,并利用备份软件实现高度的自动化。磁带介质还十分便于离线保存,可以定期从磁带库中取出,人工转移到另一地点,实现异地容灾。但现在,这些用户逐渐痛苦地意识到,自动化的数据备份虽然提供了帮助,但也带来了很多新的问题,而这些问题正在严重威胁到原来设计的数据备份方案的可行性。
?
可靠性
?
磁带库的可靠性远不像磁带库厂商宣称的那样,平均无故障使用时间( MTBF - Mean Time Between Failure )、平均无故障换带次数( MSBF - Mean Swaps between Failure )等关键指标并不能作为实际应用的参考基准,宣称可以工作几十万小时的磁带机在实际应用中往往一两年就开始出现故障;磁带库的机械臂出现故障的概率也很高。尤其是中端以下(包括中端)磁带库的用户,有相当大比例的用户都经历过至少一次磁带库故障,导致备份的失败;
? 磁带也不像原想的那样可靠。磁带对电磁、温度、湿度等条件要求十分苛刻,虽然短时间不一定会发现问题,但往往在进行数据恢复的时候,意外地发现因为磁带的损坏,不能进行数据恢复;
?
性能
?
目前磁带机的技术发展迅速,开放市场上主流产品中已经能够提供单盘容量几百 GB 的主流磁带机,每秒的数据读写可达几十 MB 。但磁带技术的发展仍然没有跟上数据量的爆炸式增长,同时,随着越来越多的业务要求 24x7 的工作时间,每个系统能够留给备份的时间反而越来越少。如何能够在更短的时间内完成更多数据量的备份?用户别无选择,只能在磁带库内安装更多的磁带机。这意味着更高的支出,更高的故障率,当磁带技术更新的时候还意味着更大的**浪费。即使这样,由于磁带库库体设计的限制,能够增加的磁带机数量仍然是有限的;
? 磁带设备的性能瓶颈不仅仅来自于读写速度。磁带加载卸载所需的时间有时候比读写的时间更长。而即使最新式的磁带机在这一方面依旧没有明显的改进。用户的数据量要恢复的数据可能分布在很多盘磁带上,如果要进行一次完整的系统恢复,由于频繁加载卸载磁带,恢复时间无法控制;
?
可扩展性
?
数据量不断增加,而磁带库扩展的余地很有限;
? 如果一开始就采购比较大型的磁带库(如 200 槽以上),即使采用较低的初始配置,其价格仍然很高;
? 投资回报率
?
一方面磁带插槽很快就不够使用,另一方面几乎绝大部分磁带其空间无法充分利用。由于备份管理上的要求,很多的磁带只写入了几十 GB 甚至几 GB ,却由于保存周期和磁带分类管理等要求,不能写入新的数据。这样,一台号称几十 TB 的磁带库,可能只能利用不到一半的空间就必须考虑扩容了。
? 由于磁带库技术较为封闭,大部分配件的维修、更换必须由磁带库原厂商工程师完成,这使得实际故障排除时间难以控制,而且成本很高。
最终,用户会发现,用于数据保护的**往往超出预期,最终的结果却依旧不能令人满意或难以预期;而备份系统本身反而增加了系统维护的工作量。这已经成为很多单位目前十分现实的困难。
3 、利用磁盘的数据备份
出于以上提到的问题,有些用户和咨询专家开始倾向使用磁盘阵列作为备份设备。随着 SATA 磁盘技术的兴起,大容量磁盘的价格进一步下降,性能价格比更好,使很多人开始关注这种做法。
利用磁盘阵列作为备份设备的解决方案应运而生。这个解决方案有几种流行的实现方式:
? 最初大家的普遍做法,也就是采用标准的光纤通道或 SCSI 的磁盘阵列,安装容量价格比比较好的 SATA 硬盘,直接连接在备份服务器上,利用服务器将其格式化为一个文件系统;
? 随着 NAS 的兴起,也有的用户利用 NAS 上的存储空间进行备份;
? 目前一些主流的备份软件具备的磁盘备份功能。
这一类解决方案的特点是:利用磁盘作为存储设备;磁盘被格式化为文件系统。
这种方式相对磁带库而言解决了很多明显的问题:
?
不再需要受到磁带库设备和介质可靠性方面的困扰;
? 规避了磁带加载卸载对性能的影响,其持续读写性能也可以达到或超过中型磁带库;
? 明显提高了设备的空间利用率;
? 磁盘阵列设备在用户环境中很常见,一般的系统管理员不需要过多的专业知识都可以自行维护,降低了维护成本。
而且,通常看起来**比较低,用户只需要购买一台存储阵列就可以了。
然而,在实际应用中,用户逐渐发现,这种最简单的基于磁盘阵列的解决方案并不是完美的,存在很多问题。
?
共享
如果在一个有多台服务器的环境中要实现 LANFree 备份,配置的复杂性和成本都会迅速提高。
一般来说,实现备份到盘阵上,都要在这台盘阵上建立一个文件系统,才能够被备份软件识别使用。而且一般的文件系统都不能被多服务器共享,只有磁带库可以实现共享。
这就是说,如果想象使用传统磁带库一样,通过 SAN 实现多服务器共同使用同一个存储阵列,必须要在磁盘阵列上建立多个逻辑设备,然后将每个逻辑设备分配给每台备份服务器。
这就带来了管理上一系列的问题:
? 如何决定为每台服务器分配多少块磁盘?
? 一旦分配的空间太少,如何在线进行扩展?
? 一旦分配的空间太大,如何缩减?
? 这一功能是否需要昂贵的卷管理软件工具来解决?
?
安全性
这种简单基于磁盘阵列的存储设备是以文件系统的方式出现在服务器上的。这个文件系统可以由任意的工具来操作,也可以被任何人来访问。一个有意无意的 ”rm –r” 或“ del *” 就可以毁掉所有备份。总而言之,和文件系统上的其他文件一样脆弱。这意味着很多危险:
? 会不会由系统管理员的误操作或其他人的恶意删除导致数据损失?
? 会不会被人将数据非法拷贝走,到其它计算机上进行恢复,导致关键机密的泄漏?
? 会不会被病毒感染,导致备份数据无法用于恢复?
?
性能
首先,文件系统本身就可能是性能瓶颈。尤其在多任务、多进程的时候,文件系统很有可能使整个备份系统的瓶颈。
文件系统难以解决磁盘碎片的问题。磁盘碎片会导致文件系统的性能逐渐下降,而且,当数据量比较大的时候,磁盘碎片的问题很难以解决。
?
功能
备份管理软件是设计为磁带库使用的。虽然目前绝大部分备份软件都支持使用文件系统作为备份设备,但与使用磁带时的功能有一些差别。这些差别会导致一些严重的问题:
? 一些主流的备份软件在备份数据超过保存期限的时候,如果使用磁带介质,可以方便自动进行回收。而如果使用文件系统,则无法自动化地回收这一部分磁盘空间。系统管理员必须手动地利用操作系统命令删除相应的文件。但这一工作是有很高风险的,因为文件系统不能区分该文件是否超出了保存期限;
? 当备份系统因为某种原因丢失了介质索引的时候,一般都可以利用重新扫描磁带对索引进行重建。但如果采用磁盘作为存储设备,备份系统无法对其进行扫描。这样,很有可能虽然所有的数据仍然存放在磁盘阵列上,却无法进行数据恢复。
? 放在磁盘阵列上的数据备份,无法直接进行介质复制,将备份数据拷贝到磁带上,进行离线保存。这样,就失去了磁带因此带来的一系列灵活性,如离线保存、数据移植、异地容灾等等。
根据以上的分析,这种简单的利用磁盘阵列直接当作备份设备的做法,虽然解决了来自于磁带库的问题,但也产生了磁带库设备没有的新问题,而且更加难以克服。因此,到现在为止,很少有人采用这种方法进行备份。
实际上,直接利用磁盘作为备份设备的应用,一般局限在利用磁盘作为磁带备份的缓冲,这个功能目前很多主流的备份软件(如 VERITAS NetBackup 的 Disk Staging , Legato NetWorker 的 Disk Backup Option 等)都可以提供。也就是说,备份作业首先在时间窗口内在磁盘上完成,然后在后台时间再将数据从磁盘转移到磁带上。这个方案需要用户对备份软件进行一系列复杂的操作,而且同样具有以上的诸多问题,因此用户仍然必须依赖传统磁带库对数据进行最终的存储,只能算是传统磁带备份的一个补充,实现加速备份和恢复的目的。
4 、与备份软件提供的虚拟磁带库功能的比较
目前,一些备份软件产品开始具有一定的虚拟磁带库功能(如 BakBone NetVault 提供的 Virtual Disk Library 等)。其做法一般是在备份服务器上安装一个虚拟磁带库的软件模块,通过该模块将备份服务器上的一部分存储空间虚拟为磁带库。
此类解决方案十分简单,成本也很低,具备初级的虚拟磁带库的功能,能够部分解决磁带备份的性能等问题,因此有一部分用户开始采用。
但该方案具有一些明显的弱点。如,共享问题,实现 LANFree 备份时的管理问题,安全性问题等等,对备份服务器还要耗费很大的系统资源。总的来说,这只能算作上文中磁盘备份方式的一个延伸,它的主要用途是做为磁带备份的一个缓冲,而不能完全脱离传统磁带库。
比较内容
|
磁盘阵列或软件虚拟磁带库
|
硬件虚拟磁带库
|
安全性
|
与文件系统的关系
|
建立在文件系统上,会随文件系统的损坏一同损坏
|
建立在裸设备上,不会随文件系统的损坏而损坏
|
病毒
|
有可能会被病毒
|
不会被病毒感染
|
误删除
|
是文件系统上的文件,可能会被操作系统命令误删除
|
不在文件系统上,不会被误删除
|
移植
|
文件可能通过共享被人非法拷贝到其它机器上恢复,导致机密泄漏
|
不会发生非法拷贝泄密的问题
|
管理性
|
共享
|
由一台备份服务器独占,不能共享
|
可以虚拟多台磁带库,分配给所有的备份服务器,存储空间共享
|
空间回收
|
有些备份软件难以实现,需要借助操作系统命令删除文件
|
自动完成
|
索引
|
有些备份软件不能扫描磁盘上的介质索引,一旦索引损毁无法进行恢复
|
具有与传统磁带库一样的完整索引管理功能
|
性能
|
性能瓶颈
|
性能低。文件系统本身是性能瓶颈。难以优化
|
性能高。磁盘阵列和光纤接口的性能可以通过扩容逐步提高。
|
磁盘碎片的问题
|
存在,系统性能会逐渐降低
|
不存在。系统性能保持不变
|
5 、虚拟带库相比于传统磁带库的优势
? 基于磁盘存储技术,磁盘介质在 I/O 性能上远远高于顺序读写的磁带介质;
? 传统磁带库中机械手、磁带驱动器为最大的故障点,虚拟带库的上述部件均为虚拟化,不会因为上述部件的机械故障造成系统停滞;
? 虚拟磁带库的整体 I/O 性能取决于主机通道的实际带宽,而物理磁带库的整体 I/O 性能取决于驱动器的类型以及数量;
? 传统磁带库产品磁带库初始化、机械手抓取磁带、驱动器 Mount 磁带均需要一定的时间,而虚拟磁带库的这些时间几乎为 CPU 时间;
? 虚拟磁带库可以灵活配置驱动器数量、类型以及磁带插槽数量以适应不同的应用环境;
? 传统磁带库的磁带通常是不做容错的,如果需要进行容错用户需要购买相应数量的磁带驱动器以及备份软件的 RAID
功能授权,因此传统磁带本身存在单点故障;而虚拟磁带库是基于 RAID 磁盘阵列存储技术的单个硬盘故障完全可以通过 RAID 以及热备援磁盘来解决。
6
、结束语
磁带备份技术发展了几十年的历史,而现在随着 SATA 磁盘的性价比和可靠性的提高,使基于磁盘存储的虚拟磁带库技术成为用户的另一种选择。而这种技术相比传统方式有更高的性能、可靠性、灵活性,而其价格更加低廉,更可节省后期的维护成本。同时,基于以太网的连接方式还可以实现原来难以实现的新的应用。最主要的,传统磁带库的用户在使用虚拟磁带库,享受到新技术带来的一系列好处时,完全不必更改现有的管理策略和配置,存储虚拟化完全透明地进行。这种技术适用于大量用户,势必成为备份主流技术之一,领导一场备份技术的革命。