大数据的归档


在当今这个数据爆炸的时代来临之前,可能没有多少人会想到数据会像今天这样如此之多、如此之大、增长速度如此之快,已经快到令人几乎难以招架的程度:这些大数据该如何处理?

对于企业来讲,重要数据无法删除,必须要保存相应的时间。那么存在哪里、怎么保存、增加存储的速度能否赶上数据增长的速度、怎样管理、再次调用能否便捷……一系列的问题接踵而来。

同时,大数据中很常见的情况有两种,一种是:数据本身带有图表等大型文件;另一种是:群发文件使本身并不庞大的单个信息组合在一起,最后占据的空间令人吃惊。很多时候,我们看到邮件、文件等把固定的空间占据得所剩无几,可是每封邮件都很重要,哪个文件也不能删,这就令人非常为难了。

上述情况透露出以下需求:大数据的保存、管理和重复数据删除。

有些存储厂商号称,他们的存储设备可以完好保存大数据,也能做到重复数据删除。没错,但这里面有一个问题,就是数据的管理并不便捷。众所周知,管理是存储的软肋。当数据被存储后,就无法随时随地进行调取和管理,这在信息高速流通的今天是相当不方便的。试想如果一场诉讼要求企业在一定时间内出示证据,那对存储上数据的调取会花费相当长的时间,再加上信息甄别、公证的时间,整个过程走下来,有效期限恐怕已经过了。

在这样的情况下,归档显然成为了满足多种需求的最佳解决方案。归档在将数据保留足够期限的同时,还能精确到对单个信息的管理,这里要注意了,并不是每个归档产品都有重复数据删除这一功能,就以EEA为例来说明邮件归档的重复数据删除。

经过邮件服务器的邮件被EEA抓取,进行分析处理、经过索引内容和附件,就开始了数据压缩和重复删除。比如群发了一百封邮件,每个邮件中还带有一份附件,这样数据量就很庞大,重复删除处理后,重复的邮件内容和附件都被去掉,这一百封邮件最后只留下了一百个邮件头、一个内容和一个附件,这样所占空间便大大减少了。重复删除与数据压缩结合起来能够使数据所占空间缩减至原来的30%——真乃天壤之别!经过重复删除和数据压缩的邮件存储于归档服务器中,既减轻了一级服务器的存储压力和运维成本,又使用户在使用习惯上没有任何的改变,依旧像原来一样进行日常管理操作。这些都是备份容灾系统无法单独完成的,只有与归档系统结合起来,才能达到对企业信息管理与保存的双重目标。

在大数据时代,带有重复删除技术的归档系统已显得犹为重要,既能保证数据的存储遵从相关法律规范,又能使数据满足日常管理与应急需求,还能运用重复数据删除等技术减轻存储压力,归档系统应用于各类型企业实为大势所趋。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章