选择正确的数据归档策略,可以为用户在许多方面带来便利。以下是关于如何建立并执行此类策略的一些建议。
数据归档对于绝大多数的组织都是很重要的环节,但并不是所有组织都建立有数据的归档策略。其中的原因有很多:决策者可能不了解归档业务的价值、数据备份与归档之间的区别、归档太复杂/太昂贵了等等。
不过,StorageSwiss前首席分析师、StorONE现任首席营销官George Crump表示,任何拥有超过25TB数据的公司,都需要建立一套属于自己的数据归档策略。
“我们的出发点,并不是为了节省花在主存储上的预算,更多的是为了证明数据的留存率,随着GDPR和CCPA等法规的实施,数据的留存率将变得越来越重要。” Crump说。
对数据进行归档可以带来的好处还包括:被归档的数据,通常只需要存储在成本较低的存储层之中;此外,归档还可以帮助防止数据丢失事件的发生。
建立归档策略的另一个原因,就是为了防范勒索软件的攻击。一般来说,归档数据对比其他数据而言,是更难被勒索软件“攻陷”的。
数据归档后,还可以帮助缩小实时数据集的容量,使得对其的处理变得更容易、更快。例如,如果用户通常只搜索1-2年前执行过的业务,那么在其的实时系统中保留过去10年的业务记录,只会降低搜索任务的完成速度,且成本也会更高。
以下是我们整理的一些建立数据归档策略的技巧,您可以基于此,与自身的已有业务进行对照:
了解自己拥有哪些数据,并在做任何决定之前都要进行评估。在进行任何的归档操作之前,您必须知道您拥有哪些数据。有很多依赖于平台的相关工具可以帮助实现这一点。此外,在购买任何设备之前,要确定会有哪些团队成员可以使用它;哪些数据将被归档;这些数据的访问频率,以及归档体系将如何更新、访问和控制等等。
技术研究和咨询公司ISG的首席顾问Cindy LaChapelle说,确定数据被访问的频率至关重要,因为其可以在很大程度上决定你所需要选择的平台类型和所需的响应时间。
她解释说:“如果归档是在云端进行,但所有数据的原始副本都在数据中心,随后再被传输到基于云端的归档体系中,可能会引发延迟的问题。因此,你需要根据哪些人可以访问数据、访问的频次以及数据恢复的要求出发,测试相关的技术参数再做决定。”
接下来,根据数据必须在生产系统中停留的时间,用户应当为所有增长的数据分配一个保留计划。澳大利亚快速开发公司Rapidev技术服务总监Gi Singh解释道:“例如,如果你的业务涉及信用卡支付交易,你应该根据客户在交易后几个月之内可以对费用提出异议,来决定数据的留存率,并另外添加一些应急措施。”
他补充说,在确定数据保留计划时,不要用“我认为”这样的假设作为基础。相反,组织或企业,应与所有领域的数据用户进行沟通,以制定可执行度较高的保留计划,并在实施前征得用户的同意。
常见的例子包括,公司营销团队可能有很多的图像、视频和音频文件需要归档,但也只有营销团队自己才更清楚,归档这些文件后,他们可接受的数据恢复时长;以及在进行归档之前,这些文件应当在部门文件夹中保留多久。因此,IT部门必须与市场部门进行深入配合,以确定技术解决方案的构建过程。同样的道理也适用于组织的其他部门:法务、财务等等。
选择适合自己的办法。对于数据归档而言,有三种基本的选择:用户可以自己进行归档;使用识别和可移动数据的软件来完成归档;或者使用识别和移动数据的软件,并建立到该数据的链接。
自己动手:有了这种方法,你的IT人员可以使用PowerShell或Python脚本开发数据库。接下来就是识别数据并发出移动指令的问题了,当然,首先要确保数据已完成备份。
中间派:使用软件解决方案来完成跨环境的数据分析,并根据自身的数据策略和实际需求,自动识别并进行数据移动。
“包圆儿”派:采用可以做到一切的专项解决方案:自动识别并移动数据,还可以在有需要时,通过事先制定的策略进行数据的自动调回等等。这意味着归档后的数据,可以作为本地文件或云端的文件/对象进行轻松访问,大大简化了数据的恢复流程。
当然,您所选择的办法取决于诸多因素,包括团队中IT专业人员的技能、愿意花费的预算以及您最终想要实现的效果。
Crump说:“当你逐个往下看这些类别时,它的价格其实是越来越贵的,从策略设计角度来看,复杂度也在提升;所以如果用户自己可以编写脚本的话,其实手动方式是更有吸引力的。”
在这两种自动方法之间做出选择,取决于用户实际需要取回数据的频率——但这很难说会有一个固定的频率。Crump说,他经常建议用户比较一下间隔一个月后的数据快照。一般来说,不会有什么变化。
不必倾家荡产。一般来说,人工操作的环节越多,成本越低。
“大约30%的情况下,一些公司会决定从手工的方式开始,如果工作量增加,就愿意转向更自动化的解决方案。这是一个很好的策略。” Crump说。
当然,用户要有策略地考虑需要购买的存储容量,因为其可能不需要购买想象中的那么多比如,某一组织拥有500TB的数据,分析可能会显示其中300TB的数据在超过一年的时间内没有被访问过;当一个项目需要50TB的空间时,它只需将最老的50TB数据转移到归档体系中,就可以释放所需的容量,从而无需花费更多的金钱。
时常审视自身的归档策略。数据保留政策、业务优先级、安全问题、政府法规和相关技术等等,经常在发生变化,用户的归档策略,也应当跟上变化的步伐。
“如果一个组织在很久以前就创建了数据归档体系,但并没有相应的数据保留政策。但如今,有法规规定,商家需要在一定时间之后,删除用户数据。” LaChapelle说:“这可能会影响归档体系中的许多数据集,如果从一开始就没有按合适的方式对数据进行分类,那用户就不得不对归档数据进行一次重新分类。”
Singh说,在评估用户当前的数据归档策略时,一定要问自己这些问题:
数据是否安全?
归档体系是否持久?
如果业务需要,它能在多久的时间内被访问或恢复?
系统或使用场景的外部环境是否有变化?
相关的数据合规要求有变更吗?
每年的在数据归档层面的成本计划是怎样的?例如,在云端进行的归档是否比在本地归档更便宜吗?在接下来的5-7年呢?
文件是否是最新的?
创建数据归档策略不必过于昂贵或复杂。这只是一个需要研究的问题,但这样的研究,对于企业整体的数据管理策略来说,是非常值得的。
此外,我们将在9月的最后一个周五(30日)下午两点,为您带来Coffee with Quantum线上分享会的第三季——“为什么每一家企业都需要建立自己的冷数据存储策略”,如您有意参加,可在评论区留言,我们将回复您报名链接。