数据的n种死法,以及11条求生之路

Nature自然科研 Nature自然科研 Today

原文作者:Jeffrey M. Perkel

如果说硬盘坏了是死路一条,那么数据丢失还有一线希望。

当Tracy Teal还是研究生时,有一天,她在Unix终端执行了一个常规指令——rm -rf *,这是一个让计算机递归删除当前目录中的所有内容的指令,包括所有子目录。这步操作只有一个问题——她所在的目录不对。

插图:The Project Twins

当时,Teal正在学习计算语言学,计算语言学是加州大学洛杉矶分校生物学硕士的必修课。她已经花了几个月的时间开发运行模拟软件,终于到了可以开始数据分析的最后一步。她首先要做的是“数据清理和整理”。然而,悲催的她却误删了整个项目。虽然Windows和Mac操作系统都设置了回收站以防此类错误操作,但rm命令一旦执行是不可恢复的,除非你早有备份。


在这个数字化的时代,无论是智能手机里的自拍照还是大规模的基因组测序数据集,备份都是极为重要的。存储介质并不十分可靠,它们要么容易坏,要么会丢、被盗,或者干脆罢工。


备份的方式有很多种,U盘、云数据存储服务或大型机构磁带服务器等等,研究人员通常会使用不止一个备份方式。但不同的存储方式有不同的优势,科学家应当根据自己的数据体量和性质、存储资源的获取便利性以及数据隐私,择其最优的存储方案。


对于Teal来说,自动备份救了她一命。她开展工作的服务器会定期将数据备份到磁带储存器上,系里生命科学计算机帮助中心的那些“乐于助人的IT人员”得以帮她恢复了文件。但Teal还是颇感尴尬,她目前在旧金山的The Carpentries任执行总监,这是一家组织科学计算工作组的非营利机构,但她曾是一名IT人员。她形容自己就像是一名必须被营救的救生人员。


我们在这里总结了11条建议

希望能让

所有的数据丢失悲剧不那么悲催

01

运用3-2-1法则

美国DriveSavers数据恢复公司的工程总监Michael Cobb提倡在进行数据备份时,遵循“3-2-1”法则,即“3个备份,2个不同介质,1个异地存储。”比方说,你可以在个人电脑上保存一个备份,在外接硬盘上保存一份,在云文件同步服务Dropbox(3名或以上用户每月每人支付12.50美元,就可享有3TB的存储空间)上也保存一份。伊利诺伊大学香槟分校的信息科学家Elizabeth Wickes说:“这只是一条富有启发性的建议,而不是硬性规定。”但宝贵的数据应受到额外的保护。

02

 问问专业人士

哈佛催化剂(Harvard Catalyst)的数据管理负责人Juliane Schneider的建议是,既然你所在的机构雇人管理日常数据,为什么不和他们聊聊?你们机构的研究计算中心也许会提供免费或低价的机构备份系统,图书馆员也能帮你制定数据管理策略,经费办公室还会告诉你资助机构有哪些具体要求,比如数据存档应以何种方式存储以及要存多久。她说:“他们希望协助你进行数据管理——特别是在你已经获得研究经费的情况下。”

03

做好数据管理

有效的备份计划靠的是聪明的管理方式。加州大学伯克利分校的数据科学家Ciera Martinez建议参考畅销书《怦然心动的人生整理魔法》(2014)的作者近藤麻理惠发明的整理法——对每个文件都问一句:“这个数据要存吗?”Teal笑着补充道,“你不能只留下那些让你看着高兴的数据哦!”


对文件进行统一的命名和整理。例如,为每个项目建立专属的文件夹;将数据和代码存在特定的子目录下;每个项目文件夹下应有一个文档,专门记录项目的目标、方法、元数据以及各类文件。事先计划好在哪里、以何种方式备份数据,并对这些操作制定日计划或周计划。


记住,一定要保存原始数据,反倒是中间的过程文件可以选择性删除。对于大规模数据集还要给予特别考虑:一些云服务商对存储文件的大小有规定;数据传输和存储的成本也可能会很高。


04

保护数据隐私

来自患者或学生的数据常常需要保密,这意味着不能将它们随意存储在任何地方。 Wickes说她们单位的研究人员有好几种基于云的数据备份选择,但只有一种被批准用于敏感数据。不妨问问你们系里的IT团队应该怎么做。Wickes提醒道:“不遵守数据保护规定可能会导致严重后果,轻则受到经济处罚,重则失去研究资格。


05

善用自动备份

自动化在数据备份中十分关键。澳大利亚昆士兰大学的心脏遗传学家Kelly Smith使用的共享盘会自动储存至磁带。过去,她需要手动将文件上传到网盘,且每月只上传一次。因此,一旦硬盘发生故障,最新的文件说没就没了。而现在加州一家数据保护公司Druva提供的一款基于云的自动备份系统Druva inSync消除了这一隐忧。“我再也不用担心这件事了。”她说。


“你不能老是提心吊胆的,”Teal解释道,“因为当你压力最大的时候,也是会出问题的时候,碰巧也是你已经三个月没备份的时候。”


06

 保护好原始数据

所有的数据都很宝贵,但原始数据享有不可替代的地位:重新获得原始数据的唯一方式是重新做实验。因此原始数据必须备份,并且保存为只读文件。Wickes曾经不得不终止一个项目,因为她用Excel打开了一个非常关键的文件,其中一列被自动格式化,更改的数值完全破坏了基础数据集。Martinez说,“无论如何”保护好你的原始数据。

07

 确保备份方案可行

你的数据管理方案必须符合实际,无论是对实验室的新成员还是那些通宵达旦的博士后来说。Wickes指出,“你可能会说,‘这个方案很完美。’那我问你,如果你刚在一个问题上连续工作了24小时,你还愿意在凌晨3点去做备份吗?在你和一个代码问题奋战到一半时,你会去做备份吗?”你需要和整个团队讨论备份方案,确保方案切实可行。然后,就像面对一台零下80°C的冷冻库一样,你需要假设灾难发生后会有什么后果:哪些数据会丢失?最快多久能恢复?Teal说:“即使做一下思维实验也会很有帮助。”


08

定期测试备份

不要想当然地认为备份运行良好,测试一下。这些文件打的开吗?运行所需的应用程序、登录凭证和注册密钥都有吗?Wickes系里的IT部门为他们在Code42 软件的CrashPlan上注册了免费帐户,可以将数据自动备份到云端。有一天,Wickes决定测试一下她的备份,却意外发现帐户已经在六个月前就停止同步了。“还好我用时间机器进行了本地备份”——她说的时间机器是苹果公司为Mac操作系统设计的备份程序。Cobb再次强调了他在第一条建议里提到的3-2-1法则:“先按3-2-1法则进行备份,然后再存一遍(部分关键文件)。之后在不同的计算机、不同的房间或不同设备上进行测试,因为如果发生最糟糕的情况,你的设备也不复存在了。”

09

防患于未然

生活处处有意外。Cobb曾在2017年的一场森林火灾中失去了所有个人财产,他的一位客户曾将96个硬盘全部存放在消防喷淋装置下。有一天喷水器爆裂,所有磁盘付之一炬。“那里面的数据都没有备份。”他说。2012年,纽约洛克菲勒大学神经生物学家Leslie Vosshall放在地下室的服务器在飓风桑迪侵袭之后惨遭被淹,差一点丢失了蚊子基因组测序数据。虽然此类事件在所难免,但它们一般是可以预料的——这就需要我们想尽所有可能的风险。大约一年半前,Cobb的办公室受到了一次小地震的冲击,这在加州并不少见。蹊跷的是,他曾经的老客户、美国前总统杰拉尔德·福特的照片从墙上被震了下来,“不偏不倚”地砸中了他的笔记本电脑屏幕。“在那之后,我就觉得‘最好还是把东西放放好,做到有备无患’。”


10

 保存一份脱机备份

连网的备份工具用起来非常方便,随取随用。但操作失误或恶意软件也让这些工具有随时受损的风险。加州数据恢复公司Data Mechanix的首席技术官Craig Rager表示,他的许多客户都遭到过勒索软件的攻击,病毒会给计算机的硬盘加密,使其无法使用。他说直接连接到计算机和通过网络连接的备份设备都易受此类攻击。“由于你无法百分百规避这种危险,你能做的只有将备份好的设备脱机或不连入网络”,比如关闭它们的电源。


11

学会未雨绸缪

备份的最终目的是能在将来使用。所以,Teal的建议是,想想“未来的你”。对数据的保存介质以及打开它们的应用程序做到心里有数,该更新更新。Vosshall的很多早期数据都是用过时的磁盘格式存储的,这意味着虽然有备份却无法访问。“我不得不去古董店找读卡器。”另外,即使云存储也不是万能的:数据存储公司可能会改变业务方向,你也可能无法登陆帐户。因此,本地备份是最好的做法,或至少在独立服务器上备份。Wickes说:“人们会问,‘你是说不要相信Google Docs咯?’其实,不是说相不相信Google Docs,而是不要无条件地相信访问权限。”

原文以11 ways to avert a data-storage disaster为标题

发布在2019年4月1日《自然》TOOLBOX上


Nature|doi:10.1038/d41586-019-01040-w