海量数据的存储让科学家们头疼不已,但大自然却以一种意想不到的方式巧妙解决了这个问题。
对Nick Goldman来说,用DNA编码数据的想法一开始只是个玩笑。
2011年2月16日,星期三,Goldman在德国的一家酒店与一些生物信息学家讨论海量的基因组以及其它数据的存储问题。当时,科学家们对传统计算技术的成本和局限性感到沮丧,他们开玩笑地提起了一些科幻式的替代方案。现任欧洲生物信息研究所(European Bioinformatics Institute, EBI)组长的Goldman表示,他们想,是什么东西阻止了我们用DNA来储数据呢?
笑声戛然而止。Goldman指出,这就是灵感闪现的瞬间。跟读取速度在毫秒级的硅芯片相比,DNA读取和写入的速度太慢——编码数据需要几个小时,用测序仪器读取又需要好几个小时。但DNA的突出优点是,人类基因组这么多数据,都能存储在肉眼不可见的小细胞里。从信息存储的密度上来讲,DNA完胜硅芯片,尤其适合做长期归档。
据Goldman回忆,他们用圆珠笔在餐巾纸上做笔记,认真考虑DNA存储技术会遇到的问题。研究人员最担心的是,DNA合成和测序的错误很高,每100个核苷酸中就可能有1个出错。这对大规模数据存储来说极其不可靠——除非能找到可行的错误校正方案。能不能用碱基对来编码数据,同时找到校正错误的方法?Goldman表示,经过一个晚上的讨论,他们认为这是可行的。
Goldman和他在EBI的同事Ewan Birney开始在实验室中实施这个想法,两年后他们宣布成功使用DNA编码五个文件,包括Shakespeare的十四行诗(sonnet)和Martin Luther King的“我有一个梦想(I have a dream)”演讲中的一段。当时,哈佛大学(Harvard University)的生物学家George Church等人已发表文章,使用DNA 编码数据。但Goldman编码的文件大小达到739个碱基(kB),是一段时间里DNA编码的最大文件。直到2016年7月,微软和华盛顿大学(University of Washington)取得了突破性的进步,成功编码了长达200兆字节(MB)的数据。
最新的实验表明,基因组学以外的其它领域也对DNA存储深感兴趣:全世界都面临着数据过载问题。从天文图片到杂志文章,再到YouTube视频,2020年全球数字档案馆的存储量将达到44千兆字节(GB),相比于2013年,增加了10倍。到2040年,如果即时访问的东西都存储下来的话,预期数据量将会是闪存芯片中内存条容量的10到100倍。
这就是为什么很少人访问的永久档案会以老式的磁带方式存储。磁带的信息密度远高于硅芯片,但读取速度也相对慢很多。然而,美国高级情报研究计划局(IARPA)的David Markowitz指出,磁带存储方法是不可持续的。他说,建立一个拥有10亿GB的数据中心是可行的。但这样的一个中心的建设和维护需要10年以上的努力,花费10亿美元,以及数百兆瓦的电力。“分子数据存储则不需要这么复杂的设施,同时可将成本降低千百倍。”如果信息存储的密度可以像大肠杆菌的基因一样密集,那么全世界的数据都只需要一千克DNA。
实现这个目标十分困难,科学家们需要克服一系列障碍:如何可靠地使用DNA编码信息?如何只检索用户所需要的信息?如何降低核酸成本,加快合成速度?
但是,科学家们也在加快研究的步伐。由一个芯片制造公司组成的财团支持的Semiconductor Research Corporation(SRC)公司就支持DNA存储的研发工作。Goldman和Birney拿到了英国政府拨款,用于研发下一代DNA存储方法,并计划成立一个公司专门从事词类研究。今年4月,IARPA和SRC举办了一场学术界和产业界研究者的研讨会,指导DNA存储研发。
SRC主任和首席科学家Victor Zhirnov指出,十年来,他们一直在寻找硅芯片以外的存储方式。硅芯片很难替代。但是,DNA——最强的候选人之一,“看起来有可能做到”。
1988年,与哈佛大学(Harvard University)的研究者合作时,艺术家Joe Davis首次把0和1的电子数据和DNA的四个碱基一一对应。他们插入到大肠杆菌(E.coli)基因中的DNA序列,仅编码了35字节的数据。他们把5×7像素、古日耳曼代表着生命和女性的符文的图片编码到DNA中。原图片中,暗像素点对应的是1,亮像素点对应0。
今天,Davis隶属于Church实验室。Church实验室从2011年开始研究DNA数据存储。这个研究小组希望能降低合成DNA的成本,就像基因组学降低了测序的成本一样。2011年11月,Church、加州大学(University of California)的Sri Kosuri以及约翰霍普金斯大学(Johns Hopkins University)的遗传学家Yuan Gao开始进行概念证明实验。研究小组使用许多短的DNA序列,编码了长为659 kb的Church合著的一本书中的一段。每个序列中有一段标明的是序列片段的顺序。二进制的0可以用腺嘌呤或胞嘧啶编码,二进制的1可用鸟嘌呤胸腺嘧啶表示。这种灵活性有助于避免设计序列的阅读问题——在包含大量含鸟嘌呤和胞嘧啶,或重复序列,或与另一端序列粘附在一起的区域都容易出现阅读问题。从严格意义上来讲,Davis 等人并没有错误校正,而是依赖于每个序列都有多条重复来进行校验。测序后Church等人发现了22个错误。这对于可靠的数据存储是远远不及格的。
与此同时,在EBI,Godman等人也使用DNA序列来编码739-kB的数据,包括图像、ASCII文本、音频文件和Watson、Crick的DNA双螺旋结构的PDF版本。为了避免重复碱基和其它误差源,EBI团队使用了一种更复杂的方案(图:制造DNA内存)。他们的方法并不使用二进制的0和1,而是使用0、1和2进行编码数据。他们让碱基轮流代表0、1和2,从而避免读取时遇到问题。他们把序列分割成25个碱基为单位的片段,以便于查错和相互比较。
即便如此,合成出来的序列中还是有2个25个碱基段的丢失。巧合的是,丢失的恰恰是Watson和Crick的文件部分。然而,这些结果坚定了Godman的信念:DNA具有成为耗能低、廉价和长期数据存储手段的潜力。至于DNA存储期的长度,他指出,2013年科学家们解析了封存在冻土里、70万年前的马骨头的DNA。在数据中心,没人相信放了3年的硬盘的可靠性。磁带放了10年,也不再可靠。一旦可以用DNA编码数据,你可以用DNA来做安全备份,然后把DNA放在洞里。想用的时候,再拿出来。
2013年,华盛顿大学(University of Washington)的计算机科学家Luis Ceze和微软研发中心(Microsoft Research)的Karin Strauss听了Goldman的研究报告之后,对DNA数据存储非常感兴趣。Strauss指出,DNA的高密度、稳定性和成熟度让他们很兴奋。
Strauss还指出,一回到华盛顿,她和Ceze就开始和华盛顿大学(University of Washington)的Georg Seelig合作进行这方面的研发。他们关注的是另一个DNA存储的主要缺点——一个比易出错更大的问题。使用标准测序方法,检索任何一个数据,需要检测所有数据:每一段DNA序列都必须被读取。这将比传统的计算机内存更麻烦,因为传统的计算机内存允许随机存取:只读取用户需要的数据。
4月初,该小组在亚特兰大格鲁吉亚举行的一个会议上给出了解决方案。研究人员开始从DNA档案库中提取微小样本。然后他们就用聚合酶链反应(PCR)把目标序列复制多份拷贝。序列复制让测序速度更快、成本更低,而且比之前的方法更准确。该小组还设计了一个替代的纠错方案,该方案会让EBI数据编码的密度增加一倍,而且还能保证可靠性。
作为示范,微软—华盛顿大学的研究人员存储了151 kB的图像(其中一些使用EBI编码方法,一些使用新方法)。他们使用EBI方法读取了三个图像——猫、悉尼歌剧院和卡通猴,结果出现了一个需要手动修改的读取错误。他们使用新方法读取了悉尼歌剧院图像,没有出现任何错误。
伊利诺伊大学(University of Illinois)乌尔瓦纳–香槟分校的计算机科学家Olgica Milenkovic等人已经开发了一种随机访问的方法,让他们能重写数据。这种方法以长段DNA序列来存储数据,序列的两端都有地址序列。研究人员采用PCR或CRISPR-Cas9技术,根据这些地址选择、扩增和使用序列。
地址序列需要避免妨碍阅读的序列,还需要与其它地址序列有足够大的差别,以防止出现混淆。另外一方面,研究人员还需避免分子折叠问题,因为如果序列能相互识别,那么两条序列就会结合在一起。Milenkovic指出,起初,他们用计算机来设计这些序列,因为要符合所有这些要求非常困难。她的团队现在使用数学公式取代了这个劳动密集型的过程,大大缩短了设计编码方案的时间。
Kosuri则表示,DNA数据存储的其它挑战包括尺度和序列合成速度。这也是他对DNA存储并不乐观的理由。据他回忆,在哈佛大学(Harvard University)早期实验时,他们只能编码700 kB的数据。即使DNA编码的数据增加1000倍,也才700 MB,也就是一张CD的容量。如果要解决现在的数据过载问题,至少需要拍字节(PB)的容量。Kosuri认为,这不是不可能的,但要知道,存储量增加了上百万倍。
Markowitz也同意,这不是一件容易的事。他指出,目前主流的合成方法是30多年来的老方法,即添加一个碱基需要400秒。如果继续使用这种方法,必须同时合成数十亿条序列,才能达到数据存储的速度。目前最多能同时合成几万条序列。
一个密切相关的因素是DNA合成的成本。EBI开展的DNA编码实验花费了12,660美元,其中98%的费用花在了DNA合成上。测序费用只占2%,这还要感谢2003年人类基因组计划的完成,测序成本降低了200万倍。尽管有这样的先例,Kosuri并不相信,DNA合成也能出现这样的成本陡降。他指出,70亿人的测序市场大大激发了研究者们的热情,但目前还没有70亿人的全基因组市场。但他承认,Church等人6月提出的人类基因组编写计划(Human Genome Project-Write, HGP-write)可能导致DNA合成成本的降低。如果得到资助,该计划将合成人类全基因组:包含32亿个核苷酸的23个染色体对。但Kosuri表示,即使HGP-wirte项目成功,人类基因组只包含0.75 GB的信息,与实际的数据存储挑战完全不能相比。
然而,Zhirnov非常乐观。他认为,综合成本可以比现在低几个数量级。现在DNA合成成本高得离谱。
4月,微软研究中心从Twiste Biosciences公司(一家从事DNA合成的初创公司)订购了1000万条序列。这一举动可能会大大鼓励DNA合成市场。Strauss等人指出,他们一直在使用序列来推动随机存取存储方法步入0.2 GB时代。细节仍未公布,但据说,档案包括超过100种语言的人权宣言(Declaration of Human Rights)、古登堡计划(Project Guttenberg)的前100本书和一个种子库。尽管这相对于HGP-write小很多,但比现在的存储容量提升了250倍。
她指出,是时候提高我们处理大量DNA的能力了,看看能取得哪些突破。事实上,他们现在就已经突破了很多问题了。
Godman有信心,他认为这还只是冰山一角。Godman表示,他们的估计是需要100,000倍的改进,但他们认为这是可能的。虽然过去的技术进步并不能保证未来,但每年或每两年就会有新的读取技术出现。在基因组学,6个数量级并不是什么大问题。我们需要做的只是等待。
原文检索:
Andy Extance. (2016) How DNA could store all the world’s data.Nature, 537(1038):22-24.
张洁/编译
说明:图文均转自《生命奥秘》。