时间:2024-04-23
信息技术出现并不断发展以后,数据真正成为了一种新型生产资料,不过,它的爆炸式增长也让存储成为新的挑战,基于硅材料的计算机存储方式逐渐变得难以应对。在此背景下,积极探索DNA存储以作为下一代的数据存储方式意义重大。
DNA是一种非常稳定的分子,半衰期超过500年,低温条件下可保存成千上万年。而目前的磁或光数据存储系统保存数据一般不能超过一个世纪。除了稳定性,DNA存储数据的另一大优点是存储密度。DNA信息存储密度的数量级是已知任何存储技术的若干倍。2021年12月,东南大学刘宏教授就曾将校训“止于至善”刻在DNA分子里。
DNA存储的敦煌壁画
不久前,天津大学合成生物学团队又创新DNA存储算法,将上述十幅敦煌壁画存入DNA中,通过加速老化实验验证壁画信息在实验室常温下可保存千年,在9.4摄氏度下可保存两万年。 相关成果以“Robust data storage in DNA by de Bruijn graph-based de novo strand assembly”为题发表。
具体做法如下:首先,团队通过DNA合成技术结合纠错编码将壁画信息写入DNA中,实现了高密度(295PB/g)的数据存储。然而,DNA作为一种链式生物大分子,在体外常温保存时面临DNA断裂降解等风险,影响信息存储的长期可靠性。
为解决该问题,团队设计了基于德布莱英图理论的序列重建算法。该算法结合贪婪路径搜索和循环冗余校验码来实现断裂DNA片段的高效从头组装,从原理上支持了DNA存储的长期可靠性。
基于德布莱英图理论设计的序列重建算法高效解决DNA断裂、降解问题
结合该序列重建算法(内码)与喷泉码算法(外码),团队设计编码了6.8MB大小的敦煌壁画,合成了承载图片信息的DNA片段21万条。为数据的长期可靠性,团队制备了一个没有任何特殊保护的DNA水溶液样本,并在70摄氏度下加速样本断裂、降解长达1 0周。处理后的DNA片段80%以上都发生了断裂错误,依靠设计的序列重建算法依然可以准确组装并解码96.4%以上的片段,再通过喷泉码解决少量片段丢失的问题,原始的敦煌壁画图片依然能够完美恢复。根据理论推算,这种程度的高温破坏相当于实验室常温25摄氏度1000年或者9.4摄氏度长达两万年的自然保存。
该算法支持DNA分子成为世界上最可靠的数据存储介质之一。这项技术为长期保存人类历史文化遗产提供了一个潜在的数字化解决方案。
这并不是天津大学合成生物学团队第一次在DNA存储上取得突破。2021年3月,天津大学元英进教授带领跨学科团队,借助团队在酵母人工基因组化学合成领域的积累,从头编码设计合成了一条长度为2 5.4 8 8 6万bp、专用于数据存储的酵母人工染色体,借助无线通信中前沿的纠错编码将两张经典图片和一段视频存储于高校组装的人造染色体,利用酵母繁殖实现了数据稳定复制,用便携式的三代纳米孔测序器件实现了数据快速读出与无错恢复。
当然,不仅在学术界,工业界DNA存储也取得了很大进展。由中科院深圳先进技术研究院合成生物学研究所副所长戴俊彪创立的中科碳元于2021年5月成立,成立之初,就获得了数千万元人民币天使轮融资。近日,法国初创公司Biomemory也开发了一种DNA Drive存储技术,可利用合成生物学将5PB的数据存储在“金属胶囊”中,并可通过DNA测序仪读取。
大数据时代,全世界每时每刻都在产生海量的数据,数据存储的需求也在不断攀升。Nature Materials曾在2016年预测,到2025年全球信息数据总量可达163ZB,相当于163x1024x1024x1024TB,需要350亿个5TB硬盘才能装下。不过,天津大学元英进院士也曾表示,DNA存储是人们希望看到的合成生物学和信息技术融合的典范。但是,目前DNA存储仍然面临合成成本高、读写速度慢以及如何与现代存储系统融合等挑战。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!