我们可以把全部数据储存到DNA上吗？

快捷登录

发布时间：2021-06-15 19:51:00发布人：日新微博

麻省理工大学的生物工程师开发设计了一种轻轻松松查找DNA数据库文件的方式。这可能是运用DNA储存很多相片、图象和别的数据內容的关键一步
新智元讯中国北京时间6月15日信息，据海外新闻媒体，在最近的一项新科学研究中，美国麻省理工大学的生物学家开发设计了一种标识和查找DNA数据库文件的技术性，这也许能让DNA数据储存变成很有可能。
此刻，地球上大概有10万亿吉字节数（GB）的信息量，而每一天，人们生产制造出去的电子邮箱、相片、社交网络动态性和别的数据文档加起來，又有250万吉字节数的数据信息。这种数据信息中的绝大多数都储存在名叫“艾字节数（exabyte，通称EB）大数据中心”的极大设备中（1EB等同于十亿GB），其经营规模很有可能几个足球场地那么大，修建和维护保养成本费约为10亿美金。
很多生物学家觉得，处理巨量数据储存难题的另一种方法取决于包括大家遗传物质的分子伴侣：核糖核酸（DNA）。从地球生命问世迄今，DNA早已演变到能够以非常高的相对密度储存很多信息内容，基础理论上一个放满DNA的星巴克马克杯就可以储存全世界全部的数据信息。
大家必须新的解决方法，来储存全球正持续累积的很多数据信息，尤其是档案资料数据信息，DNA的相对密度乃至是闪存芯片的1000倍。另一个有意思的特点是，DNA高聚物一旦生产制造出去，它就不容易再耗费一切动能。你能把数据信息载入DNA，随后永久性储存起來。
生物学家早已证实，图象和文字能够编号为DNA，但大家还必须一种从很多DNA片段化合物中筛出所需文档的简易方式。在新科学研究中，生物学家展现了一种方式，能将每一个数据库文件封裝到一个6μm的二氧化硅球型“胶襄”中，并应用DNA短编码序列做为标签，以表明其文档內容。
运用这类方式，科学研究工作人员从包括20张图象的DNA文档中精确获取出了以DNA序列方式储存的单独图象。充分考虑能够采用的标签总数，这类方式数最多能拓展到10^20个文档。
平稳的移动存储设备
这种由二氧化硅做成的圆球就是DNA“文档”，每一个圆球上都包括编号特殊图象的DNA序列，其外界遮盖有叙述图象內容的多肽链条码
数据分布式存储将文字、相片和其他类型的信息内容都编号为一系列的0和1，一样的信息内容还可以用组成遗传密码的4种多肽链（A、T、G和C，即腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶）编号在DNA中。比如，G和C能够意味着0，而A和T意味着1。
做为移动存储设备，DNA还具备别的好多个特性。最先，它十分平稳，并且生成和转录组测序都非常非常容易（但现阶段还十分价格昂贵）。次之，它具备十分高的存取时间——一个多肽链等同于两个比特犬，大概为1立方纳米技术。因而，以DNA方式储存的数据信息彻底能够放到大家的手掌心中。
这类储存数据信息的新方式遭遇着众多阻碍，最先便是生成这般很多DNA必须消耗的成本费。现阶段，载入1拍字节数（一百万GB）的数据信息必须耗费1万亿美金。为了更好地与录音带（一般用以储存档案资料数据信息）市场竞争，可能DNA生成的成本费必须减少约6个量级，这一总体目标很有可能会在十年或20年内完成，如同以往几十年来闪存芯片储存信息内容的成本费大幅度降低一样。
除开成本费以外，应用DNA储存数据信息的另一个关键短板是，大家难以从全部文档中筛出要想的文档。
假定载入DNA的技术性早已很优秀，能够完成在DNA中载入1艾字节数或1泽字节数（zettabyte，通称ZB，1ZB=1000EB）数据信息的成本效益，会产生哪些？你能有一大堆的DNA，也就是成千上万的文档、图象或影片和别的物品，但你需要在这其中寻找要想的某一张图片或某一部电影，这如同海底捞针。
现阶段，DNA文档一般应用PCR（聚合酶链反应）方式来查找。每一个DNA数据库文件都包括一个与特殊PCR引物设计融合的编码序列。为了更好地载入某一特殊的文档，必须将该引物设计加上到试品中，寻找并变大所要想的编码序列。殊不知，这类方式的一个缺陷是，引物设计与总体目标编码序列之外的DNA序列中间很有可能存有串扰，造成多余的文档輸出。除此之外，PCR的查找全过程必须采用酶，最后会耗费库文件的绝大多数DNA，这有些像在干草堆里找一根针，由于别的全部DNA也没有被变大，因而大部分他们都被丢掉了。
处理DNA文档查找难点
科学研究工作人员将那样的图象存储在DNA中
麻省理工大学的科学研究工作组开发设计了一种新的查找技术性，期待替代PCR方式。她们将每一个DNA文档封裝到一个细微的二氧化硅胶襄中，每一个胶襄都贴到了由单链DNA构成的“条码”，与文档內容相对性应。为了更好地证实这类方式的成本效益，科学研究工作人员将20个不一样的图像压缩到大概长短为3000个多肽链的DNA片段中，这大概等同于100个字节（她们的科学研究还表明，这种胶襄能够容下达到1GB的DNA文档）。
科学研究中的每一个文档都是有相对应的条码标签，如“猫”或“飞机场”等。当科学研究工作人员要想获取一个特殊的图象时，她们会取下一个DNA样版，添加与总体目标标签相对性应的引物设计。比如，老虎狮子的图象相匹配的标签是“猫”“橘黄色”和“天然的”，而家猫的图象相匹配“猫”“橘黄色”和“家里养”。
这种引物设计用莹光或带磁颗粒物标识，有利于从样版中获取并鉴别配对精彩片段。根据这类方式，科学研究工作人员能够将必须的文档移出来，剩余的DNA则详细地方回来，再次储存数据信息。她们的查找全过程容许布尔逻辑句子，如“美国总统和18世纪”会转化成“乔冶·美国华盛顿”的結果，这很相近Google的图像检索。
在现阶段的定义认证环节，检索速率是每秒钟1000字节数（1KB）。系统文件的检索速率是由每一个胶襄的信息量尺寸决策的，而现阶段限定信息量尺寸的要素便是在DNA上载入100兆字节数（MB）数据信息需要的昂贵成本费，及其能够并行处理应用的支持向量机的总数。假如DNA生成越来越充足划算，就可以用这类方式将每一个文档存储的信息量利润最大化。
科学研究工作人员所应用的条码——单链DNA编码序列——源自哈佛大学医学院细胞生物学和医学教授杰夫·埃利奇开发设计的编码序列库，在其中包括了十万个编码序列。假如给每一个文档贴上2个那样的标签，就可以唯一地标识100亿（10^10）个不一样的文档；假如每一个文档上面有4个标签，就可以唯一地标识10^20个文档。
在DNA中载入、拷贝、载入，及其用DNA开展节能型的档案资料数据储存层面，大家获得了迅速发展，但这也促使从极大的数据库查询（10^21字节数，泽字节数经营规模）中精准查找数据库文件越来越极其艰难，此项新科学研究引人注意的地区取决于，它应用一个彻底单独的DNA表层解决了这个问题，拓展了DNA的不一样特性（混种杂交并非转录组测序），并且应用的是目前的仪器设备和化学药品。
生物学家构想这类DNA封裝技术性能够用以储存“冷”数据信息，即储存在档案资料中但不常常浏览的数据信息。现阶段，科学研究试验室早已创立了一家名叫Cache DNA的新成立公司，已经开发设计DNA的长期性存储系统，既能够用以长期性的DNA数据储存，也可以用以短期内的临床医学和别的目前的DNA试品储存。
尽管大家很有可能还必须一段时间才可以将DNA做为数据信息移动存储设备，但现阶段在Covid-19检验、人们基因组测序和别的分子生物学行业中，针对DNA和RNA试品的成本低和规模性储存的解决方法都是有很急迫的要求。（任天）

我要评论

同时转发到微博