방대한 컴퓨터 데이터를 저장하는 매체로서의 DNA: 머지 않아 현실이 될까요? -

획기적인 연구는 다음을 개발하기 위한 탐구에서 중요한 진전을 이룹니다. DNA기반의 디지털 데이터 저장 시스템입니다.

디지털 데이터 기기에 대한 의존도 때문에 오늘날 기하급수적인 속도로 성장하고 있으며 강력한 장기 저장 공간이 필요합니다. 현재 디지털 기술로는 솔루션을 제공할 수 없기 때문에 데이터 저장이 점차 어려워지고 있습니다. 예를 들어, 지난 2년 동안 전체 역사상보다 더 많은 디지털 데이터가 생성되었습니다. 컴퓨터, 실제로 2.5조 바이트{1조 바이트 = 2,500,000테라바이트(TB) = 2,500,000,000기가바이트(GB)}의 데이터가 전 세계에서 매일 생성되고 있습니다. 여기에는 소셜 네트워킹 사이트, 온라인 뱅킹 거래, 회사 및 조직 기록, 위성 데이터, 감시, 연구, 개발 등에 대한 데이터가 포함됩니다. 이 데이터는 방대하고 구조화되어 있지 않습니다. 따라서 이제 특히 강력한 장기 스토리지가 필요한 조직과 기업의 경우 데이터에 대한 막대한 스토리지 요구 사항과 기하급수적인 증가를 해결하는 것이 큰 과제입니다.

현재 사용할 수 있는 옵션은 하드 디스크, 광학 디스크(CD), 메모리 스틱, 플래시 드라이브 및 대략 10TB(테라바이트)의 데이터를 저장하는 고급 테이프 드라이브 또는 광학 BluRay 디스크입니다. 이러한 저장 장치는 일반적으로 사용되지만 많은 단점이 있습니다. 첫째, 유통 기한이 짧거나 중간이며 수십 년을 지속할 수 있으려면 이상적인 온도 및 습도 조건에서 보관해야 하므로 특별히 설계된 물리적 보관 공간이 필요합니다. 이들 거의 모두는 많은 전력을 소비하고 부피가 크고 비실용적이며 단순한 낙하에도 손상될 수 있습니다. 그들 중 일부는 매우 비싸고 종종 데이터 오류가 발생하여 충분히 강력하지 않습니다. 조직에서 보편적으로 수용한 옵션을 클라우드 컴퓨팅이라고 합니다. 이는 회사가 기본적으로 모든 IT 및 데이터 스토리지 요구 사항을 처리하기 위해 "외부" 서버를 고용하는 방식이며, 이를 "클라우드"라고 합니다. 클라우드 컴퓨팅의 주요 단점 중 하나는 보안 및 개인 정보 보호 문제와 해커의 공격에 대한 취약성입니다. 높은 비용 관련, 상위 조직의 제한된 제어 및 플랫폼 종속성과 같은 다른 문제도 있습니다. 클라우드 컴퓨팅은 여전히 장기 보관을 위한 좋은 대안으로 여겨집니다. 그러나 전 세계적으로 생성되는 디지털 정보는 확실히 저장 능력을 능가하는 것으로 보이며 이러한 데이터 폭증을 수용하는 동시에 미래의 저장 요구 사항을 고려한 확장성을 제공하려면 훨씬 더 강력한 솔루션이 필요합니다.

DNA가 컴퓨터 저장에 도움이 될 수 있습니까?

당사의 DNA (디옥시리보핵산)은 디지털 데이터 저장을 위한 흥미로운 대체 매체로 간주되고 있습니다. DNA 거의 모든 살아있는 유기체에 존재하는 자기 복제 물질이며 우리의 유전 정보를 구성합니다. 인공이든 합성이든 DNA 상업적으로 이용 가능한 올리고뉴클레오티드 합성 기계를 사용하여 만들 수 있는 내구성 있는 재료입니다. DNA의 가장 큰 장점은 수명이 길다는 것입니다. DNA 실리콘(실리콘칩 – 건축에 사용되는 재료)보다 1000배 더 오래 지속됩니다. 컴퓨터). 놀랍게도 단 XNUMX세제곱밀리미터의 DNA 100조 바이트의 데이터를 저장할 수 있습니다! DNA 또한 결코 분해되지 않고 수백 세기 동안 서늘하고 건조한 곳에 보관할 수 있는 초소형 소재입니다. 저장을 위해 DNA를 사용한다는 아이디어는 1994년부터 오랫동안 존재해 왔습니다. 주된 이유는 정보가 컴퓨터와 인간의 컴퓨터에 저장되는 방식이 비슷하기 때문입니다. DNA – 둘 다 정보의 청사진을 저장하기 때문입니다. 컴퓨터는 모든 데이터를 0과 1로 저장하고 DNA는 티민(T), 구아닌(G), 아데닌(A), 시토신(C)의 네 가지 염기를 사용하여 생명체의 모든 데이터를 저장합니다. 따라서 이러한 염기를 0(염기 A와 C)과 1(염기 T와 G)로 나타낼 수 있다면 DNA도 컴퓨터와 마찬가지로 표준 저장 장치라고 할 수 있습니다. DNA는 견고하고 오래 지속됩니다. 가장 간단한 설명은 DNA에 저장된 모든 정보의 청사진인 유전 코드가 반복적인 방식으로 한 세대에서 다음 세대로 효율적으로 전달된다는 것입니다. 모든 소프트웨어 및 하드웨어 거대 기업은 데이터의 장기 보관 문제를 해결하려는 목표를 달성하기 위해 합성 DNA를 사용하여 방대한 양을 저장하는 데 열중하고 있습니다. 아이디어는 먼저 컴퓨터 코드 0과 1을 DNA 코드(A, C, T, G)로 변환하고, 변환된 DNA 코드를 사용하여 합성 DNA 가닥을 생성한 다음 냉장 보관하는 것입니다. 필요할 때마다 DNA 가닥을 냉장 보관에서 제거하고 DNA 서열 분석 기계를 사용하여 해당 정보를 해독할 수 있으며, DNA 서열은 최종적으로 컴퓨터에서 읽을 수 있도록 1과 0의 이진 컴퓨터 형식으로 다시 변환됩니다.

보여졌어¹ 단지 몇 그램의 DNA가 2000경 바이트의 데이터를 저장하고 최대 0년 동안 그대로 유지할 수 있다는 것입니다. 그러나 이러한 단순한 이해에는 몇 가지 어려움이 있었습니다. 첫째, 데이터를 DNA에 기록하는 것은 상당히 비용이 많이 들고 고통스러울 정도로 느립니다. 즉, 실제로 1과 XNUMX을 DNA 염기(A, T, C, G)로 변환하는 작업입니다. 둘째, 데이터가 DNA에 "기록"되면 파일을 찾고 검색하는 것이 어렵고 다음과 같은 기술이 필요합니다. DNA 시퀀싱(sequencing) – 염기서열 내 염기의 정확한 순서를 결정하는 과정 DNA 분자 - 그 후 데이터는 다시 0과 1로 디코딩됩니다.

최근 연구² Microsoft Research와 University of Washington의 과학자들은 DNA 저장소에 대한 "무작위 액세스"를 달성했습니다. "무작위 액세스" 측면은 정보가 시퀀스의 어디에 있든 모든 위치(일반적으로 메모리)로 또는 그로부터 전송될 수 있고 직접 액세스할 수 있음을 의미하기 때문에 매우 중요합니다. 이 랜덤 액세스 기술을 사용하면 원하는 몇 개의 파일을 찾고 추출하기 위해 전체 DNA 데이터 세트를 시퀀싱하고 디코딩해야 하는 이전과 비교하여 파일을 선택적인 방식으로 DNA 저장소에서 검색할 수 있습니다. "랜덤 액세스"의 중요성은 데이터 양이 증가할 때 더욱 높아지고 수행해야 하는 시퀀싱의 양이 감소함에 따라 거대해집니다. 랜덤 액세스가 이렇게 대규모로 나타난 것은 처음입니다. 연구원들은 또한 데이터 오류에 대한 내성이 높아져 데이터를 더 효율적으로 디코딩하고 복원하기 위한 알고리즘을 개발하여 시퀀싱 절차도 더 빠르게 만들었습니다. 13만 개 이상의 합성 DNA 올리고뉴클레오티드가 200KB에서 35MB 크기 범위의 29개 파일(비디오, 오디오, 이미지 및 텍스트 포함)로 구성된 44MB 크기의 데이터인 이 연구에서 인코딩되었습니다. 이 파일은 오류 없이 개별적으로 검색되었습니다. 또한 저자들은 DNA 서열을 쓰고 읽을 때 더 강력하고 오류에 강한 새로운 알고리즘을 고안했습니다. 에 발표된 이 연구는 자연 생명 공학 DNA 저장 및 검색을 위한 실행 가능한 대규모 시스템을 보여주는 주요 발전에서.

DNA 저장 시스템은 데이터 밀도가 높고 안정성이 높으며 저장이 용이하다는 점에서 매우 매력적으로 보이지만 보편적으로 채택되기까지는 분명히 많은 과제가 있습니다. 몇 가지 요소로는 시간과 노동 집약적인 DNA 해독(시퀀싱)과 DNA 합성이 있습니다. DNA. 이 기술에는 더 많은 정확성과 더 넓은 적용 범위가 필요합니다. 이 영역에서 발전이 이루어졌음에도 불구하고 데이터가 장기적으로 저장되는 정확한 형식은 다음과 같습니다. DNA 아직도 진화 중입니다. 마이크로소프트는 합성 DNA 생산을 개선하고 완전히 작동 가능한 DNA를 설계하는 과제를 해결하겠다고 다짐했습니다. DNA 2020년까지 스토리지 시스템

***

{아래 인용 출처 목록에서 DOI 링크를 클릭하면 원본 연구 논문을 읽을 수 있습니다.}

출처

1. Erlich Y 및 Zielinski D 2017. DNA Fountain은 강력하고 효율적인 스토리지 아키텍처를 가능하게 합니다. 과학. 355(6328). https://doi.org/10.1126/science.aaj2038

2. Organick L et al. 2018. 대규모 DNA 데이터 저장소의 랜덤 액세스. 자연생명공학. 36. https://doi.org/10.1038/nbt.4079