Новая стратегия кодирования максимизирует емкость хранения данных молекул ДНК

По мнению ученых алгоритм, разработанный для проигрывания видео на мобильном телефоне, может раскрыть потенциальные возможности ДНК по хранению информации путем сжатия большего объема информации и записи в четыре базовых нуклеотида. Они продемонстрировали высокую надежность этой технологии. В результатах исследования, опубликованного в журнале Science, исследователи Янив Эрлих и Дина Зелински описали новый метод кодирования для максимизации емкости хранения данных молекулы ДНК. DNA capacity Человечество может в скором времени производить больше информации, чем жесткие диски или магнитные ленты могут вместить. Это является проблемой, при решении которой ученые вновь обращаются к решению, придуманному природой – молекуле ДНК. В новом исследовании, результаты которого опубликованы в Science, пара исследователей Университета штата Колумбия и Центра по изучению генов в Нью-Йорке продемонстрировала алгоритм, разработанный для проигрывания видео на мобильном телефоне, который может раскрыть потенциал по хранению информации молекулой ДНК путем сжатия большего количества информации и записи в четыре базовых нуклеотида. Они также показали, что новый метод является достаточно надежным.

Молекула ДНК является идеальным местом хранения информации, так как она очень компактная, может храниться сотни тысяч лет в холодном, влажном месте. Такой вывод исследователи сделали потому, что восстановили молекулы ДНК из костей человека, жившего 430 000 лет назад в пещере на территории современной Испании. «Молекула ДНК не портится с течением времени как пленка кассеты или CD диск, она не станет устаревшей. Если это произойдет, у всего человечества будут большие проблемы», - говорит Янив Эрлих, преподаватель информационных технологий Columbia Engineering, член Columbia's Data Science Institute и сотрудник Центра по изучению генов в Нью-Йорке.

Эрлих и его коллега Дина Зелински, ученый Центра по изучению генов в Нью-Йорке, выбрали шесть файлов для кодирования или записи в молекулу ДНК: полноценную компьютерную операционную систему, французский фильм 1895 года выпуска, «Прибытие поезда в La Ciotat», 50-долларовую подарочную карту Amazon, компьютерный вирус, пионерскую мемориальную доску и книгу Клода Шеннона 1948 года.

Они сжали файлы в один мастер файл и затем разделили данные на маленькие короткие строки двоичного кода, состоящего из нулей и единиц. Используя алгоритм с исправлением ошибок, названный помехоустойчивым кодированием, они случайным образом упаковывали эти строки в так называемые «капельки» и размещали нули и единицы каждой «капельки» в 4 нуклеотида ДНК: A,G,C и T. Алгоритм удалял комбинации букв, которые приводят к ошибкам и добавлял штрихкод в каждую «капельку» с целью распаковки файлов в будущем.

В целом, был сформирован цифровой лист в 72 000 нитей, каждая длиной в 200 корней, и послан в виде текстового файла в компанию Twist Bioscience, стартап-проект по синтезированию ДНК в Сан-Франциско, которая специализируется на преобразовании цифровой информации в биологическую. Спустя две недели, они получили пузырек, содержащий молекулы ДНК.

Для восстановления своих файлов они использовали современный последовательный метод чтения нитей молекулы ДНК с последующим переводом генетического кода в двоичный с использованием программного обеспечения. Они восстановили свои файлы без ошибок, сообщается в отчете об исследовании.

Они также продемонстрировали, что виртуально безграничное количество копий файлов может быть сделано с помощью их метода кодирования путем умножения их образца ДНК с помощью полимеразной цепной реакции, и что эти копии, а также копии этих копий, могут быть восстановлены без ошибок.

Наконец, исследователи продемонстрировали, что их стратегия кодирования позволяет упаковать 215 петабайт информации в молекулы ДНК. Это в 100 раз больше, чем методы, опубликованные первооткрывателями Джорджом Черчем в Гарварде, Ником Голдманом и Эваном Бирни в Европейском Институте Биоинформатики. «Мы верим, что это самое емкостное устройство для хранения информации когда-либо созданное человеком», - говорит Эрлих.

Емкость хранимой информации молекулы ДНК теоретически ограничена двумя бинарными цифрами для каждого нуклеотида, но биологическое ограничение молекулы ДНК и необходимость включения избыточной информации для последующего сбора и чтения фрагментов уменьшает их емкость до 1.8 двоичных цифр на базовый нуклеотид. Задачей команды было применение помехоустойчивого кода – метода, который Эрлих помнил еще с аспирантуры, для обеспечения более эффективных процессов чтения и записи. С помощью их метода, Эрлих и Зелински упаковывали в среднем 1.6 бита на каждый базовый нуклеотид. Это на 60 процентов больше, чем получалось в предыдущих исследованиях, и намного ближе к пределу 1.8.

Стоимость остается пока непреодолимым барьером. Исследователи потратили 7000 долларов на синтез молекул ДНК, в которых заархивировано 2 мегабайта информации, и еще 2000 долларов на ее чтение. «Невзирая на то, что цена на работу с молекулами ДНК падает в экспоненциальной прогрессии, есть вероятность отсутствия соответствующего спроса на работы по синтезу молекул ДНК», - говорит профессор биохимии Сри Косури, который не связан с исследованиями Эрлих и Зелински. «Инвесторы вряд ли захотят рисковать кучей денег для снижения стоимости подобных работ».

«Но цена работ по синтезу молекул ДНК может быть значительно уменьшена в случае, если будут произведены молекулы более низкого качества, и стратегии кодирования будут использоваться для исправления ошибок в молекулах», - говорит Эрлих. «Мы можем сделать большую часть тяжелой работы на компьютере для снижения временных затрат на молекулярное кодирование», - говорит он.

Назад

Не менее интересно