Очень много данных
Один из главных поставщиков данных — системная биология. Это наука, изучающая работу организма (в общем, любого) на основании данных о его геноме — устройстве ДНК. В длинных цепях ДНК закодирована информация обо всех белках, которые могут существовать в этом организме: фактически, ДНК «знает» об устройстве этого организма и о том, как он может реагировать на те или иные условия среды.
Работать с «извлеченной» из ДНК информацией очень сложно по многим причинам, но главная — ее очень много. Такой объем данных очень сложно хранить и обрабатывать, так как каждая молекула ДНК состоит из 3,1 млрд нуклеотидов. В переводе на язык данных геном каждого человека в сжатом виде «весит» 0,5 ТБ, а в развернутом, который нужен для работы с ним, — втрое больше. Более того, сама последовательность генов никак не говорит об их назначении: для этого нужно сличить геномы большого количества людей и выделить те участки, которые встречаются всегда и только в случае наличия у человека, например, определенного заболевания. Тогда можно с некой долей вероятности говорить о связи болезни и определенного участка генома, однако для точно установления соответствия нужны дополнительные исследования, требующие одновременного хранения и обработки данных об очень большом числе геномов.
В рамках Human Genome Project в 1984–2003 годах (проект по расшифровке полного генома человека — прим. «Чердака») 20 университетских центров в США, Великобритании, Японии, Франции, Германии, Китае прочли и обработали 3,2 млрд пар нуклеотидов (и потратили на это около $2,7 млрд). Сейчас проект «100 000 геномов» (The 100,000 Genomes Project) ведет Великобритания, США и Китай готовят проекты по расшифровке миллиона геномов. Такое количество данных нужно, чтобы набрать качественную статистику по связи каждого конкретного заболевания с определенным участком ДНК. Технически эта ситуация похожа на поиск редких элементарных частиц (например, бозона Хиггса) на
В науке по изучению генома объемы данных, которые нужно хранить и анализировать, достигают десятков и сотен тысяч терабайт. Это и есть big data — большие данные, которые не обработать усилиями одного лишь человеческого мозга. Задачи такого класса — как с точки зрения «железа», так и с точки зрения программного обеспечения, — не могут быть решены силами людей, имеющих классическое биологическое образование.
На фоне генетического бума в биологию пришли люди из математики, физики и IT. Специалистов с пониманием биологической проблематики и сильной математической базой называют биоинформатиками и готовят на нескольких специализированных факультетах (первый из них был открыт в МГУ).
«Омиксы»
Что же включают эти большие данные, откуда получаются и почему их трудно анализировать?
Самая известная биологическая молекула — это, безусловно, ДНК, а самая известная наука в этой области — геномика, которая занимается секвенированием, то есть расшифровкой, определением последовательности нуклеотидов в ДНК. Секвенирование генома сегодня стало почти поточной процедурой: определить последовательность нуклеотидов (без интерпретации) для человека стоит сегодня всего 900 долларов, и цена все время падает.
Но не стоит бежать и секвенировать ДНК из своей слюны (это стандартный источник генетической информации) прямо сейчас: простой расшифровки не хватит, чтобы сказать
Чтобы понять, что действительно происходит в клетке, ученые разбираются со строением, функцией и количеством производимых в ней белков. Их еще называют протеинами — это калька с английского protein, что означает «белок», а область знаний, изучающая их, называется протеомикой.
Однако и комбинации этих данных недостаточно: часть важных белков может синтезироваться при воздействии определенных факторов (например, стресса). Такие белки живут очень недолго, а затем распадаются, поэтому мы не можем их зарегистрировать. Но информация о них остается в особых молекулах РНК, которые копируют тот или иной участок ДНК, чтобы потом на его основе мог синтезироваться белок. Такие РНК изучает наука транскриптомика.
Все эти названия в английском языке заканчиваются на -omics (genomics, transcriptomics, proteomics, metabolomics — наука о метаболитах, lipidomics — наука о жирах и липидах и так далее), поэтому вместе их принято называть омиксными технологиями. Для понимания работы организма, причин генетически обусловленных заболеваний, а также реакции на раздражители, инфекции и прочие воздействия внешней среды необходимо анализировать данные омиксных технологий комплексно.
Эти данные очень объемны, так что 0,5 Тб генома увеличиваются еще в несколько раз. Кроме того, данные получаются в разных форматах, традиционно обрабатываются разными программами. Все это требует не только выделения суперкомпьютерных мощностей для хранения и обработки данных, но еще и создания специализированной среды, которая «переводила» бы информацию разных омиксных данных, интегрировала их и позволяла анализировать на одном экране.
Биоинформатическая «клюква»
В России за создание такой среды (с рабочим названием cranberry — «клюква») взялась компания EMC, традиционно известная как поставщик систем хранения данных. Физически суперкомпьютерные мощности (1,5 тысяч виртуальных машин) расположены в
Сразу несколько научных групп тестирует «клюкву» на своих задачах. В их числе лаборатория всемирно известного биоинформатика Павла Певзнера, созданная на средства первой волны мегагрантов в академическом университете Петербурга. Другие пользователи — центр геномной биоинформатики СПбГУ им. Добржанского и Parseq Lab — частная компания, продвигающая биоинформатические данные в клиническую практику для медицинской диагностики.
«Мы работаем с открытыми данными или данными наших коллег, коллабораторов. Мы создаем системы сборки генома и РНК и тестируем их на своих серверах и платформе, разработанной центром исследований и разработок EMC Сколково. Это облако, но облако специализированное, доработанное под наши нужды, и это делает его значительно более эффективным, чем доступные на рынке универсальные облачные платформы» — Алла Лапидус, заместитель руководителя лаборатории алгоритмической биологии СПбАУ РАН.
Лаборатория, возглавляемая Павлом Певзнером, была создана в 2011 году на средства мегагранта, но уже хорошо известна в мире биоинформатики: программный пакет по сборке генома SPAdes используют более 1500 лабораторий по всему миру, в том числе в институте Крейга Вентера — передовом центре по синтетической биологии, где впервые в мире была получена синтетическая бактериальная клетка.
SPADes и его «младший брат» — rnaSPADes, разработанный той же группой для анализа транскриптомных данных, развернутые на среде EMC, позволяют эффективно проанализировать одновременно геномные, транскриптомные и протеомные данные, чтобы, в частности, качественно улучшить генетических анализ раковых клеток и выявить причины возникновения болезни. Не за горами и применение в клинической практике: качественное улучшение анализа генома позволит выявить больше
Портал «Вечная молодость» http://vechnayamolodost.ru