Хотя статья Hoff et al. BRAKER1: Unsupervised
Биоинформатика — это набор методов математики, статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК, белки. ДНК, фундаментально информационная молекула, иногда даже изображается в компьютеризованном виде, чтобы подчеркнуть её роль как молекулы биологической памяти.
Популярность биоинформатики велика, ведь каждый новый просеквенированный геном порождает столько новых вопросов, что учёные просто не успевают на них отвечать. Время специалистов, как и сами специалисты, ценится на вес золота. Именно поэтому автоматизация процессов — залог успеха любого биоинформатика, и подобные алгоритмы очень нужны для решения различных задач.
Одной из важных задач биоинформатики является аннотация генома — определение того, с каких именно участков молекулы ДНК синтезируются РНК и белки. Такие области — гены — представляют особый научный интерес. Дело в том, что для многих исследований нужна информация не обо всей ДНК (длина которой составляет 2 метра только для одной человеческой клетки), а о её наиболее информативной части — генах. Выявление генных участков происходит на основе поиска сходства фрагментов последовательности с уже известными генами или путём обнаружения характерных для генов закономерностей чередования нуклеотидов. Этот процесс осуществляется с помощью предсказательных алгоритмов.
Найти генныe участки — нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит
Алгоритм, предложенный учёными, определяет, какие области в ДНК являются генами, а какие — нет. Для этого можно использовать марковскую цепь (последовательность случайных событий, будущее которых зависимо от прошлого), обучаемую на уже известных генах. Состояниями цепи в данном случае являются либо нуклеотиды, либо нуклеотидные слова. Алгоритм определяет наиболее вероятное разбиение генома на кодирующие и некодирующие области, наилучшим образом классифицирующие геномные фрагменты по их способности кодировать белки или РНК. Экспериментальные данные, полученные из РНК, дают дополнительную полезную информацию, на которой можно обучить модель, используемую в алгоритме. Некоторые
BRAKER1 показал высокую эффективность. Разработанную программу скачали уже более 1500 различных центров и лабораторий. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Примерный хронометраж BRAKER1 на одном процессоре составляет?17.5 часов для обучения и предсказания генов на геноме длиной 120 миллионов пар оснований. Это хороший результат, учитывая, что время может быть значительно уменьшено за счёт использования параллельных процессоров, а значит в перспективе алгоритм может работать еще быстрее и, в целом, эффективнее.
Подобные инструменты помогают решать множество различных задач. Точная аннотация генов в геноме чрезвычайно важна. Например, уже опубликованы первые результаты глобального проекта «1000 человеческих геномов», запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате было обнаружено большое количество последовательностей редких генных вариантов — замен в генах, некоторые из которых приводят к болезням. При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят к возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части, и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак.
BRAKER1 позволяет эффективно работать с геномами новых организмов, ускоряя аннотацию геномов и получение критически важных знаний в науке о живой природе.
Портал «Вечная молодость» http://vechnayamolodost.ru со ссылкой на