Группа исследователей из независимого некоммерческого научно-исследовательского института Arc Institute, Nvidia, Стэнфордского университета и Калифорнийского университета разработала ИИ-модель Evo 2, способную анализировать и проектировать генетические последовательности для всех доменов жизни.
Модель обучена на ДНК более 128 000 видов, включая бактерии, археи, вирусы, растения, животных и человека. Цель работы — создать универсальный инструмент для выявления закономерностей, диагностики заболеваний и проектирования новых геномов.
В основе Evo 2 лежит архитектура StripedHyena 2, позволяющая обрабатывать последовательности длиной до миллиона нуклеотидов. Для обучения использовались данные объёмом 9,3 трлн нуклеотидов, что в 30 раз превышает объём предыдущей версии Evo 1. Модель способна выявлять паттерны, которые ранее были недоступны экспериментальным методам, и точно определять мутации, связанные с заболеваниями.
Evo 2 интегрирована в платформу Nvidia BioNeMo и полностью открыта для научного сообщества: опубликованы код, веса и обучающие данные. Для интерпретации работы модели создан визуализатор, раскрывающий биологические особенности, которые ИИ научился распознавать в геномах. Это крупнейший открытый проект в области биоинформатики и синтетической биологии.
В тестах на мутациях гена BRCA1 Evo 2 показала точность свыше 90% при различении патогенных и доброкачественных вариантов. Модель также успешно применялась для оценки риска болезни Альцгеймера, анализа генетических вариантов у домашних животных и проектирования синтетических бактериофагов для борьбы с антибиотикорезистентными бактериями.
Особое внимание уделено вопросам этики и безопасности: из обучающей выборки исключены патогены, опасные для человека и сложных организмов, а модель не выдаёт продуктивных ответов на запросы о них. За ответственное внедрение отвечали специалисты Стэнфорда и Arc Institute.
Разработчики считают Evo 2 фундаментом для создания специализированных ИИ-приложений в биологии, медицине и биотехнологии. Открытость и масштаб модели позволят ускорить исследования, повысить точность диагностики и разрабатывать новые методы лечения на основе анализа ДНК.

