AI-модели научились сжиматься во время обучения без потери качества

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Обучение больших AI-моделей теперь может стать в разы дешевле и быстрее. Исследователи из MIT CSAIL и Института Макса Планка разработали метод CompreSSM, который позволяет удалять избыточные компоненты нейросети непосредственно в процессе обучения, а не после него. Это решает главную проблему индустрии: больше не нужно выбирать между обучением огромной, но дорогой модели, и быстрой, но менее точной.


Иллюстрация: абстрактная художественная визуализация процесса компрессии нейросети во время обучения (AI-генерация).
Автор: chatgpt Источник: chatgpt.com

Ключевая идея метода, принятого на конференцию ICLR 2026, заключается в том, что «важность» различных частей нейросети стабилизируется уже на ранних этапах обучения. Используя математический аппарат из теории управления (Hankel singular values), алгоритм определяет, какие компоненты модели вносят реальный вклад в результат, а какие являются «шумом». После этого ненужные части удаляются, и дальнейшее обучение продолжается на уже оптимизированной, более компактной модели.

Результаты на стандартном тесте CIFAR-10 показали, что модель, сжатая вчетверо с помощью CompreSSM, достигла точности 85,7%. Для сравнения, модель того же размера, обученная с нуля, показала лишь 81,8%. В экспериментах с архитектурой Mamba удалось сократить размерность со 128 до 12 параметров, полностью сохранив производительность и ускорив обучение в 4 раза. Это делает новый метод до 40 раз быстрее аналогов, основанных на схожих принципах.

Такой подход напрямую снижает затраты на электроэнергию и вычислительные ресурсы, поскольку отпадает необходимость в полном цикле обучения полноразмерной модели перед ее последующей компрессией. Исследователи математически доказали, что определенная на раннем этапе важность компонентов остается стабильной до конца процесса обучения.

Читайте также

Новости

Публикации