Метод дистилляции знаний позволяет создавать эффективные ИИ-модели с минимальными затратами

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Метод дистилляции знаний, разработанный исследователями Google в 2015 году, включая нобелевского лауреата 2024 года Джеффри Хинтона, превратился в фундаментальную технологию индустрии искусственного интеллекта. Этот подход позволяет передавать знания от крупных, вычислительно затратных моделей к меньшим и более эффективным, существенно снижая стоимость их эксплуатации.

Технология привлекла широкое внимание в начале 2025 года, когда китайская компания DeepSeek выпустила чат-бота R1, который демонстрировал производительность на уровне ведущих моделей, но требовал значительно меньше вычислительных ресурсов. Это вызвало резкое падение акций технологических компаний, включая рекордное однодневное падение стоимости акций Nvidia.

Принцип дистилляции основан на концепции «мягких целей», когда большая модель-учитель передает не просто однозначные ответы, а вероятностные распределения для различных вариантов. Это позволяет меньшей модели-ученику усваивать нюансы классификации и принятия решений. По словам Ориола Виньялса, одного из авторов оригинальной статьи и ведущего научного сотрудника Google DeepMind, изначально метод был разработан для сжатия ансамблей моделей в одну более эффективную.

Автор: Quanta Magazine Источник: www.wired.com

Несмотря на первоначальный скептицизм, дистилляция стала стандартной практикой в индустрии. Такие проекты как DistilBERT (уменьшенная версия языковой модели BERT от Google) продемонстрировали практическую ценность подхода. Сегодня Google, OpenAI и Amazon предлагают дистилляцию как коммерческую услугу.

Недавние исследования лаборатории NovaSky Калифорнийского университета в Беркли показали, что дистилляция особенно эффективна для обучения моделей рассуждений с цепочкой мыслей. Их модель Sky-T1 с открытым исходным кодом, обучение которой стоило менее 450 долларов, достигла результатов, сопоставимых с гораздо более крупными моделями.

Энрик Бойш-Адсера из Уортонской школы бизнеса Пенсильванского университета подчеркивает: «Дистилляция — один из самых важных инструментов, которые сегодня есть у компаний для повышения эффективности моделей».

Источник: WIRED

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Есть ли срок годности у поваренной соли и как её хранить

Мы привыкли видеть даты производства и сроки годности буквально на всём: от пакета молока, который скиснет через неделю, до рыбных консервов, способных, казалось бы, пережить ядерную зиму....

Обзор моющего пылесоса Redkey W11: Компактный помощник для комплексной уборки без лишних хлопот

Современные квартиры нуждаются не просто в сухой чистке полов, но и в регулярном влажном уходе. Традиционная швабра с ведром — устаревшее решение, которое лишь размазывает грязь,...

✦ ИИ  Рыба-луна: что происходит с 300 миллионами икринок и как выживают единицы

Цифра в сотни миллионов икринок сначала звучит как перебор. Кажется, будто природа просто перестраховывается, как будто «на всякий случай». Но если чуть притормозить и посмотреть внимательнее,...

Предложен новый алгоритм поиска жизни в космосе, не опирающийся на биосигнатуры: жизнь выдает статистика

Поиск внеземной жизни десятилетиями строится на попытке обнаружить биосигнатуры — специфические химические маркеры в атмосферах далеких планет. Мы ищем кислород, метан или фосфин,...

Что за странный выступ на территории Афганистана на востоке

Глядя на политическую карту мира, у многих стран замечаешь странные геометрические «узоры» линии границы, не всегда они определяются географическими особенностями местности. Есть свой необычный...