Метод дистилляции знаний позволяет создавать эффективные ИИ-модели с минимальными затратами

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Метод дистилляции знаний, разработанный исследователями Google в 2015 году, включая нобелевского лауреата 2024 года Джеффри Хинтона, превратился в фундаментальную технологию индустрии искусственного интеллекта. Этот подход позволяет передавать знания от крупных, вычислительно затратных моделей к меньшим и более эффективным, существенно снижая стоимость их эксплуатации.

Технология привлекла широкое внимание в начале 2025 года, когда китайская компания DeepSeek выпустила чат-бота R1, который демонстрировал производительность на уровне ведущих моделей, но требовал значительно меньше вычислительных ресурсов. Это вызвало резкое падение акций технологических компаний, включая рекордное однодневное падение стоимости акций Nvidia.

Принцип дистилляции основан на концепции «мягких целей», когда большая модель-учитель передает не просто однозначные ответы, а вероятностные распределения для различных вариантов. Это позволяет меньшей модели-ученику усваивать нюансы классификации и принятия решений. По словам Ориола Виньялса, одного из авторов оригинальной статьи и ведущего научного сотрудника Google DeepMind, изначально метод был разработан для сжатия ансамблей моделей в одну более эффективную.

Автор: Quanta Magazine Источник: www.wired.com

Несмотря на первоначальный скептицизм, дистилляция стала стандартной практикой в индустрии. Такие проекты как DistilBERT (уменьшенная версия языковой модели BERT от Google) продемонстрировали практическую ценность подхода. Сегодня Google, OpenAI и Amazon предлагают дистилляцию как коммерческую услугу.

Недавние исследования лаборатории NovaSky Калифорнийского университета в Беркли показали, что дистилляция особенно эффективна для обучения моделей рассуждений с цепочкой мыслей. Их модель Sky-T1 с открытым исходным кодом, обучение которой стоило менее 450 долларов, достигла результатов, сопоставимых с гораздо более крупными моделями.

Энрик Бойш-Адсера из Уортонской школы бизнеса Пенсильванского университета подчеркивает: «Дистилляция — один из самых важных инструментов, которые сегодня есть у компаний для повышения эффективности моделей».

Источник: WIRED

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор детектора FNIRSI WD-02: проводка и арматура не скроется

Ремонт в доме, в квартире или в гараже чаще всего подразумевает сверление или штробление стен и потолков, но как не попасть в проводку или арматуру? Конечно есть множество разнообразных приборов...

Обзор беговых смарт-часов Amazfit Active 3 Premium: теперь ты знаешь свой порог лактата

Решил заняться бегом, а выбор программ в фитнес-часах ограничен? На помощь пришли Amazfit с беговыми смарт-часами Active 3 Premium, в которых есть 10 видов беговых тренировок и оценка порога лактата.

Как пополнить российской картой баланс любого мобильного оператора Египта и других стран

Недавно в приложении Сбера появилась возможность оплаты мобильной связи многих стран, в том числе Египта. Опробовал, действительно работает.

Любовь с первого взгляда: обзор маленького, но очень полезного пауэрбанка Ugreen PB727

Компания Ugreen давно уже выпускает различные средства для зарядки любых гаджетов. Не так давно мне отправили новинку — Ugreen PB727, который буквально стал для меня любовью с первого...

Тихий час 13:00–15:00 и иски за ремонт: как законно бороться с шумными соседями в Москве и Московской области

Шум в Москве и МО: лимиты 45–55 дБ, перерыв 13:00–15:00 и протоколы вместо бесед. Как взыскать 30 000 ₽ за моральный вред, если участковый бездействует, и почему новостройки — исключение.