Метод дистилляции знаний позволяет создавать эффективные ИИ-модели с минимальными затратами

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Метод дистилляции знаний, разработанный исследователями Google в 2015 году, включая нобелевского лауреата 2024 года Джеффри Хинтона, превратился в фундаментальную технологию индустрии искусственного интеллекта. Этот подход позволяет передавать знания от крупных, вычислительно затратных моделей к меньшим и более эффективным, существенно снижая стоимость их эксплуатации.

Технология привлекла широкое внимание в начале 2025 года, когда китайская компания DeepSeek выпустила чат-бота R1, который демонстрировал производительность на уровне ведущих моделей, но требовал значительно меньше вычислительных ресурсов. Это вызвало резкое падение акций технологических компаний, включая рекордное однодневное падение стоимости акций Nvidia.

Принцип дистилляции основан на концепции «мягких целей», когда большая модель-учитель передает не просто однозначные ответы, а вероятностные распределения для различных вариантов. Это позволяет меньшей модели-ученику усваивать нюансы классификации и принятия решений. По словам Ориола Виньялса, одного из авторов оригинальной статьи и ведущего научного сотрудника Google DeepMind, изначально метод был разработан для сжатия ансамблей моделей в одну более эффективную.

Автор: Quanta Magazine Источник: www.wired.com

Несмотря на первоначальный скептицизм, дистилляция стала стандартной практикой в индустрии. Такие проекты как DistilBERT (уменьшенная версия языковой модели BERT от Google) продемонстрировали практическую ценность подхода. Сегодня Google, OpenAI и Amazon предлагают дистилляцию как коммерческую услугу.

Недавние исследования лаборатории NovaSky Калифорнийского университета в Беркли показали, что дистилляция особенно эффективна для обучения моделей рассуждений с цепочкой мыслей. Их модель Sky-T1 с открытым исходным кодом, обучение которой стоило менее 450 долларов, достигла результатов, сопоставимых с гораздо более крупными моделями.

Энрик Бойш-Адсера из Уортонской школы бизнеса Пенсильванского университета подчеркивает: «Дистилляция — один из самых важных инструментов, которые сегодня есть у компаний для повышения эффективности моделей».

Источник: WIRED

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

И для металла, и для поп-музыки. Гибридные наушники, которые смогли. Обзор TRN Shell

Похоже что мои поиски наушников с хорошим звуком завершились. 4 драйвера для высоких, средних и низких частот и отзывы, что звук как у гораздо более дорогих модели. Путь к этим гибридным TRN Shell...

Анатомия фастфуда: почему куриные стрипсы стоят вдвое дороже наггетсов

Представьте эту до боли знакомую сцену. Вы стоите у светящегося меню в ресторане быстрого питания или задумчиво разглядываете морозильный ларь в супермаркете. Перед вами два, казалось бы,...

Эта рыба умеет ходить по суше: 5 видов, которые выглядят как баг в реальности

Принято считать, что жизнь рыб строго ограничена водной средой. Однако эволюция сформировала виды, способные не только выживать на открытом воздухе, но и целенаправленно передвигаться по суше. Они...

✦ ИИ  Почему современным оптическим мышкам больше не нужна красная подсветка

Каждый, кто застал компьютерный бум нулевых, помнит символ прогресса в устройствах ввода — красный огонёк, бьющий из-под новой оптической мышки. Он пришёл на смену вечно забивающимся...

Обзор детектора FNIRSI WD-02: проводка и арматура не скроется

Ремонт в доме, в квартире или в гараже чаще всего подразумевает сверление или штробление стен и потолков, но как не попасть в проводку или арматуру? Конечно есть множество разнообразных приборов...

Обзор беговых смарт-часов Amazfit Active 3 Premium: теперь ты знаешь свой порог лактата

Решил заняться бегом, а выбор программ в фитнес-часах ограничен? На помощь пришли Amazfit с беговыми смарт-часами Active 3 Premium, в которых есть 10 видов беговых тренировок и оценка порога лактата.