OpenAI выпускает первые за пять лет модели с открытым исходным кодом для локального использования
OpenAI представила две новые модели искусственного интеллекта с открытым исходным кодом — gpt-oss-120b и gpt-oss-20b. Это первый релиз открытых моделей компании с момента выпуска GPT-2 в 2019 году. Главная особенность новинок заключается в возможности их локального запуска на пользовательском оборудовании, а не через облачные серверы.
Модель gpt-oss-20b содержит 21 миллиард параметров, которые благодаря технологии объединения экспертов (MoE) сокращаются до 3,6 миллиарда на токен. Для её работы требуется компьютер с 16 ГБ оперативной памяти, что делает её доступной для большинства пользователей. Более мощная gpt-oss-120b насчитывает 117 миллиардов параметров (5,1 миллиарда на токен при использовании MoE) и требует 80 ГБ памяти, что соответствует возможностям одного графического ускорителя Nvidia H100. Обе модели поддерживают контекстное окно размером 128 000 токенов.
Новые модели представляют собой трансформеры с настраиваемой цепочкой мысли (CoT), позволяющей выбирать между низкими, средними и высокими настройками. При низких настройках работа выполняется быстрее с меньшим потреблением ресурсов, а высокие настройки обеспечивают лучшие результаты. Уровень CoT можно задать одной строкой в системном приглашении.
По производительности gpt-oss-120b сопоставима с проприетарными моделями OpenAI o3 и o4-mini. Меньшая модель немного отстаёт, но показывает близкие результаты в задачах по математике и программированию. На экзамене человечества, основанном на знаниях, gpt-oss-120b достигает показателя 19%, в то время как o3 с инструментами — 24,9%.
В отличие от облачных решений OpenAI, новые модели работают только с текстом без поддержки мультимодальности. Однако они обеспечивают меньшую задержку, больше возможностей для настройки и повышенную безопасность конфиденциальных данных благодаря локальной обработке.
Модели распространяются по лицензии Apache 2.0, что позволяет разработчикам настраивать их для конкретных задач. OpenAI провела тестирование безопасности, включая попытки настройки моделей на злонамеренную работу, и утверждает, что встроенные средства контроля эффективно ограничивают вредоносное поведение.
Обе модели уже доступны для скачивания на HuggingFace, а репозитории GitHub открыты для ознакомления. OpenAI также разместила общедоступные версии моделей в своей инфраструктуре для тестирования.
Источник: Ars Technica





0 комментариев
Добавить комментарий