Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Google Gemini Pro Уступает GPT-3.5 и GPT-4 в бенчмарках

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

22 декабря 2023, 16:48 | Новость | ИИ, сервисы и приложения

В недавнем исследовании Карнеги-Меллонского университета было выявлено, что последняя разработка Google в области искусственного интеллекта, языковая модель Gemini Pro, не соответствует ожиданиям в стандартных бенчмарк-тестах. Она отстает как от GPT-3.5, так и от более продвинутой версии GPT-4, разработанной OpenAI.

Эти результаты противоречат заявлениям Google, сделанным на презентации Gemini Pro. Они поднимают вопрос о необходимости независимых и объективных тестов для оценки производительности таких моделей. Важно отметить, что команда Gemini заявляла о предстоящем выпуске версии «Ultra», которая якобы превосходит GPT-4 в различных задачах. Однако появились сомнения в достоверности результатов бенчмарков, представленных Google для Ultra.

В рамках исследования Gemini Pro показала слабые результаты в задачах по базовому математическому рассуждению, которые критически важны для формальной логики и начального уровня математики. В сфере тематических категорий Gemini Pro лишь в ограниченных областях, таких как безопасность и школьная микроэкономика, превзошла GPT-3.5, тогда как в большинстве других категорий оказалась менее эффективной.

Отмечается также, что различия в бенчмарк-тестах Gemini Pro могут быть связаны с защитными механизмами Google, из-за которых модель не смогла ответить на некоторые вопросы во время оценки MMLU. Кроме того, наблюдались трудности модели с вопросами множественного выбора, математическим рассуждением с большими числами, преждевременным завершением задач и неадекватными реакциями на агрессивный контент.

Сравнивая с GPT-3.5 Turbo, Gemini Pro показала схожие результаты по точности, но все же уступает ей, и значительно отстает от GPT-4. Несмотря на некоторые преимущества в сложных рассуждениях и мультиконтекстных задачах без фильтрации, общая производительность остается ниже ожидаемой.

Интересно, что это исследование также может быть первым бенчмарком для GPT-4 Turbo. В результате бенчмарка последняя модель OpenAI показала уступки оригинальной версии GPT-4 в ключевых тестах по пониманию языка. Несмотря на это, GPT-4 Turbo продолжает занимать лидирующие позиции среди чат-ботов, что подчеркивает ограниченную ценность бенчмарков.

Итоги исследования подтверждают, что опора на самостоятельные отчеты крупных компаний не всегда является надежным способом оценки производительности крупных языковых моделей. Кроме того, они указывают на то, что несмотря на усилия Google, компания все еще испытывает трудности в догоняющей гонке с OpenAI, что представляет собой вызов для всей отрасли искусственного интеллекта.

Источник: chinaz

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

JLab выпустила беспроводную колонку в форме гигантских наушников

Аудио и звук
50 минут назад
0

Правительство Японии поставило цель к 2035 году занять 3-е место в мире по количеству цитируемых научных работ

Наука и космос
57 минут назад
0

Малайзия запретила импорт электронных отходов

Большой адронный коллайдер начал отапливать жилые районы французского Ферне-Вольтер

Наука и космос
2 часа назад
0

Новые бюджетные устройства IKEA с поддержкой Matter и Thread столкнулись с массовыми проблемами подключения

Оффтопик
2 часа назад
0

Публикации

Как материя появляется из «ничего»? Эксперимент STAR заглянул внутрь процесса рождения частиц

Статья
31 минута назад
Наука и космос

В классическом понимании вакуум — это абсолютная пустота. На самом же деле, то что мы привыкли считать пустотой, с точки зрения Квантовой Хромодинамики (КХД) не является отсутствием...

Чернильница в виде копыта, перья и ручки: в Москве открылась выставка «Искусство письма»

Обзор
31 минута назад
Мероприятия и выставки

Небольшую экспозицию принимает у себя Музей Времени и Часов, и на этот раз интересующимся красивым почерком нужно поторопиться: выставка продлится до 15 февраля. Выставка...

Брутальный планшет Oukitel RT10: обзор модели с защитой от падений, воды, грязи и специальной скобой-креплением

Первый раз вижу планшет со скобой-креплением для установки: в комплекте брутального планшета Oukitel RT10 предусмотрено сразу три способа для крепления и переноски: плечевой ремень, кистевой...

Как лишний градус тепла в океане превращает обычные штормы в разрушительные ураганы высших категорий

Статья
5 часов назад
Наука и космос

+1.2°C тепла в океане = +30 км/ч к скорости урагана. Это не прогноз, а итог разбора 38 реальных штормов (2019-2023). В статье — разбор физики процесса и методологии расчетов из отчета Gilford et al.

Почему в Африке готовят еду днём, в самую жару, а не вечером в прохладе

Статья
5 часов назад
Оффтопик

В сельских районах многих стран Африки часто готовят еду на открытом огне, для чего обустраивается специальное место. При этом приготовление чаще всего происходит в дневные часы, в самую жаркую...