Google Gemini Pro Уступает GPT-3.5 и GPT-4 в бенчмарках

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

В недавнем исследовании Карнеги-Меллонского университета было выявлено, что последняя разработка Google в области искусственного интеллекта, языковая модель Gemini Pro, не соответствует ожиданиям в стандартных бенчмарк-тестах. Она отстает как от GPT-3.5, так и от более продвинутой версии GPT-4, разработанной OpenAI.

Эти результаты противоречат заявлениям Google, сделанным на презентации Gemini Pro. Они поднимают вопрос о необходимости независимых и объективных тестов для оценки производительности таких моделей. Важно отметить, что команда Gemini заявляла о предстоящем выпуске версии «Ultra», которая якобы превосходит GPT-4 в различных задачах. Однако появились сомнения в достоверности результатов бенчмарков, представленных Google для Ultra.

В рамках исследования Gemini Pro показала слабые результаты в задачах по базовому математическому рассуждению, которые критически важны для формальной логики и начального уровня математики. В сфере тематических категорий Gemini Pro лишь в ограниченных областях, таких как безопасность и школьная микроэкономика, превзошла GPT-3.5, тогда как в большинстве других категорий оказалась менее эффективной.

Отмечается также, что различия в бенчмарк-тестах Gemini Pro могут быть связаны с защитными механизмами Google, из-за которых модель не смогла ответить на некоторые вопросы во время оценки MMLU. Кроме того, наблюдались трудности модели с вопросами множественного выбора, математическим рассуждением с большими числами, преждевременным завершением задач и неадекватными реакциями на агрессивный контент.

Автор: Нейросеть DALL-E 3

Сравнивая с GPT-3.5 Turbo, Gemini Pro показала схожие результаты по точности, но все же уступает ей, и значительно отстает от GPT-4. Несмотря на некоторые преимущества в сложных рассуждениях и мультиконтекстных задачах без фильтрации, общая производительность остается ниже ожидаемой.

Интересно, что это исследование также может быть первым бенчмарком для GPT-4 Turbo. В результате бенчмарка последняя модель OpenAI показала уступки оригинальной версии GPT-4 в ключевых тестах по пониманию языка. Несмотря на это, GPT-4 Turbo продолжает занимать лидирующие позиции среди чат-ботов, что подчеркивает ограниченную ценность бенчмарков.

Итоги исследования подтверждают, что опора на самостоятельные отчеты крупных компаний не всегда является надежным способом оценки производительности крупных языковых моделей. Кроме того, они указывают на то, что несмотря на усилия Google, компания все еще испытывает трудности в догоняющей гонке с OpenAI, что представляет собой вызов для всей отрасли искусственного интеллекта.

Источник: chinaz

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Я занимаюсь техническими обзорами. Тестирую разные устройства — от смартфонов и планшетов до пылесосов, видеорегистраторов, инструмента и бытовой электроники. Всё, что проходит через руки, проверяю на практике: включаю, разбираюсь, измеряю, фиксирую реальные параметры, сравниваю с тем, что заявлено.Все обзоры делаю сам, опираясь на реальный опыт. Техникой пользуюсь дома, в обычных условиях — как это делают большинство пользователей. Такой подход позволяет понять, как устройство ведёт себя в жизни, и будет особенно полезен тем, кто привык разбираться в процессе, а не по инструкции.

Мои основные каналы публикации:

  • YouTube — видеоролики с тестами, разбором функций, сценариями использования
  • Dzen — статьи, подборки и обзоры с уклоном в практику
  • VK — посты, анонсы, общение с подписчиками
  • TikTok — короткие обзоры и сравнения
  • RuTube — дубль видеоматериалов для тех, кто предпочитает российские платформы

E-mail: badmadsam@mail.ru

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Как Земля «варит» золото в мантийных котлах: почему для создания руды нужны истощенная мантия и кислород

На дне Тихого океана, к северу от Новой Зеландии, расположена система Кермадек — протяженная цепь подводных вулканов, образованная в зоне субдукции. Зона субдукции — это...

Держит яркость и светит широко. Стильный EDC фонарик с подсветкой. Обзор Wurkkos TS26

3470 люменов широкого ближнего света, дальнобойность 194м, настраиваемая подсветка, интерфейс Anduril, питание от 21700 аккумулятора. Новый фонарик Wurkkos TS26 получил 4 светодиода TN3535 с...

Почему авиация отказалась от двухэтажных самолётов

В истории авиации двухэтажные (двухпалубные) пассажирские самолёты долгое время оставались символом грандиозных амбиций и технического прогресса. Перевозчики стремились увеличить вместимость и...

Ученые впервые наблюдали процесс, давший начало сложной жизни на Земле: как контакт двух простых клеток изменил ход эволюции

Один из самых сложных вопросов в современной биологии — это механизм появления эукариотической клетки. Вся жизнь на Земле делится на простые микроорганизмы (бактерии и археи) и...

Архитектура преисподней: как на самом деле устроен источник магмы Йеллоустоунского супервулкана

Традиционно считалось, что под Йеллоустоуном находится мантийный плюм. Согласно этой классической концепции, глубоко в недрах планеты, на границе земного ядра и мантии, зарождается мощный...

Секрет Саграда Фамилия: почему у самого высокого храма мира предел высоты в 172 метра

В прошлой статье я писал про долгострой, и вот совпадение, тоже храм, в Таиланде. Но если Храм Истины это самый масштабный проект целиком из древесины, то Саграда Фамилия уже самый высокий...