Google Gemini Pro Уступает GPT-3.5 и GPT-4 в бенчмарках

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

В недавнем исследовании Карнеги-Меллонского университета было выявлено, что последняя разработка Google в области искусственного интеллекта, языковая модель Gemini Pro, не соответствует ожиданиям в стандартных бенчмарк-тестах. Она отстает как от GPT-3.5, так и от более продвинутой версии GPT-4, разработанной OpenAI.

Эти результаты противоречат заявлениям Google, сделанным на презентации Gemini Pro. Они поднимают вопрос о необходимости независимых и объективных тестов для оценки производительности таких моделей. Важно отметить, что команда Gemini заявляла о предстоящем выпуске версии «Ultra», которая якобы превосходит GPT-4 в различных задачах. Однако появились сомнения в достоверности результатов бенчмарков, представленных Google для Ultra.

В рамках исследования Gemini Pro показала слабые результаты в задачах по базовому математическому рассуждению, которые критически важны для формальной логики и начального уровня математики. В сфере тематических категорий Gemini Pro лишь в ограниченных областях, таких как безопасность и школьная микроэкономика, превзошла GPT-3.5, тогда как в большинстве других категорий оказалась менее эффективной.

Отмечается также, что различия в бенчмарк-тестах Gemini Pro могут быть связаны с защитными механизмами Google, из-за которых модель не смогла ответить на некоторые вопросы во время оценки MMLU. Кроме того, наблюдались трудности модели с вопросами множественного выбора, математическим рассуждением с большими числами, преждевременным завершением задач и неадекватными реакциями на агрессивный контент.

Автор: Нейросеть DALL-E 3

Сравнивая с GPT-3.5 Turbo, Gemini Pro показала схожие результаты по точности, но все же уступает ей, и значительно отстает от GPT-4. Несмотря на некоторые преимущества в сложных рассуждениях и мультиконтекстных задачах без фильтрации, общая производительность остается ниже ожидаемой.

Интересно, что это исследование также может быть первым бенчмарком для GPT-4 Turbo. В результате бенчмарка последняя модель OpenAI показала уступки оригинальной версии GPT-4 в ключевых тестах по пониманию языка. Несмотря на это, GPT-4 Turbo продолжает занимать лидирующие позиции среди чат-ботов, что подчеркивает ограниченную ценность бенчмарков.

Итоги исследования подтверждают, что опора на самостоятельные отчеты крупных компаний не всегда является надежным способом оценки производительности крупных языковых моделей. Кроме того, они указывают на то, что несмотря на усилия Google, компания все еще испытывает трудности в догоняющей гонке с OpenAI, что представляет собой вызов для всей отрасли искусственного интеллекта.

Источник: chinaz

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Я занимаюсь техническими обзорами. Тестирую разные устройства — от смартфонов и планшетов до пылесосов, видеорегистраторов, инструмента и бытовой электроники. Всё, что проходит через руки, проверяю на практике: включаю, разбираюсь, измеряю, фиксирую реальные параметры, сравниваю с тем, что заявлено.Все обзоры делаю сам, опираясь на реальный опыт. Техникой пользуюсь дома, в обычных условиях — как это делают большинство пользователей. Такой подход позволяет понять, как устройство ведёт себя в жизни, и будет особенно полезен тем, кто привык разбираться в процессе, а не по инструкции.

Мои основные каналы публикации:

  • YouTube — видеоролики с тестами, разбором функций, сценариями использования
  • Dzen — статьи, подборки и обзоры с уклоном в практику
  • VK — посты, анонсы, общение с подписчиками
  • TikTok — короткие обзоры и сравнения
  • RuTube — дубль видеоматериалов для тех, кто предпочитает российские платформы

E-mail: badmadsam@mail.ru

Сейчас на главной

Новости

Публикации

✦ ИИ  Почему ваша лампочка перегорает так быстро? Виноват сговор, которому более 100 лет

Снова сгорела светодиодная лампа, не отработав положенных часов? Это не брак. Ее спроектировали, чтобы она быстрее перестала светить. Афера производителей с плановым устареванием, которой уже сто лет.

Скрытые измерения существуют? Как аномалия темной энергии возвращает к жизни теорию струн

Современная астрофизика на протяжении последних десятилетий опиралась на принцип, что Вселенная расширяется с ускорением, и процесс этот управляется силой, которую физики называют темной энергией....

Диагностируем локальную сеть: обзор Fnirsi lpm-10a

Данный инструмент позволит легко обнаружить шибки в разводке кабеля, неработающий порт коммутатора, определит замыкание или обрыв проводов и подскажет на каком расстоянии находится проблемный...

Почему мы часто просыпаемся буквально за минуту до того, как зазвенит будильник

Вы довольно часто просыпаетесь буквально за минуту до того, как зазвенит будильник? Думаете, что это какая-то мистика? Нет! У данного «феномена» есть вполне научное объяснение.