Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Google Gemini Pro Уступает GPT-3.5 и GPT-4 в бенчмарках

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

22 декабря 2023, 16:48 | Новость | ИИ, сервисы и приложения

В недавнем исследовании Карнеги-Меллонского университета было выявлено, что последняя разработка Google в области искусственного интеллекта, языковая модель Gemini Pro, не соответствует ожиданиям в стандартных бенчмарк-тестах. Она отстает как от GPT-3.5, так и от более продвинутой версии GPT-4, разработанной OpenAI.

Эти результаты противоречат заявлениям Google, сделанным на презентации Gemini Pro. Они поднимают вопрос о необходимости независимых и объективных тестов для оценки производительности таких моделей. Важно отметить, что команда Gemini заявляла о предстоящем выпуске версии «Ultra», которая якобы превосходит GPT-4 в различных задачах. Однако появились сомнения в достоверности результатов бенчмарков, представленных Google для Ultra.

В рамках исследования Gemini Pro показала слабые результаты в задачах по базовому математическому рассуждению, которые критически важны для формальной логики и начального уровня математики. В сфере тематических категорий Gemini Pro лишь в ограниченных областях, таких как безопасность и школьная микроэкономика, превзошла GPT-3.5, тогда как в большинстве других категорий оказалась менее эффективной.

Отмечается также, что различия в бенчмарк-тестах Gemini Pro могут быть связаны с защитными механизмами Google, из-за которых модель не смогла ответить на некоторые вопросы во время оценки MMLU. Кроме того, наблюдались трудности модели с вопросами множественного выбора, математическим рассуждением с большими числами, преждевременным завершением задач и неадекватными реакциями на агрессивный контент.

Сравнивая с GPT-3.5 Turbo, Gemini Pro показала схожие результаты по точности, но все же уступает ей, и значительно отстает от GPT-4. Несмотря на некоторые преимущества в сложных рассуждениях и мультиконтекстных задачах без фильтрации, общая производительность остается ниже ожидаемой.

Интересно, что это исследование также может быть первым бенчмарком для GPT-4 Turbo. В результате бенчмарка последняя модель OpenAI показала уступки оригинальной версии GPT-4 в ключевых тестах по пониманию языка. Несмотря на это, GPT-4 Turbo продолжает занимать лидирующие позиции среди чат-ботов, что подчеркивает ограниченную ценность бенчмарков.

Итоги исследования подтверждают, что опора на самостоятельные отчеты крупных компаний не всегда является надежным способом оценки производительности крупных языковых моделей. Кроме того, они указывают на то, что несмотря на усилия Google, компания все еще испытывает трудности в догоняющей гонке с OpenAI, что представляет собой вызов для всей отрасли искусственного интеллекта.

Источник: chinaz

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Буквы, которые выглядят как их значение, читаются быстрее

Оффтопик
21 минута назад
0

Xiaomi устранила системные ошибки в тестовых сборках HyperOS 3 для ряда смартфонов

Смартфоны и телефоны
30 минут назад
0

Электрокроссовер Xiaomi YU7 GT установил рекорд круга на Нюрбургринге для сегмента SUV

Авто и транспорт
41 минута назад
0

Casio выпустила часы Vintage A140WE для глобального рынка — ретро-дизайн и батарея на 7 лет

Одежда и аксессуары
54 минуты назад
0

PolarPro представила нейтральные фильтры для экшн-камеры DJI Osmo Action 6

Публикации

Почему китайскую реку Хотан называют самой дорогой рекой в мире

Статья
6 минут назад
Путешествия и туризм

В сердце суровой пустыни Такла-Макан на северо-западе Китая, в Синьцзян-Уйгурском автономном районе, протекает река, которая на протяжении веков притягивает к себе искателей сокровищ. Река Хотан,...

Самый жуткий остров Мексики: кто и зачем 50 лет собирал на нём старых кукол

Статья
48 минут назад
Путешествия и туризм

В мексиканской истории немало по-настоящему пугающих тем: от жертвоприношений ацтеков до заигрываний с потусторонним миром, которое подается в виде карнавалов и празднеств. Уникальная мифология...

А что если у Вселенной вообще не было начала? Теория Стивена Хокинга, которая отменила Большой взрыв

Статья
1 час назад
Наука и космос

Общая теория относительности Альберта Эйнштейна позволяет с высокой точностью реконструировать историю Вселенной на миллиарды лет назад. Руководствуясь ее уравнениями, мы видим, как расширялся...

Проект Киберсин: как британский кибернетик и чилийские социалисты пытались управлять экономикой целой страны из одной футуристической комнаты

Статья
1 час назад
Оффтопик

В начале 1970-х годов Чили переживала один из самых смелых периодов своей истории. После избрания Сальвадора Альенде президентом в 1970 году страна встала на путь мирного перехода к социализму....

Стройка над пропастью: невероятная история маяка Тридангари в Атлантике

Мнение
2 часа назад
Путешествия и туризм

Есть места, которые будто придуманы не для человека, а для ветра, волн и легенд. Маяк Тридангари в Исландии — именно такой. Он стоит не на уютном берегу и не на высокой скале у дороги, а...

Новый T. rex мелового периода жил под водой: техасские окаменелости открыли гигантского мозазавра

Статья
11 часов назад
Наука и космос

В 1979 году во время лодочной прогулки по искусственному водохранилищу Рэй-Хаббард, расположенному к востоку от Далласа в штате Техас, члены семьи Ньюман заметили на размытом берегу крупные...