MathGPT установил рекорд, побив ChatGPT и модели ИИ от Microsoft

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Mathpresso объявила о том, что ее крупная языковая модель под названием MathGPT установила новый мировой рекорд в области математики, обойдя модели OpenAI и Microsoft. Компания является разработчиком самой обширной в Азии обучающей платформы на основе искусственного интеллекта.

Источник: technologyforlearners.com

Как сообщается, MathGPT заняла первое место в тестах, оценивающих математические способности, таких как MATH (12,5 тыс. сложных математических задач) и GSM8K (8,5 тыс. задач по математике для начальной школы), побив модель ToRA 13B от Microsoft, которой принадлежал предыдущий рекорд.

В бенчмарке MATH MathGPT превзошел производительность GPT-4 от OpenAI. Совместная разработка Qanda и Upstage начала создавать MathGPT в рамках стратегического партнерства с KT в ноябре 2023 года. Qanda предоставила Upstage данные об обучении, такие как уровень обучения, контекст и взаимодействие, накопленные в результате ежедневного поиска 10 млн задач.

В сентябре 2023 года Mathpresso также получила от KT инвестиции в размере $8 млн на развитие LLM. Upstage обучила его на собственном специализированном решении для предотвращения галлюцинаций и доработала языковую модель на основе естественного языка, чтобы обеспечить логические выводы.

ChatGPT обучается на основе обширных текстовых данных, а не на основе данных, специфичных для конкретной области, таких как знания экспертов. Следовательно, в нем проявляется феномен галлюцинации, когда нейронная сеть генерирует ответы, которые могут убедительно передавать неверную информацию. Это создает серьезную проблему. Особенно в образовательных контекстах, где распространение точной и достоверной информации имеет первостепенное значение. Примечательно, что ChatGPT продемонстрировал низкую точность, особенно в математических областях.

В заявлении Qanda говорится, что они продолжат улучшать точность и производительность MathGPT, и в конечном итоге объединят его со своим обучающим интерфейсом для реализации AI Tutor, помощника в виде ИИ-репетитора.

Qanda поддерживается такими крупными организациями, как Google, TikTok и Softbank Ventures Asia. Приложение распознает текст и математические уравнения с фотографий. Ежедневно в Qanda загружается около 10 млн фотографий по всему миру.

Источник: Mt

6 комментариев

Добавить комментарий

s
Перевод новости от нейронки? Где пруфы? Если погуглить эту модель там один скам и реклама приложений скорее всего на основе ворованых моделей chatgpt.
d
Плохо гуглишь.
1
Подскажите, пожалуйста, а по каким ключевым словам правильно гуглить в данной ситуации? Я решил попробовать, где этот бенчмарк MATH расположен и кто там на каких местах. Погуглил по словам «benchmark MATH problem solving». Пришёл на страницу https://paperswithcode.com/sota/math-word-problem-solving-on-math
Но там на первом месте… GPT-4-code model (CSV, w/ code, SC, k=16).
Что я делаю не так?
d
Все не так. У Qanda есть свой Github.
Допустим, вас же не смутило, что это уже давно не первое место https://github.com/iiis-ai/cumulative-reasoning, если вы с этим ознакамливались вообще.
K
Я как раз попался на этот скам. Потратил 1200 руб и получил нейронку, которая не может даже простейший интеграл найти с помощью интегрирования по частям…
a
Молоток обогнал микроскоп в удобстве забивания гвоздей

Добавить комментарий

Сейчас на главной

Новости

Публикации

300°C за 4 секунды от USB-C: Тестируем паяльник FNIRSI HS-02B тепловизором

Ещё лет пять назад вопрос «какой паяльник взять» решался просто: ЭПСН на 40 Вт для дома, станция типа Hakko или Weller для тех, кто серьёзно. Сетевой шнур, никакой индикации температуры, никакой...

Как «Компания южных морей» разорила Исаака Ньютона: «Я могу рассчитать движение небесных тел, но не безумие толпы»

Исаак Ньютон. Имя, которое знакомо каждому школьнику. Великий учёный, чей гений подарил миру фундаментальные законы механики, теорию всемирного тяготения и революционное понимание...

Обзор паяльника C210 с питанием по Type-C: бюджетный клон Alientek или самобытный вариант?

Портативные паяльники с питанием от USB-C — это уже не новинка. Пионеры вроде TS80P и Pinecil давно приучили сообщество к тому, что нормально паять можно и без розетки с трансформаторным...

Как приручить Halten Cross V4: сервисное меню, резкость старта и скрытый лимит 25 км/ч

Halten Cross V4 из коробки уже едет бодро, но оставлять его совсем без настройки я бы не стал. Самокат полноприводный, тяжелый, с резким характером, и одна неудачная настройка может быстро...

Конец «пакетного рая»: почему россияне перестали доверять туроператорам и как «самобронь» стала мейнстримом

Ещё каких-то двадцать лет назад алгоритм подготовки к отпуску был монументален и незыблем, как египетские пирамиды. Ты открывал дверь ближайшего турагентства, чьё название, скорее всего, содержало...

Контроль сзади для велосипеда: обзор велорадара iGPSport SR mini

Безопасная езда по дорогам общего пользования для велосипедиста главный приоритет. Чтобы меньше крутить головой при велопоездках рядом с автомобилями, придумали задние радары, которые детектируют...