MathGPT установил рекорд, побив ChatGPT и модели ИИ от Microsoft

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Mathpresso объявила о том, что ее крупная языковая модель под названием MathGPT установила новый мировой рекорд в области математики, обойдя модели OpenAI и Microsoft. Компания является разработчиком самой обширной в Азии обучающей платформы на основе искусственного интеллекта.

Источник: technologyforlearners.com

Как сообщается, MathGPT заняла первое место в тестах, оценивающих математические способности, таких как MATH (12,5 тыс. сложных математических задач) и GSM8K (8,5 тыс. задач по математике для начальной школы), побив модель ToRA 13B от Microsoft, которой принадлежал предыдущий рекорд.

В бенчмарке MATH MathGPT превзошел производительность GPT-4 от OpenAI. Совместная разработка Qanda и Upstage начала создавать MathGPT в рамках стратегического партнерства с KT в ноябре 2023 года. Qanda предоставила Upstage данные об обучении, такие как уровень обучения, контекст и взаимодействие, накопленные в результате ежедневного поиска 10 млн задач.

В сентябре 2023 года Mathpresso также получила от KT инвестиции в размере $8 млн на развитие LLM. Upstage обучила его на собственном специализированном решении для предотвращения галлюцинаций и доработала языковую модель на основе естественного языка, чтобы обеспечить логические выводы.

ChatGPT обучается на основе обширных текстовых данных, а не на основе данных, специфичных для конкретной области, таких как знания экспертов. Следовательно, в нем проявляется феномен галлюцинации, когда нейронная сеть генерирует ответы, которые могут убедительно передавать неверную информацию. Это создает серьезную проблему. Особенно в образовательных контекстах, где распространение точной и достоверной информации имеет первостепенное значение. Примечательно, что ChatGPT продемонстрировал низкую точность, особенно в математических областях.

В заявлении Qanda говорится, что они продолжат улучшать точность и производительность MathGPT, и в конечном итоге объединят его со своим обучающим интерфейсом для реализации AI Tutor, помощника в виде ИИ-репетитора.

Qanda поддерживается такими крупными организациями, как Google, TikTok и Softbank Ventures Asia. Приложение распознает текст и математические уравнения с фотографий. Ежедневно в Qanda загружается около 10 млн фотографий по всему миру.

Источник: Mt

6 комментариев

Добавить комментарий

s
Перевод новости от нейронки? Где пруфы? Если погуглить эту модель там один скам и реклама приложений скорее всего на основе ворованых моделей chatgpt.
d
Плохо гуглишь.
1
Подскажите, пожалуйста, а по каким ключевым словам правильно гуглить в данной ситуации? Я решил попробовать, где этот бенчмарк MATH расположен и кто там на каких местах. Погуглил по словам «benchmark MATH problem solving». Пришёл на страницу https://paperswithcode.com/sota/math-word-problem-solving-on-math
Но там на первом месте… GPT-4-code model (CSV, w/ code, SC, k=16).
Что я делаю не так?
d
Все не так. У Qanda есть свой Github.
Допустим, вас же не смутило, что это уже давно не первое место https://github.com/iiis-ai/cumulative-reasoning, если вы с этим ознакамливались вообще.
K
Я как раз попался на этот скам. Потратил 1200 руб и получил нейронку, которая не может даже простейший интеграл найти с помощью интегрирования по частям…
a
Молоток обогнал микроскоп в удобстве забивания гвоздей

Добавить комментарий

Сейчас на главной

Новости

Публикации

5 видов грибов, которые лучше не жарить: после сковороды вкус может неприятно удивить

  • Тематическая подборка
  • Оффтопик
Кажется, что с грибами всё просто: почистил, бросил на сковородку, добавил лук — и ужин готов. Но именно здесь многих кулинаров ждет жесткое разочарование. Одни грибы после термической...

Как замедлить ход времени в собственной голове: раскрыт биологический механизм растягивания воспоминаний

Механическое время всегда идет с одной скоростью. Но человеческий мозг устроен иначе: наше внутреннее ощущение времени крайне изменчиво. Бывает так, что один день, наполненный событиями, кажется...

Микроавтобус «Старт» 1963 года: техническая изнанка советского композитного эксперимента

В 1963 году на дорогах СССР появился автомобиль, который выглядел чужеродно среди угловатых советских грузовиков и консервативных «Волг». Микроавтобус «Старт» с плавными обводами, обратным наклоном...

Как самое тяжелое здание мира строили всей Румынией, да не достроили

По центру румынской столицы Бухареста стоит монументальное здание парламента. Даже на снимках с высоты птичьего полета можно понять, какая это на самом деле махина. По размеру это административное...

Почему мы не чувствуем вращение Земли, и как его доказал тяжелый шар на нити? 175 лет маятнику Фуко

Человеческий организм устроен так, что он не способен чувствовать равномерное движение. Мы замечаем только изменения скорости — ускорение или торможение. Именно поэтому люди не ощущают,...

Как проверить мясные снеки (джерки) дома: два теста, которые позволят определить действительно ли это натуральное вяленое мясо

Как отличить настоящие снеки из натурального цельного мяса от имитации. Простые способы, которые позволяют выяснить качество мясных снеков дома без лаборатории, приборов и реактивов.