MathGPT установил рекорд, побив ChatGPT и модели ИИ от Microsoft

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Mathpresso объявила о том, что ее крупная языковая модель под названием MathGPT установила новый мировой рекорд в области математики, обойдя модели OpenAI и Microsoft. Компания является разработчиком самой обширной в Азии обучающей платформы на основе искусственного интеллекта.

Источник: technologyforlearners.com

Как сообщается, MathGPT заняла первое место в тестах, оценивающих математические способности, таких как MATH (12,5 тыс. сложных математических задач) и GSM8K (8,5 тыс. задач по математике для начальной школы), побив модель ToRA 13B от Microsoft, которой принадлежал предыдущий рекорд.

В бенчмарке MATH MathGPT превзошел производительность GPT-4 от OpenAI. Совместная разработка Qanda и Upstage начала создавать MathGPT в рамках стратегического партнерства с KT в ноябре 2023 года. Qanda предоставила Upstage данные об обучении, такие как уровень обучения, контекст и взаимодействие, накопленные в результате ежедневного поиска 10 млн задач.

В сентябре 2023 года Mathpresso также получила от KT инвестиции в размере $8 млн на развитие LLM. Upstage обучила его на собственном специализированном решении для предотвращения галлюцинаций и доработала языковую модель на основе естественного языка, чтобы обеспечить логические выводы.

ChatGPT обучается на основе обширных текстовых данных, а не на основе данных, специфичных для конкретной области, таких как знания экспертов. Следовательно, в нем проявляется феномен галлюцинации, когда нейронная сеть генерирует ответы, которые могут убедительно передавать неверную информацию. Это создает серьезную проблему. Особенно в образовательных контекстах, где распространение точной и достоверной информации имеет первостепенное значение. Примечательно, что ChatGPT продемонстрировал низкую точность, особенно в математических областях.

В заявлении Qanda говорится, что они продолжат улучшать точность и производительность MathGPT, и в конечном итоге объединят его со своим обучающим интерфейсом для реализации AI Tutor, помощника в виде ИИ-репетитора.

Qanda поддерживается такими крупными организациями, как Google, TikTok и Softbank Ventures Asia. Приложение распознает текст и математические уравнения с фотографий. Ежедневно в Qanda загружается около 10 млн фотографий по всему миру.

Источник: Mt

6 комментариев

Добавить комментарий

s
Перевод новости от нейронки? Где пруфы? Если погуглить эту модель там один скам и реклама приложений скорее всего на основе ворованых моделей chatgpt.
d
Плохо гуглишь.
1
Подскажите, пожалуйста, а по каким ключевым словам правильно гуглить в данной ситуации? Я решил попробовать, где этот бенчмарк MATH расположен и кто там на каких местах. Погуглил по словам «benchmark MATH problem solving». Пришёл на страницу https://paperswithcode.com/sota/math-word-problem-solving-on-math
Но там на первом месте… GPT-4-code model (CSV, w/ code, SC, k=16).
Что я делаю не так?
d
Все не так. У Qanda есть свой Github.
Допустим, вас же не смутило, что это уже давно не первое место https://github.com/iiis-ai/cumulative-reasoning, если вы с этим ознакамливались вообще.
K
Я как раз попался на этот скам. Потратил 1200 руб и получил нейронку, которая не может даже простейший интеграл найти с помощью интегрирования по частям…
a
Молоток обогнал микроскоп в удобстве забивания гвоздей

Добавить комментарий

Сейчас на главной

Новости

Публикации

FiiO EH13 — по воздуху и по проводу с EQ и шумодавом — обзор полноразмерных Bluetooth 6.0 наушников

Спустя несколько лет FiiO от лица своего основного бренда выпускают полноразмерные беспроводные наушники EH13. Как положено, не обошлась новинка без активного шумоподавления, бонусом добавили ей...

Светишь прямо — летит вбок: как новая технология световой тяги сделает межзвездные корабли управляемыми

Идея использования света для перемещения физических объектов разрабатывается в науке уже довольно давно. Физически процесс построен на том, что фотоны, несмотря на отсутствие массы покоя, обладают...

Обзор эргономичного кресла ZONE 51 X-Prime Eco Grey: спина отдыхает, и вы счастливы

Работа за компьютером давно перестала быть чем-то временным — для многих это по 6-10 часов в день в одном положении. И именно здесь начинает проявляться главный враг...

До Марса за 56 дней: найден межпланетный короткий путь по данным околоземных астероидов

Проектирование полетов к Марсу требует компромисса между временем в пути и затратами топлива. Классические полеты осуществляются по так называемым гомановским траекториям — эллиптическим...

Дорога, которую строят больше ста лет и не могут закончить: почему шесть регионов России до сих пор не имеют прямого железнодорожного сообщения с общероссийской сетью

Идея соединить север европейской части России и Западную Сибирь железной дорогой родилась ещё в начале 20 века. Полярный исследователь и художник А. А. Борисов, хорошо знавший арктические...

Turbo, TipiTip, Love is: кто придумал и производил популярные жвачки из детства

В конце восьмидесятых годов на прилавках ларьков появились яркие пачки жевательной резинки, которые быстро стали желанной добычей для школьников. Turbo с вкладышами про машины, TipiTip с забавным...