Языковую ИИ-модель для Дании пришлось обучать на материалах форума Heste-Nettet, посвящённого лошадям

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Датским учёным, пожелавшим в 2021 году подготовить набор данных на местном языке для обучения ИИ, пришлось столкнуться с серьёзными трудностями. Многие материалы на датском, включая новости, были строго защищены законом от несанкционированного использования. В этих условиях пришлось найти крайне необычное решение. Форум для любителей лошадей оказался основой для датской ИИ-модели.

Автор: kudybadorota

У учёных были и другие источники языковой информации, вроде датских налоговых законов, но язык в них оказался слишком сухим, чтобы на его основе можно было бы обучить действительно работоспособный искусственный интеллект. При этом оказалось, что посвящённый лошадям ресурс Heste-Nettet богат материалами на самые разные темы и их обсуждают в весьма свободной форме. Созданный ещё в 1997 году форум был одним из первых в датском сегменте интернета, поэтому вскоре на площадке стали обсуждать что угодно — от проблем поиска партнёров до вопросов лечения детей, университетских задач по математике и кулинарных тем.

Как сообщает Bloomberg, с Heste-Nettet знакомы практически все жители Дании, здесь обсуждаются многие вопросы, используется живая разговорная речь и, что немаловажно, в отличие от материалов СМИ, посты не защищаются строгими правовыми нормами. Некоторые считают, что форум часто заменяет в Дании Википедию, хотя по-прежнему сохраняет свой «лошадиный вектор», и это заметно даже по главной странице сайта.

По словам профессора Леон Дерчинского (Leon Derczynski) из Копенгагена, возглавлявшего проект, на сайте присутствует «очень богатый» материал, как связанный, так и не связанный с лошадьми и открытый для свободного использования. Материалы с Heste-Nettet составили 22 % от всего датского датасета, использовавшегося для обучения. Это чрезвычайно много в контексте обучения языковых моделей общего назначения — например, X (бывшая Twitter) не способна обеспечить такой объём данных на датском языке для тренировки.

Источник: Bloomberg

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
2016-kv@rambler.ru

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Будущее защищённых смартфонов на российском рынке: планы и инновации бренда Ulefone

  • Статья
  • Ulefone
О планах Ulefone на российском рынке и особенностях новых защищённых гаджетов рассказал CEO компании, господин Сюн Синьань. Компания уже много лет выпускает защищённые смартфоны и продолжает...

Гравитация следует законам Ньютона и Эйнштейна на любых масштабах: доказывает ли это существование темной материи?

Наблюдая за космосом, современные астрономы сталкиваются с серьезной физической проблемой. Эта проблема касается того, как движутся звезды внутри галактик и как сами галактики перемещаются внутри...

Обзор NAS TerraMaster F2-425 или как я пришел к покупке сетевого хранилища, после утраты более 10 000 фото

После того, как я случайно сломал свой основной телефон где-то на побережье Эгейского моря, столкнулся с потерей личных фотографий и видеороликов с близкими мне людьми. Почему-то я всегда считал,...

Моточасы вместо километров: зачем сельхозтехнике особый способ учёта пробега

У сельхозмашин (тракторов, комбайнов, погрузчиков), коммунальной технике (снегоуборочной, грейдеров) показатель наработки выражается в мото — часах, а не в километрах (как у привычных...

Как бактерии стали многоклеточными: система разделения ДНК эволюционировала во внутриклеточный каркас

Биологическая эволюция редко создает принципиально новые механизмы с нуля. В подавляющем большинстве случаев природа модифицирует уже существующие структуры, адаптируя их под совершенно новые...

Компьютерные расчеты термоядерных реакций оказались ошибочными: как эксперимент с испаренной медью переписывает законы физики плазмы

Воздействие сверхмощного оптического лазера на металл разрушает межатомные связи за квадриллионные доли секунды. В точке удара материал мгновенно переходит в состояние горячей сверхплотной плазмы,...