Википедия тестирует новый способ защиты от ботов с искусственным интеллектом

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Фонд Викимедиа*, управляющий сайтом Википедия, совместно с платформой Kaggle (принадлежит компании Google) внедрили новый метод, отвечающий за распространение контента Википедии. Цель — предоставить разработчикам доступ к данным в машиночитаемом формате, чтобы снизить нагрузку на серверы, вызванную массовым автоматическим сбором информации (скрапингом) со стороны ИИ-ботов.

Автор: Jakub Porzycki / NurPhoto / Getty Images

Активность ИИ-ботов создает значительную нагрузку на инфраструктуру Википедии. Как отмечает Фонд Викимедиа*, с января 2024 года трафик, связанный с загрузкой мультимедийных файлов (например, изображений), увеличился на 50%. Этот рост вызван не действиями пользователей-людей, а автоматизированными программами, которые скачивают контент под открытыми лицензиями для обучения моделей искусственного интеллекта.

Для решения данной проблемы Фонд Викимедиа* в партнерстве с Kaggle подготовил наборы данных (датасеты) с контентом Википедии на английском и французском языках. Данные представлены в структурированном, машиночитаемом формате JSON. Это позволяет разработчикам использовать готовые данные напрямую, без необходимости самостоятельно извлекать и обрабатывать текст статей с сайта Википедии. Такой формат оптимизирован для задач обучения ИИ-моделей, разработки новых функций и тестирования систем обработки естественного языка (NLP).

По информации Kaggle, предоставляемые наборы данных, которые сейчас находятся на этапе бета-тестирования, пригодны для моделирования, сравнительного тестирования (бенчмаркинга), настройки и исследовательского анализа. Датасеты включают ключевые элементы контента:

  • аннотации статей;
  • краткие описания;
  • структурированные данные в формате «ключ-значение» (аналогичные инфобоксам статей);
  • ссылки на изображения;
  • тексты статей, разделенные на секции.

Весь контент основан на материалах Википедии и распространяется под стандартными открытыми лицензиями: Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) и GNU Free Documentation License (GFDL). В отдельных случаях могут применяться иные условия лицензирования.

Стоит отметить, что другие организации используют иные стратегии для управления доступом ИИ-ботов. Платформа Reddit, например, ввела более строгие ограничения после изменения политики своего API в 2023 году, потребовав плату за доступ к данным от сторонних разработчиков.

В свою очередь некоторые известные правообладатели, такие как The New York Times, инициировали судебные разбирательства против компаний-разработчиков ИИ (в частности, OpenAI). Претензии основаны на несанкционированном использовании контента (например, статей газеты) для обучения ИИ-моделей и носят преимущественно финансовый характер. Одновременно с этим другие издательства выбирают путь заключения коммерческих соглашений с ИИ-компаниями, регулирующих использование их материалов.

* — Некоммерческое партнерство содействия распространению энциклопедических знаний «Викимедиа РУ» — признано иностранным агентом

Источник: mashable.com

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Ученые научились выключать «гормон любви»: почему точечная блокировка окситоцина поможет в изучении мозга

Окситоцин и вазопрессин — это нейропептиды, которые выполняют ключевые функции в организме млекопитающих. Их эволюционная история насчитывает около 600 миллионов лет, и за это время они...

Призраков не существует: новая математическая структура объяснила эффект темной материи без невидимых частиц

Галактики вращаются слишком быстро. Окраины спиральных структур движутся с такой скоростью, что гравитация видимого вещества — всех существующих там звезд, планет и газовых...

Почему Трухильо называют городом вечной весны и стоит ли его посетить

Погода не устает мучить людей своими перепадами: летом становится невыносимо жарко, зимой заваливает снегом, и вообще хочется вечной весны с ее умеренными температурами, но это лишь мечты…...

Борода: 5 причин, почему на Руси берегли растительность на лице (от штрафов до Шнобелевки)

  • Тематическая подборка
  • Оффтопик
Почему борода на Руси стоила дороже пальца и как она помогала выжить в драке? 5 причин: от пропуска в Рай до бунта против бритвы. Как обычная растительность на лице стала символом свободы и веры.

FiiO опять взялись за старое: представлен автоматический виниловый проигрыватель TT11

Индустрия воспроизведения звука с виниловых пластинок пока еще на подъеме, выпускают новые музыкальные релизы на пластинках, производят проигрыватели в разных ценовых диапазонах. Это даже модно....

Группа «БиС» воссоединилась спустя 17 лет на концерте Влада Соколовского: как это было

Девятого апреля во время сольного концерта российского певца Влада Соколовского было объявлено о воссоединении группы «БиС», распавшейся 17 лет назад. На сцене появился Дмитрий Бикбаев, второй...