Википедия тестирует новый способ защиты от ботов с искусственным интеллектом

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Фонд Викимедиа*, управляющий сайтом Википедия, совместно с платформой Kaggle (принадлежит компании Google) внедрили новый метод, отвечающий за распространение контента Википедии. Цель — предоставить разработчикам доступ к данным в машиночитаемом формате, чтобы снизить нагрузку на серверы, вызванную массовым автоматическим сбором информации (скрапингом) со стороны ИИ-ботов.

Автор: Jakub Porzycki / NurPhoto / Getty Images

Активность ИИ-ботов создает значительную нагрузку на инфраструктуру Википедии. Как отмечает Фонд Викимедиа*, с января 2024 года трафик, связанный с загрузкой мультимедийных файлов (например, изображений), увеличился на 50%. Этот рост вызван не действиями пользователей-людей, а автоматизированными программами, которые скачивают контент под открытыми лицензиями для обучения моделей искусственного интеллекта.

Для решения данной проблемы Фонд Викимедиа* в партнерстве с Kaggle подготовил наборы данных (датасеты) с контентом Википедии на английском и французском языках. Данные представлены в структурированном, машиночитаемом формате JSON. Это позволяет разработчикам использовать готовые данные напрямую, без необходимости самостоятельно извлекать и обрабатывать текст статей с сайта Википедии. Такой формат оптимизирован для задач обучения ИИ-моделей, разработки новых функций и тестирования систем обработки естественного языка (NLP).

По информации Kaggle, предоставляемые наборы данных, которые сейчас находятся на этапе бета-тестирования, пригодны для моделирования, сравнительного тестирования (бенчмаркинга), настройки и исследовательского анализа. Датасеты включают ключевые элементы контента:

  • аннотации статей;
  • краткие описания;
  • структурированные данные в формате «ключ-значение» (аналогичные инфобоксам статей);
  • ссылки на изображения;
  • тексты статей, разделенные на секции.

Весь контент основан на материалах Википедии и распространяется под стандартными открытыми лицензиями: Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) и GNU Free Documentation License (GFDL). В отдельных случаях могут применяться иные условия лицензирования.

Стоит отметить, что другие организации используют иные стратегии для управления доступом ИИ-ботов. Платформа Reddit, например, ввела более строгие ограничения после изменения политики своего API в 2023 году, потребовав плату за доступ к данным от сторонних разработчиков.

В свою очередь некоторые известные правообладатели, такие как The New York Times, инициировали судебные разбирательства против компаний-разработчиков ИИ (в частности, OpenAI). Претензии основаны на несанкционированном использовании контента (например, статей газеты) для обучения ИИ-моделей и носят преимущественно финансовый характер. Одновременно с этим другие издательства выбирают путь заключения коммерческих соглашений с ИИ-компаниями, регулирующих использование их материалов.

* — Некоммерческое партнерство содействия распространению энциклопедических знаний «Викимедиа РУ» — признано иностранным агентом

Источник: mashable.com

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Новости по банковской карте Egypt Post Visa Easy Pay

Банковскую карту Visa Easy Pay почты Египта по-прежнему может получить иностранец с обычной туристической визой и это фактически единственная карта, которую относительно просто может получить...

Самый одинокий дом в мире: кто и для чего его построил на острове Эллидаэй в Исландии

Остров Эллидаэй в Исландии — это небольшой необитаемый клочок суши в архипелаге Вестманнаэйяр, расположенном у южного побережья страны. Площадью всего около 0,45 км², он является одним...

Обзор TWS наушников Haylou Flowbuds N55 – что дают ANC и LDAC в бюджетном сегменте

Haylou Flowbuds N55 — это модель с упором на функции: адаптивное шумоподавление, поддержка LDAC и заявленная длительная работа от аккумулятора. Набор для своего сегмента привычный, но...

Обзор УШМ Интерскол УШМВ-125/1300Э: с бесщеточным двигателем 1,3 кВт и электронной поддержкой оборотов

В январе этого года купил себе бесщеточную сетевую УШМВ-125/1200Э от Интерскол. Плавный запуск, электронная регулировка мощности и удобство в работе оценил не только я, но и соседи по гаражному...

Робот пылесос с непрерывной подачей воды и самоочисткой в реальном времени: обзор новой модели Qrevo Curv 2 Flow от Roborock

Продуманный робот Qrevo Curv 2 Flow от бренда Roborock, предназначенный для влажной/совмещенной уборки дома, дополнительно оснащенный лазерным лидаром и AI-камерой. Такой вариант и полы помоет, и...

Обзор кресла Zone51 X-Prime Optimus – удобно ли сидеть целый день

Zone 51 X-Prime Optimus — кресло с сетчатой конструкцией и набором регулировок, которое сразу задает свою логику посадки. Здесь нет привычной мягкости и простых механизмов, зато есть...