Википедия тестирует новый способ защиты от ботов с искусственным интеллектом
Фонд Викимедиа*, управляющий сайтом Википедия, совместно с платформой Kaggle (принадлежит компании Google) внедрили новый метод, отвечающий за распространение контента Википедии. Цель — предоставить разработчикам доступ к данным в машиночитаемом формате, чтобы снизить нагрузку на серверы, вызванную массовым автоматическим сбором информации (скрапингом) со стороны ИИ-ботов.
Активность ИИ-ботов создает значительную нагрузку на инфраструктуру Википедии. Как отмечает Фонд Викимедиа*, с января 2024 года трафик, связанный с загрузкой мультимедийных файлов (например, изображений), увеличился на 50%. Этот рост вызван не действиями пользователей-людей, а автоматизированными программами, которые скачивают контент под открытыми лицензиями для обучения моделей искусственного интеллекта.
Для решения данной проблемы Фонд Викимедиа* в партнерстве с Kaggle подготовил наборы данных (датасеты) с контентом Википедии на английском и французском языках. Данные представлены в структурированном, машиночитаемом формате JSON. Это позволяет разработчикам использовать готовые данные напрямую, без необходимости самостоятельно извлекать и обрабатывать текст статей с сайта Википедии. Такой формат оптимизирован для задач обучения ИИ-моделей, разработки новых функций и тестирования систем обработки естественного языка (NLP).
По информации Kaggle, предоставляемые наборы данных, которые сейчас находятся на этапе бета-тестирования, пригодны для моделирования, сравнительного тестирования (бенчмаркинга), настройки и исследовательского анализа. Датасеты включают ключевые элементы контента:
- аннотации статей;
- краткие описания;
- структурированные данные в формате «ключ-значение» (аналогичные инфобоксам статей);
- ссылки на изображения;
- тексты статей, разделенные на секции.
Весь контент основан на материалах Википедии и распространяется под стандартными открытыми лицензиями: Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) и GNU Free Documentation License (GFDL). В отдельных случаях могут применяться иные условия лицензирования.
Стоит отметить, что другие организации используют иные стратегии для управления доступом ИИ-ботов. Платформа Reddit, например, ввела более строгие ограничения после изменения политики своего API в 2023 году, потребовав плату за доступ к данным от сторонних разработчиков.
В свою очередь некоторые известные правообладатели, такие как The New York Times, инициировали судебные разбирательства против компаний-разработчиков ИИ (в частности, OpenAI). Претензии основаны на несанкционированном использовании контента (например, статей газеты) для обучения ИИ-моделей и носят преимущественно финансовый характер. Одновременно с этим другие издательства выбирают путь заключения коммерческих соглашений с ИИ-компаниями, регулирующих использование их материалов.
* — Некоммерческое партнерство содействия распространению энциклопедических знаний «Викимедиа РУ» — признано иностранным агентом
Источник: mashable.com





0 комментариев
Добавить комментарий