Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Википедия тестирует новый способ защиты от ботов с искусственным интеллектом

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

22 апреля 2025, 14:24 | Новость | ИИ, сервисы и приложения

Фонд Викимедиа*, управляющий сайтом Википедия, совместно с платформой Kaggle (принадлежит компании Google) внедрили новый метод, отвечающий за распространение контента Википедии. Цель — предоставить разработчикам доступ к данным в машиночитаемом формате, чтобы снизить нагрузку на серверы, вызванную массовым автоматическим сбором информации (скрапингом) со стороны ИИ-ботов.

Автор: Jakub Porzycki / NurPhoto / Getty Images

Активность ИИ-ботов создает значительную нагрузку на инфраструктуру Википедии. Как отмечает Фонд Викимедиа*, с января 2024 года трафик, связанный с загрузкой мультимедийных файлов (например, изображений), увеличился на 50%. Этот рост вызван не действиями пользователей-людей, а автоматизированными программами, которые скачивают контент под открытыми лицензиями для обучения моделей искусственного интеллекта.

Для решения данной проблемы Фонд Викимедиа* в партнерстве с Kaggle подготовил наборы данных (датасеты) с контентом Википедии на английском и французском языках. Данные представлены в структурированном, машиночитаемом формате JSON. Это позволяет разработчикам использовать готовые данные напрямую, без необходимости самостоятельно извлекать и обрабатывать текст статей с сайта Википедии. Такой формат оптимизирован для задач обучения ИИ-моделей, разработки новых функций и тестирования систем обработки естественного языка (NLP).

По информации Kaggle, предоставляемые наборы данных, которые сейчас находятся на этапе бета-тестирования, пригодны для моделирования, сравнительного тестирования (бенчмаркинга), настройки и исследовательского анализа. Датасеты включают ключевые элементы контента:

аннотации статей;
краткие описания;
структурированные данные в формате «ключ-значение» (аналогичные инфобоксам статей);
ссылки на изображения;
тексты статей, разделенные на секции.

Весь контент основан на материалах Википедии и распространяется под стандартными открытыми лицензиями: Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) и GNU Free Documentation License (GFDL). В отдельных случаях могут применяться иные условия лицензирования.

Стоит отметить, что другие организации используют иные стратегии для управления доступом ИИ-ботов. Платформа Reddit, например, ввела более строгие ограничения после изменения политики своего API в 2023 году, потребовав плату за доступ к данным от сторонних разработчиков.

В свою очередь некоторые известные правообладатели, такие как The New York Times, инициировали судебные разбирательства против компаний-разработчиков ИИ (в частности, OpenAI). Претензии основаны на несанкционированном использовании контента (например, статей газеты) для обучения ИИ-моделей и носят преимущественно финансовый характер. Одновременно с этим другие издательства выбирают путь заключения коммерческих соглашений с ИИ-компаниями, регулирующих использование их материалов.

* — Некоммерческое партнерство содействия распространению энциклопедических знаний «Викимедиа РУ» — признано иностранным агентом

Источник: mashable.com

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Из категории тех моделей, которые покупают большинство обычных людей. Компания VTUVIA выпустила электровелосипед Zeal XT8

Авто и транспорт
6 часов назад
0

В Европе выявлены случаи распространения нерабочих подделок SSD-накопителей Samsung 990 Pro

Платформа ПК
7 часов назад
0

В Galaxy S27 компания Samsung планирует увеличить долю собственных Exynos, снижая зависимость от Qualcomm

Смартфоны и телефоны
7 часов назад
0

В Перу обнаружены первые вещественные доказательства существования бесшерстных собак в империи Вари

Наука и космос
7 часов назад
0

Samsung вернула функцию двойной записи на Galaxy S25 FE, но теперь она доступна через отдельное приложение

Смартфоны и телефоны
7 часов назад
0

Публикации

Ученые научились выключать «гормон любви»: почему точечная блокировка окситоцина поможет в изучении мозга

Статья
2 часа назад
Наука и космос

Окситоцин и вазопрессин — это нейропептиды, которые выполняют ключевые функции в организме млекопитающих. Их эволюционная история насчитывает около 600 миллионов лет, и за это время они...

Призраков не существует: новая математическая структура объяснила эффект темной материи без невидимых частиц

Статья
3 часа назад
Наука и космос

Галактики вращаются слишком быстро. Окраины спиральных структур движутся с такой скоростью, что гравитация видимого вещества — всех существующих там звезд, планет и газовых...

Почему Трухильо называют городом вечной весны и стоит ли его посетить

Статья
5 часов назад
Путешествия и туризм

Погода не устает мучить людей своими перепадами: летом становится невыносимо жарко, зимой заваливает снегом, и вообще хочется вечной весны с ее умеренными температурами, но это лишь мечты…...

Борода: 5 причин, почему на Руси берегли растительность на лице (от штрафов до Шнобелевки)

Тематическая подборка
7 часов назад
Оффтопик

Почему борода на Руси стоила дороже пальца и как она помогала выжить в драке? 5 причин: от пропуска в Рай до бунта против бритвы. Как обычная растительность на лице стала символом свободы и веры.

FiiO опять взялись за старое: представлен автоматический виниловый проигрыватель TT11

Статья
7 часов назад
Аудио и звук

Индустрия воспроизведения звука с виниловых пластинок пока еще на подъеме, выпускают новые музыкальные релизы на пластинках, производят проигрыватели в разных ценовых диапазонах. Это даже модно....

Группа «БиС» воссоединилась спустя 17 лет на концерте Влада Соколовского: как это было

Мнение
9 часов назад
Оффтопик

Девятого апреля во время сольного концерта российского певца Влада Соколовского было объявлено о воссоединении группы «БиС», распавшейся 17 лет назад. На сцене появился Дмитрий Бикбаев, второй...