Википедия тестирует новый способ защиты от ботов с искусственным интеллектом

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Фонд Викимедиа*, управляющий сайтом Википедия, совместно с платформой Kaggle (принадлежит компании Google) внедрили новый метод, отвечающий за распространение контента Википедии. Цель — предоставить разработчикам доступ к данным в машиночитаемом формате, чтобы снизить нагрузку на серверы, вызванную массовым автоматическим сбором информации (скрапингом) со стороны ИИ-ботов.

Автор: Jakub Porzycki / NurPhoto / Getty Images

Активность ИИ-ботов создает значительную нагрузку на инфраструктуру Википедии. Как отмечает Фонд Викимедиа*, с января 2024 года трафик, связанный с загрузкой мультимедийных файлов (например, изображений), увеличился на 50%. Этот рост вызван не действиями пользователей-людей, а автоматизированными программами, которые скачивают контент под открытыми лицензиями для обучения моделей искусственного интеллекта.

Для решения данной проблемы Фонд Викимедиа* в партнерстве с Kaggle подготовил наборы данных (датасеты) с контентом Википедии на английском и французском языках. Данные представлены в структурированном, машиночитаемом формате JSON. Это позволяет разработчикам использовать готовые данные напрямую, без необходимости самостоятельно извлекать и обрабатывать текст статей с сайта Википедии. Такой формат оптимизирован для задач обучения ИИ-моделей, разработки новых функций и тестирования систем обработки естественного языка (NLP).

По информации Kaggle, предоставляемые наборы данных, которые сейчас находятся на этапе бета-тестирования, пригодны для моделирования, сравнительного тестирования (бенчмаркинга), настройки и исследовательского анализа. Датасеты включают ключевые элементы контента:

  • аннотации статей;
  • краткие описания;
  • структурированные данные в формате «ключ-значение» (аналогичные инфобоксам статей);
  • ссылки на изображения;
  • тексты статей, разделенные на секции.

Весь контент основан на материалах Википедии и распространяется под стандартными открытыми лицензиями: Creative Commons Attribution-ShareAlike 4.0 (CC BY-SA 4.0) и GNU Free Documentation License (GFDL). В отдельных случаях могут применяться иные условия лицензирования.

Стоит отметить, что другие организации используют иные стратегии для управления доступом ИИ-ботов. Платформа Reddit, например, ввела более строгие ограничения после изменения политики своего API в 2023 году, потребовав плату за доступ к данным от сторонних разработчиков.

В свою очередь некоторые известные правообладатели, такие как The New York Times, инициировали судебные разбирательства против компаний-разработчиков ИИ (в частности, OpenAI). Претензии основаны на несанкционированном использовании контента (например, статей газеты) для обучения ИИ-моделей и носят преимущественно финансовый характер. Одновременно с этим другие издательства выбирают путь заключения коммерческих соглашений с ИИ-компаниями, регулирующих использование их материалов.

* — Некоммерческое партнерство содействия распространению энциклопедических знаний «Викимедиа РУ» — признано иностранным агентом

Источник: mashable.com

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Шондонг: как нашли целую экосистему в сводах самой большой пещеры мира

В научной фантастике любят придумывать подземные миры, но один такой имеется в реальности на нашей Земле. Ниже я расскажу, как существует экосистема в сводах самой большой пещеры мира, как так...

ANC, LDAC, онлайн-переводчик, плавники для бега, слайдер-кейс: обзор уникальных вкладышей Anker Soundcore liberty buds

Компания Anker уже давно снискала толпы фанатов и в области зарядных устройств, и в мобильном звуке. Новинка TWS-наушников Anker Soundcore liberty buds выделились достойным звуком, доступной ценой,...

Обзор электрической мясорубки FELFRI FF-MG-10

Для приготовления большинства мясных блюд, а также множества других рецептов, практически невозможно обойтись без мясорубки. Этот кухонный прибор значительно упрощает процесс переработки продуктов...

Какими были смартфоны 20 лет назад: обзор ASUS P525 на базе Windows Mobile 5

Двадцать лет назад рынок смартфонов условно делился на несколько категорий. В первую входили собственно смартфоны — по сути, те же мобильные телефоны, только с расширенной функциональностью за счёт...

Новости по банковской карте Egypt Post Visa Easy Pay

Банковскую карточку Visa Easy Pay почты Египта по-прежнему можно получить и, только эту карту граждане России могут относительно просто получить в Египте. Эта карта работает только в Египте, ей...