Рост популярности искусственного интеллекта начал неожиданно подрывать работу одного из ключевых «хранителей цифровой истории» — Internet Archive. Организация, которая более 30 лет сохраняет веб-страницы и предоставляет к ним доступ, сталкивается с тем, что всё больше сайтов запрещают ей архивировать контент.
Internet Archive управляет сервисом Wayback Machine — крупнейшей в мире публичной «машиной времени» интернета, позволяющей просматривать старые версии сайтов. Система работает с помощью веб-краулеров, которые автоматически сохраняют веб-страницы. Эти данные широко используются журналистами, исследователями и историками, особенно в расследованиях, связанных с цензурой или дезинформацией.
Однако сейчас доступ к этим данным постепенно сокращается. По оценкам аналитиков, уже 241 новостной сайт из 9 стран частично или полностью запретил архивирование. Среди них — The New York Times и Reddit. Значительная часть ограничений приходится на медиа, принадлежащие крупнейшему американскому издателю Gannett.
Некоторые издания идут ещё дальше. Например, The Guardian не блокирует самих краулеров, но скрывает свои материалы из интерфейса Wayback Machine и ограничивает доступ через API, что делает архивы менее доступными для пользователей.
Главная причина — искусственный интеллект. СМИ опасаются, что их материалы используются для обучения больших языковых моделей без разрешения. Считается, что архив может служить обходным путём для сбора данных, позволяя технологическим компаниям получать доступ к контенту, защищённому авторским правом.
При этом сами медиа активно используют архив в своей работе. В открытом письме организации вроде Electronic Frontier Foundation подчёркивают, что «без Internet Archive значительная часть истории журналистики уже была бы потеряна». Архив остаётся одним из немногих инструментов, позволяющих фиксировать изменения в публичных заявлениях, удалённые публикации и другие цифровые следы.
В Internet Archive утверждают, что внедряют механизмы защиты от злоупотреблений, включая ограничения на массовое скачивание данных. Однако даже при этих мерах доверие со стороны издателей снижается. Представители медиа-индустрии признают, что проблема носит системный характер: технологии, созданные для сохранения знаний, начинают использоваться способами, которые не предусматривались изначально.
Ситуация осложняется тем, что полноценной альтернативы Wayback Machine не существует. Если доступ к крупным источникам будет и дальше сокращаться, то это может привести к постепенной утрате цифровых архивов — особенно в сфере новостей, где материалы часто удаляются или изменяются.
В результате интернет рискует потерять способность сохранять собственную историю. И если текущая тенденция сохранится, значительная часть цифрового прошлого может оказаться недоступной уже в ближайшие годы.
