Триллион страниц в истории: Internet Archive отметил важное достижение
Некоммерческий проект Internet Archive сообщил о сохранении триллионной веб-страницы, зафиксировав важнейший этап в истории цифрового архивирования интернета.
На это ушло почти 30 лет непрерывной работы. Событие стало знаковым для всей глобальной сети интернет. В отличие от печатных архивов, цифровой контент крайне недолговечен и существует лишь до тех пор, пока кто-то готов его поддерживать.
С момента основания в 1996 году организация ставит перед собой цель создать «постоянную летопись эволюции интернета». Для этого используются специализированные поисковые роботы, автоматически сохраняющие общедоступные сайты, а также загрузки обычных пользователей — от редких книг до аудиозаписей. На сегодняшний день архив насчитывает свыше 866 млрд веб-страниц, около 41 млн текстов и огромное количество других материалов. Каждый день в систему загружается около полумиллиарда страниц, а общий объём данных уже превысил 100 тысяч терабайт.
Стоит отметить, что сейчас этот проект сталкивается с некоторыми проблемами. На данный момент крупные медиа всё чаще ограничивают доступ к свежему контенту. Связано это с тем, что они опасаются использования их материалов в генеративных системах ИИ. Тем не менее в Internet Archive надеются, что эта проблема будет решена, и проект сможет пережить не только первый, но и второй триллион сохранённых страниц.
Источник: Popular Science





0 комментариев
Добавить комментарий