Триллион страниц в истории: Internet Archive отметил важное достижение

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Некоммерческий проект Internet Archive сообщил о сохранении триллионной веб-страницы, зафиксировав важнейший этап в истории цифрового архивирования интернета.

Автор: Sinem Görücü Источник: betterimagesofai.org

На это ушло почти 30 лет непрерывной работы. Событие стало знаковым для всей глобальной сети интернет. В отличие от печатных архивов, цифровой контент крайне недолговечен и существует лишь до тех пор, пока кто-то готов его поддерживать.

С момента основания в 1996 году организация ставит перед собой цель создать «постоянную летопись эволюции интернета». Для этого используются специализированные поисковые роботы, автоматически сохраняющие общедоступные сайты, а также загрузки обычных пользователей — от редких книг до аудиозаписей. На сегодняшний день архив насчитывает свыше 866 млрд веб-страниц, около 41 млн текстов и огромное количество других материалов. Каждый день в систему загружается около полумиллиарда страниц, а общий объём данных уже превысил 100 тысяч терабайт.

Стоит отметить, что сейчас этот проект сталкивается с некоторыми проблемами. На данный момент крупные медиа всё чаще ограничивают доступ к свежему контенту. Связано это с тем, что они опасаются использования их материалов в генеративных системах ИИ. Тем не менее в Internet Archive надеются, что эта проблема будет решена, и проект сможет пережить не только первый, но и второй триллион сохранённых страниц.

Источник: Popular Science

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Делюсь опытом и своими знаниями на различные темы.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор радиогида Radiosync SGTR13: отличный дизайн и качественный звук 2,4 ГГц

Речь пойдет о радиогиде Radiosync SGTR13, который представляет собой решение с оптимальными характеристиками и добротным качеством звука благодаря работе в диапазоне 2,4 ГГц.

Ученые годами находили микропластик повсюду, загрязняя образцы своими же перчатками: найдена слепая зона современной экологии

Глобальная проблема загрязнения окружающей среды микропластиком требует от научного сообщества максимально точных методов оценки. Исследователи находят полимерные фрагменты в водоемах, почве,...

Копать вслепую больше не нужно: как ученые нашли египетский храм на глубине 7 метров с помощью спутников

Дельта Нила — это один из самых сложных регионов для проведения археологических исследований. В отличие от засушливых пустынных зон Египта, где исторические памятники сохраняются в сухом...

Почему курсор мыши наклонен: инженерные ограничения и решения эпохи Xerox Alto

Привычный интерфейс современного компьютера часто воспринимается как результат работы дизайнеров. Однако форма и наклон курсора мыши во многом обусловлены техническими ограничениями электроники...

Камеры будто бы стали хуже, но изменилось другое: почему Vivo X300 Ultra — это лучший камерофон на рынке

Долгое время смартфоны Vivo X100 и X200 Ultra считались эталонами в мире мобильной фотографии. Они предлагали самые передовые наборы камер и грамотную цифровую обработку. Со второго поколения они...

Обзор умного робота-пылесоса ILIFE A20 для сухой и влажной уборки с зарядной станцией

Робот-пылесос ILIFE A20. Сухая и влажная уборка. Время работы до 120 минут на одном заряде, максимальная мощность всасывания 3000Па. Мощность 35Вт, аккумулятор 3200 мАч, полное время зарядки 6 часов