Даже самые продвинутые системы автономного вождения по-прежнему регулярно ошибаются в реальных дорожных ситуациях — иногда с тяжёлыми последствиями. Одно из объяснений этой проблемы заключается в том, что методы тестирования таких систем могут недостаточно хорошо отражать хаотичность реального мира.
Группа исследователей предложила усилить этот разрыв между симуляцией и реальностью — намеренно. Они разработали новый бенчмарк Fail2Drive, который добавляет в стандартные симуляторы автономного вождения максимально непредсказуемые и редкие сценарии, выходящие за рамки привычных дорожных условий.
В основу тестов положены ситуации «вне распределения»: например, слон, пересекающий городскую улицу, или крупные объекты, появляющиеся прямо на проезжей части. В одном из демонстрационных сценариев автономный автомобиль в симуляции врезается в такого животного. В другом случае машина останавливается перед детской горкой, оказавшейся посреди дороги, а затем сталкивается с ней. Отдельный тест воспроизводит визуальную иллюзию — стену, нарисованную так, будто это продолжение дороги, что уже в реальных условиях вводило в заблуждение системы автономного вождения.
Разработчики используют открытый симулятор CARLA, широко применяемый в индустрии для тестирования алгоритмов автономного вождения, и добавляют в него новые типы нестандартных ситуаций.
По словам Андреаса Гайгера, руководителя группы Autonomous Vision в Университете Тюбингена и одного из авторов работы, проблема заключается в самой методологии оценки таких систем. Он отмечает, что многие модели тестируются на сценариях, слишком похожих на те, на которых они обучались. В результате высокая точность в бенчмарках может отражать не устойчивость, а «запоминание» типовых ситуаций.
Эксперименты с Fail2Drive показали заметное ухудшение результатов: средний показатель успешности автономных моделей снизился на 22,8%, что, по словам исследователей, указывает на фундаментальные проблемы устойчивости современных подходов к автономному вождению.
Несмотря на то что часть сценариев выглядит почти абсурдно, исследователи подчёркивают, что «цель не в создании игровых ситуаций, а в расширении диапазона условий, в которых проверяются системы». Это должно помочь лучше оценивать их поведение в реальном мире, где редкие и неожиданные события неизбежны.
