ChatGPT теперь может определять место съемки фотографий с поразительной точностью

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

OpenAI обновила свои мультимодальные модели искусственного интеллекта, значительно улучшив их способность определять местоположение по фотографии. Следует отметить, что ИИ-инструменты для определения геолокации существуют не первый год, однако новая версия GPT-4o демонстрирует повышенную точность и доступность этой функции.


Автор: Adobe Stock Источник: www.forbes.com

Принцип работы и возможности

Новые модели анализируют визуальный контент изображения, выявляя контекстные подсказки — от архитектурных стилей и ландшафта до мелких деталей вроде текста на этикетках или автомобильных номеров. На основе этого анализа ИИ определяет место съемки и предоставляет объяснение своего вывода, описывая логическую цепочку рассуждений.

Эксперты уже протестировали новую функцию и поделились следующими результатами:

  • Модель смогла определить Мельбурнский университет по коду на этикетке библиотечной книги.
  • ИИ успешно идентифицировал Суринам (небольшую южноамериканскую страну) по снимку дома, предположительно взятому из Google Earth.

Нынешние возможности GPT-4o сравнивают с популярной игрой GeoGuessr, где игроки угадывают локацию по панорамам улиц.

Сравнение производительности

В ходе тестов сравнивались возможности флагманской модели o3 и стандартной версии GPT-4o. При анализе фотографии с Нью-Йоркского автосалона 2025 года с электромобилем Subaru:

  • GPT-4o (стандартная версия): Выявила общую локацию («вероятно, Нью-Йорк, Чикаго или Лос-Анджелес»), основываясь на общих признаках автосалона (пол, таблички, люди), но неверно указала название модели автомобиля («Trailspeed» вместо «Trailseeker»).
  • Флагманская модель о3: После анализа (занявшего около 1 минуты 40 секунд) точно определила: «Это Subaru Trailseeker 2026 года, впервые показанный на стенде Нью-Йоркского международного автосалона 2025 года в Jacob K. Javits Convention Center». Модель сопоставила детали на фото (освещение, ковровое покрытие) с информацией с официального сайта Subaru для подтверждения вывода.
Автор: ChatGPT Источник: www.pcmag.com

Кроме геолокации, модель продемонстрировала и другие способности анализа изображений: она смогла правильно распознать перевернутый текст на фото блокнота, виртуально повернула его и прочитала содержимое.

Ограничения, риски и потенциал

OpenAI признает, что модели все еще могут допускать ошибки, особенно при наличии визуальных артефактов на изображении.

Существуют опасения относительно потенциального злоупотребления подобными технологиями для нарушения приватности, на что ранее указывали некоторые СМИ (например, 404 Media в контексте сервиса Geospy).


В то же время OpenAI подчеркивает положительные сценарии использования:

  • Помощь людям с нарушениями зрения.
  • Применение в научных исследованиях.
  • Поддержка экстренных служб.

Компания заявила о внедрении защитных мер: модели обучены отказывать в обработке запросов, касающихся идентификации частных лиц, и компания отслеживает случаи неправомерного использования.

OpenAI честно предупреждает: «Мы всё ещё можем допускать базовые ошибки восприятия». Иногда даже правильная «цепочка рассуждений» даёт неверный финал из‑за визуальных артефактов.

Изображение в превью:
Автор: Adobe Stock
Источник: www.forbes.com

Читайте также

Новости

Публикации