На iPhone 17 Pro впервые запустили большую языковую модель с 400 млрд параметров. Для смартфона это выглядит почти невероятно: обычно даже сжатые версии таких моделей требуют как минимум 200 ГБ оперативной памяти, тогда как у iPhone 17 Pro — лишь 12 ГБ LPDDR5X.
Демонстрация стала возможной благодаря открытому проекту Flash-MoE. Запущенная на смартфоне модель работала медленно — со скоростью генерации всего 0,6 токена в секунду (примерно одно слово каждые полторы-две секунды), так что о полноценном практическом использовании пока говорить не приходится. Секрет запуска заключается в том, что модель не загружается целиком в оперативную память. Вместо этого Flash-MoE использует хранилище смартфона и потоково подаёт данные с флеш-памяти напрямую в GPU. Кроме того, сама архитектура MoE (Mixture of Experts) позволяет задействовать лишь часть всех параметров модели при генерации каждого отдельного слова, а не весь массив из 400 млрд параметров сразу.
Такой подход показывает, что даже чрезвычайно тяжёлые большие языковые модели в теории можно запускать локально на мобильных устройствах, если использовать дополнительные схемы работы с памятью и агрессивную оптимизацию. У локального запуска есть очевидные преимущества: полная приватность, отсутствие необходимости в интернете и обработка запросов прямо на устройстве.
Однако текущий результат скорее демонстрационный, чем прикладной. Помимо очень низкой скорости, подобный режим создаёт серьёзную нагрузку на память, GPU и подсистему питания.