Физики Гарварда вывели «формулу интеллекта» и показали почему бесконечное увеличение нейросетей перестаёт делать их умнее

Группа физиков-теоретиков из Гарварда опубликовала работу, которая объясняет математическую природу успеха современных нейросетей. Они доказали, что эффективность ИИ растет по строгим физическим законам, а не по воле случая. Современное обучение нейросетей часто называют «цифровой алхимии» — инженеры знают, что при увеличении данных модель станет умнее, но не всегда понимают почему и в какой пропорции. Эта работа предлагает переход от эмпирических догадок к «физическим законам» машинного обучения — обучение нейросети подчиняется тем же принципам, что и сложные физические системы.

Учёные доказали, что феноменальный успех современных моделей ИИ при увеличении объёма данных и количества параметров подчиняется фундаментальным принципам статистической механики. Используя аппарат теории случайных матриц, исследователи вывели аналитические формулы, которые объясняют «законы масштабирования» (scaling laws) — те самые правила, благодаря которым инженеры известных моделей предсказывают способности будущих моделей ещё до начала их обучения.

Центральной идеей исследования стала концепция перенормировки (renormalization), заимствованная из квантовой теории поля. Физики обнаружили, что статистический шум в данных при обучении модели ведёт себя подобно квантовым флуктуациям в физике элементарных частиц: он фактически «меняет» (перенормирует) параметры модели. В гребневой регрессии (ridge regression), которая послужила фундаментальной моделью для анализа, этот эффект проявляется в изменении параметра регуляризации. Даже если изначально модель не имеет явных ограничений, сам шум в данных индуцирует неявную регуляризацию, обеспечивая устойчивость системы в режиме перепараметризации (когда параметров в сети гораздо больше, чем обучающих примеров).

Для вывода формул учёные внедрили «математический чит-код» — S-преобразование из cвободной теории вероятностей. Этот инструмент позволил заменить сложнейшие многостраничные вычисления, которые раньше требовали использования специфических методов вроде «метода реплик», элегантными алгебраическими уравнениями. С помощью S-преобразования авторы смогли точно связать ошибку обучения с ошибкой теста через так называемый train-test gap. Это позволяет оценивать качество работы нейросети, опираясь только на тренировочные данные, без проведения дорогостоящих тестов на гигантских выборках.

Работа даёт чёткий ответ на вопрос, от чего зависит скорость обучения ИИ. Оказалось, что показатель степени в законах масштабирования напрямую определяется структурой данных: их «ёмкостью» и сложностью конкретной задачи. Физики выделили четыре режима работы нейросетей — от доминирования сигнала до ограничения шумом. Это позволяет инженерам точно рассчитывать, сколько данных и вычислительных мощностей потребуется для достижения нужного уровня «интеллекта» модели, превращая создание модели в предсказуемый производственный процесс.

В индустрии принято считать, что чем шире нейросеть, тем она лучше. Авторы доказали существование режима, при котором дальнейшее увеличение ширины модели перестаёт давать эффект из-за случайности начальных параметров. Это важный сигнал для разработчиков: просто «раздувать» модели бесконечно нельзя. Иллюстрация: Nano Banana

Одним из важнейших практических открытий стал «барьер инициализации» или режим ограничения дисперсией (variance-limited scaling). Физики математически доказали, что бесконечное увеличение ширины нейросети не всегда ведёт к улучшению результата. В определённых условиях случайность начальных параметров (инициализации) начинает доминировать над полезным сигналом. В таких случаях дальнейшее «раздувание» модели становится бессмысленным, и для повышения точности требуются иные подходы, например, ансамблирование — объединение нескольких разных нейросетей в одну систему.

Исследование также проливает свет на феномен «двойного спуска» (double descent) в машинном обучении, при котором увеличение сложности модели (количества параметров) или объёма тренировочных данных не всегда приводит к переобучению, а может улучшить качество работы модели на новых данных после первоначального ухудшения. Гарвардские физики показали, что этот эффект — не аномалия, а закономерная физическая сингулярность. По мере роста объёма данных «эффективный параметр» модели плавно меняется, позволяя системе находить всё более простые и точные решения.

Авторы работы подчёркивают, что их теория универсальна. Она применима как к простым регрессионным моделям, так и к сложным многослойным архитектурам. По сути, учёные создали «карту» производительности нейросетей, на которой отмечены все узкие места (bottlenecks), ограничивающие развитие искусственного интеллекта.

Теоретический фундамент, заложенный гарвардской группой, позволяет по-новому взглянуть на будущее машинного обучения. Перенос вычислительной нагрузки с эмпирического перебора гипотез на интеллектуальное проектирование архитектур — это единственный путь к созданию эффективных ИИ-систем в эпоху, когда стоимость обучения моделей начинает исчисляться миллиардами долларов. Работа доказывает: чтобы сделать ИИ умнее, нужно не просто больше данных, а понимание физических законов их обработки.

Физики Гарварда вывели «формулу интеллекта» и показали почему бесконечное увеличение нейросетей перестаёт делать их умнее

Методы, созданные для изучения Вселенной и элементарных частиц, теперь помогают понять интеллект