Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

Мы создали искусственный интеллект — и не знаем, как он работает. Физики нашли ответ в том, что должно их убивать: в хаосе

Чем больше нейросеть — тем хуже она должна работать. Но работает лучше. Как объяснить этот парадокс?

Нейросети умеют писать тексты, решать задачи и ставить диагнозы, но объяснить их поведение до сих пор трудно. Даже разработчики часто не могут точно сказать, почему модель дала именно такой ответ. Группа физиков из Гарварда попыталась подойти к проблеме с другой стороны и построила упрощённую математическую модель, которая позволяет разобрать обучение нейросетей с помощью методов статистической физики.

Упрощённая версия сложной системы не повторяет все детали, но сохраняет ключевые свойства и помогает изучать фундаментальные механизмы в контролируемых условиях. В данном случае исследователи попытались понять, почему большие нейросети обучаются эффективно и при этом не разваливаются на ошибках.

Учёные проводят параллель с историей астрономии. Иоганн Кеплер описал движение планет задолго до того, как Исаак Ньютон объяснил природу гравитации. Наблюдения позволили сформулировать законы, но не раскрывали их причины. С нейросетями ситуация похожая: исследователи уже нашли эмпирические закономерности, например масштабные законы, но полного объяснения их природы пока нет.

Масштабные законы показывают простую зависимость: чем больше модель и чем больше данных она получает, тем лучше результат. Такие правила позволяют предсказывать рост качества, но не объясняют, почему рост происходит. При этом современные модели требуют огромных вычислительных ресурсов и энергии, а понимание их внутренней логики остаётся ограниченным.

Нейросети отличаются от классических алгоритмов. Их не прописывают вручную в виде набора правил. Скорее, их выращивают на данных, как биологическую систему. Сеть состоит из множества простых элементов - искусственных нейронов, каждый из которых выполняет базовую операцию. Поведение возникает за счёт взаимодействия элементов, и по мере роста их числа предсказать результат становится всё сложнее.

Полный анализ такой системы математически почти невозможен. Поэтому команда взяла более простую модель - ridge-регрессию (или гребневая регрессия), разновидность линейной регрессии. Линейная регрессия ищет зависимость между переменными. Например, по росту и весу можно оценить параметры нового человека. Ridge-регрессия добавляет ограничения, которые помогают избежать переобучения.

Переобучение - одна из главных проблем машинного обучения. Модель может запомнить обучающие данные вместо того, чтобы понять закономерности. Тогда она плохо работает на новых примерах. Логика подсказывает, что чем больше модель, тем выше риск такого поведения. Но современные нейросети ведут себя иначе: даже при огромных размерах они часто обобщают данные лучше, чем ожидалось.

Именно этот эффект долго оставался загадкой. Масштабные законы показывают улучшение качества с ростом модели, хотя классическая теория предсказывает обратное. Новая работа предлагает возможное объяснение через теорию перенормировки - один из ключевых инструментов статистической физики.

В системах с огромным числом параметров, как у современных нейросетей, возникают случайные флуктуации - небольшие отклонения в данных. Теория перенормировки показывает, что мелкие детали можно свернуть в несколько обобщённых параметров. В результате сложная система на макроуровне начинает вести себя более предсказуемо.

Модель показала, что в многомерных пространствах флуктуации могут не разрушать обучение, а, наоборот, стабилизировать его. Шум и сложность не обязательно мешают системе, а иногда помогают находить устойчивые решения. Такой механизм может объяснять, почему большие нейросети избегают переобучения, несмотря на избыточное число параметров.

Упрощённая модель даёт ещё один результат: помогает отделить универсальные свойства обучения от особенностей конкретной архитектуры. Исследователи могут проверить, какие эффекты возникают почти в любой нейросети, а какие зависят от конкретной реализации. Такой подход постепенно приближает понимание того, как работают современные системы искусственного интеллекта.

SecurityLab