Как AI autoresearch переопределяет AI-кодирующие эксперименты и вызывает дебаты о самосовершенствующихся с...

2026-03-17 10:21:43

За последние недели вирусный эксперимент Андрея Карпаты превратил автоматические исследования ИИ из нишевой идеи в центральную тему обсуждения в сообществе исследователей ИИ.

Происхождение концепции автоматических исследований Карпаты

В начале этого месяца Андрей Карпата, известный исследователь ИИ и один из основателей OpenAI, поделился поразительным экспериментом в X. Позже он возглавлял отдел ИИ в Tesla, а сейчас работает независимо, руководя Eureka Labs — проектом, создающим новый тип школы для эпохи ИИ.

Карпата, у которого 1,9 миллиона подписчиков в X, настолько влиятелен, что практически любой комментарий о ИИ быстро распространяется. Однако этот последний пост выделился тем, что демонстрировал систему практической автоматизации исследований, которую он назвал «автоисследованием». Идея быстро захватила воображение как практиков, так и теоретиков.

В эксперименте Карпата запустил агента по программированию на ИИ для проведения серии тестов, направленных на улучшение обучения небольшой языковой модели. За два непрерывных дня агент провел 700 экспериментов, систематически исследуя конфигурации обучения для поиска лучших настроек.

В ходе этих экспериментов агент обнаружил 20 оптимизаций, повышающих эффективность обучения. Более того, применив те же 20 изменений к более крупной, хотя все еще относительно небольшой, языковой модели, он зафиксировал увеличение скорости обучения на 11%. Этот конкретный результат подчеркнул практический потенциал его подхода.

От демонстрации в лаборатории к возможной новой парадигме исследований

Карпата описал структуру как универсальный движок для оптимизации кода и моделей. Важным он подчеркнул, что агент автоисследования не настраивал сам себя, а корректировал код обучения и начальные параметры нейронной сети другого, меньшего ИИ-модели. Это различие важно для обсуждений безопасности, даже если последствия для рабочих процессов исследований весьма значительны.

Он утверждал, что такие инструменты могут изменить подход ведущих лабораторий к ИИ-исследованиям. «Все передовые лаборатории по языковым моделям будут делать это. Это финальный босс», — написал Карпата в X. Однако он признал, что масштабирование идеи от проекта на 630 строк Python до кода передовой модели, которая в разы больше, — это сложная задача.

Карпата все еще рассматривал проблему как инженерную, а не концептуальную. По его мнению, лаборатории запустят множество агентов, пусть они и будут сотрудничать для настройки меньших моделей, а затем постепенно перенесут наиболее перспективные идеи на большие масштабы. Люди, по его мнению, смогут «по желанию» участвовать на периферии, руководя и оценивая, а не вручную прописывая каждое изменение.

На сегодняшний день его реализация сосредоточена на одном агенте, который последовательно улучшает кодовую базу по одному пути. В будущем он ожидает, что несколько ИИ-агентов будут одновременно исследовать разные гипотезы и эксперименты. Он писал, что следующий шаг — сделать автоисследование асинхронной, масштабной коллаборативной средой для агентов, предназначенной скорее для моделирования исследовательского сообщества, чем одного аспиранта.

Реакция индустрии и тест Shopify

Эксперимент быстро вышел за рамки теории, когда Тобиас Лютке, соучредитель и CEO Shopify, решил попробовать эту систему на данных компании. Лютке сообщил в X, что использовал систему для оптимизации внутренней модели ИИ, поручив агенту улучшить как качество, так и скорость. Это сделало концепцию более осязаемой для корпоративных приложений.

По словам Лютке, после ночной работы агент провел 37 экспериментов и достиг прироста производительности на 19%. Он не публиковал полные технические детали, но результат был достаточно впечатляющим, чтобы вызвать дальнейший интерес и спекуляции о коммерческом потенциале.

Позже Карпата отметил, что любой метрик, который можно достаточно эффективно оценить, может быть целью для такого роя агентов. Более того, он указал, что если у метрики есть более дешевый прокси, например, обучение меньшей сети вместо большой, то ее также можно включить. Он призвал технологов задуматься, попадает ли их задача в эту категорию.

Связь с мечтой и опасениями о самосовершенствующемся ИИ

Что действительно привлекло внимание публики, — это насколько это похоже на давно обсуждаемую идею самосовершенствующегося ИИ. Научная фантастика часто изображает системы, переписывающие свой собственный код, в то время как некоторые современные исследователи стремятся к таким возможностям, а другие опасаются их. Концепция рекурсивного самосовершенствования особенно актуальна в кругах по безопасности ИИ.

В этих дискуссиях главная опасность — что ИИ может постоянно оптимизировать свою архитектуру и обучающие данные в цикле. За многие циклы это может привести к так называемому «жесткому взлёту» или «взрыву интеллекта». В таком сценарии ИИ может быстро превзойти человеческие когнитивные способности, что затруднит или сделает невозможным сохранение контроля.

Однако подход Карпаты не достигает этого гипотетического или тревожного сценария. Агент, которого он использует, не модифицирует собственный обучающий процесс или внутренние компоненты. Вместо этого он переписывает код обучения и настройки нейросети другого, более простого, модели. Это разделение удерживает текущую систему в рамках более традиционной парадигмы оптимизации, хотя направление развития очевидно.

Тем не менее многие наблюдатели интерпретировали работу как предварительный взгляд на то, как лаборатории могут в будущем управлять более автономными системами. Более того, делая экспериментирование с помощью агентов доступным и эффективным, проект может ускорить внедрение подобных архитектур, включая более продвинутые циклы оптимизации агентных систем.

Цикл Карпаты и обобщенные шаблоны агентов

Некоторые аналитики отметили, что основная схема, лежащая в основе проекта, может быть абстрагирована и использована повторно. Янкирам MSV, главный аналитик Janakiram & Associates, написал в техноблоге The New Stack, что Карпата фактически определил повторяемый цикл. Он назвал его «Цикл Карпаты», предложив шаблон для более широких систем агентов.

По словам Янкирама, цикл включает три ключевых элемента. Первый — агент должен иметь доступ к одному файлу, который он может свободно изменять. Второй — должна быть одна, объективно тестируемая метрика для оптимизации. Третий — должен быть фиксированный лимит времени для каждого эксперимента, ограничивающий длительность запуска каждого испытания перед отчетом о результатах.

Он также подчеркнул, что инструкции, встроенные Карпаты в его конфигурационный файл, служат хорошей моделью для общения с любым ИИ-агентом. В файле четко прописано, что агент должен делать, какие ограничения применимы, что ему нельзя трогать и когда нужно остановиться и подвести итоги.

Комментаторы отметили, что такой стиль точной настройки подсказок становится важным навыком. Пока модели становятся мощнее, эффективное управление все еще зависит от людей, которые пишут ясные, структурированные директивы, согласующие автономию агента с конкретными целями и границами.

Автоисследование и существующие подходы AutoML

Не все согласны с тем, что работа Карпаты — прорыв. Некоторые критики считают, что он фактически заново открыл компоненты AutoML — набора техник, которые Google, Microsoft и другие лаборатории ИИ используют уже много лет. AutoML-фреймворки также проводят итеративные эксперименты в поисках лучших данных, архитектур и гиперпараметров.

Классические системы AutoML сильно полагаются на автоматические циклы оптимизации и стратегии поиска. Они исследуют архитектуры моделей, настраивают гиперпараметры и иногда выбирают обучающие данные с помощью случайных вариаций или эволюционных алгоритмов. Однако обычно в них не задействован ИИ-агент, который мог бы читать научные статьи, разрабатывать новые гипотезы и вносить произвольные изменения кода в ответ.

Карпата возразил, что такие сравнения недооценивают разницу. Он указал на методы вроде поиска архитектуры нейросетей, который появился как способ автоматизации проектирования моделей. По его мнению, ранние версии этой техники были слабее по сравнению с агентом, который может рассуждать о коде, учиться на прошлых испытаниях и извлекать информацию из интернета.

Он описал исторический поиск архитектуры нейросетей как «такую слабую версию, что она сама по себе — полностью бесполезна». Более того, он подчеркнул, что его система использует большой языковой модель для написания произвольного кода, интерпретации результатов прошлых экспериментов и адаптации стратегий в реальном времени, что делает ее гораздо более гибкой, чем традиционные пайплайны AutoML.

Перспективы масштабирования и более широкого влияния

По мере роста внимания некоторые исследователи изучают, как идеи автоисследования Карпаты можно масштабировать до полноценного роя агентов. Визия — это сеть специализированных агентов, которые делят задачи, проверяют результаты и предлагают новые подходы, при этом люди задают высокоуровневые цели и границы. Это может трансформировать как академические, так и промышленные рабочие процессы в области ИИ.

Однако масштабирование роя агентов вызывает открытые вопросы о безопасности, надежности и управлении. Наблюдатели, обеспокоенные рисками рекурсивного самосовершенствования, предупреждают, что по мере увеличения автономии и влияния таких систем на критическую инфраструктуру потребуется тщательный контроль. Важно сохранять надежные метрики оценки и человеческий контроль на каждом этапе продвижения.

На данный момент проект Карпаты остается относительно ограниченным примером того, как языковые модели могут проводить автоисследовательские эксперименты на небольших кодовых базах. Однако реакция таких фигур, как Лютке, и аналитиков по всему миру показывает, что базовая схема может быстро распространиться, размывая границы между человеческими исследователями и автономными коллективами агентов.

В целом, работа Карпаты по автоисследованию демонстрирует, что один хорошо настроенный агент может за несколько дней обнаружить измеримые улучшения производительности, а не за месяцы. Более того, по мере того как лаборатории будут развивать эти методы на более крупных моделях и в многогранных роях агентов, они смогут открыть новые мощные возможности, одновременно усиливая давние дебаты о автономии, контроле и будущем направления исследований ИИ.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .