303: Идеатор/Реактор

Реактор: Это особый «Преобразователь Идей», похожий на универсальную игровую площадку для умных программ-агентов, которые помнят свои прошлые действия. Он берёт текущее состояние игры (Idea) и помогает определить, каким будет следующий ход (новая Idea).
— Глоссарий

В этом документе мы расскажем, как планируем переделать нашу программу для игры в покер в нечто гораздо большее — в «Реактор». Представь себе универсальную систему, где умные компьютерные программы-агенты могут взаимодействовать друг с другом в реальном времени. Мы превращаем нашу программу из приложения для одной игры в целый протокол — набор правил, по которому умные агенты смогут играть в любую пошаговую игру, будь то соревнование, совместное творчество или даже сложный рабочий процесс. «Реактор» станет первым таким «движком» для нашей большой сети идей.

От покера к универсальному протоколу

Наша текущая система отлично справляется со своей задачей. Она управляет целым миром ботов, которые играют в покер, думают и реагируют на ходы друг друга. Мы даже создали специальный «переходник» (API), чтобы отделить правила самой игры от системы управления. Наш покерный движок — первая программа, которая использует этот переходник, и в будущем мы сможем подключать и отключать любые другие игровые движки, как картриджи в игровой приставке.

Однако сейчас все программы внутри системы общаются на специальном «покерном языке». Чтобы раскрыть весь потенциал системы, нам нужно это изменить.

Главное в этой переделке — переход на общение с помощью «Триады Идеи». Вместо того чтобы просто отправлять информацию о текущей ситуации в игре, каждое сообщение будет целой посылкой из трёх частей:

Схема: Это как инструкция к набору Лего. Она объясняет, какие существуют детальки и как их можно соединять. Она говорит программе, какие ходы в принципе возможны в игре.
Контекст: Это как картинка на коробке Лего и история о том, что ты строишь. Она даёт дополнительную информацию: правила игры, цели или даже подсказки для ботов.
Решение: Это сама собранная модель из Лего или текущее положение фигур на доске. Это просто данные, которые без инструкции (Schema) были бы непонятны.

Вместе Схема и Решение создают полную картину игрового момента. Само по себе Решение — это просто набор данных. А Схема объясняет, что эти данные значат, какие у них правила и что можно делать дальше. Благодаря этому любая программа может понять не только то, что происходит сейчас, но и какие есть варианты для следующего хода, даже если она ничего не знает о правилах этой конкретной игры. Мы решили, что отныне по всем важным каналам системы будет передаваться только эта полная «триада», а не её отдельные части.

Это превращает Идею в настоящий «кирпичик» для строительства сложных систем. В отличие от простого запроса к чат-боту, Идея — это полноценный объект, у которого есть состояние. Она упаковывает в себя входящие данные, результат (solution), правила (schema) и весь контекст в одну посылку. Это не просто вопрос, а вопрос, ответ и полная формула, которая их связывает. Это позволяет создавать системы, которые могут развиваться и запоминать, а не просто выполнять одноразовые задачи.

От Скрытого к Явному: Стратегия «Кристаллизации»

Такая система позволяет нам использовать очень мощный подход. Мы можем начать игру с гибкими, «Скрытыми Правилами», а со временем «закалить» их, превратив в чёткие и строгие «Явные Правила». Система по умолчанию работает со скрытыми правилами, а явные правила рассматривает как полезное улучшение, а не обязательное требование.

1. Скрытые Правила

Мы исходили из самого сложного случая: что, если у нас есть игра, для которой вообще нет написанной программы-движка? Наша система по умолчанию готова работать именно в таком режиме.

Здесь большая языковая модель (LLM) выступает в роли «Универсального Судьи». Она становится и дилером, и арбитром в игре. Используя Схему и Контекст из «триады», она понимает правила, проверяет ходы игроков и двигает игру дальше. Правила как бы «скрыты» внутри огромных знаний языковой модели и той информации, что есть в «триаде», а не в коде. Базовый «универсальный движок» будет совсем простым — он будет лишь рассаживать игроков и следить за очерёдностью ходов. Всё остальное сделает LLM, что даёт невероятную гибкость.

2. Явные Правила

Для игр, где у нас есть специальный движок (как сейчас для покера), система работает в ускоренном и точном режиме. Такой движок предоставляет «Явные Правила», которые не заменяют «триаду», а сильно её дополняют. У него две главные задачи:

Обеспечивать точность и предсказуемость: Движок проверяет все действия по строгим правилам игры, подтверждая, что игрок может сделать в данный момент, и проверяя ходы ботов. Это гарантирует честную и предсказуемую игру.
Готовить полезную информацию: Движок работает как умный поставщик информации. Он обогащает Контекст в «триаде» ценными, специфическими для игры данными. Например, статистикой о поведении игроков, шаблонами игры и другой аналитикой. Такой «подготовленный контекст» позволяет нашим ботам принимать гораздо более умные и стратегические решения.

В этом режиме игровой движок предоставляет чёткую, прописанную в коде логику, которая служит источником правды и помогает нашим агентам принимать более качественные решения, делая систему одновременно надёжной и умной.

3. От симуляции к правилам: новый способ разработки

Эта стратегия «кристаллизации» правил открывает совершенно новый подход к разработке. Вместо того чтобы с нуля писать правила для новой игры, мы сначала будем играть в неё с помощью «Реактора» и его «Скрытых Правил».

Симулируем: Мы даём «Реактору» «триаду», описывающую новую игру (например, домино), даже совершенно новую. LLM, выступая в роли универсального судьи, начнёт симулировать игровой процесс.
Генерируем: Пока LLM играет, он создаёт записи ходов, свои рассуждения и множество различных игровых сценариев.
Создаём правила: Затем мы используем эти богатые данные из симуляции как сырьё для написания надёжных, проверенных в бою правил и тестов для нового движка.

Симуляция идёт раньше кода и помогает его создавать. Мы можем понять и исследовать динамику игры и её сложные моменты ещё до того, как будет написана первая строчка кода для движка. Это значительно ускоряет разработку и приводит к созданию более качественных игровых систем.

Агенты с состоянием и долгосрочной памятью

Ключевая особенность «Реактора» в том, что агенты внутри него — не одноразовые боты. У них есть состояние. Поскольку система построена на процессах, которые могут длиться долго, каждый агент может сохранять память о своих действиях.

Агент может помнить, что происходило в предыдущих раундах, вспоминать стратегии из совершенно других игр и со временем изучать привычки других игроков. Эта способность «помнить» — наше главное отличие. Она превращает агентов из простых исполнителей в сущности, которые учатся и адаптируются к окружению. Это позволяет им вести себя гораздо сложнее и стратегичнее, чем в простой модели «запрос-ответ».

Что это даёт бизнесу

Такое изменение в архитектуре имеет большое значение для бизнеса:

Быстрое подключение: Мы сможем предлагать клиентам добавлять новые игры и даже сложные бизнес-процессы с минимальными усилиями со стороны программистов. Универсальный подход позволяет нам запускать ботов для новой игры сразу же, как только мы получим её схему, ещё до создания специального движка.
Чёткие инструкции: Мы можем предоставить клиентам или сторонним разработчикам понятный формат инструкций (Схему состояния игры), по которому они смогут создавать новые игровые движки, подключаемые к нашей системе. Наш подход «сначала симуляция» поможет нам и нашим партнёрам создавать эти инструкции быстрее и точнее.
Правила как услуга: Если у клиента есть сложная система (например, программа лояльности), и он не может чётко описать её правила, мы можем отнестись к его процессу как к «игре». Наш «Реактор» может симулировать этот процесс, помогая прояснить правила и автоматически создавая надёжные инструкции и тесты. Это решает большую проблему для бизнеса и само по себе становится ценной услугой.
Мгновенный старт: Наша система может запускать ботов для новой игры в тот же момент, как мы получаем её схему, не дожидаясь, пока будет написан специальный движок.

Перестраивая нашу систему на основе протокола, мы не просто улучшаем существующий продукт. Мы строим фундамент для будущей экосистемы автономных агентов, способных освоить любую игру, что открывает безграничные возможности для роста и инноваций.

Связь с нашей главной целью

Это не просто улучшение нашего игрового продукта; это объединение всех наших разработок под единой большой идеей. Эта работа — прямой и практический шаг к нашей цели по созданию децентрализованной сети для обмена идеями, как описано в Эдикте об Автономности.

Первый клиент и доказательство концепции Этот обновлённый движок станет первым клиентом для нашего протокола «Триады Идеи». Это важнейшее доказательство того, что наша абстрактная модель может приносить реальную пользу, гибкость и интеллект в настоящем коммерческом продукте.

Больше чем игры: универсальная модель взаимодействия Архитектура, которую мы создаём, не ограничивается играми. Она предлагает общую и мощную модель для того, чтобы ИИ-агенты могли реагировать на изменения в любой среде. Если присмотреться, всё можно рассматривать как пошаговую игру: разговор, финансовая операция, управление проектом.

«Реактор» — это первый из многих подобных «Преобразователей Идей». Тот же протокол будет поддерживать целую экосистему сервисов, которые можно будет комбинировать, включая:

Сервис «Поисковик», который обогащает Идею, находя и добавляя в неё связанные данные из базы данных.
Сервис «Статистика», который анализирует Идею и добавляет исторический или статистический контекст.
Сервис «Проверка», который сверяет Идею с набором правил и даёт обратную связь для исправлений.

Создавая систему, которая мастерски владеет этой моделью взаимодействия, мы создаём фундаментальную технологию — своего рода универсальный инструмент в большом наборе сервисов. Её можно будет применить к огромному множеству будущих продуктов и услуг, что делает этот проект краеугольным камнем будущего нашей компании.