Anthropic、Claude Managed Agentsに「Dreaming」機能を追加、過去セッションから自動学習する非同期メモリ生成

AI エージェントの継続学習が「人間が再訓練する」から「エージェントが過去を内省して自己改善する」モデルへ移行する

Anthropic、Claude Managed Agents に「Dreaming」機能を追加

何が変わったか

これまで AI エージェントは、過去のセッションから学んだ知見を次セッションに自動的に持ち越す仕組みが弱く、繰り返し同じ間違いをしたり、過去の成功パターンを活かせなかったりしていた。

Anthropic は 2026 年 4 月にローンチした Claude Managed Agents プラットフォームに 3 つの新機能を追加した。目玉は「Dreaming」と呼ばれる非同期ジョブで、過去最大 100 セッションを読み込み、重複や陳腐化したエントリを整理し、再構築されたメモリストアを生成する仕組み。元のメモリは無傷で残る。Outcomes (成果物の自動評価) と Multiagent Orchestration (専門エージェントの並列協調) はリサーチプレビューからパブリックベータへ移行した。

Multiagent Orchestration の構成図 — Orchestrator がデータを準備し、3 つの専門サブエージェントへ並列で分析タスクを委譲する。

社会にどんな影響があるか

主たる影響として、エージェント開発のメンタルモデルが「プロンプト・ツール・モデルを設計する」から「エージェントの記憶と内省を設計する」へと拡張する。Dreaming は人間の睡眠中の記憶整理を模した名称が示すように、エージェントが「失敗を反芻し、教訓を構造化する」ループを自動化する。Outcomes は別 LLM を独立評価者 (grader) として走らせ、最大 20 回まで自動再試行させる仕組みで、既存の RLAIF (AI フィードバックによる強化学習) を実運用に持ち込んだ形でもある。

副作用として、エージェントの記憶が自動的に組み換わる仕組みは「監査可能性」とトレードオフになる。元のメモリは保持されるとはいえ、本番運用で「なぜこの判断をしたか」を遡及するには、Dreaming ジョブの差分まで追跡する必要が出てくる。

俺にどんな影響があるか

PRES が構想する「企業の課題と研究室の技術をマッチングするエージェント」のアーキテクチャに直接効く。マッチング結果を 1 件ずつ手動で振り返るのではなく、過去 100 件のマッチング履歴を Dreaming に通すことで「何が成約に効いたか」「どこで失敗したか」を構造化された知見として再注入できる。Multiagent Orchestration の「専門エージェントを 20 種類まで使える」上限は、研究領域別に専門化したエージェントを並列で動かす設計を現実的にする。

ニュースの詳細

Dreaming はリサーチプレビューとして提供される非同期ジョブ。ユーザーは Claude Console でメモリストアとモデルを選択し、対象セッションを指定して開始する。最大 100 セッションを読み込み、重複・陳腐化エントリを除去し、整理された新メモリを生成する。元メモリは無傷で残る設計のため、ロールバックも可能。Claude Opus 4.7 と Claude Sonnet 4.6 が現時点でサポートされ、課金は標準 API トークン料金。

Outcomes は開発者がルーブリック (例: 「CSV ファイルに数値型の price 列が含まれること」) を定義すると、エージェントの出力をその基準に対し独立した評価者 (grader) が別コンテキストで照合する。基準を満たさない場合、grader がギャップを特定し、エージェントが再試行する。デフォルト 3 回、最大 20 回まで。

Multiagent Orchestration は lead agent (coordinator) が複数の専門エージェントを束ねる構造。各エージェントは独立スレッドで分離コンテキスト、独自モデル・システムプロンプト・専用ツールを持ちつつ、同じファイルシステムを共有する。最大 20 種類のエージェント、最大 25 スレッドの同時実行をサポート。

キーワード解説

Anthropic Managed Agents とは、2026 年 4 月に Anthropic が公開した、自律型 AI エージェントのインフラ運用を Anthropic 側が肩代わりするマネージドサービス。開発者はエージェントロジックの記述に集中でき、メモリ管理・ツール統合・スケーリング・監視は Anthropic が提供する。

RLAIF (Reinforcement Learning from AI Feedback, AIフィードバックによる強化学習) とは、人間ではなく別の AI モデルが応答を評価して報酬信号を生成する強化学習手法。Anthropic の Constitutional AI で広く知られており、本記事の Outcomes 機能はこの考え方を実運用に持ち込んだ形。

マルチエージェントオーケストレーション とは、複数の AI エージェントを協調動作させるアーキテクチャ。LangGraph・CrewAI・AutoGen 等のフレームワークが先行しており、Anthropic はこれを Managed Agents プラットフォームの公式機能として提供することで、企業導入の敷居を下げる狙いがある。

source: The Decoder , Claude blog (Anthropic公式) , Anthropic Managed Agents ドキュメント