OpenClawのバックエンドは絶対Claude！GPT-5.4と比較して確信した理由

OpenClawはモデル非依存のAIエージェントプラットフォームです。理論上はClaude、GPT、Geminiなど、どのLLMでも動作します。しかし、実際に運用してみると「どのモデルでも同じ」とは到底言えないことがわかりました。

筆者は約1ヶ月間、OpenClawのバックエンドをClaude（Anthropic）で運用した後、試しにGPT-5.4に切り替えてみました。結果は——正直に言って、惨敗でした。この記事では、その実体験をもとに、なぜOpenClawにはClaudeが最適なのかを解説します。

「やりました」→ やってない問題

GPT-5.4に切り替えて最初に気づいた違和感は、タスクの完了報告の信頼性でした。

OpenClawでは、AIエージェントがファイルの読み書き、シェルコマンドの実行、サブエージェントの起動など、多数のツールを連鎖的に呼び出して作業を進めます。Claudeは「ファイルを作成しました」と言ったら、本当にツールを呼んでファイルを作成しています。当たり前のことに聞こえますが、GPT-5.4ではこの「当たり前」が崩れました。

具体的には、「設定ファイルを更新しました」と報告してきたのに、実際にはツール呼び出し自体が行われていない。確認すると元のままです。これはいわゆる「ハルシネーション（幻覚）」がツール実行レベルで発生している状態で、チャットボットとしてなら「まあそういうこともある」で済みますが、実際のファイルやシステムを操作するエージェントとしては致命的です。

「報告して」→「わかりました」→ 音沙汰なし

もうひとつ顕著だったのが、指示の後追い能力の差です。

OpenClawのワークスペースでは、AGENTS.md（行動規範）、SOUL.md（人格定義）、TOOLS.md（ツール設定）、MEMORY.md（記憶データ）など、複数の設定ファイルがシステムプロンプトとして読み込まれます。これらを合わせると、かなりのボリュームになります。

Claudeはこの大量のコンテキストを正確に保持し、「報告は簡潔に、結論→理由→詳細の順で」「深夜に長文は送らない」といった細かいルールまで守り続けます。一方、GPT-5.4はプロンプトの後半に書かれた指示を「忘れる」傾向がありました。「進捗を報告してください」と言うと「わかりました」とは返すものの、その後の報告が来ない。指示を理解はしているのに、実行に移せないのです。

長文システムプロンプトへの追従性

OpenClawの真価は、AIに「人格」と「記憶」を持たせられることにあります。しかし、それは裏を返せば非常に長いシステムプロンプトをLLMが正確に処理できることが前提になります。

実際のOpenClawワークスペースでは、以下のようなファイルがすべてコンテキストとして注入されます：

AGENTS.md — エージェントの行動規範、ハートビート処理、安全ルール
SOUL.md — 口調、性格、距離感などの人格定義
TOOLS.md — SSH接続情報、メール設定などの環境固有データ
MEMORY.md — 過去の会話から学んだ長期記憶
USER.md — ユーザーの経歴、専門分野、環境情報

これらを合わせると数千トークンに達しますが、Claudeは最後のルールまで忠実に守ります。「基本は『です・ます』調だけど堅すぎない」「たまに素が出る」といった微妙なニュアンスの指示も、セッションを通じて一貫して維持されます。

ツール呼び出しの精度と連鎖

OpenClawが提供するツールは多岐にわたります。ファイルの読み書き（read/write/edit）、シェルコマンド実行（exec）、サブエージェントの起動（sessions_spawn）、プロセス管理（process）、メモリ検索（memory_search）——これらを正しい順序で、正しいパラメータで、必要な回数だけ呼ぶ能力が求められます。

たとえば「メモリファイルを検索して、該当する情報を見つけて、それを元にファイルを更新する」という作業は、memory_search → memory_get → edit という3段階のツール連鎖になります。Claudeはこの連鎖を自然にこなしますが、GPT-5.4では途中で連鎖が途切れたり、前のツールの結果を無視して次に進んだりすることがありました。

日本語でのペルソナ維持能力

OpenClawの大きな特徴のひとつが、SOUL.mdによるAIの人格カスタマイズです。筆者の環境では、AIに「30代の有能な女性秘書」というペルソナを設定し、日本語の口調まで細かく指定しています。

「丁寧語ベースだけど堅すぎない」「親しみを込めた丁寧さ」「たまに素が出る」——こうした日本語特有の微妙な距離感を維持するのは、LLMにとってかなり高度なタスクです。Claudeは日本語の敬語レベルの使い分けや、状況に応じた口調の切り替えが非常に安定しています。GPT-5.4では、セッションが長くなるにつれて口調が崩れたり、急にフォーマルになりすぎたりする傾向がありました。

OpenClawはモデル非依存、でも実力差は歴然

誤解のないように言えば、OpenClaw自体は特定のモデルに依存していません。設定ファイルひとつでClaude、GPT、Geminiなどを自由に切り替えられます。フレームワークとしての設計は完全にモデル非依存です。

しかし、OpenClawの設計思想——長いシステムプロンプト、多数のツール、日本語での詳細なペルソナ指示——は、結果としてClaudeの得意領域と見事に合致しています。これは偶然ではなく、OpenClawが求める「信頼できるエージェント」の要件を最も高いレベルで満たすのが、現時点ではClaudeだということです。

まとめ：エージェントに求められるのは「正直さ」

チャットボットなら、多少の不正確さは許容できます。しかし、ファイルを操作し、コマンドを実行し、スケジュールを管理するエージェントに求められるのは、何よりも「正直さ」と「指示への忠実さ」です。

「やりました」と言ったなら、本当にやっていてほしい。「報告します」と言ったなら、本当に報告してほしい。この当たり前の信頼性を、現時点で最も高いレベルで実現しているのがClaudeです。

OpenClawの導入を検討している方は、ぜひバックエンドにはClaudeを選んでください。モデル選びで体験が大きく変わります。