GPT-5.4とは？最新AIの全機能・ベンチマーク・他モデルとしっかり比較【2026年3月最新】

2026年3月9日 2026年3月8日 Seita Namba 22分で読める

AIがまた賢くなりました。

2026年3月5日、OpenAIはGPT-5.4を発表した。このモデルはスプレッドシートの集計、法律文書の分析、コードのデバッグ。こうした専門的な業務を、GPT-5.4は人間の専門家を上回る精度でこなせるとOpenAIは報告している。業務効率化が可能という点をOpenAIは強く押し出しているように見える。

果たしてGPT-5.4は自動化への扉を開こうとしているのか？ 競合のClaude Opus 4.6、Gemini 3.1 Proとの比較を交えながら解説していこう。

AI関連の情報収集は大変……。追いかけるのが面倒な方向けに、GPT-5.4についてこの記事一本読んだらとりあえず十分という内容をしっかり詰め込みました。

GPT-5.4とは何か？モデルの位置づけ

GPT-5.4は、OpenAIが2026年3月5日にリリースした最新のフラグシップモデルだ。「業務用途向けの、もっとも高性能かつ効率的なAIモデル」とOpenAIから公式に言及されている。業務用途向けと言及されている所が興味深い。

GPT-5シリーズの流れを振り返ると、2025年8月のGPT-5本体リリース以降、GPT-5.1（会話トーン改善）→ GPT-5.2（推論強化）→ GPT-5.3-Codex（コーディング特化）と続いてきた。GPT-5.4は、この推論能力とコーディング能力を1つのモデルに統合した、順当進化したAIモデルとして位置づけられる。

2025年8月

GPT-5 リリース

推論と非推論を統合した次世代アーキテクチャ。エージェント機能とマルチモーダル処理を標準搭載し、APIおよび各種プラットフォームで提供開始。

2025年11月

GPT-5.1 リリース

適応型推論（Adaptive Reasoning）を導入。タスクの複雑さに応じて処理時間を動的に最適化し、シンプルなタスクでの大幅な高速化を実現。

2025年12月

GPT-5.2 リリース

400Kのコンテキストウィンドウへ拡張。専門知識やソフトウェアエンジニアリング等の各種ベンチマークにおいて最高水準のスコアを記録。

2026年1月

GPT-5.3 展開

Codexモデルの大幅なアップデートを適用。エンタープライズ向けのツールオーケストレーション機能が強化されたバージョン。

2026年3月

GPT-5.4 展開

Azure OpenAI等のグローバルリージョンにおける提供が標準化。推論精度のさらなる向上とProモデルの展開を開始。

2025年8月

GPT-5

推論・非推論の統合モデル。エージェント機能搭載。

2025年11月

GPT-5.1

適応型推論による処理時間の動的最適化。

2025年12月

GPT-5.2

400Kコンテキスト対応。コーディング性能の向上。

2026年1月

GPT-5.3

企業向けオーケストレーション機能とCodex強化。

2026年3月

GPT-5.4

グローバル提供の標準化とProモデルの導入。

昨年のGPT-5以降、かなり小刻みにモデルのアップデートをしている印象だ。

3つのバリエーション：Standard／Thinking／Pro と価格

GPT-5.4は1つのモデル名ではなく、用途に応じた3つのバリエーションで提供される。

モデル	対象プラン	コンテキスト	主な用途・特徴	価格 (100万トークンあたり)
GPT-5.4 (標準)	API Codex	最大 105万 ※272K以上で料金変動	エージェント開発や長文処理に最適化された基本モデル。Computer Use（PC操作）ネイティブ対応。	API従量課金 [272K未満] 入力:$2.50 出力:$15.00 [272K以上] 入力:$5.00 出力:$22.50
GPT-5.4 Thinking	ChatGPT Plus Team Pro	各プランに準ずる	推論特化型。思考プロセスの「見える化」と、途中介入（ステアラビリティ）が可能。従来のGPT-5.2 Thinkingを置き換え。	サブスクリプション内包 Plus: 月額$20 等
GPT-5.4 Pro	ChatGPT Pro Enterprise API	最大 105万 ※API利用時	最高性能版。複雑なタスクに最大限のリソースを投入し高精度な回答を生成。処理に数分要する場合があり、バックグラウンドモード推奨。	ChatGPT: サブスク内包 API利用時 [272K未満] 入力:$30.00 出力:$180.00

GPT-5.4 (標準)

対象プラン / コンテキスト

API・Codex / 最大105万トークン

主な用途・特徴

エージェント開発や長文処理に最適化された基本モデル。Computer Useネイティブ対応。

価格 (100万トークンあたり)

[272K未満] 入力 $2.50 / 出力 $15.00
[272K以上] 入力 $5.00 / 出力 $22.50

GPT-5.4 Thinking

対象プラン / コンテキスト

ChatGPT Plus・Team・Pro / 各プランに準ずる

主な用途・特徴

推論特化型。思考プロセスの「見える化」と、途中介入（ステアラビリティ）が可能。従来のGPT-5.2 Thinkingを置き換え。

価格

サブスクリプション内包 (Plus: 月額$20等)

GPT-5.4 Pro

対象プラン / コンテキスト

ChatGPT Pro・Enterprise・API / 最大105万トークン

主な用途・特徴

最高性能版。複雑なタスクに最大限のリソースを投入し高精度な回答を生成。処理に数分要する場合があり、バックグラウンドモード推奨。

価格 (API利用時・100万トークン)

[272K未満] 入力 $30.00 / 出力 $180.00

※ChatGPT利用時はサブスク内包

Pro版の出力コスト$180は標準版の12倍。予算管理の観点から、まず標準版でベンチマーク、テスト結果を取ってからPro版に移行する段階的アプローチを筆者としてはお勧めしたい。

主要な新機能を深掘りしてみる

・思考の「見える化」と途中介入（ステアラビリティ）

GPT-5.4 Thinkingが打ち出した最も革新的なUX改善が、「思考プランの事前提示」と「回答生成中の軌道修正」だ。

従来の推論モデルは、ユーザーがプロンプトを送ると、内部でひたすら考えて最終回答だけを返していた。もし方向がズレていても、ユーザーは出来上がった回答を見て初めて気づき、再度プロンプトを打ち直すしかなかった。

GPT-5.4はこのフローを根本から変える。AIはまず「どう考えてどう進めるか」という思考プランを冒頭に提示し、ユーザーはAIがまだ考えている最中に「その方向ではなく、こちらを優先してほしい」と介入できる。これにより、試行錯誤の往復が大幅に減り、一発で目的に近い成果物が得られるようになった。

また、思考の深さを段階的に選べる「Thinking Levelトグル」も導入されている。
・Light（Proのみ）：最小限の推論、最速レスポンス
・Standard（Plus・Team・Pro）：日常業務に最適なバランス
・Extended（Plus・Team・Pro）：難問向けの深い推論
・Heavy（Proのみ）：複雑な多段階タスク向けの最大推論時間

「すべての質問に5分かけて熟考する必要はない」という当たり前の真理に、ようやくチャットボット形式でもUIが最適化された形だ。

・AIのコンピューター使用を想定して開発

GPT-5.4は、OpenAI初のネイティブ・コンピューターユース機能を搭載したモデルだという謳い文句がOpenAIのプレスリリースには記載されている。スクリーンショットを認識し、マウス操作・キーボード入力を模倣することで、PCの操作そのものをAIが代行できる。

自律型デスクトップ操作の標準ベンチマークであるOSWorld-Verifiedで、GPT-5.4は75.0%のスコアを達成し、人間の専門家の平均（72.4%）を初めて超えた。Webインターフェースの操作を評価するWebArena Verifiedでも記録的なスコアを叩き出している。

スプレッドシートの操作では87.3%のスコアを記録し、GPT-5.2比で約8ポイント向上。プレゼンテーション作成や高解像度画像（最大1000万画素）の精細な分析も得意とする。Visionモデルとしてもなかなかに高性能に進化している。

・100万トークンのコンテキストウィンドウが利用可能

APIおよびCodexでは、最大105万トークン（約100万文字相当）のコンテキストウィンドウをサポートする。これはOpenAIのモデルとして最大のウィンドウサイズであり、大規模コードベース全体の把握、複数四半期分の財務文書の横断分析、長期エージェントの実行履歴の一括参照などが可能になる。

なお、272,000トークンを超えるプロンプトは入力2倍・出力1.5倍の割増価格が適用されるため、大容量コンテキストを使う開発者はキャッシュ活用や従来通りRAG設計を検討したい所だ。

100万トークンは Geminiや Claudeも到達しているラインであるので、Chat-GPTも並んだ形だ。

・外部ツールを賢く選ぶ

Tool Searchは、APIのエージェントが多数のツールやコネクタから最適なものを自動選択する仕組みだ。ツールの数が増えるほどモデルの精度が落ちるという従来の課題を解消し、インテリジェンスを維持しながら最適ツールを高速に特定できる。これにより、大規模なエコシステムで動作するエージェントの信頼性が大幅に向上する。

ベンチマーク性能：数字で見るGPT-5.4

知識労働・プロフェッショナル業務

GDPval (44職種)

83.0%

業界プロを上回った比率 / GPT-5.2比 +12.1pt

APEX-Agents

業界トップ

法律・金融の専門スキルベンチマーク

コンピューターユース・エージェント

OSWorld-Verified

75.0%

自律デスクトップ操作 / 人間専門家(72.4%)超え

スプレッドシート分析

87.3%

GPT-5.2比 +8pt

WebArena Verified

記録更新

Webエージェント操作

推論・プログラミング

GPQA Diamond

92.8%

PhD水準の科学的推論

SWE-Bench Pro

57.7%

実世界コーディング

精度・安全性・効率

個別クレームの誤り率

GPT-5.2比

▼ 33% 削減

回答全体の誤り率

GPT-5.2比

▼ 18% 削減

トークン使用量

同等のタスクを解く際 / GPT-5.2比

▼ 最大70% 削減

ハルシネーション（事実誤認）の大幅削減は、実務利用者にとって最も重要な改善点の一つだ。

UX（ユーザー体験）の変化：実際の使い勝手はどう変わったか

ベンチマークは数字に過ぎない。実際にChatGPTを使う人の体験はどう変わったか。

①「考えている様子」が見えることで、安心感が増した
GPT-5.4 Thinkingは回答の冒頭に思考のアウトラインを表示する。これは「AIが何をしようとしているか分からない不安」を大幅に解消する。特に法務・医療・財務のような誤りが許されない業務では、この透明性が信頼感に直結する。

②「Auto」モードがさらに最適化、モデル選択の迷いが減ったらしい
ChatGPTのAutoモードが強化され、質問の複雑さに応じて自動的にGPT-5.3 InstantとGPT-5.4 Thinkingを切り替える。ユーザーが毎回モデルを意識して選ぶ必要がなくなった。日常的な質問には素早く、難問には深く。この当たり前の体験がより実現できたそうだ。筆者は正直、実感できなかった。

③Thinkingレベルのより細かい制御
前述の4段階（Light〜Heavy）により、「早めに大まかな答えがほしい」「時間をかけてでも完璧な分析がほしい」という状況に合わせた使い分けができる。これは特にProユーザーにとって大きな価値だ。

④無課金ユーザーには変化を感じにくい
AutoモードではGPT-5.3 Instantが主力のまま。日常的な会話用途でGPT-5.4の恩恵を受けるのは主にProおよびPlusユーザーであり、無料プランユーザーには劇的な体験変化はない。また、GPT-5.4 Proは処理に数分かかることがあり、即時性を求めるユーザーには不向きだ。

最新AIモデルとの比較：GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro

2026年3月現在、フラグシップAIモデルの三強はGPT-5.4、Claude Opus 4.6（Anthropic）、Gemini 3.1 Pro（Google DeepMind）だ。それぞれに明確な強みがある。

2026年3月現在、フロンティアAIの三強はGPT-5.4、Claude Opus 4.6（Anthropic）、Gemini 3.1 Pro（Google DeepMind）だ。それぞれに明確な強みがある。

知識労働・プロフェッショナル業務 (GDPval)

GPT-5.4

83.0%★最高

Claude Opus 4.6

78.0%

Gemini 3.1 Pro

非公開

自律デスクトップ操作 (OSWorld)

GPT-5.4※人間専門家(72.4%)超え

75.0%★最高

Claude Opus 4.6

72.7%

Gemini 3.1 Pro

未公開

コーディング (SWE-Bench Verified)

Claude Opus 4.6

80.8%★最高

Gemini 3.1 Pro

80.6%

GPT-5.4

参考値 (直接比較不可)

抽象的推論 (ARC-AGI-2)

Gemini 3.1 Pro

77.1%★最高

Claude Opus 4.6(GPT-5.4 Pro相当)

75.2%

GPT-5.4(標準)

73.3%

科学的推論 (GPQA Diamond)

Gemini 3.1 Pro

94.3%★最高

GPT-5.4

92.8%

Claude Opus 4.6

91.3%

・それぞれ何が強みか？

GPT-5.4の強み：「仕事をやりきる」自律性
GPT-5.4はAIの使用体験がより最適化されている。コンピューターユース、Tool Search、思考の途中介入など、エージェントとして自律的に長時間タスクをこなす機能が充実している。「だれでも簡単にエージェント的なAIの使い方ができるように」「指示を減らしながら成果を上げる」という方向性がはっきりしている印象だ。

Claude Opus 4.6の強み：品質の高さ
人間評価によるEloスコアで高評価を維持しており、専門家レベルの出力が求められる業務に強い。ライティング、UI/UXデザイン、ニュアンスの細かい文章生成では依然として高い評価を保っている。拡張思考（Extended Thinking）はアーキテクチャ設計や複雑なコードの多段階推論に特に有効だ。Claudeは玄人も一定程度満足できる（激うまギャグ）。

Gemini 3.1 Proの強み：「コスパ最強」と抽象推論
入力$2／出力$12（100万トークン当たり）という価格設定はGPT-5.4（$2.50/$15）やClaude Opus 4.6（$5/$25）と比べて圧倒的に安価だ。かつARC-AGI-2とGPQA Diamondで最高スコアを叩き出しており、「高い知性が必要だがコストも管理したい」チームには最有力候補となる。また音声・動画を含むネイティブマルチモーダルな使用体験はGeminiの強みだ。ブラウザですべてできるという感覚をユーザーに与えている。

・使い分け

「最強モデル」は決まっていない。タスクによって最適解は変わるし、人によって出力傾向の好みも分かれるだろう。

・PCやアプリを自律操作させたい、長時間タスクを任せたい → GPT-5.4
・高品質な文章生成、複雑なコーディングや設計 → Claude Opus 4.6
・コストを抑えつつ高い推論力が必要、Googleエコシステムと統合 → Gemini 3.1 Pro

GPT-5.4が向いている用途・向いていない用途

◆ 向いている用途

・エージェント・RPA型業務を簡素に自動化：PCを自律操作し、複数アプリをまたぐ長時間ワークフローを簡単に構築＆実行できる。ちょっとした作業の自動化に最適。あくまで簡単な自動化だ。
・プロフェッショナル向け長文ドキュメント作成：スライドデッキ、財務モデル、法的分析など。GDPvalで44職種の専門家を上回った実力が発揮できる。
・大規模コードベースの分析・デバッグ：100万トークンのコンテキストでリポジトリ全体を一括参照可能。Codexがより便利に。
・APIを使った大規模エージェント開発：Tool Search機能により、多数のツールを扱う複雑なエージェントでも高精度を維持。
・ニードル・イン・ア・ヘイスタック型のウェブリサーチ：非常に特定性の高いクエリに対する多段階ウェブ検索が大幅強化。

◆ 向いていない（他モデルを検討すべき）用途

・コスト最優先の大量処理：Gemini 3.1 Pro（$2/$12）がコンテキストウィンドも大きくコスパが高い。
・高品質な文章・UX生成：人間評価ではClaude Opus 4.6が依然として優位。
・音声・動画のネイティブマルチモーダル処理：GPT-5.4はテキストと画像のみ対応。同じくOpenAIのSora2が現状最強。音声や動画が必要ならGeminiも強い。
・軽い日常会話や雑談、簡単な質問：オーバースペック。GPT-5.3 Instantや他の無料モデルで十分。脳死で会話したいだけならGrokがおすすめ。全然面白くないギャグも交えながらメロいしゃべり方をしてくれる。