OpenAIやChatGPTの最新情報をまとめました。Web SearchやAgent SDKなど気になる機能やツールが新しく公開されていて、これらを活用することでGPTを使ってできることの幅が広がりそうです。
2025年4月
o3, o4-miniが登場
OpenAIは2025年4月16日、最新のAIモデル「o3」と「o4-mini」を発表しました。これらは、複雑な推論や視覚的な理解を必要とするタスクに対応するために設計された、同社の最先端の「Reasoning Language Models(RLMs)」です。特に、画像を含むマルチモーダルな入力を処理し、独自の「思考プロセス」を通じて高度な分析を行う能力が注目されています。
o3:OpenAI史上最も高度な推論モデル
o3は、OpenAIがこれまでに開発した中で最も高度な推論能力を持つモデルです。このモデルは、複雑な数学的問題や科学的な質問、プログラミング課題などに対して、段階的な思考を重ねて解答を導き出します。具体的には、GPQA Diamond(博士レベルの科学問題)で87.7%、SWE-bench Verified(GitHubの実際の課題解決能力を測るベンチマーク)で71.7%という高いスコアを記録しています。
また、o3は画像を含む入力を処理し、視覚的な情報を分析する能力も備えています。これにより、図やグラフ、ホワイトボードのスケッチなどを理解し、関連する情報を統合して解答を生成することが可能です。さらに、Web検索、Pythonスクリプトの実行、画像生成、ファイル解析など、ChatGPTの各種ツールを自律的に活用することができます。
o4-mini:高速かつ効率的な次世代モデル
o4-miniは、o3の高度な推論能力を維持しつつ、速度とコスト効率を重視した軽量モデルです。特に、数学的計算、コーディング、視覚的なタスクにおいて優れた性能を発揮します。このモデルも画像を含む入力を処理でき、ホワイトボードのスケッチや図表などを分析することが可能です。
o4-miniは、ChatGPTの無料ユーザーを含むすべてのユーザーに提供されており、API経由でも利用可能です。また、より高度な機能と高速な処理を提供する「o4-mini-high」バージョンは、有料プランのユーザー向けに提供されています。
GPT-4.1が登場
OpenAIは2025年4月16日、新たな推論モデルGPT-4.1を発表しました。これに合わせて、GPT-4.5の提供を終了することも発表しています。
GPT-4.1は、従来のGPT-4をさらに改良しコード生成や長文処理におけるパフォーマンスを大幅に向上させたモデルとして注目を集めています。
最大100万トークンという非常に長いコンテキストを保持できるため、会話の文脈を深く理解し、論理的なつながりを維持したまま自然な応答を生成できるのが特徴です。
2025年3月
Agent SDKが登場
これまでSwarmという名称で実験的に提供されていましたが、Agent SDKという名称で正式にリリースされました。
Agent SDKを一言で表現すると複数のAIエージェントを連携させて、複雑なタスクを自動化するための強力なフレームワークです。フレームワークを使ってワークフローを構築し、複雑な処理でも比較的簡単に構築することができるようになり、AIエージェント構築を
現在はPythonで動作するものが提供されていますが、近日中にJavaScript版が公開される予定とのこと。
→ https://platform.openai.com/docs/guides/agents-sdk
Responses APIの提供
Responses APIとは、AIのモデルからツールを呼び出してエージェントを構築するためのAPIです。
特に注目なのがWeb Searchというツールで、APIでプロンプトを投げるとWeb上の情報を検索した上でレスポンスを返してくれるようになりました。
Web Searchを利用したい場合は、モデルに下記のいずれかを選択する必要するだけでOKです。
- gpt-4o-search-preview
- gpt-4p-mini-search-preview
実際に使ってみた様子や料金などは下記のページにまとめました