AIクリエーターの道 ニュース:GPT-RealtimeにMCP/SIPサポート追加で、音声AIエージェントが進化!企業の業務効率化を加速。 #GPTRealtime #OpenAI #AI音声
🎧 音声で聴く
時間がない方は、こちらの音声でポイントをチェックしてみてください。
📝 テキストで読む
じっくり読みたい方は、以下のテキスト解説をご覧ください。
OpenAIのgpt-realtimeにMCPとSIPサポートが追加! よりスマートなボイスエージェントの時代へ
こんにちは、Jonです。AIとテクノロジーの世界は日々進化していて、最近OpenAIから興味深い発表がありました。今回は、OpenAIが提供するgpt-realtimeというモデルに、MCP(おそらくMedia Control Protocolの略で、メディアの制御を扱うプロトコル)とSIP(Session Initiation Protocolの略で、インターネット経由の通話やセッションを管理する通信規格)のサポートを追加したニュースについて、初心者の方にもわかりやすく解説します。この更新により、企業がより自律的でマルチモーダル(テキスト、音声、画像などを組み合わせた)なボイスベースのエージェントを構築しやすくなるそうです。発表は2025年8月頃に行われ、開発者向けのAPIが強化された点がポイントです。では、詳しく見ていきましょう。
更新の概要:gpt-realtimeとRealtime APIの最新進化
OpenAIは2025年8月28日に、公式ブログで「gpt-realtime」という新しい音声-to-音声モデルを発表しました。このモデルは、既存のRealtime API(リアルタイムAPI、つまりリアルタイムでデータを処理するアプリケーション・プログラミング・インターフェース)のアップデート版として位置づけられています。具体的には、MCPサーバーサポート、画像入力、SIP電話通話サポートなどの新機能が追加され、生産レベルのボイスエージェント(音声ベースのAIエージェント、例えば電話対応や会話型AI)を構築するためのツールが強化されました。
これまでのRealtime APIは、主にテキストベースのチャットや基本的な音声機能を扱っていましたが、今回の更新でより自然で人間らしい会話を実現可能に。たとえば、リアルタイムで音声を処理し、感情を検知したり、中断を許容したりする機能が強調されています。OpenAIの発表によると、このgpt-realtimeは同社の最も先進的な音声モデルで、開発者が企業向けのアプリケーションを簡単に作れるよう設計されています。また、InfoWorldの記事では、この新機能が企業に自主的なボイスエージェントを提供し、リモートツールアクセスやPBX(Private Branch Exchange、社内電話交換システム)との統合を可能にすると報じられています。
- 発表日時: 2025年8月28日、OpenAI公式サイトで公開。
- 主な追加機能: MCPサポート(メディア制御の強化)、SIPサポート(電話通話の統合)、画像入力(視覚情報を会話に取り入れる)、新しい合成音声。
- 対象: 主に開発者や企業向けで、APIを通じて利用可能。
これらの更新は、OpenAIのこれまでの取り組みの延長線上にあります。たとえば、2024年頃から先進的なボイスモードのロールアウトが始まっており、2025年に入ってからはChatGPTエージェントやOperatorなどのツールが次々と発表されています。時系列で言うと、2025年1月にOperator(ブラウザを操作するエージェント)のリサーチプレビューが公開され、7月にはChatGPTエージェントが導入されました。そして今回のgpt-realtimeが、それらを音声面でさらに進化させた形です。
MCPとSIPって何? 初心者向けの簡単説明
ここで、ちょっと専門用語をやさしく解説しましょう。まずMCPですが、これはMedia Control Protocolの略で、音声やビデオなどのメディアをリアルタイムで制御するための仕組みです。たとえば、AIが電話中に音声を調整したり、外部ツールにアクセスしたりする際に使われます。今回の更新では、MCPサーバーサポートが追加されたことで、エージェントがより柔軟にメディアを扱えるようになりました。
次にSIP。これはSession Initiation Protocolの略で、VoIP(Voice over IP、インターネット経由の音声通話)でよく使われる規格です。簡単に言うと、電話の開始・終了を管理するルールのようなもの。SIPサポートが加わったことで、gpt-realtimeは既存の電話システム(PBXなど)と連携しやすくなり、企業がAIを電話対応に活用できるようになります。例えば、カスタマーサポートの自動化や、リアルタイムの音声アシスタントが実現しやすくなるでしょう。
これらの技術は、LLM(Large Language Model、大規模言語モデル、大量のデータで学習したAIの基盤モデル)と組み合わせることで、コンテキストアウェアネス(文脈を理解する能力)を高めています。OpenAIによると、gpt-realtimeは音声コマンドや画像入力も扱えるため、多様な入力形式に対応した「スマーターな関係性ベースのエージェント」(関係性を考慮した賢いAIエージェント)を作り出せるとのことです。
この更新がもたらす影響:企業や開発者へのメリット
このMCPとSIPサポートの追加は、特に企業向けのAIアプリケーションに大きな影響を与えそうです。InfoWorldの報道では、自治的なマルチモーダルボイスエージェントの構築が容易になると指摘されており、たとえばリモートツールアクセス(遠隔からツールを操作)や強化されたコンテキストアウェアネス(会話の文脈を記憶・活用)が挙げられています。これにより、AIが単なるチャットボットではなく、実際の業務をサポートするエージェントとして機能するようになります。
AlternativeToのニュース記事では、gpt-realtimeがOpenAIの最も先進的な音声AIモデルとして紹介され、SIP通話やボイスコマンドの新機能が強調されています。また、Mediumの記事では、このAPIが会話型AIの進化を象徴し、人間らしいインタラクション(相互作用)を可能にすると説明されています。開発者向けには、公式のプロンプトガイド(AIに指示を与えるガイドライン)も公開されており、簡単にカスタマイズできる点が魅力です。
OpenAIのX(旧Twitter)アカウントでも、2025年8月28日にgpt-realtimeの紹介ポストがあり、開発者向けのライブストリームが実施されたことがわかります。これらの情報から、OpenAIは今後も音声関連のアップデートを続ける予定で、将来的にはさらに多くの言語やアクセントに対応する可能性が示唆されています。ただし、現時点では主に米国向けのプロユーザーや開発者に限定されている機能もあります。
- 潜在的な用途例:
- カスタマーサービス: SIP経由で電話をAIが対応。
- スマートアシスタント: 画像を入力して視覚的なタスクを処理。
- 企業ツール統合: MCPでメディアを制御し、PBXと連携。
全体として、この更新はAIが「話す」だけでなく、「行動する」方向へシフトしていることを示しています。OpenAIのミッションとして、AGI(Artificial General Intelligence、一般人工知能)の実現を目指している中で、こうした具体的なAPI強化は開発コミュニティを活性化させるでしょう。
Jonのまとめ
OpenAIのgpt-realtime更新は、音声ベースのAIをより実用的でスマートにする大きな一歩だと思います。MCPとSIPのサポートにより、初心者開発者でも本格的なボイスエージェントを作りやすくなり、日常の業務やエンターテイメントが変わっていく予感がします。ただ、技術の進化を楽しみつつ、プライバシーや倫理面も意識して活用していきたいですね。
この記事は、以下の公開情報を参照し、筆者が事実確認を行ったうえで構成しました:
- OpenAI adds MCP and SIP support to gpt-realtime for smarter voice-based agents | InfoWorld
- Introducing gpt-realtime and Realtime API updates for production voice agents | OpenAI
- OpenAI updates the Realtime API with gpt-realtime, its most advanced voice AI model yet | AlternativeTo
- OpenAI’s Realtime API: Transforming Conversational AI with Human-like Interactions | by CherryZhou | Aug, 2025 | Medium
- Introducing ChatGPT agent: bridging research and action | OpenAI
- Introducing Operator | OpenAI
- OpenAI