OpenAIはChatGPTをハイパワー化するGPT-4o 'omni'モデルを初披露

月曜日、OpenAIは新しいフラッグシップの生成AIモデルGPT-4oを発表しました—“o”は“omni”の略で、テキスト、音声、ビデオの取り扱い能力を指します。GPT-4oは、今後数週間にわたって会社の開発者向け製品や消費者向け製品に“iteratively”展開される予定です。

OpenAIのCTOであるミラ・ムラティは、GPT-4oは“GPT-4レベル”の知能を提供しているが、複数のモダリティやメディアにおけるGPT-4の機能を向上させていると述べました。

ムラティは月曜日にサンフランシスコのOpenAIオフィスでストリーミングされたプレゼンテーション中に、「GPT-4oは音声、テキスト、ビジョンにまたがる推論を行います。」と述べました。「これは非常に重要です、なぜなら我々は自分たちと機械の間のやり取りの未来を考えているからです。」

OpenAIの以前の“最も先進的”と称されたモデルであるGPT-4 Turboは、画像とテキストの組み合わせで訓練され、画像とテキストを分析して画像からテキストを抽出したり、その画像のコンテンツを説明するなどのタスクを達成できました。しかし、GPT-4oは音声を加えました。

これによって何が可能になるのでしょうか。様々なことができます。

画像提供:OpenAI

GPT-4oは、OpenAIのAIパワードチャットボットChatGPTでの体験を大幅に向上させます。このプラットフォームは長らくテキストto音声モデルを用いてチャットボットの応答を書き起こす音声モードを提供してきましたが、GPT-4oはこれを強化し、ユーザーがChatGPTとよりアシスタントのようにやり取りできるようにしています。

例えば、ユーザーはGPT-4oでパワーアップしたChatGPTに質問をしたり、ChatGPTが回答中に遮ることができます。OpenAIによると、このモデルは“リアルタイムで”対応し、ユーザーの声のニュアンスも捉え、様々な感情のスタイルで声を生成します(歌い声も含む)。

GPT-4oはChatGPTのビジョン機能も強化しています。写真やデスクトップ画面を与えられた場合、ChatGPTは、「このソフトウェアコードで何が起こっているのか?」から「この人が着ているシャツのブランドは何ですか?」まで様々な関連質問に迅速に答えることができます。

ChatGPTのコーディングタスクでのデスクトップアプリ使用イメージ。
画像提供:OpenAI

これらの機能は今後さらに発展する予定だとムラティは述べています。今日のGPT-4oは、例えば異なる言語のメニューの写真を見て翻訳することができますが、将来的には、モデルが生中継のスポーツゲームを“観戦”してルールを説明することが可能になるかもしれません。

「これらのモデルはますます複雑になっていることを知っていますが、私たちは対話の体験が実際により自然で容易になり、UIに一切集中する必要がなく、ChatGPTとの連携にだけ集中できるようにしたいのです。」とムラティは述べました。「過去数年間、私たちはこれらのモデルの知能を向上させることに重点を置いてきました…。しかし、これは本当に使用しやすさに関して大きな前進を遂げた初めての時です。」

オープンAIによると、GPT-4oは50言語程度で性能が向上し、オープンAIのAPIとマイクロソフトのAzure OpenAIサービスでは、GPT-4 Turboよりも2倍高速で、半分の価格で、レート制限も高いとしています。

現在、音声はGPT-4o APIの全ての顧客には含まれていません。OpenAIは、誤用のリスクを理由に、一部の信頼されたパートナーに対して新しいオーディオ機能をサポートするGPT-4oのサポートを近々提供する予定だと述べています。

GPT-4oは今日からChatGPTの無料版で利用可能であり、OpenAIのプレミアムChatGPT PlusおよびTeamプランの加入者には「5倍高い」メッセージ制限があります(OpenAIはユーザーがレート制限に達した場合、古いかつ能力の低いモデルであるGPT-3.5に自動的に切り替えることを明記しています)。GPT-4oに支えられた改善されたChatGPTの音声体験は、プラスユーザには次の1か月でα版が提供され、エンタープライズ向けのオプションと同時に提供されます。

関連ニュースでは、OpenAIは、Web上でのChatGPT UIを新しくし、新しい“会話形式”のホーム画面やメッセージレイアウトを備えると発表し、macOS向けのChatGPTのデスクトップ版をリリースし、ユーザーがキーボードショートカットを使用して質問したり、スクリーンショットを撮影して話し合ったりできるようにしました。ChatGPT Plusユーザは今日からアプリにアクセスできるようになり、年内にWindows版も提供されます。

他にも、OpenAIのAIモデルを活用したサードパーティのチャットボットのためのライブラリであるGPTストアは、ChatGPTの無料版のユーザにも利用可能です。そして、無料版のユーザは、以前は課金されていたChatGPTの機能を活用できます。例えば、ChatGPTは今後のやり取りのための“記憶”機能、ファイルや写真のアップロード、及び時事問題に対する回答を検索する機能などが利用できます。

AIニュースレターを開始します!こちらから登録して、6月5日からメールで受信できるようになります。