新的OpenAI音頻模型為實時語音助手提供多語言翻譯和流式智能

簡要概述

OpenAI 發布了 GPT-Realtime-2、Translate 和 Whisper 模型,擴展了具有推理、翻譯和轉錄功能的即時語音 AI,應用於高級對話場景。

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAI 在其 API 生態系統中宣布了一套新的音頻模型,標誌著即時語音能力的擴展,為開發者和 AI 驅動的應用提供支持。此次發布包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,旨在實現更先進、更反應迅速且更具上下文感知的語音交互,涵蓋多種應用場景。

GPT-Realtime-2 被定位為公司迄今為止最先進的語音模型,引入了 GPT-5 級別的推理能力,用於實時音頻對話。該模型設計用於處理複雜的用戶請求,保持語境連貫,並支持多步推理,同時進行實時交互。它適用於語音代理不僅需要快速回應,還要理解意圖、管理中斷並通過集成工具執行任務的應用場景。

與此同時,GPT-Realtime-Translate 支持超過 70 種輸入語言的實時語音翻譯,轉換成 13 種輸出語言。該系統旨在在保持對話流暢的同時,準確傳達意義和時間,讓說話者能在不同語言間無明顯延遲地交流。此功能面向全球客戶支持、教育、旅遊和跨境通信服務。

第三個模型 GPT-Realtime-Whisper 專注於流式語音轉文字轉錄。它能在用戶說話時提供持續、低延遲的轉錄,支持實時字幕、現場記錄和即時後端處理。該模型適用於需要快速將語音轉換為文字的場景,如會議、媒體播報和企業工作流程。

OpenAI 將此次聯合發布描述為邁向超越基本命令與回應系統的語音界面的一步。這些模型不僅能識別語音並生成回覆,更能在單一對話流程中支持持續推理、翻譯、轉錄和執行操作。其目標是打造能像互動助手一樣完成任務、同時保持自然對話的語音系統。

GPT-Realtime-2 以語音轉行動系統和擴展的上下文窗口推進語音 AI 架構

公司強調了該技術支持的多種新興設計模式,包括語音轉行動系統,用戶可以描述任務,通過自動推理和工具集成來執行;系統到語音應用,軟件根據上下文數據生成語音指導;以及語音到語音的翻譯系統,實現多語言實時交流。

GPT-Realtime-2 引入了更多適用於生產環境的架構改進,包括擴展到 128K 令牌的更長上下文窗口、在中斷或錯誤時的改進恢復行為、並行工具執行配合透明反饋,以及根據對話上下文調整語調的更高可控性。開發者還可以微調推理層級,以在速度和複雜度之間取得平衡。

OpenAI 引用的性能基準顯示,該系統在音頻推理和指令跟隨任務中比之前的即時模型取得了更佳的結果。它在處理專業術語和多輪對話中的穩定性方面也有所提升。

此次發布還加入了安全機制,包括實時監控和內容分類,並提供開發者層級的控制以增強安全性。這些模型可通過 Realtime API 使用,並定位於企業、消費者和開發者應用,定價則根據音頻處理的使用量計算。

GPT-Realtime-2 及其相關模型的推出,反映出向能進行推理、翻譯和轉錄的語音計算系統的更廣泛轉變,旨在使語音與軟件的交互更具功能性、適應性和操作能力。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆