📢 Gate 廣場 TradFi 交易分享挑戰上線!
晒单瓜分 $30,000 獎池,新人首帖 100% 中獎!
📌 參與方式:
帶 #TradFi交易分享挑战 發帖,滿足以下任一即可:
🔹 帶今日指定 TradFi 幣種標籤發帖交流。
🔹 完成單筆大於 $10U 的 TradFi CFD 交易並掛載交易卡片。
🏷️ 今日指定標籤:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 寵粉福利:
1️⃣ 卡片分享獎: 抽 50 人,每人送 $100 仓位體驗券!
2️⃣ 發帖榜單獎: 衝排行榜,贏 WCTC 限定 T 恤!
3️⃣ 新粉見面禮: 新人首次發帖,100% 領 $10 體驗券!
詳情:https://www.gate.com/announcements/article/51221
新的OpenAI音頻模型為實時語音助手提供多語言翻譯和流式智能
簡要概述
OpenAI 發布了 GPT-Realtime-2、Translate 和 Whisper 模型,擴展了具有推理、翻譯和轉錄功能的即時語音 AI,應用於高級對話場景。
GPT-Realtime-2 被定位為公司迄今為止最先進的語音模型,引入了 GPT-5 級別的推理能力,用於實時音頻對話。該模型設計用於處理複雜的用戶請求,保持語境連貫,並支持多步推理,同時進行實時交互。它適用於語音代理不僅需要快速回應,還要理解意圖、管理中斷並通過集成工具執行任務的應用場景。
與此同時,GPT-Realtime-Translate 支持超過 70 種輸入語言的實時語音翻譯,轉換成 13 種輸出語言。該系統旨在在保持對話流暢的同時,準確傳達意義和時間,讓說話者能在不同語言間無明顯延遲地交流。此功能面向全球客戶支持、教育、旅遊和跨境通信服務。
第三個模型 GPT-Realtime-Whisper 專注於流式語音轉文字轉錄。它能在用戶說話時提供持續、低延遲的轉錄,支持實時字幕、現場記錄和即時後端處理。該模型適用於需要快速將語音轉換為文字的場景,如會議、媒體播報和企業工作流程。
OpenAI 將此次聯合發布描述為邁向超越基本命令與回應系統的語音界面的一步。這些模型不僅能識別語音並生成回覆,更能在單一對話流程中支持持續推理、翻譯、轉錄和執行操作。其目標是打造能像互動助手一樣完成任務、同時保持自然對話的語音系統。
GPT-Realtime-2 以語音轉行動系統和擴展的上下文窗口推進語音 AI 架構
公司強調了該技術支持的多種新興設計模式,包括語音轉行動系統,用戶可以描述任務,通過自動推理和工具集成來執行;系統到語音應用,軟件根據上下文數據生成語音指導;以及語音到語音的翻譯系統,實現多語言實時交流。
GPT-Realtime-2 引入了更多適用於生產環境的架構改進,包括擴展到 128K 令牌的更長上下文窗口、在中斷或錯誤時的改進恢復行為、並行工具執行配合透明反饋,以及根據對話上下文調整語調的更高可控性。開發者還可以微調推理層級,以在速度和複雜度之間取得平衡。
OpenAI 引用的性能基準顯示,該系統在音頻推理和指令跟隨任務中比之前的即時模型取得了更佳的結果。它在處理專業術語和多輪對話中的穩定性方面也有所提升。
此次發布還加入了安全機制,包括實時監控和內容分類,並提供開發者層級的控制以增強安全性。這些模型可通過 Realtime API 使用,並定位於企業、消費者和開發者應用,定價則根據音頻處理的使用量計算。
GPT-Realtime-2 及其相關模型的推出,反映出向能進行推理、翻譯和轉錄的語音計算系統的更廣泛轉變,旨在使語音與軟件的交互更具功能性、適應性和操作能力。