OpenAI Revela Modelo GPT-Realtime de Fala-Para-Fala com Suporte Multimodal e Capacidades Avançadas de Conversação

Em Resumo

A OpenAI lançou o modelo de fala-para-fala gpt-realtime com suporte multimodal, habilidades de conversação avançadas e forte desempenho em raciocínio auditivo.

OpenAI Revela Modelo GPT-Realtime de Fala-Para-Fala com Suporte Multimodal e Capacidades Avançadas de Conversação

A organização de pesquisa em inteligência artificial OpenAI anunciou a disponibilidade geral da sua API Realtime, agora aprimorada com recursos que permitem a desenvolvedores e empresas construir agentes de voz robustos e prontos para produção. A API suporta servidores MCP remotos, entradas de imagem e chamadas telefônicas via Protocolo de Iniciação de Sessão (SIP), permitindo aplicações de voz mais capazes e cientes do contexto.

Juntamente com a API, a OpenAI lançou seu modelo de fala-para-fala mais avançado, gpt-realtime, projetado para melhorar o seguimento de instruções, chamadas de função e fala com som natural. O modelo pode interpretar prompts complexos, mudar de idioma no meio da frase, reproduzir sequências alfanuméricas com precisão e capturar sinais não verbais. Duas novas vozes, Cedar e Marin, também estão disponíveis, oferecendo uma entonação mais expressiva e semelhante à humana. As vozes existentes foram atualizadas para incorporar essas melhorias.

A API em Tempo Real processa áudio diretamente através de um único modelo, reduzindo a latência e preservando a nuance, ao contrário dos pipelines tradicionais que encadeiam modelos separados de fala-para-texto e texto-para-fala. gpt-realtime foi treinada em colaboração com os usuários para se destacar em aplicações do mundo real, como suporte ao cliente, assistência pessoal e educação. Avaliações de benchmark mostram melhorias substanciais em raciocínio, adesão a instruções e precisão na chamada de funções em comparação com modelos anteriores.

Atualizações adicionais incluem a chamada de funções assíncronas, permitindo operações de longa duração sem interromper conversas em andamento, apoiando ainda mais experiências de voz contínuas e prontas para produção.

OpenAI Expande a API em Tempo Real com Suporte MCP, Entradas de Imagem, Integração SIP e Controles de Redução de Custos para Agentes de Voz

A API em tempo real da OpenAI agora inclui novos recursos projetados para simplificar a integração e expandir as capacidades para agentes de voz prontos para produção. Os desenvolvedores podem habilitar o suporte remoto MCP vinculando uma sessão a uma URL do servidor MCP, permitindo que a API gerencie chamadas de ferramentas automaticamente e acesse funcionalidades adicionais sem configuração manual.

O modelo gpt-realtime agora suporta entradas de imagem, permitindo que o sistema incorpore fotos, capturas de tela e outros visuais juntamente com áudio ou texto. Isso permite que os usuários façam perguntas específicas sobre o que veem, enquanto os desenvolvedores mantêm o controle sobre quais imagens são compartilhadas e quando.

Melhorias adicionais incluem suporte para o Protocolo de Iniciação de Sessão (SIP) para conectar aplicativos a redes telefônicas e sistemas PBX, bem como prompts reutilizáveis que permitem aos desenvolvedores salvar e implantar instruções pré-configuradas, ferramentas e mensagens de exemplo em múltiplas sessões.

A API Realtime geralmente disponível e o modelo gpt-realtime estão agora acessíveis a todos os desenvolvedores, com preços reduzidos em 20% em comparação com o anterior gpt-4o-realtime-preview. Novos controles para o contexto da conversa permitem uma gestão de tokens mais inteligente, reduzindo os custos para sessões prolongadas. Documentação, um Playground para testes e um guia de prompts da API Realtime estão disponíveis para apoiar os desenvolvedores na adoção dessas funcionalidades.

GPT2.63%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)