Modo de voz do ChatGPT vai mudar para exibir mapas e links

A OpenAI prepara uma grande mudança na interface de voz do ChatGPT para competir diretamente com o Gemini Live do Google.

Escrito por
Jardeson Márcio
Jardeson Márcio é Jornalista e Mestre em Tecnologia Agroalimentar pela Universidade Federal da Paraíba. Com 8 anos de experiência escrevendo no SempreUpdate, Jardeson é um especialista...

Se você usa o modo de voz do ChatGPT, sabe que a experiência é imersiva, mas limitada: é você e uma tela de animação. Você ouve, mas não vê. Isso está prestes a mudar completamente — e o motivo tem nome: Gemini Live.

Uma análise recente do código do aplicativo do ChatGPT, em um APK teardown, revelou que a OpenAI está preparando uma grande atualização para transformar a forma como o modo de voz funciona. Em vez de ocupar a tela inteira, o recurso passará a operar dentro da própria janela de chat, abrindo caminho para algo muito maior: a exibição de conteúdo avançado como mapas, links, resultados de pesquisa e previsões do tempo.

Essa mudança representa mais do que uma simples reformulação visual. Ela posiciona o ChatGPT para competir diretamente com o Gemini Live, o assistente de voz multimodal do Google, que já combina perfeitamente fala, texto e informação visual.

O que muda no modo de voz do ChatGPT

Modo voz ChatGPT
Imagem: Android Authority

Adeus, tela cheia imersiva

Atualmente, o modo de voz do ChatGPT funciona de forma bastante isolada. Quando o usuário toca no ícone de fone de ouvido, o aplicativo entra em modo de tela cheia, exibindo apenas a animação de ondas sonoras e, opcionalmente, a transcrição do que é dito.

Essa abordagem, embora elegante e focada na conversa, tem uma limitação clara: se você pede uma previsão do tempo, um mapa ou um link, o assistente precisa encerrar a conversa por voz para exibir os resultados na interface textual. Isso quebra a imersão e torna o uso contínuo menos prático.

Olá, integração direta no chat

De acordo com a descoberta feita pelo site Android Authority, na versão ChatGPT v1.2025.294, a OpenAI está testando uma nova abordagem: a conversa por voz ocorrerá diretamente dentro da janela de chat.

O usuário continuará vendo o histórico de mensagens e, enquanto fala, verá botões flutuantes para encerrar ou mutar o diálogo de voz. A interação será contínua, fluida e, pela primeira vez, multimodal — permitindo que a IA mostre resultados visuais sem interromper a conversa.

Por que esta é uma atualização crucial (e não apenas visual)

A limitação do áudio puro

O modo de voz atual é, de certa forma, “cego”. Ele consegue descrever, mas não mostrar. Pode te contar o clima, mas não exibir uma previsão semanal detalhada. Pode recomendar um restaurante, mas não mostrar um mapa interativo ou avaliar opções próximas.

Essa limitação é natural em interfaces de áudio puro, mas no contexto atual, em que a IA multimodal está se tornando o novo padrão, ela já parece ultrapassada.

O poder do conteúdo avançado

A integração do modo de voz do ChatGPT dentro do chat muda completamente esse cenário. Agora, enquanto conversa, o usuário poderá visualizar conteúdo avançado, incluindo:

  • Mapas e rotas com base em solicitações geográficas;
  • Links clicáveis para páginas externas;
  • Gráficos e tabelas de dados;
  • Cards interativos de previsão do tempo ou notícias.

Isso significa que o ChatGPT se tornará verdadeiramente multimodal, combinando voz, texto e imagem em tempo real — uma evolução natural após a introdução da visão e do upload de arquivos nas versões mais recentes do modelo.

A verdadeira batalha: nivelando o campo contra o Gemini Live

O Google já faz isso (e muito bem)

O Gemini Live, recurso do Google Gemini, foi projetado desde o início para integrar voz e visual de maneira nativa. Enquanto o usuário conversa com o assistente, ele pode mostrar resultados da Busca Google, mapas, imagens e até vídeos curtos diretamente na tela.

Essa experiência é naturalmente mais rica e informativa — e coloca o Google em vantagem no ecossistema Android, onde o Gemini já está profundamente integrado ao sistema.

A resposta da OpenAI

A mudança que a OpenAI prepara para o modo de voz do ChatGPT é claramente estratégica. Com o Gemini Live ganhando força e o Google controlando os principais canais de distribuição (Android, Busca e YouTube), a OpenAI precisa garantir que sua solução de voz não fique para trás.

Embora o ChatGPT já se destaque por suas vozes realistas e pela naturalidade da conversação, faltava-lhe a capacidade de mostrar informações. Ao integrar o modo de voz ao chat, a empresa não apenas corrige essa falha, mas também cria paridade de experiência com o concorrente — e, potencialmente, abre espaço para inovações próprias, como respostas interativas, cards dinâmicos e integrações com o ChatGPT Plus ou GPTs personalizados.

Conclusão: O futuro da IA é conversacional e visual

A mudança no modo de voz do ChatGPT, saindo da tela cheia e migrando para o chat, representa muito mais do que uma simples reformulação de interface. É uma evolução estrutural na maneira como a OpenAI enxerga a interação humano-IA.

Ao permitir que o assistente exiba conteúdo avançado em tempo real — enquanto conversa com o usuário —, a OpenAI transforma o ChatGPT de um assistente falante em um assistente completo, capaz de unir voz, visão e contexto.

Essa atualização marca o início de uma nova fase: a dos assistentes multimodais, onde ver é tão importante quanto ouvir. E, nesse campo, a disputa entre ChatGPT e Gemini Live promete redefinir o que entendemos como inteligência artificial conversacional.

Você usa o modo de voz do ChatGPT ou prefere o Gemini? O que acha dessa mudança? Deixe sua opinião nos comentários — a conversa, agora, é para ser vista e ouvida.

Compartilhe este artigo
Nenhum comentário