A IA do Google pode mudar o tom de voz, agora seu uso é gratuito

Harianjogja.com, JOGJA—A mais recente inovação do Google apresenta uma voz de IA que agora pode ser definida como entusiasmada, séria ou relaxada e está até disponível gratuitamente para os usuários.
O mais recente modelo de conversão de texto em fala, chamado Gemini 3.1 Flash TTS, suporta mais de 70 idiomas, incluindo indonésio, e foi lançado globalmente desde quarta-feira (15/04/2026).
Esta nova capacidade abre grandes oportunidades para criadores de conteúdo, educadores e empresários na Indonésia produzirem áudio de alta qualidade sem a necessidade de usar serviços profissionais de dublagem.
Gemini 3.1 Flash TTS faz parte do desenvolvimento da família Gemini AI que se concentra em melhorar a qualidade das interações baseadas em voz. Uma de suas principais vantagens é a capacidade de produzir sons mais naturais e expressivos, mais próximos da entonação humana.
A característica mais proeminente é o uso de “Tags de Áudio”, que permitem aos usuários definir estilos de fala simplesmente por meio de comandos de texto. O Decorder revelou que, com esse recurso, os usuários podem determinar se a voz da IA soa entusiasmada, séria, relaxada ou até mesmo como a de um narrador de audiolivro.
Além disso, este modelo também suporta conversas com mais de um alto-falante (multi-falante), tornando-o adequado para a criação de conteúdos como podcasts ou diálogos interativos sem a necessidade de gravação de vozes humanas.
A escolha dos estilos de voz disponíveis também é variada, desde estilos casuais até estilos formais, como âncoras de notícias. Os usuários podem até escolher determinados sotaques, incluindo sotaques americanos e britânicos, de acordo com as necessidades de conteúdo.
Em testes realizados por Análise Artificial, esse modelo registrou nota Elo de 1.211 e foi considerado superior na comparação de qualidade e custo. Na verdade, diz-se que seu desempenho supera vários modelos populares, como o ElevenLabs v3 e apenas um pouco abaixo do Inworld 1.5 Max.
Para uso, o Google fornece acesso gratuito para usuários em geral. No entanto, os dados provenientes da utilização da versão gratuita serão utilizados para posterior desenvolvimento tecnológico.
Enquanto isso, a versão paga oferece taxas de cerca de 1 dólar americano por milhão de tokens para entrada de texto e 20 dólares americanos por milhão de tokens para saída de áudio. Há também um modo de lote de custo mais baixo disponível.
Atualmente, o Gemini 3.1 Flash TTS ainda está em fase de visualização e pode ser acessado por meio da API Gemini, Vertex AI para empresas e usuários do Google Vids para Workspace. Os usuários em geral podem experimentar este serviço por meio do Google AI Studio.
Para manter a transparência, todo áudio produzido será equipado com uma marca d’água digital utilizando a tecnologia SynthID. Essas marcas d’água são inaudíveis para os humanos, mas podem ser reconhecidas pelos sistemas de computador como marcadores de conteúdo gerados por IA.
Com a presença desta tecnologia, os usuários passaram a ter maior controle sobre a produção de áudio digital. A voz da IA não soa mais rígida, mas é capaz de transmitir emoções e um estilo de comunicação mais animado, conforme necessário.
Confira outras notícias e artigos em Jogja diárioe nossa versão eletrônica da edição impressa está disponível em Jogja Daily Epaper.




