• AWS apresenta Camila, voz humanizada para aprimorar conversão de texto em voz

AWS apresenta Camila, voz humanizada para aprimorar conversão de texto em voz

Aplicação alia Inteligência Artificial e Machine Learning para garantir maior fluência no texto e melhorar a experiência do usuário

A Amazon Web Services (AWS) anuncia o lançamento da Camila, a primeira voz neural brasileira do Amazon Polly, serviço de conversão de texto em voz que utiliza tecnologia Neural Text to Speech (NTTS), baseada em Inteligência Artificial e Machine Learning. Com o NTTS, a ferramenta apresenta uma voz humanizada, com capacidade de identificar pontuações e oferecer maior fluência aos textos.

Segundo o IBGE, há no Brasil mais de 6,5 milhões de pessoas com deficiência visual, sendo 582 mil cegas e 6 milhões com baixa visão. Além disso, segundo dados do mesmo instituto, cerca de 11,3 milhões de brasileiros são analfabetos.

A legislação brasileira prevê, na Lei n° 13.146, de 6 de julho de 2015, a obrigatoriedade das empresas brasileiras, ou com operações no país, assim como de organizações governamentais, garantir o acesso à informação em seus sites. O modo que as instituições encontraram para garantir esse direito constitucional foi a implantação de conversores de texto em áudio. Porém, de modo geral, essas aplicações possuem um tom de voz robótico por não reconhecer pontuações, dificultando a imersão na mensagem e, consequentemente, seu entendimento.

Além de melhorar a experiência de pessoas que dependem de conversão de texto em voz, o Amazon Polly também está disponível em inglês e espanhol e, em conjunto com outros serviços da AWS, como o Amazon Translate, permite disponibilizar conteúdo online em texto e voz em outros idiomas com apenas um clique.

Como funciona a tecnologia
Soluções como Text to Speech (TTS – texto para voz, em inglês) só são possíveis graças às tecnologias de Machine Learning (Aprendizado de Máquinas) e Inteligência Artificial. O TTS funciona assim:

1 – A inteligência artificial faz a leitura de um texto, sintetizando seu conteúdo e separando sílabas;
2 – Depois que são separadas, as sílabas são relacionadas com seus fonemas pela Inteligência Artificial (IA);
3 – A IA conecta as partes sintetizadas do texto, para que as frases sejam construídas de forma sonora.

Ouça os exemplos TTS padrão: Vitória e Ricardo

Mesmo sendo avançada, o TTS ainda tem dificuldades para identificar pontuações e variações de tom de voz, o que resulta em um som mais artificial. Isso acontece porque há intervalos entre cada fonema.

Em busca de maior naturalidade e uma experiência melhor para os usuários, a AWS desenvolveu o Neural Text to Speech (NTTS), presente agora no Amazon Polly, permitindo vozes naturais e humanizadas. Esse é o caso da Camila, voz que segue o processo do TTS, mas traz uma camada extra de inteligência artificial. Essa etapa extra de AI reduz os intervalos entre os fonemas e auxilia na identificação de pontuação e timbre do som, criando uma experiência de áudio com mais fluidez e naturalidade.

Ouça um exemplo de NTTS: Camila

O Amazon Polly com NTTS está disponível em diversos idiomas, com destaque para Português (Camila), Espanhol (Lupe) e Inglês, com duas vozes (Joanna e Matthew). A tecnologia permite que um mesmo conteúdo possa ser lido por NTTS em mais de uma língua.

Existem diversas empresas especializadas em aplicar esta tecnologia, como é o caso da Audima, uma startup brasileira focada em inclusão digital para pessoas com limitações visuais e de leitura. Com clientes como o Arquivo Nacional do Ministério da Justiça, o Instituto Ronald McDonald e o Portal Minha Vida, os serviços da startup permitem incluir uma ferramenta em sites que transmite em som os conteúdos escritos. Usuários com deficiência visual ainda podem controlar essa funcionalidade com comandos pré-definidos no teclado, para iniciar ou pausar o áudio.

Camila Inteligência artificial Machine learning NTTS TTS