Tornando a fala artificial mais expressiva, natural e controlável
“Você disse que queria reservar um voo para Austin ou Boston?”
Até o ser humano às vezes teria dificuldade para diferenciar os nomes destas duas cidades. Eles soam muito parecidos. A Inteligência Artificial (IA) em um diálogo com uma pessoa também poderia facilmente se enganar
A tecnologia de síntese de fala presente nos assistentes virtuais por voz poderia ajudar, ao imitar o tipo de expressividade que os humanos exibem naturalmente quando se comunicam entre si. Um artigo publicado recentemente pelo time de IBM Research descreve um sistema desenvolvido pela IBM que pode enfatizar ou ressaltar certas palavras para melhorar a expressividade de uma frase, como acontece com a palavra “excelente” nesta sentença: “Essa é uma excelente ideia!”. Ou ainda ajudar com a ambiguidade existente em casos como o da similaridade entre as palavras Austin e Boston.
Essa é só uma das inovações na tecnologia de síntese de sequência a sequência (S2S). Parte da colaboração entre a equipe de IBM Research que trabalha com Inteligência Artificial para Text to Speech (Texto para Fala) o time de IBM Watson tem como objetivo levar essa funcionalidade de expressividade para o serviço IBM Watson Text to Speech (TTS). Nos últimos anos, o TTS atingiu um alto nível de performance com a introdução de arquiteturas neurais profundas de sequência a sequência, que proporcionam resultados de alta qualidade e que estão se aproximando do mesmo grau de percepção da fala natural.
A ideia principal é simples: se afastar de uma abordagem clássica que une vários módulos desenvolvidos de forma independente em um único modelo que treina todos os componentes de um extremo a outro. Essa escolha é efetiva, mas tem um custo. Uma vez que os diferentes componentes não são mais responsáveis por uma função específica, fica difícil intervir no processo de síntese para controlar um aspecto particular de saída.
Para resolver esse problema, a equipe da IBM propõe utilizar uma variante de múltiplos speakers baseada na arquitetura Tacotron-2 [2], que consiste em um codificador e um decodificador mediado por um mecanismo de atenção. Esse modelo-base utiliza uma representação da entrada de texto, além de alguns conhecimentos sobre a identidade do locutor, e os codifica mediante uma combinação de redes recorrentes convolucional e bidirecional. A sequência codificada é então enviada ao decodificador espectral que consulta um módulo de atenção para averiguar como alinhar a entrada codificada com as características acústicas da forma de onda de saída.
A estratégia da equipe para introduzir controlabilidade no sistema é simples. Sabemos que para ressaltar algumas palavras, os locutores tendem a se desviar do resto da frase em termos de propriedades prosódicas acústicas, como a velocidade da fala e a frequência fundamental.
Vejamos, por exemplo, a frase que poderia surgir em um diálogo com uma assistente: “Não entendi muito bem. Você disse que seu nome era Greg ou Craig?”. Se isso fosse um diálogo entre humanos, o locutor poderia transmitir a incerteza da situação ao aumentar o volume e o tom das palavras ressaltadas, articulando-as de forma mais clara e lenta, podendo até adicionar algumas pausas breves, porém perceptíveis.
Para que o sistema de síntese de fala faça o mesmo, a equipe expôs o modelo durante o treinamento de uma série de parâmetros acústicos prosódicos, extraídos dos resultados das formas de onda de treinamento. Isto deu ao sistema a oportunidade de associar essas entradas prosódicas com uma ênfase na saída. Durante a inferência, quando essas medidas não estavam disponíveis, um sistema preditivo treinado os completava separadamente. Para igualar o nível de ênfase desejado, o valor desses controles prosódicos poderia ser aumentado por padrões ou por compensações adicionais fornecidas pelo usuário.
Equipar os assistentes de voz com estas capacidades expressivas poderia ajudar a torná-los “mais humanos”, e também proporcionar um mecanismo mais eficiente de interação e uma experiência de usuário mais agradável.