Fernando Tavares explica como funciona a tecnologia e o que deve ser analisado para considerar sua adaptação ao contexto brasileiro
© Freepik / atlascompany
Com a chegada da Audible no Brasil, a popularidade dos audiolivros no mercado editorial aumentou. Muitas editoras estão correndo para produzir seus livros neste formato, que tem ganhado a atenção do público. Em um mundo cada vez mais agitado, a conveniência de consumir conteúdo auditivo enquanto se está em trânsito ou executando outras tarefas é atraente.
O áudio apresenta vantagens expressivas, especialmente em um país com índices de alfabetização desafiadores. Embora não vise substituir a leitura tradicional, amplia o acesso a conteúdos educacionais, sendo, além de tudo, um recurso valioso para a inclusão de pessoas com deficiência visual.
Diante da ampla gama de conteúdos disponíveis, vislumbrar a transformação de todos em audiolivros já se apresenta como uma tarefa quase impossível. Uma seleção criteriosa de títulos é necessária como corte inicial que priorize a parcela do catálogo com maior possibilidade de oferecer retorno e programas como o “WAY (We Audiobook You)”, da Bookwire, com certeza ajuda muito nessa criação de catálogo inicial.
Mas, e quanto aos conteúdos menos populares mas igualmente valiosos? É aqui que o audiolivro autonarrado por IA, através da tecnologia Text-To-Speech (TTS), se torna relevante.
Panorama histórico do TTS
No século XVIII, o cientista húngaro Wolfgang von Kempelen construiu uma máquina falante usando diversos mecanismos para produzir palavras simples e frases curtas. O desejo de fazer as máquinas falarem não é de hoje! Quem for curioso tem um vídeo no YouTube que demonstra o funcionamento desta máquina rudimentar.
Mas é a partir da chegada dos computadores que este processo ganhou realmente importância. Sem entrar muito em meandros técnicos, é interessante entender que existem várias formas de criar vozes sintéticas por computador.
Um dos primeiros modos de criar voz com o computador é a síntese vocal articulatória, ou seja, a tentativa de imitar o comportamento dos articuladores de som humanos, como lábios, língua, glote e trato vocal móvel. Em teoria deveria ser o modo mais eficaz, mas na realidade não conseguimos coletar os dados para criar estas simulações o que deixa o resultado muito aquém do esperado.
Depois temos a síntese vocal formante que é um método que usa um conjunto de regras pré-definidas. Essas regras são feitas por linguistas para imitar as características naturais da fala humana. O processo utiliza um modelo simplificado que ajusta certos parâmetros, como a frequência e o nível de ruído, para gerar som. Uma vantagem desse método é que ele pode produzir fala clara sem necessitar de muitos recursos computacionais ou de um grande banco de dados de gravações de voz humana, tornando-o adequado para sistemas com recursos limitados. No entanto, a fala gerada pode soar menos natural e pode ser difícil definir as regras para fazer a síntese, especialmente para diferentes sons ou idiomas.
Temos ainda a síntese vocal concatenativa. Imagine que temos várias gravações de alguém falando. Agora, queremos fazer o computador dizer algo novo. O que fazemos é pegar pedaços dessas gravações que já temos e juntá-los para formar as novas palavras e frases que queremos que o computador diga. Existem dois modos principais de fazer isso. Um deles pega pedaços bem pequenos das gravações, como o som de duas letras juntas. O outro pode pegar pedaços maiores, até mesmo frases inteiras, e tem muitos exemplos diferentes de cada pedaço no banco de dados para escolher.
Esse método pode fazer o computador soar bastante claro e parecido com a pessoa que foi gravada originalmente. Mas tem algumas desvantagens. Precisa de um monte de gravações para começar, e mesmo assim, o som gerado pode não ser muito natural ou expressar emoções muito bem, pois juntar os pedaços pode deixar a fala um pouco desajeitada. Quem já não ouviu um TTS assim? A voz não soa natural e nem sempre a pronúncia é correta, sobretudo nas palavras homófonas.
Vozes cada vez mais naturais
Com a chegada da Síntese vocal paramétrica estatística as coisas se tornam mais complexas, inclusive de explicar. Por enquanto basta saber que, ao invés de criar ondas sonoras diretamente juntando pedaços de áudio, é necessário primeiro gerar os parâmetros acústicos necessários para produzir a fala, e depois recuperar essa fala usando alguns algoritmos. Com o avanço rápido da capacidade computacional e a chegada das chamadas redes neurais esta tecnologia avançou rapidamente, tendo inúmeras variações até chegarmos ao que chamamos hoje de Neural TTS.
Com o Neural TTS, os computadores podem aprender a falar de maneira mais natural, usando redes neurais, que são como um modelo do cérebro humano, para entender e copiar a maneira como falamos. Alguns dos primeiros modelos, como o WaveNet, conseguem criar sons de fala diretamente a partir do texto, tornando tudo mais simples e direto.
Ao longo do tempo, diversos modelos emergiram, aprimorando-se continuamente na conversão de texto em fala de maneira natural e clara, com mínima intervenção humana para ajustes ou correções. Desde 2017, o progresso nesse campo foi notável, refletido pelo volume expressivo de pesquisas publicadas. O termo “Vozes Neurais“, indo além de seu viés mercadológico, refere-se a uma série de tecnologias em evolução contínua que visam replicar a fluidez da leitura humana.
A Microsoft tem liderado o campo, especialmente em pesquisa e desenvolvimento, seguida por outras gigantes tecnológicas. No Brasil, a escassez de investimento em pesquisa tem retardado avanços independentes, tornando a criação de uma voz com tecnologia nacional um desafio.
Implementação Prática
Na prática temos várias iniciativas de criar sistemas de vozes que leiam bem e respeitem os dois critérios usados para avaliar uma voz neural: inteligibilidade e naturalidade. (Intelligibility and naturalness).
Em geral quando pensamos em vozes neurais nos vem em mente o sistema de clonagem de voz e todas as questões éticas e morais envolvidas com isso. Mas TTS não é isso. Aliás, eu diria que este recurso não funciona tão bem na nossa língua portuguesa, sobretudo em textos longos como um audiolivro, por exemplo.
Tomadas todas as precauções jurídicas, éticas e morais, o TTS é uma ótima solução quando você tem alguma destas situações (ou todas):
- Textos de não ficção que não precisam de variações de emoção na leitura
- Orçamento ou tempo restritivos para produções longas
- Foco em oferecer um conteúdo acessível barato e rápido
- Desejo de personalizar a leitura com vozes únicas e irrepetíveis
- Vontade de experimentar um modo diferente de distribuir seu conteúdo
Boa parte do catálogo de livros que temos no Brasil pode tirar vantagem das vozes artificiais neurais, sem que isso impacte o mercado da locução profissional, mas pelo contrário, fomentando ainda mais o mercado de áudio.
Mas… não basta apertar o botãozinho!
Para criar uma narração com voz neural não é suficiente apertar um botão. Assim como para a narração profissional com voz humana é necessário um roteiro, uma adaptação e uma preparação do texto para que o sistema possa ler da melhor forma possível.
Este ano, além de me dedicar aos livros digitais, mergulhei na jornada do audiolivro autonarrado junto à Volyo Audiobooks. Descobrimos que a preparação do texto é uma etapa crucial do processo. Ademais, nem todas as vozes se harmonizam bem com todos os tipos de texto. É necessário realizar testes e seleções criteriosas, pois mesmo sendo vozes artificiais, parece que cada uma tem sua própria “personalidade” que se encaixa melhor com determinados textos.
Existe o trabalho de “roteirização” a ser realizado, definindo os pontos em que a voz irá expressar uma reação ou emoção específica. Em alguns sistemas, isso é alcançado através de uma linguagem de marcação de texto chamada Linguagem de Marcação para Síntese de Fala (SSML, na sigla em inglês). Porém, em outros modelos de vozes, é o próprio sistema (a IA) que interpreta o texto, o que pode tornar o controle da narração um desafio. É como ter um narrador talentoso, mas que insiste em improvisar ao invés de seguir o roteiro!
Além disso as vozes neurais mais sofisticadas, ou que parecem ter uma semelhança maior com a voz humana e até expressar emoções, possuem uma instabilidade muito grande na leitura de longos textos, trazendo resultados ruins no quesito naturalidade. Este é um grande desafio para as vozes neurais. Um estudo sobre este problema foi apresentado este ano por pesquisadores da Apple na tentativa de encontrar soluções.
Ajustes necessários para o mercado brasileiro
Apesar dos avanços notáveis do TTS (Tecnologia de Síntese de Fala), ainda temos um caminho considerável pela frente, especialmente ao considerar sua adaptação ao contexto brasileiro. O português falado no Brasil, com sua vasta gama de dialetos e sotaques, configura um desafio singular para a tecnologia de TTS.
A escassez de investimento em pesquisa, mencionada anteriormente, é um empecilho significativo, contudo, pode ser atenuada através de parcerias estratégicas com empresas internacionais e instituições acadêmicas. O desenvolvimento de uma voz tecnologicamente brasileira é uma questão de necessidade prática para assegurar que os audiolivros sejam acessíveis e atrativos para todos os brasileiros
Além disso, para que o TTS seja amplamente aceito e utilizado, é crucial conhecer mais sobre o assunto e saber administrar as expectativas que editoras, autores e o público em geral podem ter, entendendo melhor os benefícios e limitações do TTS. Essa tecnologia pode ampliar o alcance dos livros e torná-los mais acessíveis.
Concluindo
Um ponto já tocado mas que deve ser reiterado: TTS (Tecnologia de Síntese de Fala) não é sinônimo de clonagem de voz, e muito menos de clonagem de voz desrespeitando direitos autorais. Trata-se de uma ferramenta adicional que os editores têm à disposição para ampliar o alcance de seu conteúdo. Utilizar o TTS não significa eliminar o mercado de narradores humanos, há espaço para ambos.
O cenário para o TTS no Brasil é animador, com potencial para transformar e ampliar o acesso à literatura e à informação. Com investimentos robustos em pesquisa e desenvolvimento, somados a uma abordagem inclusiva e colaborativa, o Brasil tem tudo para se destacar no cenário de TTS e narração autônoma, inaugurando uma nova era de acessibilidade e difusão literária.
Um Exemplo de Narração em TTS
Aqui está um link para um exemplo interessante de autonarração que destaca bem as vantagens e limitações da Tecnologia de Síntese de Fala (TTS). Você vai perceber uma boa pronúncia, inteligibilidade e uma semelhança considerável com uma narração humana. No entanto, em textos de ficção, tende a ter um tom monocórdico. É a Missa do Galo, de Machado de Assis, autonarrado pela Volyo Audiobooks. Confira.
Referências
WAN-IFRA. (2023). The next chapter in publishing: Embracing text-to-speech and AI voice cloning.
OpenReview. (n.d.). Audiobook synthesis with long-form neural text-to-speech.
Microsoft Research. (n.d.). Text to Speech.
ArXiv. (2021). A Survey on Neural Speech Synthesis.
*José Fernando Tavares é especialista em Publicações Digitais e produtos digitais com mais de 14 anos de experiência no mercado editorial, especializado em tecnologia para negócios e Inteligência Artificial para produtividade. Em 2014, fundou a Booknando, empresa especializada em publicações digitais e livros acessíveis. No ano passado, criou a Volyo Audiobooks, focada na produção de audiolivros com uso de Inteligência Artificial. Com formação humanística, busca utilizar a tecnologia para melhorar o mundo. Tem paixão por vinhos e pelo aprendizado diário.