Do texto à fala: geração de voz sintética por IA

A tecnologia text-to-speech (TTS) alimentada pela Inteligência Artificial acena com possibilidades e riscos para educadores e estudantes ao "dar voz" para o conhecimento

jul 25, 2024

Leonardo AI / Claude / Marcelo Sabbatini

Bem-vindos a mais uma edição da IAEdPraxis, sua fonte de informação para explorar os caminhos da Inteligência Artificial aplicada à Educação. Nesta semana vamos nos dedicar à geração de voz sintética com o uso de ferramentas de Inteligência Artificial.

IA em Foco

Por Marcelo Sabbatini

Vozes mecânicas, com entonação monótona e pronúncia por vezes incompreensível. Por bom tempo a tecnologia de text-to-speech (TTS), isto é, a capacidade de transformar texto escrito em fala audível, gerou resultados parecidos com os robôs imaginados das obras de ficção científica dos anos 1960.

Mas agora, com a chegada da IA generativa e dos algoritmos de aprendizagem profunda, o cenário está mudando. E rápido. As atuais ferramentas são capazes de emular as nuances da voz humana, incluindo entonação, emoção, ritmo e mesmo sutis regionalismos da fala. Quando somamos a possibilidade de clonagem de vozes individuais, chegamos a um novo patamar no qual a distinção entre a voz sintética e humana praticamente desaparece.

Cabe ressaltar: esta aptidão das ferramentas mais sofisticadas é fruto da interpretação, por parte da IA, do contexto original do texto, ajustando a narração de acordo com o conteúdo.

Dessa forma, não estamos diante de uma simples melhoria técnica, mas potencialmente de uma mudança na forma como vamos integrar o aspecto multimodal da informação e do conhecimento em nossas práticas pedagógicas.

Desde o engajamento estudantil até a acessibilidade, as áreas de aplicação são amplas, ainda que estes possíveis benefícios venham acompanhados de uma série de riscos.

1×

0:00

-6:19

Você gostaria de ouvir esta edição da newsletter? Texto gerado com auxílio do Prompt da Semana e aúdio produzido pelo TTS Maker. A voz não é minha, é a do “Antonio”.

Por trás das motivações da voz sintética

Antes de explorarmos os usos do TSS na Educação, cabe perguntar o "por quê". Qual a razão de utilizar uma IA, quando temos a disposição a natural e sofisticada tecnologia que é a voz humana?

A resposta é facilmente encontrada na polêmica que envolve o "fim" da profissão de dubladores: facilidade, praticidade e, consequentemente, redução de custos.

Gravar áudio límpido, preciso, de "qualidade", é desafiador. Mais além de equipamentos de alto custo, uma gravação de nível profissional envolve um controle preciso condições ambientais de captação. O isolamento acústico para diminuir ecos e reverberações, por exemplo, surge como um desafio.

Pelo lado humano da equação, uma gravação requer preparação vocal, treino, experiência. Além dos erros inevitáveis, as diversas "falhas" do discurso humano, como hesitações, pigarreio e vícios como o uso repetitivo de marcadores do discurso, a exemplo do "né" estão presentes. E logo, a fadiga vocal chega em relativamente pouco tempo para a maioria de nós.

Janela de edição de ferramenta TTS. Notar as vozes disponíveis em português brasileiro

Em sua essência de informação digital, a voz sintética facilita a atualização e a manutenção de conteúdos, permitindo modificações rápidas. Esta quebra com a realidade física vem na independência em relação a um locutor específico e sua disponibilidade.

Por fim, numa perspectiva do que pode ser realizada somente no domínio digital, o TTS possibilita a geração de vozes que essencialmente não existem no mundo real, como a de alienígenas ou outros personagens da mitologia e a ficção.

Aplicações e perspectiva de inovação pedagógica

Iniciando por um tema que já abordamos aqui, a produção e adaptação de materiais didáticos visando a inclusão e a equidade educacional, o TTS "dá voz" aos textos escritos. Assim, pessoas com deficiência visual ou dislexia podem contar com áudios convertidos, tendo seu acesso ao conhecimento facilitado.

Entre a acessibilidade e a elaboração de recursos didáticos em formatos diferentes do texto escrito, a geração de voz sintética também pode ser utilizada para a criação de audiolivros sob demanda. A ideia seria atender às necessidades específicas dos estudantes.

Já a possibilidade de geração de um mesmo discurso em vários idiomas abre as portas para integrar estes recursos educacionais numa perspectiva multi e intercultural. A dublagem em outros idiomas de aulas gravadas e vídeos educativos expandem o acesso ao conhecimento.

No campo da aprendizagem de idiomas, a pronúncia correta de textos em línguas estrangeiras contribui para o aprimoramento das habilidades linguísticas dos estudantes.

E considerando a dimensão afetiva do processo pedagógico, o feedback oral através de comentários, correções ou mensagens de incentivo podem acrescentar um tom mais pessoal e emocional a espaços mediados tecnologicamente.

Um exemplo seriam os Ambientes Virtuais de Aprendizagem utilizados na Educação a Distância (EaD), frequentemente limitados ao modo textual de comunicação e interação.

A linguagem por trás da voz: SSML

Além da capacidade interpretativa dos sistemas TTS baseados em IA, existe a possibilidade de agência humana (human on the loop, humano na supervisão) em seu uso. Através do Speech Synthesis Markup Language (SSML, linguagem de marcação de síntes de voz, em inglês), é possível ajustar a entonação, o ritmo, as pausas e até mesmo a pronúncia de palavras específicas. Numa analogia, seria como aplicar o negrito num texto escrito, mas neste caso instruindo o sistema a enfatizar aquela palavra específica.

Com esta possibilidade de ajuste fino, vozes sintéticas e clonadas tenderão a atingir um nível de semelhança tal, o que automaticamente acende alguns alertas sobre seu uso.

Desafios e preocupações

Apesar dos avanços notáveis, o uso de TTS baseado em IA no contexto educacional não está isento de riscos e limitações. A coleta e o processamento de dados de voz levantam questões sérias sobre privacidade e segurança.

Se considerarmos que cada amostra de voz é, essencialmente, um dado biométrico único, tão pessoal quanto uma impressão digital, seu armazenamento e proteção suscitam grandes preocupações sobre seu uso indevido.

Além disso, a capacidade de clonar vozes com alta fidelidade abre uma caixa de Pandora ética. Se no plano sociopolítico há o risco das falsas imitações realistas (deepfakes) serem utilizadas para difamação e desinformação, o mesmo pode ocorrer com professores ou outras figuras de autoridade.

Até mesmo afirmações históricas nunca realizadas podem ser fabricadas a partir desta tecnologia, potencializando o negacionismo e terraplanismo (num sentido amplo).

Um exemplo de deepfake. Agora imaginem Olavo de Carvalho falando bem de Paulo Freire (sugestão Estefane Domingos).

Sobre custos e possibilidades

Também no "plano desafio" a síntese de voz por IA ainda é uma empreitada cara, como podemos ver pelos serviços a seguir. Os preços foram obtidos na modalidade de pagamento mensal e a cotação da moeda estrangeira segundo o câmbio de hoje.

PlayHT

39 dólares(220 reais), 250.000 caracteres por mês

1.022 caracteres/real

Wondercraft

29 dólares (165 reais), 60 créditos/mês

1 crédito sendo 1 minuto de áudio = 43.478 caracteres

263 caracteres/real

Texvoz

9 dólares (50 reais), 100.000 caracteres, em pacote

2.000 caracteres/real

Speechgen

24,99 reais, 25.000 caracteres, em pacote

1.000 caracteres/real

TTS Maker

12,99 dólares (73 reais)

300.000 caracteres por mês (aproximadamente 6.9 horas de áudio)

4.109 caracteres/real

Disponibiliza 20.000 caracteres por semana no plano gratuito

Resemble AI

99 dólares (507 reais), 80,000 segundos, ou 966.000 caracteres por mês

1.095 caracteres por real

O acesso às vozes brasileiras está disponível somente no plano profissional, com o custo acima.

Logicamente, a variação de preços reflete os recursos disponíveis, como a clonagem de voz, uso de SSML, variedade de vozes disponíveis, espaços colaborativos de trabalho, entre outros.

Poderia ser de graça? Sim, mas com a qualidade impessoal e artificial que foi popularizada nas redes sociais de vídeos nos últimos tempos.

O caminho pela frente

A síntese de voz com voz similar à humana abre um leque de possibilidades num cenário de mediação pedagógica cada vez mais digitalizado. No entanto, como em todos outros campos da Inteligência Artificial aplicada à Educação, é um terreno que precisa ser trilhado com cautela e olhar crítico.

Um uso "desconfiado", porém, vai mais além de simplesmente ler os termos de uso de cada ferramenta e de suas respectivas políticas de privacidade. Precisamos nos educar sobre os potenciais riscos e, inclusive nos perguntar se queremos, enquanto sociedade, utilizá-las ou não.

Prompt da Semana

Na temática da edição, trazemos um prompt que pode ser usado para converter texto escrito em texto oral. As orientações para a transformação incluem a fidelidade ao original, estruturas típicas da linguagem falada, além de sugestões para variações de entonação. O objetivo é readequar seu conteúdo escrito, por exemplo textos e materiais didáticos, para uma versão mais adequada para a geração de áudio.

Acesse o prompt em nossa biblioteca de prompts.

IA em Ação

Diante dos deepfakes baseados em IA, surgem propostas para sua detecção, a exemplo da Resemble AI. Além de proporcionar serviços de geração de voz, a empresa pesquisa modelos avançados de rede neural para identificar voz generativa e contribui para o desenvolvimento de marcas d'água invisíveis, imperceptíveis para os usuários humanos.

A empresa afirma priorizar padrões éticos e de integridade moral, reconhecendo os riscos associados a seu uso. Para tanto, incorpora salvaguardas para prevenir a criação de deepfakes e imitação de voz não autorizada, além de proibir expressamente o uso de vozes geradas por IA para discurso de ódio, discriminação, difamação, terrorismo, violência, exploração infantil, entre outras atividades nocivas.

IA na Prática

"Ainda contratando humanos?" o outdoor provocativo da startup Bland AI chamou atenção não somente pela mensagem, mas por seu produto: um assistente de voz realista que usa expressões naturais, palavras de preenchimento e até gaguejos, tornando difícil distingui-la de um atendente real.

Agregando mais polêmica, o agente virtual já mentiu e se apresentou como sendo uma pessoa humana, levantando questões sobre manipulação e obtenção indevida de informações pessoais, apesar do uso inicial proposto pela empresa.

Momentos de Reflexão

"Human washing": cada vez mais empresas ou organizações tentam apresentar seus produtos ou serviços de IA como mais "humanos" ou eticamente responsáveis do que realmente são. De forma análoga ao "greenwashing" que sequestrou o marketing ambiental, a prática leva à falsa impressão de que a IA respeita plenamente valores humanos e éticos. Mas como lidar com este tipo de prática?

O bibliotecário Carlo Iacono, da Charles Sturt University, reflete sobre o a efetiva utilidade da IA generativa:

Um martelo pode construir uma casa? Não.
Pode ajudar a construir uma casa com experiência? Absolutamente.
Vamos superar isso:
• É uma ferramenta
• Não é senciente
• Não é mais inteligente do que a experiência humana
• Não raciocina de forma independente....ainda
Então, o que ela pode fazer na prática?
✅ Oferecer estruturas para dar suporte ao conhecimento
✅ Aplicar esse conhecimento à estrutura
✅ Resumir aquele artigo complexo que você está lutando para entender
✅ Proporcionar paciência infinita conforme você faz perguntas que teria vergonha de fazer a um ser humano
✅ Quebrar a paralisia quando você está preso no início de um trabalho

Da coleção de ícones com a temática "Inteligência Artificial em Essência", desenhados por Iconathon. Como podemos pensar nesta imagem, ainda mais levando em conta a temática desta edição?

Em 2023, a IA generativa falhando e se tornando objeto de zombaria, numa postagem que envelheceu mal. Se a geração de imagens sintéticas progrediu tanto, em pouco tempo, o que podemos ainda esperar do text-to-speech?

Sobre a controvérsia do uso de IA em profissões criativa, deixo a reflexão de Brian Merchant, facilmente extensível ao panorama da educação

Então por que estamos observando artistas conceituais perderem seus empregos para softwares treinados no trabalho de artistas anteriores, gerando automaticamente resultados ao pressionar de um botão? Por que estamos automatizando o trabalho de tradutores, que têm um conhecimento único de sua língua e cultura local, e podem traduzir artisticamente obras para um novo meio com seu significado intacto? Por que queremos viver em um mundo onde, em vez de um ator de voz real, temos atores de voz de IA sintetizados numa mistura de todos aqueles que vieram antes deles?
Por que queremos que máquinas façam essas coisas, as coisas boas, as coisas que dão valor humano à vida humana? A resposta é: Não queremos. Quase ninguém quer, exceto executivos corporativos de olhar morto, fundadores oportunistas e promotores de tendências tecnológicas, e aqueles que têm antipatia pelas artes criativas por qualquer razão.

Sua voz, em sentido figurativo, é fundamental para enriquecer este diálogo. Sinta-se à vontade para nos enviar suas observações, histórias ou questionamentos através de qualquer um de nossos canais.

Deixe um comentário

IAEdPraxis: Caminhos Inteligentes para a Educação

Discussão sobre este post