Texto "chocho": como identificar a escrita da IA?

Neste primeiro artigo de uma série sobre o impacto da Inteligência Artificial na escrita, examinamos as peculiaridades do "texto GPT", isto é, da linguagem gerada automaticamente

dez 10, 2024

Bem-vindos a mais uma edição da IAEdPraxis, sua fonte de informação para explorar os caminhos da Inteligência Artificial aplicada à Educação.

Esta edição dá início a uma série dedicado ao uso da IA Generativa para a escrita, incluindo sua relação com a fraude acadêmica e com as anunciadas ferramentas de detecção deste "plágio". Iniciamos, porém, com uma discussão sobre as características gerais e prolemas comuns associados ao "texto GPT".

IA em Foco

Por Marcelo Sabbatini

Tem orelha de porco, focinho de porco, rabo de porco...será um porco? Algumas coisas basta colocar os olhos e você, intuitivamente sabe o que é, sem que se consiga definir. Uma delas é o "texto GPT", isto é, texto gerado por Inteligência Artificial.

Embora seja um feito tecnológico impressionante, desde o lançamento do ChatGPT há dois anos atrás, diria que ficamos mais atentos bem informados e céticos em relação à qualidade do texto produzido por IAs Generativas. Mas quais são suas características?

Nesta primeira parte de uma série de nossa newsletter dedicada a um dos assuntos que mais suscita preocupações na comunidade educacional, vamos olhar com mais atenção para aquela que talvez seja a função mais utilizadas dos chatbots de IA: escrever por nós.

O que caracteriza o texto escrito por IA?

Retomando nossa provocação inicial, em pouco tempo a experimentação com o ChatGPT nos mostrou uma definição informal: é um gerador de "lero-lero". Tecnicamente, e sem entrar em detalhes, o que esta tecnologia faz é gerar frases, parágrafos, textos que atendem a um princípio de possibilidade estatística, dentro de um determinado contexto. Dito de outra forma, uma IA não sabe realmente o que está escrevendo, mas sim gerando um texto que parece coerente, coeso, confiável para um leitor humano.

Entretanto, como modelos probabilísticos que são, os chatbots acabam priorizando certos tipos de construção textual e fazem uso de termos que os denunciam. Em Língua Portuguesa, particularmente, a palavra "crucial" chama a atenção. Pessoalmente, já coloquei como instrução personalizada no ChatGPT e já incluí em prompts, com a ordem expressa de não utilizá-la. Contudo, seu peso probabilístico parece ser gigante; texto vem, texto vai, lá está o indefectível "crucial".

É a piada pronta! Num texto sobre "como descobrir se o texto foi feito por IA", o primeiro parágrafo é:
A capacidade de identificar textos gerados por IA é crucial em um mundo cada vez mais digital, onde a informação é amplamente compartilhada e consumida.

Mas não pára por aí. Recentemente, ao participar do processo seletivo para o programa de pós-graduação do qual faço parte, encontrei num projeto vários indicativos do escrita por IA. Todavia, como não havia orientação a respeito, tanto no edital de seleção como nas normativas mais gerais da universidade, foi preciso avaliar o projeto em questão pelas características que tornavam o texto fraco:

falta de coesão
superficialidade na abordagem de questões teórico-metodológicas
referências não verificáveis
textualização vaga, com excesso de adjetivos e advérbios
ausência de exemplificação

Pausa para um merchan…

Justamente com a motivação de não termos ainda normativas e diretrizes de uso da IA Generativa na pesquisa acadêmica, os professores Rafael Cardoso Sampaio, Marcelo Sabbatini (eu) e Ricardo Limongi elaboramos um guia com “Diretrizes para o uso ético e responsável da Inteligência Artificial Generativa: um guia prático para pesquisadores”, editado e publicado pela Sociedade Brasileira de Estudos Interdisciplinares da Comunicação - Intercom. O guia aborda questões como princípios de funcionamento e limitações da tecnologia, incluindo as atuais limitações desta tecnologia, como os vieses e os riscos à privacidade e integridade acadêmica, assim como a necessidade de preservação da agência humana e do uso eticamente orientado.

O guia foi elaborado por Rafael Cardoso Sampaio (UFPR), Marcelo Sabbatini (UFPE) e Ricardo Limongi (UFG) – que têm se debruçado sobre os impactos da inteligência artificial generativa (IAG) na pesquisa acadêmica em diferentes áreas de pesquisa

O guia está disponível em versão digital e acesso aberto (totalmente gratuito) e pode ser acessado através do Portal da Intercom.

Como característica geral, que leva a fácil identificação de um texto generativo está relacionada com o funcionamento intrínseco da tecnologia. O que o ChatGPT faz é tirar uma média de todas as possíveis repostas a seu prompt, o que torna o texto genérico, vago e dotado de certos padrões.

O que ocorrerá se os Grandes Modelos de Linguagem forem treinados com texto produzido por eles mesmos? Assim como a consanguinidade traz problemas físicos e de saúde, a perspectiva acena com a amplificação de padrões e vícios de linguagem, num ciclo de empobrecimento cognitivo e comunicacional. Na pintura, Carlos II de Espanha, com seu físico debilitado e aparência doentia, resultado de gerações de casamentos consanguíneos na família real espanhola.

Em certa ocasião, durante minha experimentação inicial com a IA, busquei batizar a produção textual do ChatGPT com uma expressão legitimamente brasileira: "texto chocho", isto é, sem graça, fraquinho, murcho.

Diante destas características, temos motivos suficientes para não utilizar texto gerado automaticamente em nossos próprios trabalhos, pelo menos sem passar por uma verificação e revisão intensa.

Porém, e agora trazendo para o contexto educacional, sabemos que as ferramentas de IA estão sendo utilizadas para todo tipo de aplicação, desde trabalhos e tarefas de casa, passando por mensagens pessoais. Em muitos casos, este uso pode configurar fraude acadêmica e no “melhor” dos casos, prejudicar a aprendizagem de competências e habilidades complexas.

Seguem então alguns indicativos de texto gerado por IA.

Vocabulário e linguagem

Palavras e frases genéricas e vagas
Uso excessivo de advérbios, sem significado real
Termos
Crucial
Fundamental
Insight
Mergulhar

Particularmente, esta última palavra corresponde à expressão "delve into", que ficou caracterizada em inglês como o marcador típico do texto gerado por IA.

Adjetivos genéricos

Dinâmico
Inovador
Eficiente
Transformador
Envolvente
Fascinante
Disruptivo
Poderoso
Meticuloso

Estrutura textual

Frases completas, sem coordenação entre si
Texto muito longo, prolixo, repetitivo
Falta de profundidade ou nuance
Ausência de exemplos concretos
Parágrafos genéricos, sem detalhes específicos

Tipografia e pontuação

Uso frequente de iniciais maiúsculas
Uso do ponto final dentro de uma citação direta
Utilização da "Oxford Comma", isto é, a vírgula após o "e", na enumeração de uma lista

Exemplo dos últimos dois conceitos: "Comprei maçãs, bananas, e laranjas no mercado."

Estrutura

Saudações e despedidas padronizadas

Exemplo: "Espero que esta mensagem o encontre bem".

Ausência dos vocativos adequados ao contexto
Ausência de nomes próprios em comunicações pessoais

Alguns textos de orientação sobre o tema incluem ainda algumas frases típicas como "É importante notar que..." ou "Vale ressaltar que...".

Contudo, penso que há um certo exagero em relação a algumas listas de termos e expressões que seriam características da IA; elas fazem parte de nosso vocabulário e do uso cotidiano. Num fórum de discussão, alguém postou uma lista tão ampla, que praticamente acaba com a possibilidade da linguagem verbal.

Por fim, alertando para o risco cada vez mais comum de encontrar textos gerados por IA, sugiro a consulta de outros guias que proporcionam orientações para detectar este tipo de texto, com inteligência humana.

Compartilhar IAEdPraxis: Caminhos Inteligentes para a Educação

É possível detectar texto gerado por IA?

Esta talvez seja uma das perguntas mais frequentes que ouço, quando faço palestras, apresentações ou formações, principalmente com professores. E a resposta é sim...e não.

Por um lado, temos várias ferramentas fazem uso da própria Inteligência Artificial para detectar padrões de escrita de IA. Contudo, é preciso considerar alguns pontos importantes, antes de lançar mão de uma solução tecnológica para um problema tecnológico. Como vamos abordar este tema com mais profundidade numa parte específica desta série sobre texto de IA, apresento brevemente os argumentos contrários:

Existe uma margem de erro (falsos positivos), que quando considerada numa amostra grande, torna-se significativa em número de casos.
Estes falsos positivos tendem a discriminar padrões não-hegemônicos de escrita, como é o caso de neurodivergentes ou de pessoas que não são nativas no idioma que está sendo avaliado.
Os algoritmos de funcionamento destas ferramentas são opacos, a ciência que os embasam pode ser duvidosa.
A base de treinamento da IA pode é questionável; padrões da escrita em uma determinada língua não necessariamente correspondem aos de outro idioma.
O efeito, em termos de consequências pessoais e da criação de uma cultura de desconfiança, para não dizer de medo, são negativas.

Dessa forma, algumas instituições adotaram em seus guias éticos de uso de IA, a proibição de uso de ferramentas de detecção, por parte dos professores.

Escapadelas e texto "nem tão chocho assim"

Além das características das ferramentas de detecção de IA e de sua utilização, este tipo de solução é cada vez menos factível.

Em primeiro lugar, por que como diz Ethan Mollick, em "Co-intelligence: Living and Working with AI" (Co-Inteligência, Vivendo e Trabalhando com a IA, em tradução livre”, já citado por aqui na newsletter: a concepção que fazemos da IA é da tecnologia da qual dispomos no momento. No futuro, com uma evolução que se mostrou muito rápida, os chatbots tenderão a escrever de forma menos característica.

Realmente, é fato. Quem tem a possibilidade de utilizar os chamados modelos "de fronteira", geralmente limitados às versões premium, pode notar que o texto gerado é de melhor qualidade, parecendo mais "humano", por assim dizer.

O que nos leva ao seguinte ponto: numa visão cínica, o ser humano teria a tendência de realizar o menor trabalho possível e mesmo sentiria satisfação em enganar o "sistema". Assim, sabendo das falhas notáveis do "texto GPT", qualquer pessoa pode editar o texto, suprimindo a adjetivação, as redundâncias e, com certeza, detectando cada aparição da palavra "crucial".

O texto, por sua própria natureza, é maleável, plástico. Inclusive, da mesma forma como existem detectores de texto IA, existem hoje ferramentas de "humanização do texto", para evitar detecção.

Finalmente, somando à qualidade aprimorada dos geradores e ao trabalho de edição e reescrita, sempre cabe a possibilidade de treinamento do modelo no estilo de escrita do usuário. Isto pode ser feito de forma relativamente simples, através de um prompt que fornece textos-exemplo que a IA irá aprender e, logo imitar. Recentemente, o Claude incorporou esta funcionalidade, ou seja, é um recurso que agora faz parte da própria ferramenta.

Então, o que fazer com “texto GPT”?

Não é somente a escrita pela IA, mas toda um conjunto de atividades que vem sendo delegadas e automatizadas pela IA que tornam este tipo de tecnologia tão polêmica. No caso da produção de texto, o que que está na raiz da questão são uma série de questionamentos.

Em que medida estamos "chamando" o autor (seja um aluno, seja um orientando que está escrevendo seu trabalho, seja um companheiro de pesquisa) para que assuma efetivamente a autoria do texto? O quanto estamos prontos ou aceitamos um texto que não seja completamente autoral? Ou que somente atinja, minimamente, seus objetivos de comunicação? Até que ponto toleramos as qualidades do texto "chocho", superficial, genérico?

As respostas para estas perguntas não são fáceis, nem diretas e vão depender muito do contexto de utilização. Nas próximas edições da newsletter vamos abordar a relação do texto "GPT" com o problema da integridade acadêmica, com a possibilidade de detectá-lo e com o uso legítimo da IA para auxiliar e aperfeiçoar o processo de escrita.

Enquanto isso, seria muito enriquecedor escutar de vocês quais são suas preocupações e percepções em relação ao texto gerado por IA. Aguardo contribuições!

Deixe um comentário

IAEdPraxis: Caminhos Inteligentes para a Educação