Tradução automática funciona?
A tradução automatizada está em todos os lugares. Sítios da Internet, plataformas digitais e jogos podem oferecer traduções geradas automaticamente para os mais diversos idiomas, servindo-se de uma tecnologia que vem evoluindo rapidamente nos últimos tempos. A possibilidade de se conversar com máquinas, à maneira da mais exorbitante ficção científica, também vem se concretizando, e muitos somos forçados à tertúlia com robôs excessivamente adocicados mas faltos em empatia interpretativa nos aplicativos de lojas.
Esses e outros (na falta de termo melhor) avanços fazem-nos perguntar: é possível que tarefas altamente especializadas, que requerem domínio intelectual, sejam inteiramente automatizadas? Se delimitarmos o escopo da pergunta, levando em consideração não só a tradução, mas a tradução de textos que são, eles mesmos, frutos de especialização intelectual, poderíamos perguntar: um texto acadêmico, científico ou técnico poderia ser traduzido de forma inteiramente automatizada?
Existem duas respostas: a primeira é não; a segunda, pra quê? O que segue procura detalhar cada uma dessas respostas, com base em minha análise do funcionamento desse tipo de tradução.
Não
A inteligência artificial por trás das traduções automáticas funciona com base na análise mecânica de bancos de dados gigantescos, contendo textos autênticos (ou seja, produzidos por seres humanos); no caso da tradução, estes bancos de dados têm de ser pareados, um deles contendo textos-fonte numa língua x e o outro de seus textos-meta equivalentes em língua y. A análise contrastiva gerará, quando instada, seqüências lingüísticas com base na probabilidade de co-ocorrência de itens lexicais. Não existe inteligência nem real, nem artificial, apenas simulada. Tem-se a impressão de que uma seqüência de fala foi gerada exatamente como a geraria um ser humano, mas não existe nem intenção comunicativa nem real processamento de linguagem. Como destoa da geração autêntica da cadeia de fala, essa inteligência ainda patina para reconstruir todas as nuances do pensamento humano.
Um dispositivo que transcreve um texto ditado ou gera tradução escrita a partir da fala (como no caso das legendas automáticas) opera, inicialmente, pelo reconhecimento de entidades discretas: a cadeia de fala é analisada som a som, e, quando uma correspondência imediata não é possível, buscam-se aproximações—estas baseadas na co-ocorrência em bancos de dados. Ora, qualquer um que já haja tentando usar as legendas automáticas de um vídeo já viu os erros enormes que geral, especialmente em termos-chave—importantíssimos num campo de conhecimento, mas raros na fala, portanto ausentes de bancos de dados. A inteligência artificial não infere com base em sentidos, co-texto ou contexto, nem busca dados externos aos bancos de que dispõe. Seus erros poderão parecer poucos, mas são, muitas vezes, centrais, errando onde um redator, revisor ou tradutor humano jamais erraria.
A centralidade dos erros aponta uma segunda distinção importante entre a tradução humana e a automatizada: interpretar sempre será gerar ênfases. Na cadeia de fala, existem itens centrais, norteadores do pensamento e do discurso, e secundários, conectores das estruturas sentencial ou argumentativa. Um receptor humano consegue não só compreender onde estão as ênfases pretendidas pelo emissor, mas destoar delas, gerando as próprias. Num relatório sobre saneamento básico municipal, por exemplo, um leitor pode muito bem se ater aos dados demográficos das populações ou aos custos projetados, independentemente do objetivo do relatório; pode mesmo se ater a dados ausentes. Devido ao modo como a língua sintetizada por robôs opera, não existem ênfases, pois não há interpretação. Por isso, os erros que comete podem ser justamente nos trechos mais relevantes: porque aquilo que é central para uma área de conhecimento não será percebido como tal pela máquina, que não dispõe nem de cognição interpretativa nem do automonitoramento necessário para saber quando precisa exceder os limites de seu repertório, buscando alternativas fora dele.
Falar em automonitoramento nos traz ao terceiro item que nega a possibilidade de uma tradução automática ser suficiente para um texto complexo e especializado: escrever, revisar e traduzir são processos recursivos, não-lineares. A rigor, nenhum elemento de um texto que se escreve, revisa ou traduz está finalizado enquanto o texto inteiro não for considerado pronto. Cada elemento novo pode nos obrigar a revisitar e repensar elementos vistos anteriormente. Qualquer um que haja ditado para um processador de textos (faço-o freqüentemente quando meu teclado está com dor nas juntas) já viu o processador se corrigir, gerando uma palavra para, em seguida, trocá-la; sem dúvida, existe ali recursividade, mas nem de longe chega ao nível da recursividade humana, pois se decide por um termo ou outro com base apenas no co-texto imediato ou na freqüência de uso, sendo muito limitada em escopo. Aliás, é comum que essa ferramenta corrija a palavra correta, trocando-a por outra inteiramente alheia, e existem coisas que essa geração por fala simplesmente nunca acerta. Erros humanos são interpretativamente mais gentis que a grosseria lexical desses processadores.
Pra quê?
Mesmo que decidamos nos arriscar com a tradução automática de textos acadêmicos, científicos ou técnicos, a ausência de um automonitoramento eficaz nos mostra que tal tradução deverá ser suplementada por processos cognitivos e decisórios humanos. Se a legenda foi gerada erroneamente, cabe a um revisor humano corrigi-la; se o ditado ou a tradução resvalam onde é central, caberá a um tradutor humano a reparação dos erros.
Atualmente, estamos demasiadamente acostumados a traduções quase boas geradas em jogos e aplicativos; fomos tolerantes com os erros iniciais, achando-os divertidos, e hoje talvez estejamos anestesiados, aceitando como traduções passáveis vários erros toscos, fazendo nós mesmos, como leitores, o trabalho que antes esperaríamos de quem nos escreve ou traduz (nisso, o subnivelamento da qualidade não difere de outras automatizações com as quais convivemos: automatizar sempre gera produtos e serviços piores, e não raro nos faz trabalhar no lugar do produtor). Como se trata de textos não-especializados, as bases de dados são mais robustas, e pode ser mesmo que muito pouca gente utilize a ferramenta—quem consome conteúdo de perfis em inglês no Instagram, por exemplo, provavelmente chegou a eles porque sabe a língua, e pode ser verdadeiramente raro que alguém precise lançar mão dessa tradução. Mas textos complexos precisam de um grau maior de precisão, e tais deslizes não são aceitáveis, especialmente porque tendem a ser centrais.
A tradução automática não depende das decisões humanas somente para revisar seus lapsos; na verdade, toda ela é puramente parasitária, e depende da autenticidade textual e cognitiva humana antes e depois de ocorrer: antes, pois, como ficou dito acima, os bancos de dados que usa são de textos autênticos; depois, pois a decisão final sempre deverá ser de um ser humano—seja do revisor ou tradutor realizando pós-edição, seja do leitor, suplementando interpretativamente os lapsos, e fazendo o trabalho que a máquina deixou de fazer.
Isso implica dizer que a tradução automática não é verdadeiramente inteligente: é tão somente uma saqueadora do trabalho legítimo feito por seres humanos, que usa sua produção para se aprimorar, ao mesmo tempo que ameaça seus empregos e achata seus vencimentos. Ora, trabalho acadêmico autêntico é um assunto demasiadamente humano, com todas as vantagens e desvatangens que isso traz. A máquina pode realizar cálculos complexos e gerar dados para o pesquisador, mas cabe a este alimentá-la com dados relevantes no início (ou seja: selecioná-los, coletá-los, organizá-los) e interpretar o resultado final gerado pelo computador. São os extremos do processo, realizados por seres humanos, que garantem a confiabilidade e a falseabilidade da pesquisa científica, não a matemática fria realizada por uma aparelho.
A tradução de textos acadêmicos, científicos e técnicos também é um procedimento interpretativo humano, que deve, idealmente, ser realizada em diálogo entre os produtores (os cientistas) e o mediador (o tradutor). Jogar num aplicativo e cruzar os dedos seria arriscadíssimo, para não dizer falto em honestidade e rigor intelectual.
A tradução automática não corta o intermediário: invizibiliza-o, reciclando seu trabalho e empurrando-o para debaixo do tapete. Infelizmente, sua característica mais humana não é a inteligência, mas a canalhice.