Uma abordagem baseada em IA para a tradução da língua de sinais em linguagem escrita

Por Wesley F. Maia, mestrando no Instituto de Ciências Matemáticas e de Computação da USP, e Sergio A. David, professor da Faculdade de Zootecnia e Engenharia de Alimentos da USP

Escrito por: Wesley F. Maia

Retirado de: Jornal da USP

Acomunicação é a base da interação humana, mas para milhões de pessoas da comunidade surda em todo o mundo, barreiras comunicacionais com os ouvintes ainda são um desafio diário. A língua de sinais (LS) é uma linguagem rica, complexa e visual, com gramática e estrutura próprias, sendo um pilar cultural e de identidade para a comunidade surda. Como a tecnologia — em especial a inteligência artificial (IA) — pode ajudar a construir pontes entre esses dois universos linguísticos?
Em uma pesquisa recente desenvolvida na USP, envolvendo o aluno Wesley F. Maia, vinculado ao mestrado em Matemática, Estatística e Computação Aplicadas à Indústria (Mecai) sediado no Instituto de Ciências Matemáticas e de Computação (ICMC-USP – São Carlos), e o seu orientador Sergio A. David, vinculado ao referido programa e lotado no Departamento de Engenharia de Biossistemas (ZEB) da Faculdade de Zootecnia e Engenharia de Alimentos (FZEA-USP – Pirassununga), em colaboração com António M. Lopes, da Faculdade de Engenharia da Universidade do Porto (Feup – Portugal), propusemos uma nova abordagem para a Tradução de Língua de Sinais para texto (SLT, na sigla em inglês).

Nosso objetivo foi criar um sistema que não fosse apenas preciso, mas também leve e acessível, capaz de rodar em dispositivos com menor capacidade de processamento, como um smartphone. Os resultados são detalhados em artigo publicado na prestigiosa revista científica Neurocomputing (Elsevier).

O grande desafio da tradução automática da LS é que ela vai muito além das mãos. Envolve expressões faciais, movimentos corporais e uma sintaxe espacial. Abordagens tradicionais frequentemente dependem do processamento de vídeos completos, o que exige um imenso poder computacional. Nossa inovação foi pensar diferente: e se, em vez de mostrarmos o vídeo inteiro para a IA, nós a ensinássemos a focar apenas no “esqueleto” do intérprete?

Utilizando uma ferramenta de visão computacional chamada MediaPipe, nosso sistema extrai em tempo real 59 “pontos-chave” do corpo do intérprete. Esses pontos formam uma espécie de esqueleto digital que captura a dinâmica dos braços, mãos, ombros e rosto. Ao focar apenas nesses pontos essenciais, filtramos ruídos visuais e reduzimos drasticamente a quantidade de dados a serem processados, tornando o sistema muito mais eficiente sem sacrificar a informação crucial do gesto.

O processo de tradução ocorre em duas etapas principais, um método que chamamos de Sign2Gloss2Text:

Do Gesto à Glosa (Sign2Gloss): Primeiramente, o modelo de IA analisa a sequência de pontos-chave e a traduz para “glosas”. Glosas são representações textuais simplificadas dos sinais, funcionando como uma espécie de “rascunho técnico” da tradução.

Da Glosa ao Texto (Gloss2Text): Em seguida, esse rascunho em glosas é entregue a um segundo modelo de IA, o Bart, uma arquitetura de Transformer pré-treinada. Esse modelo, especializado em nuances da linguagem, “lapida” o rascunho e o converte em uma sentença gramaticalmente correta e fluente no idioma de destino.

Para testar nosso método, utilizamos dois grandes conjuntos de dados internacionais: o Phoenix14T, com vídeos de previsão do tempo em língua de sinais alemã, e o How2Sign, com vídeos instrucionais em língua de sinais americana. Os resultados foram animadores. No Phoenix14T, nosso modelo alcançou um desempenho competitivo com os modelos mais avançados da área, com a vantagem de usar apenas os pontos-chave, algo que, até onde sabemos, não havia sido feito com esse nível de qualidade.

Por exemplo, em uma das traduções, a referência em alemão era: “heute nacht ist es meist stark bewölkt örtlich regnet oder nieselt es etwas” (Esta noite o tempo fica majoritariamente nublado, com chuva ou garoa local). Nosso modelo gerou: “heute nacht ist es meist stark bewölkt örtlich fällt etwas regen” (Esta noite o tempo fica majoritariamente nublado, com alguma chuva local). Embora não seja idêntica, a tradução preserva perfeitamente o sentido essencial da mensagem.

A tradução direta da LS para o texto, sem o passo intermediário das glosas, mostrou-se mais desafiadora, especialmente no dataset How2Sign, que não possui anotações de glosas. Isso evidencia que, embora a tradução direta seja o objetivo final, a mediação por glosas ainda é uma estratégia robusta e eficaz.

Nosso estudo demonstra o grande potencial do uso de pontos-chave para criar sistemas de tradução de línguas de sinais mais eficientes e acessíveis. O caminho à frente envolve refinar o modelo para capturar ainda mais nuances, como expressões faciais detalhadas, e, fundamentalmente, incluir a avaliação de intérpretes profissionais e membros da comunidade surda no processo de desenvolvimento.

A tecnologia não substitui a riqueza da interação humana e a sensibilidade do trabalho insubstituível dos intérpretes, mas pode servir como uma poderosa ferramenta de apoio, promovendo maior inclusão e quebrando barreiras de comunicação em um mundo cada vez mais conectado.

Leia Também: