slots igre
online casino play casino games
juwa 777 login download
Online Bonus Hunt Slots Bonus Compilation
Casino Cups React To Videos 3
Mylyfe Cbd Gummies Reviews
Does Vomiting Cause Weight Loss Can I Lose Weight By Vomiting I Threw Up
Keto Melt Shark Tank Does It Work
Eating Healthy And Exercising But Not Losing Weight Here Is Why
Ketogenic Diet 101 The Fastest Weight Loss Diet Details Benefits Results Beerbiceps Health
Help Her Lose Weight Song Tseries Newsong Gaming Brainoutsolution Brainout Games Brainoutvid
Harmony Leaf Cbd Gummies For Ed A Review
Penguin Cbd Gummies For Ed Reviews Insights From Users
novo online casino
free wizard of oz slots

Uma abordagem baseada em IA para a tradução da língua de sinais em linguagem escrita

Por Wesley F. Maia, mestrando no Instituto de Ciências Matemáticas e de Computação da USP, e Sergio A. David, professor da Faculdade de Zootecnia e Engenharia de Alimentos da USP

Escrito por: Wesley F. Maia

Retirado de: Jornal da USP

Acomunicação é a base da interação humana, mas para milhões de pessoas da comunidade surda em todo o mundo, barreiras comunicacionais com os ouvintes ainda são um desafio diário. A língua de sinais (LS) é uma linguagem rica, complexa e visual, com gramática e estrutura próprias, sendo um pilar cultural e de identidade para a comunidade surda. Como a tecnologia — em especial a inteligência artificial (IA) — pode ajudar a construir pontes entre esses dois universos linguísticos?
Em uma pesquisa recente desenvolvida na USP, envolvendo o aluno Wesley F. Maia, vinculado ao mestrado em Matemática, Estatística e Computação Aplicadas à Indústria (Mecai) sediado no Instituto de Ciências Matemáticas e de Computação (ICMC-USP – São Carlos), e o seu orientador Sergio A. David, vinculado ao referido programa e lotado no Departamento de Engenharia de Biossistemas (ZEB) da Faculdade de Zootecnia e Engenharia de Alimentos (FZEA-USP – Pirassununga), em colaboração com António M. Lopes, da Faculdade de Engenharia da Universidade do Porto (Feup – Portugal), propusemos uma nova abordagem para a Tradução de Língua de Sinais para texto (SLT, na sigla em inglês).

Nosso objetivo foi criar um sistema que não fosse apenas preciso, mas também leve e acessível, capaz de rodar em dispositivos com menor capacidade de processamento, como um smartphone. Os resultados são detalhados em artigo publicado na prestigiosa revista científica Neurocomputing (Elsevier).

O grande desafio da tradução automática da LS é que ela vai muito além das mãos. Envolve expressões faciais, movimentos corporais e uma sintaxe espacial. Abordagens tradicionais frequentemente dependem do processamento de vídeos completos, o que exige um imenso poder computacional. Nossa inovação foi pensar diferente: e se, em vez de mostrarmos o vídeo inteiro para a IA, nós a ensinássemos a focar apenas no “esqueleto” do intérprete?

Utilizando uma ferramenta de visão computacional chamada MediaPipe, nosso sistema extrai em tempo real 59 “pontos-chave” do corpo do intérprete. Esses pontos formam uma espécie de esqueleto digital que captura a dinâmica dos braços, mãos, ombros e rosto. Ao focar apenas nesses pontos essenciais, filtramos ruídos visuais e reduzimos drasticamente a quantidade de dados a serem processados, tornando o sistema muito mais eficiente sem sacrificar a informação crucial do gesto.

O processo de tradução ocorre em duas etapas principais, um método que chamamos de Sign2Gloss2Text:

Do Gesto à Glosa (Sign2Gloss): Primeiramente, o modelo de IA analisa a sequência de pontos-chave e a traduz para “glosas”. Glosas são representações textuais simplificadas dos sinais, funcionando como uma espécie de “rascunho técnico” da tradução.

Da Glosa ao Texto (Gloss2Text): Em seguida, esse rascunho em glosas é entregue a um segundo modelo de IA, o Bart, uma arquitetura de Transformer pré-treinada. Esse modelo, especializado em nuances da linguagem, “lapida” o rascunho e o converte em uma sentença gramaticalmente correta e fluente no idioma de destino.

Para testar nosso método, utilizamos dois grandes conjuntos de dados internacionais: o Phoenix14T, com vídeos de previsão do tempo em língua de sinais alemã, e o How2Sign, com vídeos instrucionais em língua de sinais americana. Os resultados foram animadores. No Phoenix14T, nosso modelo alcançou um desempenho competitivo com os modelos mais avançados da área, com a vantagem de usar apenas os pontos-chave, algo que, até onde sabemos, não havia sido feito com esse nível de qualidade.

Por exemplo, em uma das traduções, a referência em alemão era: “heute nacht ist es meist stark bewölkt örtlich regnet oder nieselt es etwas” (Esta noite o tempo fica majoritariamente nublado, com chuva ou garoa local). Nosso modelo gerou: “heute nacht ist es meist stark bewölkt örtlich fällt etwas regen” (Esta noite o tempo fica majoritariamente nublado, com alguma chuva local). Embora não seja idêntica, a tradução preserva perfeitamente o sentido essencial da mensagem.

A tradução direta da LS para o texto, sem o passo intermediário das glosas, mostrou-se mais desafiadora, especialmente no dataset How2Sign, que não possui anotações de glosas. Isso evidencia que, embora a tradução direta seja o objetivo final, a mediação por glosas ainda é uma estratégia robusta e eficaz.

Nosso estudo demonstra o grande potencial do uso de pontos-chave para criar sistemas de tradução de línguas de sinais mais eficientes e acessíveis. O caminho à frente envolve refinar o modelo para capturar ainda mais nuances, como expressões faciais detalhadas, e, fundamentalmente, incluir a avaliação de intérpretes profissionais e membros da comunidade surda no processo de desenvolvimento.

A tecnologia não substitui a riqueza da interação humana e a sensibilidade do trabalho insubstituível dos intérpretes, mas pode servir como uma poderosa ferramenta de apoio, promovendo maior inclusão e quebrando barreiras de comunicação em um mundo cada vez mais conectado.

Leia Também:

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Pular para o conteúdo