Em 2022, a Google tinha adicionado 24 novos idiomas utilizando a tradução automática ‘zero-shot’, onde um modelo de aprendizagem de máquina aprende a traduzir para outro idioma sem nunca ver um exemplo e anunciou “a Iniciativa 1.000 Línguas, um compromisso para construir modelos de IA [inteligência artificial] que vão oferecer suporte aos 1.000 idiomas mais falados no mundo”, recorda a Google.
“Agora, estamos a usar a IA para expandir a variedade de idiomas suportados” e, “graças ao nosso grande modelo de linguagem PaLM 2, estamos a começar a implementar 110 novos idiomas no Google Tradutor, a nossa maior expansão de todos os tempos, incluindo o português de Portugal”, refere, numa publicação ‘online’.
Ou seja, o Google Tradutor vai passar a distinguir as variantes do português (Portugal versus Brasil).
“Do cantonês ao Q’eqchi’, estas novas línguas representam mais de 614 milhões de falantes, permitindo traduções para cerca de 8% da população mundial”, refere a Google.
Cerca de um quarto das novas línguas “são de África e representam a nossa maior expansão de línguas africanas até à data, incluindo Fon, Kikongo, Luo, Ga, Swati, Venda e Wolof”, adianta.
Entre os idiomas que agora passam a ser suportados no Google Tradutor estão o afar, uma língua tonal falada no Djibouti, Eritreia e Etiópia. “De todos os idiomas neste lançamento, afar teve o maior número de contribuições voluntárias da comunidade”, sublinha.
Depois, o cantonês, que era há muito “um dos idiomas mais solicitados no Google Tradutor”, prossegue.
Outros exemplos são o manx, língua celta da Ilha de Man, que foi quase extinta com a morte do seu último falante nativo em 1974, mas “graças a um movimento de renascimento em toda a ilha, existem agora milhares de falantes”, e o nko, uma forma padronizada das línguas Manding da África Ocidental que unifica muitos dialetos numa língua comum.
“O seu alfabeto único foi inventado em 1949 e possui uma comunidade de pesquisa ativa que hoje desenvolve recursos e tecnologia para ele”, refere a Google, na sua publicação.
Há ainda o punjabi (Shahmukhi), variedade do punjabi escrito na escrita perso-árabe (Shahmukhi) e é a língua mais falada no Paquistão, o tamazight, língua berbere falada no Norte da África, e o tok pisin, um “crioulo de origem inglesa e a língua franca da Papua Nova Guiné”.
As línguas “têm uma imensa variação: variedades regionais, dialetos, diferentes padrões ortográficos” e, na verdade, “muitos idiomas não possuem um formato padrão, por isso é impossível escolher a variedade ‘certa'”.
Mas “a nossa abordagem tem sido priorizar as variedades mais usadas comummente em cada idioma”, adianta.
“O PaLM 2 foi uma peça-chave neste puzzle, ajudando o Tradutor a aprender com mais eficiência idiomas intimamente relacionados entre si, incluindo idiomas próximos do hindi, como awadhi e marwadi, e os crioulos franceses, como o crioulo das Seicheles e o crioulo das Maurícias”, explica.
E à medida que a tecnologia evoluiu “e continuamos a fazer parcerias com linguistas especializados e falantes nativos, apoiaremos, ao longo do tempo, ainda mais variedades linguísticas e convenções ortográficas”.
Comentários