5,5 milhões de euros: é quanto o Governo português vai investir no desenvolvimento de um LLM “made in Portugal” para responder a um conjunto de desafios que o ChatGPT colocou à soberania das nações desde o seu lançamento, a 30 de novembro de 2022.

Nos últimos dois anos, cada país tem procurado adaptar-se a um mundo em que as tecnologias mais transformadoras da nossa sociedade estão a ser maioritariamente desenvolvidas nos EUA ou na China. Há uma preocupação natural com a forma como os dados de utilizadores estão a ser utilizados, especialmente na Europa, mas também no impacto que chatbots maioritariamente treinados em inglês podem significar para a sobrevivência de milhares de idiomas no mundo inteiro.

Será o português uma língua em risco? Sendo uma das 10 mais faladas no mundo, seria de esperar que tal não acontecesse, mas o contexto português apresenta uma particularidade: a maior parte dos dados disponíveis online para treino de modelos está em Português do Brasil, o que faz com que alguns detalhes da nossa língua fiquem omissos quando utilizamos ferramentas como o ChatGPT ou o Claude da Anthropic (rival da OpenAI).

Quando subiu ao Centre Stage na edição mais recente do Web Summit, Luís Montenegro apresentou o “Amália” (acrónimo de Assistente Multimodal Automático de Linguagem com Inteligência Artificial) como a grande aposta de Portugal para se posicionar em Inteligência Artificial: uma ferramenta multimodal capaz de produzir tanto texto como vídeo em português. No entanto, o projeto continua envolto em algum secretismo.

Além do montante investido através do PRR, o Governo anunciou, em comunicado, que o projeto seguirá uma cronologia que, caso seja respeitada, resultará numa primeira versão beta no final do primeiro trimestre de 2025 e numa versão completa passados 18 meses.

O “Amália” será liderado pela Agência para a Modernização Administrativa e pela FCT – Fundação para a Ciência e a Tecnologia, e desenvolvido por um consórcio de centros de investigação públicos, com a contribuição de algumas organizações privadas. Contudo, ainda subsistem algumas questões sobre o próprio desenvolvimento do projeto, como bem analisou o Expresso neste artigo.

O que estão a fazer outros países?

Esta não é a primeira iniciativa do género em Portugal, mas é a primeira a ter um selo governamental. No último ano, vários estados levantaram questões semelhantes quanto à necessidade de ter um LLM próprio para garantir a sua soberania digital. Eis alguns exemplos:

Japão: lançou o seu modelo Fugaku em 2024 para “proteger” as particularidades da língua japonesa, na qual a tradução inglesa do ChatGPT muitas vezes falha. É uma iniciativa governamental que reuniu a academia e o setor privado, sendo que o nome do modelo tem origem no supercomputador japonês com o mesmo nome, considerado um dos 10 mais avançados do mundo. O sucesso desta iniciativa já levou a que esteja a ser equacionado outro modelo mais complexo para 2031, que poderá representar um investimento superior a 200 milhões de dólares. A aposta em IA por parte do Japão conta com o apoio de duas grandes empresas locais: Fujitsu e Softbank.

Na Europa: os Países Baixos e a Suécia estão também a desenvolver versões próprias do ChatGPT pelo mesmo motivo que o Japão. No caso neerlandês, o modelo chama-se GPT-NL e foi treinado no supercomputador nacional Snellius (localizado na Universidade de Leiden), representando um investimento de 13,5 milhões de euros por parte do Ministério da Economia local. Por outro lado, na casa-mãe de Spotify e IKEA, a iniciativa “Language Model for Swedish Authorities” foi desenvolvida pelo consórcio AI Sweden com financiamento da Agência Sueca para a Inovação (Vinnova), com o objetivo de criar um modelo cujo destinatário era principalmente o setor público. Os principais desafios que as duas nações enfrentam é a base limitada de dados para treinar os modelos e os custos associados na utilização dos supercomputadores.

Alemanha e a França: estão numa liga à parte, com duas grandes empresas neste setor. A Aleph Alpha é considera a campeã alemã para IA, com mais de 500 milhões de dólares em investimento, e desenvolveu uma plataforma tecnológica para criar LLMs que respeitam as diretrizes europeias, podendo ser utilizadas por qualquer governo ou organização. Já a Mistral AI, representante francesa, concorre diretamente com a OpenAI e a Anthropic na produção de modelos de IA, tendo angariado até à data mais de mil milhões de dólares em investimento.

Através destes exemplos, percebe-se por que motivo não há muitos estados a criar o seu próprio ChatGPT. É necessário não só um ecossistema tecnológico robusto, com historial, conhecimento e infraestrutura, como também uma disponibilidade financeira significativa para suportar os custos de um modelo que produza bons resultados.

O “Amália” aborda um problema real, mas será necessária uma boa utilização dos recursos existentes para que um dia se torne uma tecnologia integrada no nosso dia a dia. Em termos de infraestrutura, Portugal já conta com o supercomputador Deucalion, em Guimarães, considerado este ano um dos 500 supercomputadores mais eficientes do mundo. Em termos de ecossistema, será essencial rentabilizar iniciativas como o Center for Responsible AI, que já reúne startups como a Unbabel e a Sword Health, não só com a academia, mas também com o setor empresarial mais tradicional.

