Em declarações à Lusa, Cristina Ribeiro, investigadora do Centro de Sistemas de Informação e de Computação Gráfica (CSIG) do INESC TEC e responsável pelo projeto, adiantou hoje que a ideia surgiu da necessidade que “os arquivos sentem de expor o seu acervo de forma mais moderna”.

O projeto, designado EPISA – Entity and Property Inference for Semantic Archives, vai ser lançado em janeiro e visa, a partir da análise de 20 milhões de representações digitais e de documentação analógica que existem no Arquivo Nacional da Torre do Tombo (ANTT), entidade responsável por preservar todos os documentos do Estado Português, produzir “novas representações”.

“Uma das faces deste projeto é facilitar o acesso aos cidadãos e a outra é a incorporação, isto porque os arquivos têm também como missão fazer memória da administração pública”, esclareceu Cristina Ribeiro, também docente na Faculdade de Engenharia da Universidade do Porto (FEUP).

Através de métodos como o processamento de linguagem, o reconhecimento de entidades e a aprendizagem automática, a equipa de investigadores do INESC TEC pretende, nos próximos três anos, “transformar as descrições existentes em representações mais sofisticadas e mais semânticas”.

“Queremos que uma máquina reconheça uma descrição e que a relacione com outro documento, isto é, queremos produzir representações que favoreçam a ligação dos dados do arquivo que estão muito fechadas na sua concha, e, assim, possibilitarmos não só a pesquisa por termo, mas por representações mais gráficas”, frisou.

Segundo Cristina Ribeiro, apesar da presença online dos arquivos nacionais “ser forte”, e de vários documentos estarem acessíveis e digitalizados, a equipa vai enfrentar alguns “desafios”.

“Vamos produzir algumas pontes que são necessárias entre os documentos, mas vamos ter alguns desafios, especialmente porque muita dessa informação está em texto corrido e as descrições mencionam lugares, eventos e datas”, acrescentou.

O projeto EPISA, que conta com a colaboração da Universidade de Évora e da Direção Geral do Livro, dos Arquivos e das Bibliotecas (DGLAB), é um dos 15 projetos aprovados no concurso de Investigação Científica e Desenvolvimento Tecnológico em Ciência de Dados e Inteligência Artificial na Administração Pública, uma iniciativa da Fundação para a Ciência e Tecnologia (FCT) que junta o Ministério da Ciência, Tecnologia e Ensino Superior e o Ministério da Modernização Administrativa.