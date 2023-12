Depois de ter declarado "code red" há sensivelmente um ano e após vários meses de antecipação, a Google levantou o véu e mostrou algumas cartas com que vai a jogo nos próximos anos no "Campeonato IA". Por outras palavras, a empresa anunciou o seu "maior" e "mais capaz" modelo (LLM) de inteligência artificial até à data: o Gemini.

Como explica a Google numa publicação no seu Blog, assinado por Demis Hassabis, CEO e Co-Founder da Google DeepMind, o Gemini é diferente da concorrência porque foi construído de raiz para ser multimodal. Ou seja, o modelo consegue generalizar e compreender, operar e combinar diferentes tipos de informações, incluindo texto, imagens, áudio, vídeo e código.

As diferenças para a OpenAI. A startup apoiada pela Microsoft optou por uma estratégia diferente, sem ser multimodal, e treinou três modelos com finalidades distintas: o ChatGPT, um chatbot que a este ponto quase já dispensa apresentações, trabalha o texto e código; o DALL-E cria imagens atrás de texto; e o Whisper, que é um sistema de reconhecimento automático de voz, permite fazer traduções e transcrições. Como não é multimodal, para tirar máximo proveito dos modelos, o recomendável será pedir ao ChatGPT para criar as prompts e colocar os resultados no DALL-E, por exemplo. Com o Gemini, a Google quer saltar este passo ao colocar todas estas funcionalidades "no mesmo saco".

Vem em três tamanhos

A geração Gemini 1.0, a primeira do modelo, que só está disponível nesta primeira fase em inglês, vai ter três tamanhos:

Gemini Ultra — é o maior e mais poderoso e foi concebido para lidar com tarefas altamente complexas. Está pensado para data centers e para a criação de aplicações mais robustas e a uma escala corporativa (só fica disponível no início de 2024);

Na publicação do Blog, Sundar Pichai assegura ainda que o modelo acabará por ser integrado no motor de busca da Google, nos seus produtos de publicidade (anúncios) e no navegador Chrome. No fundo, o Gemini vai estar em todo o lado.

O lançamento por fases

Apesar do anúncio das três "gamas", nem todos os produtos vão ficar disponíveis no imediato. Por ora, o Bard já está a ser turbinado pelo Gemini Pro e os donos do Pixel 8 Pro podem esperar algumas novidades graças ao Gemini Nano (i.e, a Google quer tornar o dispositivo mais inteligente e mais rápido sem necessitar de uma ligação à Internet). Mas o Gemini Ultra só estará disponível no próximo ano.

Na essência, em resumo:

No caso do Bard , o chatbot já está a ser alimentado pelo Gemini Pro de modo a melhorar as suas capacidades a nível do processo de cálculo, planeamento, compreensão e outras capacidades. No entanto, só a partir do início do próximo ano, já em modo "Bard Advanced", é que vai contar com a potência do Gemini Ultra — naquele que será efetivamente o maior update à data.

Rentabilização

Como nota a CNBC, o anúncio da semana passada surge numa altura em que a pressão dos investidores sobre a Google aumenta. Nomeadamente, a pressão de como a empresa pretende rentabilizar os seus produtos à boleia da inteligência artificial — pois é certamente difícil ver as rivais a lançar produtos e a fazer estimativas chorudas com uma tecnologia que a Google tem vindo a desenvolver e a investir há uma década. Contudo, Demis Hassabis acalmou um pouco os ânimos e explicou que:

A partir de 13 de dezembro, os programadores e empresas vão poder aceder ao Gemini Pro através da API Gemini no Google AI Studio ou na Google Cloud Vertex AI. Assim como os programadores Android poderão também desenvolver aplicações com o Gemini Nano, via AICore, uma nova capacidade de sistema disponível no Android 14, a começar nos dispositivos Pixel 8 Pro.

A pensar especificamente nas necessidades das empresas, a CNBC detalha que estas podem recorrer ao Gemini para um serviço de apoio ao cliente mais avançado através de chatbots e recomendações de produtos. No marketing, o Gemini também pode ser utilizado para a criação de conteúdos para campanhas ou blogues. A nível de produtividade, o Gemini é capaz de resumir reuniões online ou gerar código para programadores.

Novidades… com meses de atraso?

As contas não são difíceis de fazer: a divulgação do Gemini Pro surge oito meses depois de ter lançado o Bard e um ano depois de a OpenAI ter lançado o ChatGPT no GPT-3.5 (na verdade a startup liderada por Sam Altman até já lançou o GPT-4 em março). E este dado é relevante porque representantes da Google disseram na terça-feira passada à imprensa que o Gemini Pro superou o GPT-3.5, embora segundo a CNBC, fossem esquivos quando se fizeram perguntas mediante o seu comportamento versus o GPT-4.

De acordo com um relatório técnico revelado pela Google, o modelo Ultra do Gemini superou o GPT-4 em muitos benchmarks. O feito foi prontamente enaltecido na publicação de apresentação do modelo, que além de revelar evidência de superioridade através de comparações e números lado a lado em duas imagens, salienta que o Ultra é "especialmente bom para explicar o raciocínio em assuntos complexos, como a matemática e a física".

E com base nos vídeos publicados nos últimos dias no YouTube, é possível ver que o Gemini tem potencial para ser craque a adivinhar filmes, consegue perceber palavras com sotaques diferentes, ou até consegue dizer a quantidade de luz que uma planta precisa apenas com uma imagem, entre outras coisas.

A questão que fica agora no ar, como salienta uma colunista da Bloomberg, é: em muitos benchmarks, o Gemini Ultra bateu o modelo GPT-4 da OpenAI por apenas alguns pontos percentuais. Ou seja, o modelo de IA de topo da Google, que ainda não foi lançado, apesar de impressionar, em alguns aspectos conseguiu apenas pequenas melhorias em relação a algo que a OpenAI disponibilizou há vários meses (em março).

O tumulto vivido na empresa liderada por Sam Altman nos últimos tempos atrasou alguns lançamentos como a GPT Store (um dos grandes momentos do OpenAI DevDay), mas as expectativas em torno dos futuros produtos não podiam ser maiores. Em 2024, seja com o modelo GPT 4.5 / 5 ou com outras novidades, com o regresso de Altman, é quase certo que a OpenAI não ficará sem dar algum tipo de resposta. E quando isso acontecer, com margens de superioridade tão magras, será que o Ultra ainda conseguirá competir?