Gemini: como funciona nova IA do Google e quais as diferenças para GPT-4?

Nesta quarta-feira (6), o Google apresentou o Gemini, o seu novo modelo de linguagem grande (LLM) para a chamada IA generativa, que será integrado ao Bard. Com a novidade, a gigante de Mountain View acirra a concorrência com a OpenAI – criadora do ChatGPT – neste segmento.

Mas como será que a nova ferramenta de Inteligência Artificial funciona? Quais são as características e como ela se diferencia do que podemos encontrar no GPT-4, por exemplo? O Detetive TudoCelular vai aprofundar o assunto para você.

Google anuncia Gemini, seu novo modelo de inteligência artificial que será integrado ao Bard 5

Tech 06 Dez

Google adia lançamento do modelo de inteligência artificial Gemini para 2024 2

Economia e mercado 04 Dez

Entenda o Gemini

O Gemini 1.0 consiste em um modelo multimodal de aprendizado de máquina, com capacidade de entender, generalizar e combinar vários tipos de informações. Em outras palavras, você é capaz de inserir texto, código, imagem, áudio e vídeo na ferramenta.

Diferente de outros sistemas unimodal convencionais, o Gemini tem como foco o processamento de múltiplos formatos de entrada sensorial ao mesmo tempo. A intenção é que ele “imite” a maneira de percepção de um cérebro humano.

Esse tipo de abordagem busca utilizar uma série de sensores ao mesmo tempo na hora de analisar os dados recebidos, a fim de compreender as informações inseridas com uma abrangência maior.

Três versões, três tipos de uso

O Google disponibilizou três “tamanhos” do seu novo modelo de linguagem grande, para casos de uso bastante distintos. Essas versões receberam os nomes de Gemini Ultra, Gemini Pro e Gemini Nano.

Gemini Nano

Começando pelo Nano, este tende a ser o mais popular do trio. Isso porque ele está confirmado para o celular Pixel 8 Pro e deverá rodar offline em celulares equipados com o sistema operacional Android, bem como outros dispositivos.

Na prática, a IA será acessível pela nova seção AICore, com a possibilidade de os desenvolvedores explorarem a capacidade dela para treinamentos adicionais. Já no Pixel 8 Pro, o Gemini Nano fornecerá resumos em texto de conversas em áudio, pelo app Recorder, e dará sugestão de respostas de alta qualidade, no Gboard pelo Smart Reply.

Gemini Pro

Por sua vez, o Gemini Pro estará ligado diretamente à versão atual do Bard, em mais de 170 regiões e territórios. Ele será aproveitado para a realização de tarefas, tais quais raciocínio e planejamento, com disponibilidade imediata apenas em inglês e futura ampliação para outros idiomas.

Os desenvolvedores e os clientes corporativos também terão acesso à versão Pro, a partir do dia 13 de dezembro, pela API Gemini, no Google AI Studio ou no Google Cloud Vertex AI.

Gemini Ultra

Por último, o Gemini Ultra tem a maior capacidade do trio e contará com a função principal para tarefas de alta complexidade, que vão desde codificação até solução de problemas matemáticos.

A intenção desta variante mais sofisticada é equipar o futuro “Bard Advanced”, uma edição do chatbot em desenvolvimento, a qual terá recursos mais avançados de raciocínio e outras ações.

Para este primeiro momento, o Ultra poderá ser acessado apenas por desenvolvedores, parceiros, especialistas em segurança e outros clientes selecionados, a fim de testes iniciais e feedback, antes da disponibilidade a clientes corporativos no começo de 2024.

Evolução na área

Como já falamos, o novo LLM do Google é capaz de interagir, processar e responder não somente com textos, de maneira mais natural que outros modelos apresentados anteriormente. O treinamento seria feito por meio de um conjunto massivo de dados que combina texto, códigos, livros, áudio, vídeo e imagem.

Na prática, a IA passa a ter detalhes mais recentes e a capacidade de oferecer maior precisão e confiabilidade nas respostas. Assim como analisar situações mais complexas e com sentido profundo.

Imagem: Divulgação / Google

Veja acima um exemplo divulgado pelo Google, no qual a ferramenta analisa três imagens combinadas com uma pergunta em texto e entende que aqueles gestos simbolizam o jogo de “pedra, papel e tesoura”.

O Google também chegou a divulgar um vídeo de hands-on com interações com a IA multimodal alimentada pelo Gemini, com uma série de diferentes questionamentos e respostas que indicam uma compreensão correta sobre o que significa, se está na ordem errada ou qual modelo de carro desenhado seria mais rápido, por exemplo.

Também dá para ter uma noção do funcionamento do Gemini quando a fonte de informações é um vídeo e como a Inteligência Artificial tem capacidade de avaliar os detalhes em tempo real.

Especialistas esperam que, para o futuro, o Gemini consiga revolucionar a área científica, ao facilitar avanços em áreas diversas, como tecnologia e medicina.

Gemini vs GPT-4

Mesmo dentro do mesmo segmento, há distinções entre os concorrentes de LLM. A principal delas está na forma em que age de maneira multimodal. Enquanto o Gemini faz isso de maneira nativa, o GPT-4 depende de plugins e outras integrações para se tornar mais completo.

Afinal, o Gemini é capaz de superar o novo GPT-4, da OpenAI? É importante separar cada versão da novidade do Google para fazer a comparação. O Gemini Ultra chegou a realizar o feito de passar o rival em 30 de 32 benchmarks acadêmicos populares.

Especificamente em raciocínio, a ferramenta do Google superou a da OpenAi em indicadores como Big-Bench Hard e DROP. Já em matemática, venceu em GSM8K e MATH. Houve também uma vitória ao Ultra na geração de código Python. O GPT-4, por sua vez, levou a melhor no HellaSwag, que analisa raciocínio de senso comum.

Já o Gemini Pro rivaliza com o GPT-3.5. E mesmo assim, o LLM da gigante de Mountain View conseguiu ganhar em seis de oito benchmarks, o que o coloca como o chatbot de IA gratuito mais poderoso já criado até o momento.

Quais são as suas expectativas para a nova Inteligência Artificial do Google? Acredita que ela vai superar na prática o concorrente da OpenAI? Participe conosco!

Curtir - 0 Tweet - 1 0

Rafael Barbosa