Tech 06 Dez
Nesta quarta-feira (6), o Google apresentou o Gemini, o seu novo modelo de linguagem grande (LLM) para a chamada IA generativa, que será integrado ao Bard. Com a novidade, a gigante de Mountain View acirra a concorrência com a OpenAI – criadora do ChatGPT – neste segmento.
Mas como será que a nova ferramenta de Inteligência Artificial funciona? Quais são as características e como ela se diferencia do que podemos encontrar no GPT-4, por exemplo? O Detetive TudoCelular vai aprofundar o assunto para você.
O Gemini 1.0 consiste em um modelo multimodal de aprendizado de máquina, com capacidade de entender, generalizar e combinar vários tipos de informações. Em outras palavras, você é capaz de inserir texto, código, imagem, áudio e vídeo na ferramenta.
Diferente de outros sistemas unimodal convencionais, o Gemini tem como foco o processamento de múltiplos formatos de entrada sensorial ao mesmo tempo. A intenção é que ele “imite” a maneira de percepção de um cérebro humano.
Esse tipo de abordagem busca utilizar uma série de sensores ao mesmo tempo na hora de analisar os dados recebidos, a fim de compreender as informações inseridas com uma abrangência maior.
O Google disponibilizou três “tamanhos” do seu novo modelo de linguagem grande, para casos de uso bastante distintos. Essas versões receberam os nomes de Gemini Ultra, Gemini Pro e Gemini Nano.
Gemini Nano
Começando pelo Nano, este tende a ser o mais popular do trio. Isso porque ele está confirmado para o celular Pixel 8 Pro e deverá rodar offline em celulares equipados com o sistema operacional Android, bem como outros dispositivos.
Na prática, a IA será acessível pela nova seção AICore, com a possibilidade de os desenvolvedores explorarem a capacidade dela para treinamentos adicionais. Já no Pixel 8 Pro, o Gemini Nano fornecerá resumos em texto de conversas em áudio, pelo app Recorder, e dará sugestão de respostas de alta qualidade, no Gboard pelo Smart Reply.
Gemini Pro
Por sua vez, o Gemini Pro estará ligado diretamente à versão atual do Bard, em mais de 170 regiões e territórios. Ele será aproveitado para a realização de tarefas, tais quais raciocínio e planejamento, com disponibilidade imediata apenas em inglês e futura ampliação para outros idiomas.
Os desenvolvedores e os clientes corporativos também terão acesso à versão Pro, a partir do dia 13 de dezembro, pela API Gemini, no Google AI Studio ou no Google Cloud Vertex AI.
Gemini Ultra
Por último, o Gemini Ultra tem a maior capacidade do trio e contará com a função principal para tarefas de alta complexidade, que vão desde codificação até solução de problemas matemáticos.
A intenção desta variante mais sofisticada é equipar o futuro “Bard Advanced”, uma edição do chatbot em desenvolvimento, a qual terá recursos mais avançados de raciocínio e outras ações.
Para este primeiro momento, o Ultra poderá ser acessado apenas por desenvolvedores, parceiros, especialistas em segurança e outros clientes selecionados, a fim de testes iniciais e feedback, antes da disponibilidade a clientes corporativos no começo de 2024.
Como já falamos, o novo LLM do Google é capaz de interagir, processar e responder não somente com textos, de maneira mais natural que outros modelos apresentados anteriormente. O treinamento seria feito por meio de um conjunto massivo de dados que combina texto, códigos, livros, áudio, vídeo e imagem.
Na prática, a IA passa a ter detalhes mais recentes e a capacidade de oferecer maior precisão e confiabilidade nas respostas. Assim como analisar situações mais complexas e com sentido profundo.
Veja acima um exemplo divulgado pelo Google, no qual a ferramenta analisa três imagens combinadas com uma pergunta em texto e entende que aqueles gestos simbolizam o jogo de “pedra, papel e tesoura”.
O Google também chegou a divulgar um vídeo de hands-on com interações com a IA multimodal alimentada pelo Gemini, com uma série de diferentes questionamentos e respostas que indicam uma compreensão correta sobre o que significa, se está na ordem errada ou qual modelo de carro desenhado seria mais rápido, por exemplo.
Também dá para ter uma noção do funcionamento do Gemini quando a fonte de informações é um vídeo e como a Inteligência Artificial tem capacidade de avaliar os detalhes em tempo real.
Especialistas esperam que, para o futuro, o Gemini consiga revolucionar a área científica, ao facilitar avanços em áreas diversas, como tecnologia e medicina.
Mesmo dentro do mesmo segmento, há distinções entre os concorrentes de LLM. A principal delas está na forma em que age de maneira multimodal. Enquanto o Gemini faz isso de maneira nativa, o GPT-4 depende de plugins e outras integrações para se tornar mais completo.
Afinal, o Gemini é capaz de superar o novo GPT-4, da OpenAI? É importante separar cada versão da novidade do Google para fazer a comparação. O Gemini Ultra chegou a realizar o feito de passar o rival em 30 de 32 benchmarks acadêmicos populares.
Especificamente em raciocínio, a ferramenta do Google superou a da OpenAi em indicadores como Big-Bench Hard e DROP. Já em matemática, venceu em GSM8K e MATH. Houve também uma vitória ao Ultra na geração de código Python. O GPT-4, por sua vez, levou a melhor no HellaSwag, que analisa raciocínio de senso comum.
Já o Gemini Pro rivaliza com o GPT-3.5. E mesmo assim, o LLM da gigante de Mountain View conseguiu ganhar em seis de oito benchmarks, o que o coloca como o chatbot de IA gratuito mais poderoso já criado até o momento.
Quais são as suas expectativas para a nova Inteligência Artificial do Google? Acredita que ela vai superar na prática o concorrente da OpenAI? Participe conosco!
Comentários