Google I/O: veja tudo de novo que o Gemini vai receber

O Google dedicou a maior parte de seu evento Google I/O para detalhar como a inteligência artificial (IA) Gemini, lançada ano passado, tomará conta de praticamente todos os aspectos da empresa de Mountain View.

Os anúncios foram tão variados que, considerando o timing, é difícil não especular que tudo tenha sido uma resposta à altura ao GPT-4o, anunciado ontem pela concorrente OpenAI. E, dependendo do que você gosta no campo das IAs, essa resposta pode ter sido bem à altura.

Veja também

Gemini: IA do Google pode ter "memória" para lembrar informações sobre os usuários em breve 2

Tech 13 Mai

Dimensity 9300 Plus é anunciado com suporte a Google Gemini Nano e Meta Llama 9

Economia e mercado 07 Mai

Gemini Advanced agora usa o Gemini 1.5

O Gemini Advanced é a parte “paga” da IA do Google, e como todo serviço de assinatura, traz bem mais recursos que sua contraparte gratuita. Na prática, isso significa que o Gemini Advanced agora pode processar “vários documentos de tamanho grande, de até 1,5 mil páginas, ou resumir até 100 e-mails”.

Outra função é a capacidade dele de realizar o upload de arquivos ao Google Drive diretamente do seu dispositivo e responder a você eventuais questionamentos sobre esses arquivos. Como de praxe, o Google prometeu a privacidade total do conteúdo, com nada do que o Gemini “ver” sendo usado para treiná-lo.

Um recurso que ainda não chegou, mas foi mencionado como “próximo”, é a habilidade do Gemini de compreender planilhas a nível de estudo. Em termos práticos, ele não apenas será capaz de agrupar dados em uma planilha do Google Sheets, como também poderá oferecer insights de interpretação dessas informações, gerar gráficos espontâneos e com objetivos específicos e trazer visualizações customizadas.

Além disso, ele tem uma melhor compreensão de imagens, chegando ao ponto de reconhecer uma receita culinária completa a partir de uma foto.

O Gemini Pro 1.5 já conta com as novas funções a partir de agora, em 35 línguas diferentes para mais de 150 países.

Extensões inteligentes

Uma demonstração interessante vista durante o evento foi a capacidade do Gemini de “ler” uma foto contendo diversos compromissos e, a partir disso, criar eventos e marcações no seu calendário.

Essa e muitas outras funções variadas são parte do que o Google chamou de “Utilities” (“Utilidades”, na tradução literal). Basicamente, elas conduzem o trabalho de integração entre o Gemini e as várias aplicações do Google. Hoje mesmo, por exemplo, foi disponibilizada a capacidade de encontrar uma música no YouTube Music apenas mencionando ao chatbot um trecho de sua letra ou o nome de algum artista convidado que participe dela. Vale comentar que algo similar está sendo desenvolvido para outras aplicações musicais, também.

Todas essas extensões se juntam às já existentes no Gmail, Google Drive e aplicações do Workspace (Docs, Sheets, Slides etc.). Elas também trazem uma maior sinergia e identificação de tarefas mais rápida e fluída. Esta parte vale tanto para usuários pagantes como para aqueles da versão gratuita.

Além disso, em uma atualização “próxima”, usuários empresariais do Gemini e assinantes de planos pagos poderão criar o que o Google chamou de “Jóias” – versões próprias da IA da empresa, trabalhadas especificamente para atender às suas demandas mais específicas. Por exemplo, um personal trainer poderá criar uma versão específica para o trabalho de recomendar exercícios físicos, um nutricionista poderá valer-se de uma que monte dietas específicas e planos gastronômicos etc.

Gemini 1.5 Flash

Desenvolvedores receberam uma atualização especial do Gemini, contendo todas as benesses das versões mais recentes da IA, mas de uma forma mais leve, com menor latência e, acima de tudo, com custos mais reduzidos. No aspecto técnico, trata-se de um modelo mais leve e multimodal de linguagem e processamento. Na prática, é o mesmo Gemini 1.5 (e seus outros três formatos: Nano, Pro e Ultra), mas bem mais leve.

O Flash traz capacidades interessantes, como a sumarização de documentos longos, a legendagem de fotos e vídeos, aplicações de chatbot, interpretação de tabelas e várias outras vertentes.

Essa versão já se encontra disponível em forma de prévia, por meio do Google AI Studio (voltado especificamente para desenvolvedores), em mais de 200 países e territórios.

Planejamento avançado e multifacetado

Digamos que você tenha uma viagem preparada para o final de semana com sua esposa e filho. O Gemini ganhou capacidades mais imersivas, podendo responder a coisas como “Vou com a minha família para Angra dos Reis: minha esposa quer experimentar a cozinha local e meu filho é fã de futebol. Poderia me ajudar a planejar as atividades da viagem?”

Dentro desse exemplo, o Gemini vai puxar os dados das passagens de avião, estadia de hotel (por meio das confirmações via Gmail) e estabelecer uma lista com sugestões de restaurantes mais turísticos para almoço e jantar, além de atividades esportivas que possam ser adquiridas por meio do formato day use de pagamento – como alugar quadras por um horário pré-estabelecido.

Todas essas atividades, então, poderão ser sincronizadas no Google Maps e, confirmadas, serão marcadas no seu calendário para que você mantenha o controle de tudo.

Veo e Imagen 3

A IA do Google vai fazer vídeos espontaneamente.

Essa é a proposta do Veo, uma ferramenta de IA generativa voltada especificamente para a criação de vídeos a partir de descrições de texto. Revelado durante a conferência, o app é capaz de criar clipes com resolução máxima Full HD (1080p), aplicado capturas em vários formatos, até mesmo transicionando entre Modo Retrato (vertical) e Paisagem (horizontal), produzindo vídeos em time lapse e até uma ferramenta bem robusta de edição pós-produção.

Quanto ao "treinamento" do modelo de IA, o Google pode ter que preparar alguns argumentos defensivos: David Eck, diretor de pesquisa da DeepMind, admitiu que "parte" do material de treino da ferramenta "pode ter vindo" do YouTube. O executivo disse que tudo foi feito em acordo com os Termos de Uso e Licenciamento do portal de vídeos, mas ainda assim, é fácil imaginar que alguns criadores de conteúdo não ficarão muito felizes em saber que suas produções foram tomadas para esta finalidade sem sua permissão expressa.

De qualquer forma, uma maneira de acalmar os ânimos antes mesmo da situação potencialmente aparecer foi liberar o Veo para alguns criadores seletos: o app de IA generativa para videos, diz o Google, será tão público quanto o Gemini, mas por ora, nomes como Donald Glover (ex-Childish Gambino) e sua agência de criação, a Gilga, já estão de posse do material.

Imagen 3

O interessante é que o Veo foi originalmente concebido dentro da Imagen 2 , a ferramente generativa do Google para imagens. Ainda assim, uma nova versão dela -- uma que não atua diretamente com o Veo ou o Gemini, ao menos por enquanto -- também foi revelada durante o Google I/O.

Chamado de "o modelo de maior qualidade para a produção de textos-para-imagem", o Google afirmou que o Imagen 3 "tem a melhor compreensão de linguagens naturais", o que o ajuda a "dominar uma completa gama de estilos".

Isso se revelou na demonstração da nova tecnologia, com imagens fotorrealistas de um lobo, uma água-viva e amplas e detalhadas paisagens criadas a partir de descritivos textuais. Neste momento, é impossível atestar a veracidade do que o Imagen 3 supostamente faz (empresas de IA já foram pegas em flagrante mentindo em suas demonstrações no passado), mas o recurso já está recebendo inscrições para testes públicos no site da DeepMind.

Imagens: Google/Reprodução (via Imagen 3)

Gemini Nano agora “fala” com imagens

A versão mais leve do Gemini era, até então, restrita a comandos textuais – ao contrário de suas implementações maiores, que já contextualizam imagens e, dependendo do caso, podem até gerar algumas. Não mais: embora o Nano ainda não crie imagens por conta própria, aplicações onde ele for aplicado poderão ter uma compreensão maior e, com isso, se aprimorar com base nas funções originais do app.

Em termos práticos: uma foto tirada pela câmera de um smartphone Pixel – onde a novidade está restrita, ao menos por enquanto – poderá sugerir filtros e edições que realcem a beleza da captura, sem que você precise necessariamente fazer nada para isso.

Projeto Astra

Encabeçado pela DeepMind, o braço de pesquisa e avanço em IA do Google, o Astra é definido como um “agente avançado de visão e resposta”. A explicação técnica é bastante complicada, mas de acordo com o CEO Demis Hassabis, ele veio de uma necessidade de tornar a parte de conversação das IAs mais inteligente, prestativa e contextualizada, sem sacrificar tempo de resposta ou precisão de informações – para todos os espectros: texto, imagem e vídeo.

“Ainda que tenhamos feito um incrível progresso no desenvolvimento de sistemas de IA que possam entender informações de vários modos, reduzir o tempo de resposta para um nível conversacional é um desafio complicado de engenharia. Ao longo dos últimos anos, nós nos preocupamos em melhorar a forma como nossos modelos percebem, racionalizar e conversam, para tornar o ritmo e qualidade da conversa mais natural”, disse o executivo.

Depois, um vídeo do Astra foi exibido:

Note que o vídeo acima foi gravado em uma tomada, a fim de se evitar edições. No material, o Gemini aplica os avanços do Projeto Astra no reconhecimento de objetos capturados pela câmera de um smartphone Pixel – até detalhes como diferenciar o tweeter do woofer em uma caixa de som – tudo em uma única interação com o usuário.

Seguindo o vídeo, o Gemini conseguiu identificar, em outra tela, um código de programação, inclusive listando qual a função que aquelas linhas deverão realizar.

A ideia é levar essa capacidade de resposta mais rápida a agentes de IA que sejam desenvolvidos internamente, pelo próprio Google, ou externamente, pelos parceiros e clientes da empresa no setor de IA.

E quando eu vou ter tudo isso?

É importante ressaltar que, quando o assunto é inteligência artificial, raramente os avanços comunicados são disponibilizados para todo mundo. No caso do Google, isso depende de vários fatores, que vão desde o dispositivo a ser usado ter compatibilidade com os novos recursos, até o seu pilar de uso ser monetizado ou gratuito.

E há ainda que se considerar que muitas atualizações são feitas na estrutura do Gemini, então não será o caso de “uma nova função que aparece na tela para você acionar”, mas sim algo que simplesmente vai “aparecer” conforme você atualiza o recurso.

Isso dito, a maior parte das novidades do Gemini tende a priorizar clientes pagantes primeiro e, à medida em que se popularizam, o Google as libera para usuários gratuitos.

Curtir - 0 Tweet - 0 0

Rafael Arbulu

Comentários

Google I/O: veja tudo de novo que o Gemini vai receber

- -
- +
- - Ver no f?rum
Jurandirborges 2 meses atr?s
O Google tem q arrumar a preguiça da Gemini
Em inglês ela entende e faz tudo
Já em português a mesma diz q não pode e é cheio das manhas.
ver m?s
1 0

Responder
- - -
  - +
  - - Ver no f?rum
  Marlon_Mattos 1 m?s atr?s
  Pois é!
  
  ver m?s
  0 0
  
  Responder
- -
- +
- - Ver no f?rum
Rodrigo_F_Mag 2 meses atr?s
Enquanto isso uma das minhas três contas gratuitas foi contemplada com o rollout do gpt4o, que dá kct nisso tudo ae.
ver m?s
0 0

Responder
- -
- +
- - Ver no f?rum
IgorArusa 2 meses atr?s
Já quero usar isso todo.
Android é vida ...
ver m?s
1 0

Responder
- - -
  - +
  - - Ver no f?rum
  Koronel_Komandante 2 meses atr?s
  Kkkk vai ficar kerendo por um tempo. Ker dizer anos... Pq pensa numa empresa lenta kkkkk
  
  ver m?s
  0 0
  
  Responder
  - - -
    - +
    - Ver no f?rum
    IgorArusa 2 meses atr?s
    
    Pixel não tem esse problema.
    
    ver m?s
    
    0 0
    
    Responder
- -
- +
- - Ver no f?rum
LeoBGR 2 meses atr?s
E até hoje o workspace não gera um parágrafo em português no Google docs!
ver m?s
4 1

Responder