🔍Google Cria Busca Que Entende Texto, Vídeo e Áudio Juntos

O Google lançou o Gemini Embedding 2 - o primeiro modelo de embedding multimodal que coloca texto, imagens, vídeo, áudio e documentos no mesmo espaço de busca. --- Em termos humanos: você pode ter uma coleção bagunçada de PDFs, fotos, vídeos e anotações de voz, e buscar em tudo isso com uma única pergunta. O modelo entende até 120 segundos de vídeo, 6 imagens por vez, PDFs de até 6 páginas, e processa áudio nativo sem precisar transcrever primeiro. --- Um desenvolvedor resumiu a ficha caindo: 'Então você tá me dizendo que posso embedar vídeo, memo de voz, PDF, imagem e texto no mesmo lugar? Com um modelo? E buscar em tudo com uma query? Hora de reconstruir tudo.'

Say hello to Gemini Embedding 2, our new SOTA multimodal model that lets your bring text, images, video, audio, and docs into the same embedding space! 👀 https://t.co/mjYk8FnTuj
— @OfficialLoganK View on X

Mais da mesma edição

@AnishA_Moonka

@samsheffer

🤖Meta Compra Rede Social Feita Para Agentes de IA

A Meta acaba de adquirir a Moltbook - uma rede social construída em cima do OpenClaw que foi desenhada especificamente para agentes de IA conversarem entre si. Sério. --- A internet se dividiu entre 'WTF?' e 'genial'. Robert Scoble, que acompanha tech há décadas, explicou a lógica do Zuckerberg: a Meta vive de distribuição para anúncios. Daqui a 10 anos, teremos robôs humanoides, carros autônomos, óculos inteligentes - e trilhões de agentes de IA fazendo compras, organizando viagens, rodando negócios. Esses agentes vão precisar conversar uns com os outros. 'Ei, meu dono quer ir pro Hawaii - que outros agentes podem ajudar?' --- Alguém resumiu melhor ainda: 'A Meta não está comprando um chatbot. Está comprando uma rede social onde os usuários são IAs. A premissa das redes sociais acabou de inverter.'

@elonmusk

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter