News25 JunhoGemini 3.5 Flash agora controla seu computador e celular
Edição #134·25 de junho de 2026·2 min

🖥️Gemini 3.5 Flash agora controla seu computador e celular

O Google ativou o recurso de "uso do computador" no Gemini 3.5 Flash. Na prática, você dá à IA acesso a uma tela (pode ser navegador, celular ou desktop) e um objetivo, e ela descobre sozinha quais cliques, toques e digitações são necessários para realizar a tarefa. --- Philipp Schmid, do time do Google, contou que usou o recurso para auditar páginas de documentação: mandou a IA abrir a URL, rodar os trechos de código e reportar os problemas encontrados. O sistema vem com travas de segurança embutidas, como confirmação do usuário antes de ações sensíveis e bloqueio automático contra tentativas de manipulação por sites maliciosos. --- A corrida do "agente que usa o computador por você" está cada vez mais quente. Anthropic lançou algo parecido com o Claude, e agora o Google responde com a vantagem de já ter o recurso integrado direto no modelo principal, sem precisar de ferramenta separada.

Gemini 3.5 Flash agora controla seu computador e celular

O Google ativou para o Gemini 3.5 Flash o recurso de "computer use", permitindo que o modelo controle diretamente computadores e dispositivos móveis através da interface gráfica. A ferramenta interpreta o conteúdo visual da tela e executa ações como cliques, toques e digitação para completar tarefas complexas sem necessidade de APIs específicas ou integrações prévias.

Como funciona a automação visual

Diferente de agentes tradicionais que dependem de endpoints programáveis, essa arquitetura utiliza vision-language models para navegar em interfaces feitas para humanos. O sistema captura o estado visual da tela, processa elementos como botões, campos de formulário e menus, e determina sequências de ações em tempo real.

O fluxo operacional seg três etapas principais: - **Definição do objetivo**: o usuário descreve em linguagem natural o que precisa ser realizado - **Acesso à viewport**: a IA recebe permissão para visualizar e interagir com browser, ambiente mobile ou desktop - **Execução autônoma**: o modelo identifica coordenadas de clique, gestos de toque e entradas de texto necessárias para concluir o workflow

Aplicações práticas para desenvolvedores

Philipp Schmid, engenheiro do Google, demonstrou o recurso em um caso real de auditoria técnica. A agente abriu URLs de documentação, executou trechos de código identificados nas páginas e compilou relatórios de erros encontrados durante a execução. Para desenvolvedores brasileiros, isso abre caminhos para automação de testes de regressão em UI, validação contínua de documentação técnica e scraping de dados em interfaces legadas sem estrutura de API formal.

Segurança e guardrails

O sistema implementa travas obrigatórias para mitigar riscos de agentes autônomos. Antes de executar ações sensíveis como exclusão de arquivos ou transações, o modelo solicita confirmação explícita do usuário. Além disso, possui proteção contra tentativas de prompt injection via sites maliciosos: o modelo detecta e bloqueia instruções ocultas em conteúdos web que tentem manipular seu comportamento.

O cenário competitivo

A liberação posiciona o Gemini como resposta direta ao Computer Use da Anthropic, disponível no Claude. A vantagem do Google está na integração nativa: o recurso funciona diretamente no modelo 3.5 Flash sem requerer ferramentas externas ou configurações adicionais de infraestrutura.

Para builders e devs no Brasil, a ferramenta reduz o overhead de manutenção de scripts Selenium ou Puppeteer específicos. Tarefas como preenchimento de formulários complexos, testes cross-browser ou migração de dados entre sistemas antigos podem ser orquestradas via instruções textuais simples, acelerando pipelines de QA e reduzindo débito técnico em ambientes legados.

modelogooglerecursovisualaçõessemgeminiflashcomputeruse

Mais da mesma edição

@OpenAI

🌶️OpenAI anuncia seu primeiro chip próprio: o Jalapeño

A OpenAI largou a notícia do dia: projetou e construiu seu primeiro chip de inteligência artificial, batizado de Jalapeño. O chip foi feito em parceria com a Broadcom, gigante americana de semicondutores, e é otimizado especificamente para rodar os modelos que alimentam o ChatGPT, o Codex e os futuros produtos da empresa. --- A jogada é estratégica. Hoje, praticamente toda empresa de IA depende dos chips da NVIDIA, o que significa filas, preços salgados e pouca autonomia. Ao desenvolver silício próprio, a OpenAI quer controlar a cadeia inteira: do produto que você usa até a infraestrutura que o faz funcionar. É o mesmo caminho que a Apple trilhou com seus chips M1 e M2, só que no mundo da IA. --- Isso não significa que a OpenAI vai parar de comprar GPUs da NVIDIA amanhã. Mas ter um chip customizado para seus modelos pode reduzir custos e, em tese, permitir que ela atenda mais gente sem precisar repassar a conta. Se funcionar bem, a NVIDIA perde um pouco do seu reinado absoluto.

@ChatGPTapp

GPT-5.5 Instant começa a chegar para todo mundo

Enquanto a galera ainda tentava entender o que era aquele GPT-5.6 que apareceu ontem, a OpenAI soltou o GPT-5.5 Instant para o público. A empresa descreveu o modelo como "muito inteligente, muito intuitivo e muito divertido de conversar". Modesto, né? --- O lançamento está sendo gradual: primeiro para assinantes Pro, depois Plus, e amanhã para usuários do plano gratuito. O nome "Instant" sugere que o foco está na velocidade de resposta, não necessariamente na capacidade bruta de raciocínio. Pense nele como o modelo para o dia a dia, aquele que responde rápido sem precisar pensar por 30 segundos. --- Dois modelos novos em dois dias dá a impressão de que a OpenAI está acelerando o passo. Com a concorrência do Gemini e do Claude apertando, faz sentido: quem ficar parado vira notícia velha.

@GoogleAIStudio

📱1 milhão de apps Android criados dentro do AI Studio

Lembra quando criar um aplicativo exigia meses de trabalho e uma equipe de programadores? O Google AI Studio lançou a possibilidade de criar apps Android nativos em maio de 2026. Hoje, a plataforma bateu a marca de 1 milhão de aplicativos criados. --- O número impressiona pelo volume, mas é bom colocar na balança: criar um app é diferente de criar um app bom. A barreira de entrada caiu a quase zero, o que significa que muita coisa ali é experimento, protótipo ou teste. Ainda assim, o recado é claro: a distância entre "ter uma ideia" e "ter um app funcionando" nunca foi tão curta. --- Para quem não é programador, a mensagem prática é que ferramentas assim estão transformando o celular num canvas. Você descreve o que quer, a IA monta. Não vai substituir apps profissionais tão cedo, mas para resolver problemas pessoais ou testar conceitos, já é realidade.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter