🖥️Gemini 3.5 Flash agora controla seu computador e celular
O Google ativou o recurso de "uso do computador" no Gemini 3.5 Flash. Na prática, você dá à IA acesso a uma tela (pode ser navegador, celular ou desktop) e um objetivo, e ela descobre sozinha quais cliques, toques e digitações são necessários para realizar a tarefa. --- Philipp Schmid, do time do Google, contou que usou o recurso para auditar páginas de documentação: mandou a IA abrir a URL, rodar os trechos de código e reportar os problemas encontrados. O sistema vem com travas de segurança embutidas, como confirmação do usuário antes de ações sensíveis e bloqueio automático contra tentativas de manipulação por sites maliciosos. --- A corrida do "agente que usa o computador por você" está cada vez mais quente. Anthropic lançou algo parecido com o Claude, e agora o Google responde com a vantagem de já ter o recurso integrado direto no modelo principal, sem precisar de ferramenta separada.

O Google ativou o recurso de "uso do computador" no Gemini 3.5 Flash. Na prática, você dá à IA acesso a uma tela (pode ser navegador, celular ou desktop) e um objetivo, e ela descobre sozinha quais cliques, toques e digitações são necessários para realizar a tarefa.
— @_philschmid View on X
O Google ativou para o Gemini 3.5 Flash o recurso de "computer use", permitindo que o modelo controle diretamente computadores e dispositivos móveis através da interface gráfica. A ferramenta interpreta o conteúdo visual da tela e executa ações como cliques, toques e digitação para completar tarefas complexas sem necessidade de APIs específicas ou integrações prévias.
Como funciona a automação visual
Diferente de agentes tradicionais que dependem de endpoints programáveis, essa arquitetura utiliza vision-language models para navegar em interfaces feitas para humanos. O sistema captura o estado visual da tela, processa elementos como botões, campos de formulário e menus, e determina sequências de ações em tempo real.
O fluxo operacional seg três etapas principais: - **Definição do objetivo**: o usuário descreve em linguagem natural o que precisa ser realizado - **Acesso à viewport**: a IA recebe permissão para visualizar e interagir com browser, ambiente mobile ou desktop - **Execução autônoma**: o modelo identifica coordenadas de clique, gestos de toque e entradas de texto necessárias para concluir o workflow
Aplicações práticas para desenvolvedores
Philipp Schmid, engenheiro do Google, demonstrou o recurso em um caso real de auditoria técnica. A agente abriu URLs de documentação, executou trechos de código identificados nas páginas e compilou relatórios de erros encontrados durante a execução. Para desenvolvedores brasileiros, isso abre caminhos para automação de testes de regressão em UI, validação contínua de documentação técnica e scraping de dados em interfaces legadas sem estrutura de API formal.
Segurança e guardrails
O sistema implementa travas obrigatórias para mitigar riscos de agentes autônomos. Antes de executar ações sensíveis como exclusão de arquivos ou transações, o modelo solicita confirmação explícita do usuário. Além disso, possui proteção contra tentativas de prompt injection via sites maliciosos: o modelo detecta e bloqueia instruções ocultas em conteúdos web que tentem manipular seu comportamento.
O cenário competitivo
A liberação posiciona o Gemini como resposta direta ao Computer Use da Anthropic, disponível no Claude. A vantagem do Google está na integração nativa: o recurso funciona diretamente no modelo 3.5 Flash sem requerer ferramentas externas ou configurações adicionais de infraestrutura.
Para builders e devs no Brasil, a ferramenta reduz o overhead de manutenção de scripts Selenium ou Puppeteer específicos. Tarefas como preenchimento de formulários complexos, testes cross-browser ou migração de dados entre sistemas antigos podem ser orquestradas via instruções textuais simples, acelerando pipelines de QA e reduzindo débito técnico em ambientes legados.
