✏️IA que desenha na sua tela vira tutor pessoal
Farza, desenvolvedor e criador de conteúdo, apresentou uma ferramenta que usa o modelo Claude Opus, da Anthropic, para literalmente desenhar na tela do usuário enquanto ensina. O sistema consegue apontar com precisão pixel a pixel, desenhar figuras geométricas e guiar o usuário passo a passo por tarefas complexas. Na demonstração, ele aparece aprendendo o teorema de Pitágoras e usando o software de música FL Studio. --- A diferença para um chatbot comum é grande. Em vez de ler uma explicação em texto e tentar achar o botão certo, a IA mostra exatamente onde clicar e o que fazer, como um professor olhando por cima do seu ombro. Se funcionar bem fora das demos, pode ser o formato que faltava para tutoriais de software: menos vídeos no YouTube, mais orientação em tempo real.
Farza, desenvolvedor e criador de conteúdo, apresentou uma ferramenta que usa o modelo Claude Opus, da Anthropic, para literalmente desenhar na tela do usuário enquanto ensina. O sistema consegue apontar com precisão pixel a pixel, desenhar figuras geométricas e guiar o usuário passo a passo por tarefas complexas. Na demonstração, ele aparece aprendendo o teorema de Pitágoras e usando o software de música FL Studio.
— @FarzaTV View on X
O desenvolvedor e criador de conteúdo Farza apresentou uma ferramenta baseada no Claude Opus, da Anthropic, que desenha diretamente na interface do usuário para ensinar tarefas complexas. Diferente de assistentes tradicionais que respondem apenas em chat, o sistema aponta elementos na tela com precisão de pixel, traça formas geométricas e conduz o usuário passo a passo, funcionando como um tutor visual em tempo real. Nas demonstrações, a IA guiou o aprendizado do teorema de Pitágoras e a navegação no FL Studio, software de produção musical, indicando que o formato pode diminuir a dependência de tutoriais em vídeo para aplicações complexas.
Como funciona a interação pixel a pixel
A ferramenta utiliza as capacidades multimodais do Claude Opus para interpretar a tela do usuário e sobrepor instruções visuais diretamente na interface. Em vez de descrever onde clicar, o sistema desenha setas, círculos e anotações no local exato, eliminando a tradução mental entre uma explicação textual e a localização de botões ou menus. Esse nível de precisão depende de modelos de visão computacional capazes de mapear coordenadas da interface e gerar overlays contextuais sem interferir no funcionamento do software subjacente. O resultado é uma camada de orientação que opera como se fosse parte nativa do aplicativo.
Do texto à ação: por que isso muda tutoriais de software
Chatbots convencionais forçam o usuário a alternar entre janelas, ler blocos de texto e localizar elementos visualmente. O formato demonstrado por Farza inverte essa lógica: a instrução acontece no próprio contexto de uso, similar a uma sessão de pair programming ou a um professor ao lado do aluno. Para softwares com curva de aprendizado íngreme — como DAWs, editores de vídeo, IDEs ou ferramentas de design — isso representa uma mudança na experiência de onboarding. A redução da fricção cognitiva pode diminuir o tempo de adaptação e aumentar a retenção de usuários em ferramentas profissionais.
Oportunidades para devs e builders brasileiros
Para desenvolvedores e builders no Brasil, o conceito abre caminhos concretos de aplicação:
- Integração em IDEs e ambientes de desenvolvimento para onboarding de novos membros em times técnicos;
- Criação de agentes de IA especializados em softwares complexos usados em nichos locais, como ferramentas de automação ou plataformas de governo digital;
- Desenvolvimento de tutoriais interativos que combinam visão computacional com Large Language Models (LLMs), reduzindo custos de suporte e documentação técnica;
- Protótipos de assistentes contextualizados para softwares legados onde a documentação é escassa.
O modelo ainda depende de validação fora de ambientes controlados. É preciso observar a latência da interação, a precisão em resoluções variadas e a segurança de permitir que um agente de IA manipule visualmente a interface do usuário. Ainda assim, a demonstração sinaliza uma tendência clara: interfaces conversacionais estão evoluindo para agentes que agem diretamente sobre o espaço de trabalho. Para quem constrói produtos digitais no país, explorar essa camada de interação pode ser um diferencial competitivo em mercados onde a adoção de tecnologia depende de orientação prática e acessível.