📸Ferramenta transforma print de tela em contexto completo para IA
O desenvolvedor Kitze, criador do app Supermac, lançou um recurso chamado 'backshots' inspirado numa funcionalidade do Codex da OpenAI. A ideia é simples e poderosa: com um atalho, o app tira uma captura de tela da janela aberta no seu Mac, mas não para por aí. Ele também coleta todas as informações de acessibilidade e texto daquela tela, inclusive o conteúdo escondido que você precisaria rolar para ver. --- Depois é só colar tudo no seu agente de IA preferido. Em vez de descrever manualmente o que está vendo na tela, você dá à IA o contexto visual e textual completo de uma vez. Isso resolve um dos problemas mais chatos de trabalhar com IA: explicar o que você está olhando. --- É o tipo de ferramenta que parece pequena, mas muda o fluxo de trabalho. Quanto mais contexto a IA recebe, melhor ela responde. E colar uma imagem anotada é muito mais rápido do que digitar três parágrafos descrevendo um bug na tela.

O desenvolvedor Kitze, criador do app Supermac, lançou um recurso chamado 'backshots' inspirado numa funcionalidade do Codex da OpenAI. A ideia é simples e poderosa: com um atalho, o app tira uma captura de tela da janela aberta no seu Mac, mas não para por aí. Ele também coleta todas as informações de acessibilidade e texto daquela tela, inclusive o conteúdo escondido que você precisaria rolar para ver.
— @thekitze View on X
O recurso "backshots", lançado pelo desenvolvedor Kitze no app Supermac para macOS, elimina a etapa de descrever manualmente o estado de uma interface ao solicitar ajuda de modelos de linguagem. A ferramenta captura não apenas a imagem visível da tela, mas extrai via APIs de acessibilidade do sistema todo o texto estruturado da janela ativa — incluindo conteúdo que exige scroll para ser visualizado.
Como funciona a captura inteligente
Ao contrário de screenshots convencionais ou ferramentas de OCR que processam apenas pixels, o backshots acessa a árvore de elementos de acessibilidade do macOS. Isso significa que o app coleta:
- Texto de todos os elementos UI, visíveis ou ocultos na viewport
- Hierarquia estruturada dos componentes (botões, campos, menus)
- Metadados de acessibilidade que preservam o contexto semântico
A inspiração veio diretamente do Codex da OpenAI, que utiliza contextos similares para compreender e manipular interfaces programaticamente. Kitze adaptou essa abordagem para o uso cotidiano de desenvolvedores e profissionais de suporte.
Por que importa para o fluxo de trabalho com IA
Desenvolvedores brasileiros enfrentam constantemente o problema de traduzir estados visuais complexos em descrições textuais para IAs. Um bug em um dashboard, uma configuração específica de IDE ou um erro de layout exige parágrafos de explicação quando, na prática, uma imagem valeria mais — mas imagens puras carecem de contexto estruturado para LLMs processarem eficientemente.
Com o backshots, o profissional cola no chat do Claude, ChatGPT ou outro agente não uma imagem estática, mas um pacote completo de contexto multimodal: o screenshot para referência visual mais o texto estrutur
