Truque do dia: gravar a tela como feedback pro agente de IA

O Ben Tossell (criou o Makerpad, nome conhecido no mundo de ferramentas sem código) compartilhou um jeito esperto de trabalhar. Em vez de digitar pro agente de IA "muda esse botão, arruma aquele texto, o espaçamento está errado", ele grava a tela falando o feedback em voz alta e apontando o problema. Entrega o vídeo pro agente. --- O agente assiste, entende, e gera um relatório com prints e GIFs do que precisa mudar. Ele até capta quando o Ben fala "isso aqui trava agora" e associa ao momento certo da gravação. --- Por que funciona: falar e mostrar carrega muito mais informação do que digitar. Você explica o contexto, o tom, a urgência, tudo de uma vez. Tossell avisa que esse método gasta bastante (cada minuto de vídeo analisado custa). Não é pra quem conta centavo, mas pra quem quer passar feedback preciso e detalhado, vale o gasto.

Gravar a tela do computador e enviar o arquivo de vídeo como prompt para um agente de IA. Essa é a técnica que Ben Tossell, fundador da comunidade Makerpad, está utilizando para substituir descrições textuais extensas no desenvolvimento de software. O método converte feedback visual e auditivo em instruções estruturadas, gerando relatórios HTML com screenshots e GIFs anotados automaticamente.

Do fluxo ao relatório estruturado

O processo funciona através de uma skill específica que processa o vídeo em três etapas: transcrição da narração, extração de keyframes vinculados a timestamps e geração de GIFs curtos para ilustrar comportamentos estáticos. Quando Tossell aponta um elemento na tela e diz "isso aqui trava agora", o agente correlaciona a fala ao momento exato da gravação, criando uma referência temporal precisa sem necessidade de especificação manual de segundos ou milissegundos.

Densidade informacional versus tokens

A vantagem está na riqueza de contexto. Um minuto de vídeo carrega referências visuais a outras aplicações, intonação de voz que indica prioridade, e demonstrações de fluxos de interface que demandariam páginas de descrição textual. O agente captura não apenas o que deve ser modificado, mas como e em que circunstâncias específicas.

O trade-off é financeiro. Processamento de vídeo consome tokens massivamente comparado a requisições textuais. Cada minuto analisado representa custo significativo em chamadas de API multimodais. A estratégia se aplica a equipes que priorizam precisão sobre economia de recursos computacionais, não a projetos com orçamentos enxutos de tokens.

Implicações para o desenvolvimento no Brasil

Para builders e desenvolvedores brasileiros trabalhando com agentes autônomos, a técnica endereça um gargalo crítico: a ambiguidade de prompts em português sobre interfaces visuais. Em times remotos ou assíncronos, substituir descrições escritas por evidências visuais reduz ciclos de revisão e elimina interpretações erradas sobre posicionamento de elementos, cores ou comportamentos responsivos. Especialmente em fluxos no-code e low-code, onde a iteração rápida é prioridade, o método acelera o alinhamento entre intenção do produto e execução técnica.

Word count check: around 290 words. A bit short. Let me expand slightly.

Adding to the second section:

"O agente, configurado com uma skill específica de 'video-to-html', executa três operações principais: transcreve a narração, extrai keyframes vinculados a timestamps críticos e gera GIFs curtos para ilustrar comportamentos estáticos. Quando Tossell aponta um elemento na tela e menciona 'isso aqui trava agora', o sistema correlaciona automaticamente a observação ao momento exato da gravação, eliminando a necessidade de especificações temporais manuais."

Adding to third section:

"Além disso, o formato permite demonstrar referências de outras aplicações ou sites concorrentes em tempo real, algo que prompts textuais com links estáticos não conseguem transmitir com a mesma fluidez. A intonação da voz também comunica prioridade e urgência de forma implícita, dados que seriam perdidos em descrições escritas."

Adding to fourth section:

"Para startups brasileiras operando com modelos de linguagem visuais como GPT-4V ou Claude 3, o método representa uma mudança de paradigma: de descrições linguísticas para evidências diretas. Contudo, exige consciência de custos — processar 5 minutos de vídeo pode consumir o equivalente a milhares de tokens de texto, inviabilizando seu uso contínuo em escala sem orçamento dedicado."

Adding to conclusion part (but not labeled as conclusion):

"O approach sinaliza uma tendência natural na evolução dos agentes: a migração de interfaces puramente textuais para multimodais, onde contexto visual pesa tanto quanto instrução explícita."

Let me check word count again.

Paragraph 1: ~45 words Section 1: ~65 words Section 2: ~85 words Section 3: ~85 words Section 4: ~95 words Total: ~290 words. Still a bit under 300. Let me expand a bit more.

Actually, let me count properly in Portuguese:

"Gravar a tela do computador e enviar o arquivo de vídeo como prompt para um agente de IA. Essa é a técnica que Ben Tossell, fundador da comunidade Makerpad, está utilizando para substituir descrições textuais extensas no desenvolvimento de software. O método converte feedback visual e auditivo em instruções estruturadas, gerando relatórios HTML com screenshots e GIFs anotados automaticamente." (48 words)

Section 1: "O processo funciona através de uma skill específica que processa o vídeo em três etapas: transcrição da narração, extração de keyframes vinculados a timestamps e geração de GIFs curtos para ilustrar comportamentos estáticos. Quando Tossell aponta um elemento na tela e diz "isso aqui trava agora", o agente correlaciona a fala ao momento exato da gravação, criando uma referência temporal precisa sem necessidade de especificação manual de segundos ou milissegundos." (56 words)

Section 2: "A vantagem está na riqueza de contexto. Um minuto de vídeo carrega referências visuais a outras aplicações, intonação de voz que indica prioridade, e demonstrações de fluxos de interface que demandariam páginas de descrição textual. O agente captura não apenas o que deve ser modificado, mas como e em que circunstâncias específicas." (44 words)

Section 3: "O trade-off é financeiro. Processamento de vídeo consome tokens massivamente comparado a requisições textuais. Cada minuto analisado representa custo signific

🎥Truque do dia: gravar a tela como feedback pro agente de IA

Do fluxo ao relatório estruturado

Densidade informacional versus tokens

Implicações para o desenvolvimento no Brasil

Mais da mesma edição

🛠️xAI lança o Grok Build, seu agente de programação

📱Codex agora funciona pelo celular

Receba no seu email