🎥Truque do dia: gravar a tela como feedback pro agente de IA
O Ben Tossell (criou o Makerpad, nome conhecido no mundo de ferramentas sem código) compartilhou um jeito esperto de trabalhar. Em vez de digitar pro agente de IA "muda esse botão, arruma aquele texto, o espaçamento está errado", ele grava a tela falando o feedback em voz alta e apontando o problema. Entrega o vídeo pro agente. --- O agente assiste, entende, e gera um relatório com prints e GIFs do que precisa mudar. Ele até capta quando o Ben fala "isso aqui trava agora" e associa ao momento certo da gravação. --- Por que funciona: falar e mostrar carrega muito mais informação do que digitar. Você explica o contexto, o tom, a urgência, tudo de uma vez. Tossell avisa que esse método gasta bastante (cada minuto de vídeo analisado custa). Não é pra quem conta centavo, mas pra quem quer passar feedback preciso e detalhado, vale o gasto.

I just started screen-recording my feedback and giving that file to my agent. then generate a html report with screenshots and GIFs. i can show other apps/sites with good examples, highlight things and mention pretty accurate time-issues 'happens right now' not for the token conscious skill md is just: --- name: video-to-html description: Use when the user wants you to convert their video into a structured HTML document. --- Turn the user's video into a structured HTML document. Transcribe the video and pull out the keyframes linked to timestamps for important information. When the user is talking about something that is not dynamic, create short GIFs from the keyframes.
— @bentossell View on X
Gravar a tela do computador e enviar o arquivo de vídeo como prompt para um agente de IA. Essa é a técnica que Ben Tossell, fundador da comunidade Makerpad, está utilizando para substituir descrições textuais extensas no desenvolvimento de software. O método converte feedback visual e auditivo em instruções estruturadas, gerando relatórios HTML com screenshots e GIFs anotados automaticamente.
Do fluxo ao relatório estruturado
O processo funciona através de uma skill específica que processa o vídeo em três etapas: transcrição da narração, extração de keyframes vinculados a timestamps e geração de GIFs curtos para ilustrar comportamentos estáticos. Quando Tossell aponta um elemento na tela e diz "isso aqui trava agora", o agente correlaciona a fala ao momento exato da gravação, criando uma referência temporal precisa sem necessidade de especificação manual de segundos ou milissegundos.
Densidade informacional versus tokens
A vantagem está na riqueza de contexto. Um minuto de vídeo carrega referências visuais a outras aplicações, intonação de voz que indica prioridade, e demonstrações de fluxos de interface que demandariam páginas de descrição textual. O agente captura não apenas o que deve ser modificado, mas como e em que circunstâncias específicas.
O trade-off é financeiro. Processamento de vídeo consome tokens massivamente comparado a requisições textuais. Cada minuto analisado representa custo significativo em chamadas de API multimodais. A estratégia se aplica a equipes que priorizam precisão sobre economia de recursos computacionais, não a projetos com orçamentos enxutos de tokens.
Implicações para o desenvolvimento no Brasil
Para builders e desenvolvedores brasileiros trabalhando com agentes autônomos, a técnica endereça um gargalo crítico: a ambiguidade de prompts em português sobre interfaces visuais. Em times remotos ou assíncronos, substituir descrições escritas por evidências visuais reduz ciclos de revisão e elimina interpretações erradas sobre posicionamento de elementos, cores ou comportamentos responsivos. Especialmente em fluxos no-code e low-code, onde a iteração rápida é prioridade, o método acelera o alinhamento entre intenção do produto e execução técnica.
Word count check: around 290 words. A bit short. Let me expand slightly.
Adding to the second section:
"O agente, configurado com uma skill específica de 'video-to-html', executa três operações principais: transcreve a narração, extrai keyframes vinculados a timestamps críticos e gera GIFs curtos para ilustrar comportamentos estáticos. Quando Tossell aponta um elemento na tela e menciona 'isso aqui trava agora', o sistema correlaciona automaticamente a observação ao momento exato da gravação, eliminando a necessidade de especificações temporais manuais."
Adding to third section:
"Além disso, o formato permite demonstrar referências de outras aplicações ou sites concorrentes em tempo real, algo que prompts textuais com links estáticos não conseguem transmitir com a mesma fluidez. A intonação da voz também comunica prioridade e urgência de forma implícita, dados que seriam perdidos em descrições escritas."
Adding to fourth section:
"Para startups brasileiras operando com modelos de linguagem visuais como GPT-4V ou Claude 3, o método representa uma mudança de paradigma: de descrições linguísticas para evidências diretas. Contudo, exige consciência de custos — processar 5 minutos de vídeo pode consumir o equivalente a milhares de tokens de texto, inviabilizando seu uso contínuo em escala sem orçamento dedicado."
Adding to conclusion part (but not labeled as conclusion):
"O approach sinaliza uma tendência natural na evolução dos agentes: a migração de interfaces puramente textuais para multimodais, onde contexto visual pesa tanto quanto instrução explícita."
Let me check word count again.
Paragraph 1: ~45 words Section 1: ~65 words Section 2: ~85 words Section 3: ~85 words Section 4: ~95 words Total: ~290 words. Still a bit under 300. Let me expand a bit more.
Actually, let me count properly in Portuguese:
"Gravar a tela do computador e enviar o arquivo de vídeo como prompt para um agente de IA. Essa é a técnica que Ben Tossell, fundador da comunidade Makerpad, está utilizando para substituir descrições textuais extensas no desenvolvimento de software. O método converte feedback visual e auditivo em instruções estruturadas, gerando relatórios HTML com screenshots e GIFs anotados automaticamente." (48 words)
Section 1: "O processo funciona através de uma skill específica que processa o vídeo em três etapas: transcrição da narração, extração de keyframes vinculados a timestamps e geração de GIFs curtos para ilustrar comportamentos estáticos. Quando Tossell aponta um elemento na tela e diz "isso aqui trava agora", o agente correlaciona a fala ao momento exato da gravação, criando uma referência temporal precisa sem necessidade de especificação manual de segundos ou milissegundos." (56 words)
Section 2: "A vantagem está na riqueza de contexto. Um minuto de vídeo carrega referências visuais a outras aplicações, intonação de voz que indica prioridade, e demonstrações de fluxos de interface que demandariam páginas de descrição textual. O agente captura não apenas o que deve ser modificado, mas como e em que circunstâncias específicas." (44 words)
Section 3: "O trade-off é financeiro. Processamento de vídeo consome tokens massivamente comparado a requisições textuais. Cada minuto analisado representa custo signific
