🎰E se o custo da IA não importasse? A aposta do steipete
O Peter Steinberger (que aparece direto por aqui, trabalha no projeto OpenClaw) levou crítica esta semana por gastar muito com IA. A resposta dele virou uma pergunta interessante: como a gente construiria software se o custo dos tokens não importasse? --- Token é a unidade que mede o custo de usar uma IA. Hoje quase todo mundo economiza token do mesmo jeito que economiza água. Steinberger está apostando no contrário. Ele roda cerca de 100 agentes ao mesmo tempo na nuvem, revisando cada mudança e cada problema do projeto, sem dó. --- A aposta dele é que o preço dos tokens vai cair tanto que pensar pequeno hoje é miopia. Pode estar certo ou errado. Mas é uma forma saudável de pensar: em vez de perguntar "como faço isso barato", perguntar "o que eu faria se fosse ilimitado", e construir na direção disso.
People freaking out over my AI spend. What nobody sees: Part of what excites me so much about working on OpenClaw is that I'm trying to answer the question: How would we build software in the future if tokens don't matter? We constant run ~100 codex in the cloud, reviewing every PR, every issue. If a fix on main lands, @clawsweeper will eventually find that 6 month old issue and close it with an exact reference. We run codex on every commit to review for security issues (as it's far too easy to miss). We run codex to de-duplicate issues and find clusters and send reports for the most pressing issues. We have agents that can recreate complex setups, spin up ephemeral https://t.co/Q1NRXLemEy machines, log into e.g. Telegram, make a video and post before/after fix on the PR. There's codex that watch new issues and - if it fits our documented vision well, automatically create a PR of it. (that then another codex reviews) We have codex running that scans comments for spam and blocks people. We have codex instances running that verify performance benchmarks and report regressions into Discord. We have agents that listen on our meetings and proactively start work, e.g. create PRs when we discuss new features while we discuss them. We build https://t.co/bmA1XnoB7P to split all our projects into functional units to review and find bugs and regresssions. We do the same split for security with Vercel's deepsec and Codex Security to find regressions and vulnerabilities. All that automation allows us to run this project extremely lean.
— @steipete View on X
Peter Steinberger está construindo software assumindo que o custo dos tokens de IA será irrelevante. Enquanto a indústria tecnológica otimiza cada chamada de API e monitora quotas de uso, o desenvolvedor austríaco mantém aproximadamente 100 agentes Codex operando simultaneamente na nuvem para gerenciar seu projeto OpenClaw. A aposta é arquitetural: se o preço da inferência em large language models (LLMs) continuar em queda livre, quem pensar pequeno hoje estará em desvantagem amanhã.
A operação: 100 agentes e zero hesitação
A estratégia de Steinberger, compartilhada em resposta a críticas sobre seus gastos com IA, revela uma infraestrutura de automação profundamente integrada ao fluxo de desenvolvimento. O sistema, apelidado de clawsweeper, executa tarefas que vão além do code review tradicional:
- Revisão automatizada de todos os pull requests e issues abertos, com capacidade de vincular correções atuais a problemas reportados meses atrás
- Análise de segurança em cada commit, utilizando Codex Security e Vercel's deepsec para identificar vulnerabilidades que revisores humanos poderiam ignorar
- Desduplicação inteligente de issues, clusterizando problemas similares e priorizando relatórios por urgência
- Criação proativa de pull requests quando novas issues se alinham à documentação de visão do produto, seguida por revisão cruzada entre agentes
- Verificação contínua de benchmarks de performance e detecção de regressões, com reportes automáticos em canais como Discord
- Agentes participativos em reuniões que iniciam trabalho em tempo real, convertendo discussões em código enquanto a conversa acontece
- Ambientes efêmeros que replicam setups complexos, geram vídeos de before/after e realizam testes end-to-end em plataformas externas como Telegram
O cálculo: miopia versus posicionamento
A controvérsia surge do contraste entre esta abordagem e a realidade atual dos custos de inferência. Para desenvolvedores brasileiros e startups com capital limitado, a ideia de rodar cem instâncias de modelos de ponta simultaneamente soa economicamente inviável hoje. Contudo, Steinberger opera sob uma hipótese de longo prazo: a commoditização do processamento de tokens.
A lógica é técnica, não apenas financeira. Ao projetar arquiteturas que assumem computação ilimitada, os builders preparam suas bases de código para uma futura realidade onde o gargalo não é o custo da API, mas a latência e a orquestração de agentes. Trata-se de antecipar a curva de custo das LLMs, similar ao que ocorreu com armazenamento em nuvem e banda larga nos últimos anos.
Para equipes de desenvolvimento no Brasil, o caso levanta uma questão estratégica imediata: a arquitetura do seu software está preparada para escalar horizontalmente em agentes, ou está otimizada demais para um paradigma de escassez que pode estar ultrapassado em 24 meses? A resposta determinará quem estará pronto para operar quando o custo dos tokens, de fato, deixar de importar.