🛠️16 mil testes bugados, arrumados de madrugada
A Gumroad contou que usou agentes para estabilizar uma suíte com 16 mil testes que vinha atrapalhando o ritmo do time fazia anos. Não é um anúncio glamouroso, mas talvez seja um dos sinais mais úteis do dia: IA não serve só para inventar produto novo. Ela também pode atacar o entulho que trava empresa por dentro. --- Esse tipo de caso é ouro porque fala de dinheiro de verdade. Menos teste quebrando à toa significa menos atraso, menos retrabalho e menos energia mental jogada fora. O futuro da IA corporativa talvez seja bem menos cinematográfico do que os demos sugerem - e muito mais rentável.
Gumroad’s test suite of 16,000 tests has been flaky for years. This slowed down shipping tremendously. This week, Gianfranco used @karpathy’s autoresearch and @steipete’s OpenClaw to stabilize our test suite overnight. And his code is open source, so you can (have your agent) do it too. (And our code is open source too so you can see every single fix on GitHub.)
— @shl View on X
A Gumroad eliminou uma dívida técnica de anos em poucas horas usando agentes de inteligência artificial. A plataforma de e-commerce estabilizou uma suíte de 16 mil testes automatizados que há tempo gerava falhas intermitentes — os chamados *flaky tests* — impedindo deploys contínuos e desacelerando o time de engenharia.
O custo real da instabilidade em CI/CD
Testes flaky são aqueles que falham aleatoriamente sem indicar bugs reais no código.