🪞Se é difícil avaliar a resposta da IA, o problema é o produto
Hamel Husain, consultor de IA, publicou um artigo provocativo: quando uma equipe reclama que é difícil medir se a IA está respondendo bem, o verdadeiro gargalo quase nunca é técnico. É o design do produto. Em outras palavras, se você, desenvolvedor, não consegue verificar rapidamente se a resposta está certa, seu usuário também não vai conseguir. --- Ele mostra três exemplos reais antes e depois: um agente que responde perguntas de negócios, um gerador de planos de aula de educação física e uma ferramenta que redige relatórios médicos de 50 páginas. Em todos os casos, a solução não foi melhorar o modelo de IA, mas redesenhar a interface para que o resultado fosse mais fácil de conferir por um ser humano. --- A lição é simples e poderosa: antes de gastar semanas refinando a IA por baixo dos panos, pergunte se a tela que mostra o resultado ajuda ou atrapalha. Muitas vezes, trocar a embalagem resolve mais que trocar o motor.

Hamel Husain, consultor de IA, publicou um artigo provocativo: quando uma equipe reclama que é difícil medir se a IA está respondendo bem, o verdadeiro gargalo quase nunca é técnico. É o design do produto. Em outras palavras, se você, desenvolvedor, não consegue verificar rapidamente se a resposta está certa, seu usuário também não vai conseguir.
— @HamelHusain View on X
Quando uma equipe de desenvolvimento percebe que é difícil avaliar se a resposta de uma IA está correta, o problema raramente está no modelo de linguagem. O gargalo, na maioria das vezes, está no design do produto. Essa é a tese central de um artigo recente de Hamel Husain, consultor de IA com experiência em empresas como Airbnb e GitHub.
O argumento central
Husain observa um padrão recorrente: desenvolvedores passam semanas refinando modelos de IA, ajustando prompts e buscando arquitecturas mais sofisticadas, quando o verdadeiro obstáculo é a interface que apresenta o resultado ao usuário. Se o próprio desenvolvedor não consegue verificar rapidamente se a saída está correta, o usuário final também não conseguirá. A consequência é descrenza no produto e baixa adoção.
Casos concretos
O artigo apresenta três exemplos onde a solução não envolveu melhoria técnica do modelo:
- Um agente de IA que respondia perguntas de negócios: usuários não conseguiam validar as respostas porque havia muitas etapas intermediárias escondidas. A solução foi expor o raciocínio passo a passo na interface.
- Um gerador de planos de aula para educação física: o output era longo e desorganizado. Redesenhou-se a apresentação para separar objetivos, atividades e avaliações de forma visualmente rastreável.
- Uma ferramenta que redigia relatórios médicos de 50 páginas: impossível revisar manualmente. A interface foi reformulada para permitir navegação por seções, com resumos executivos e highlights clicáveis.
Em todos os casos, melhorar o modelo teria custo alto e retorno incerto. Redesenar a experiência do usuário resolveu o problema com menos esforço.
O que isso significa para devs brasileiros
No contexto de mercado brasileiro, onde muitas equipes trabalham com recursos limitados e precisam maximizar resultados, o alerta é direto: antes de investir em fine-tuning ou em modelos mais caros, vale a pena perguntar-se se a tela que mostra o resultado facilita ou dificulta a vida de quem vai usá-lo.
Isso é especialmente relevante em produtos B2B e ferramentas internas, onde a verificação humana é parte do fluxo de trabalho. Um chatbot de atendimento ao cliente, um assistente de análise de dados ou uma ferramenta de resumo de documentos só funcionam se o usuário conseguir confiar no output — e confiar depende de conseguir validar rapidamente o que foi entregue.
A lição prática é simples: troque a embalagem antes de trocar o motor. Often, o redesign da interface tem impacto maior que a troca do modelo de IA por trás dela.
