News21 JunhoRobôs ganham sentido do tato com novo sistema de Berkeley, NVIDIA e Stanford
Edição #130·21 de junho de 2026·2 min

🤖Robôs ganham sentido do tato com novo sistema de Berkeley, NVIDIA e Stanford

Pesquisadores da UC Berkeley, NVIDIA e Stanford apresentaram o T-Rex, um sistema que dá aos robôs algo que eles quase nunca tiveram: tato. Até agora, a maioria dos robôs depende quase exclusivamente da visão para interagir com objetos. O T-Rex combina visão, linguagem e sensores de toque para que o robô reaja ao contato físico em tempo real. --- O sistema foi treinado com 100 horas de dados sincronizados de toque, usando mais de 200 objetos do dia a dia e 22 movimentos diferentes. Em 12 tarefas que exigem contato físico (como manipular objetos frágeis ou encaixar peças), o T-Rex teve taxa de sucesso mais de 30% superior aos melhores modelos existentes. --- Pode parecer distante do cotidiano, mas pense na diferença entre um robô que só enxerga um ovo e um que sente a pressão que está fazendo ao segurá-lo. É esse tipo de sensibilidade que separa robôs de laboratório de robôs que realmente conseguem operar no mundo real.

Pesquisadores da UC Berkeley, NVIDIA e Stanford desenvolveram o T-Rex, sistema de percepção multimodal que integra sensores de toque a modelos de visão e linguagem, permitindo que robôs reajam ao contato físico em tempo real. Em testes práticos, o sistema superou em mais de 30% os modelos existentes em tarefas que exigem manipulação física sensível, como manuseio de objetos frágeis e encaixe de peças.

O problema da visão isolada

A robótica industrial e de serviços opera há décadas com uma limitação crítica: a dependência quase exclusiva da visão computacional. Câmeras e LiDARs mapeiam ambientes e identificam objetos, mas não captam a física do contato. Um braço robótico pode identificar visualmente um ovo ou um copo de vidro, mas sem feedback tátil, ajusta a pressão de forma preditiva — e frequentemente inadequada.

Essa lacuna explica taxas de falha elevadas em operações que exigem conformidade mecânica, como montagem de componentes eletrônicos, manuseio de alimentos ou logística de itens variáveis. O T-Rex resolve isso através de uma arquitetura que funde três modalidades de entrada: imagens, comandos linguísticos e dados de sensores táteis distribuídos na superfície do manipulador.

Como o sistema funciona

O treinamento utilizou 100 horas de dados sincronizados de toque, coletados com mais de 200 objetos do cotidiano e 22 tipos de movimentação distintos. A base de dados inclui informações de pressão, distribuição de força e textura superficial, mapeadas temporalmente com as ações do robô.

  • **Fusão multimodal**: O modelo processa simultaneamente entradas visuais, comandos em linguagem natural e streams de sensores táteis
  • **Feedback em tempo real**: Ajustes de força e orientação ocorrem durante o contato físico, não apenas antes dele
  • **Generalização**: O sistema demonstra robustez em objetos não vistos durante o treinamento, indicando capacidade de transferência de aprendizado

Implicações para desenvolvedores e indústria brasileira

Para builders e equipes de robótica no Brasil, o T-Rex representa uma mudança na stack de percepção. A integração de sensores táteis de baixo custo — cada vez mais acessíveis no mercado nacional — com modelos fundacionais de linguagem e visão abre caminho para aplicações previamente inviáveis em escala.

Setores como agronegócio, onde manipuladores precisam lidar com frutas em diferentes estágios de maturação, ou a indústria de embalagens, que trabalha com materiais de rigidez variável, podem se beneficiar diretamente. A redução de 30% na taxa de falha em tarefas de contato físico traduz-se em menos perdas de material e maior autonomia operacional.

O código e os datasets parciais do projeto devem ser disponibilizados nos próximos meses, permitindo que desenvolvedores adaptem a arquitetura para hardwares disponíveis localmente. A tendência é que sensores táteis deixem de ser periféricos especializados para se tornarem componentes padrão em stacks de robótica, assim como câmeras depth-sensing se tornaram nos últimos cinco anos.

sensoressistemavisãocontatoobjetostáteistrexmodeloslinguagemfísico

Mais da mesma edição

@apples_jimmy

🔓IA da NSA invadiu quase todos os sistemas secretos americanos

Segundo reportagem do The Economist, um sistema de inteligência artificial chamado Mythos, operado pela NSA (a agência de espionagem digital dos EUA), conseguiu invadir quase todos os sistemas classificados da própria agência em questão de horas. Não dias, não semanas: horas. --- A revelação é assustadora por dois motivos. Primeiro, porque mostra que defesas digitais projetadas por humanos simplesmente não resistem a uma IA determinada. Segundo, porque se a NSA consegue fazer isso com seus próprios sistemas, é razoável supor que possa fazer o mesmo com os de outros países. E vice-versa. --- O caso levanta uma pergunta incômoda que governos ao redor do mundo vão precisar responder rápido: se a IA torna praticamente qualquer sistema vulnerável, o que exatamente significa 'segurança digital' daqui pra frente?

@mitsuhiko

🧱Pull request com 280 mil linhas de código gerado por IA é enviado ao WebKit

O WebKit é o motor que faz funcionar o Safari e todos os navegadores no iPhone. É infraestrutura crítica da internet. Esta semana, alguém enviou um pull request (uma proposta de alteração de código) com 280 mil linhas inteiramente geradas por inteligência artificial. --- Armin Ronacher, criador do framework Flask e engenheiro experiente, comentou que o episódio é ao mesmo tempo empolgante e confuso. Na visão dele, estamos entrando numa era em que agentes de IA vão propor mudanças massivas em projetos fundamentais da internet, e ninguém sabe direito como gerenciar isso. --- O problema é prático: quem vai revisar 280 mil linhas de código que nenhum humano escreveu? Se o código tem bugs sutis ou falhas de segurança, como detectar? Projetos de código aberto que sustentam a internet inteira podem estar prestes a enfrentar um dilúvio de contribuições que ninguém consegue avaliar.

@rauchg

🇨🇳Modelo chinês GLM-5.2 impressiona CEO da Vercel em programação

Guillermo Rauch, CEO da Vercel (plataforma usada por milhões de desenvolvedores), disse estar 'genuinamente chocado' com a qualidade do GLM-5.2, novo modelo da empresa chinesa Zhipu AI, em tarefas de programação. Nas palavras dele: 'isso muda as coisas'. --- O comentário importa porque Rauch não é um entusiasta qualquer. Ele testa modelos de IA diariamente para uso real em produtos, e raramente se impressiona publicamente. O fato de um modelo chinês arrancar esse tipo de reação reforça uma tendência que já vem se desenhando: a China não está apenas acompanhando a corrida da IA, está competindo de igual para igual nos modelos de código. --- Para quem acompanha o mercado, mais um concorrente forte significa mais pressão para baixar preços e melhorar qualidade. Boa notícia para quem usa essas ferramentas.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter