News12 JunhoBaidu lança leitor de texto por IA que roda até em celular
Edição #121·12 de junho de 2026·2 min

📄Baidu lança leitor de texto por IA que roda até em celular

A Baidu, gigante de tecnologia chinesa, lançou o PP-OCRv6, um modelo de OCR (reconhecimento óptico de caracteres, a tecnologia que lê textos em imagens) que chama atenção pelo tamanho: a versão menor tem apenas 1,5 milhão de parâmetros. Para comparação, o ChatGPT tem centenas de bilhões. Isso significa que ele roda em dispositivos simples, como celulares e equipamentos industriais, sem precisar de conexão com a nuvem. --- O modelo suporta mais de 48 idiomas e reconhece desde texto impresso e escrito à mão até informações em telas de computador e cartões. É o tipo de ferramenta que não gera manchetes glamorosas, mas resolve problemas reais: digitalizar documentos, ler placas, extrair dados de formulários. E o fato de rodar localmente, sem mandar seus dados para servidores distantes, é um ponto importante para privacidade.

Baidu lança leitor de texto por IA que roda até em celular

O que torna o PP-OCRv6 diferente

A Baidu lançou o PP-OCRv6, um modelo de reconhecimento óptico de caracteres (OCR) com apenas 1,5 milhão de parâmetros na versão mais leve. Para efeito de comparação, o ChatGPT possui centenas de bilhões de parâmetros. Essa diferença de escala permite que o modelo execute diretamente em dispositivos com recursos limitados, como smartphones Android de entrada, equipamentos industriais antigos e sistemas embarcados, sem depender de conexão com a nuvem.

Como a redução de parâmetros impacta o uso prático

O tamanho reduzido não é apenas uma curiosidade técnica. Ele permite que desenvolvedores implementem OCR em cenários onde anteriormente seria inviável:

  • Aplicativos móveis que processam documentos offline
  • Sistemas de leitura de placas em estacionamentos e portarias
  • Digitalização de formulários em áreas com conectividade instável
  • Equipamentos industriais que precisam ler etiquetas em tempo real

A versão leve do modelo consome poucos recursos de memória e processamento, tornando-o adequado para dispositivos com chips de entrada.

Funcionalidades e suporte multilíngue

O PP-OCRv6 reconhece mais de 48 idiomas, incluindo português brasileiro. Ele processa texto impresso, manuscrito, informações em telas de computador e dados de cartões de identificação. Essa versatility permite aplicações diversas: desde a digitalização de documentos fiscais até a extração automática de informações de contratos.

Privacidade como diferencial

Por rodar localmente, o modelo não envia imagens para servidores externos. Isso resolve uma preocupação recorrente em aplicações que lidam com documentos sensíveis: dados pessoais, informações financeiras e registros médicos podem ser processados sem sair do dispositivo do usuário. Para o mercado brasileiro, onde a LGPD impõe restrições rigorosas sobre transferência de dados pessoais, essa característica representa uma vantagem concreta.

O que isso significa para desenvolvedores brasileiros

Para builders que trabalham com automação de processos, aplicativos de produtividade ou sistemas de gestão, o PP-OCRv6 oferece uma alternativa viável a APIs de OCR baseadas em nuvem. O custo de processamento cai significativamente, já que não há chamadas a serviços externos. A latência também diminui, já que o resultado retorna instantaneamente.

É uma ferramenta que não gera manchetes protagonizadas por modelos generativos, mas resolve problemas reais de engenharia: digitalização de documentos, leitura de códigos de barras, extração de dados de formulários. Para quem constrói soluções em edge computing, o lançamento da Baidu adiciona uma opção ao repertório de modelos leves disponíveis.

ppocrvmodelonãodocumentosdadosocrparâmetrosessapermitesistemas

Mais da mesma edição

@AndrewCurran_

🚀Bezos revela a Prometheus, sua aposta para acelerar invenções

Jeff Bezos, fundador da Amazon, deu detalhes ao New York Times sobre a Prometheus, sua nova startup. A ideia central é simples de entender, mas ambiciosa: criar ferramentas que acelerem o ciclo de invenção humana. Bezos compara o momento atual com marcos como a invenção do arado, há seis mil anos, ou da máquina a vapor. Para ele, toda riqueza da sociedade vem de invenções, e a Prometheus quer encurtar o caminho entre ter uma ideia e transformá-la em algo útil. --- Ainda há poucos detalhes concretos sobre o produto, mas o discurso é claro: Bezos está apostando que IA e novas ferramentas podem turbinar a capacidade humana de inventar. O nome Prometheus, aliás, é simbólico: na mitologia grega, foi quem roubou o fogo dos deuses e deu aos humanos. Se a ambição vai se traduzir em algo real ou é só mais um bilionário vendendo narrativa grandiosa, só o tempo dirá.

@GoogleDeepMind

Google DeepMind fecha parceria com o Palmeiras para IA tática

O Palmeiras se tornou o primeiro clube de futebol do mundo a usar de verdade o TacticAI, sistema de inteligência artificial do Google DeepMind. A ferramenta consegue simular cenários de jogo e prever como uma jogada vai se desenrolar até oito segundos à frente. Parece pouco tempo, mas no futebol, oito segundos podem ser a diferença entre um gol e uma bola na trave. --- Na prática, isso significa que a comissão técnica do Verdão pode analisar padrões de ataque e defesa de adversários com muito mais profundidade, testando diferentes formações e movimentações antes do jogo acontecer. É o tipo de tecnologia que já existia de forma limitada em análises de vídeo, mas agora ganha capacidade preditiva. Resta ver se isso se traduz em títulos ou se vira só curiosidade tecnológica.

@OfficialLoganK

🎬Gemini Omni Flash é o novo estado da arte em geração de vídeo

O Google anunciou o Gemini Omni Flash, que segundo a empresa é agora o melhor modelo do mercado em três tarefas: transformar imagem em vídeo, transformar texto em vídeo e editar vídeos existentes. Logan Kilpatrick, do time do Gemini, disse que o modelo deve chegar em breve para desenvolvedores usarem via API, a interface que permite integrar a tecnologia em outros aplicativos. --- O mercado de geração de vídeo por IA está esquentando rápido. Até pouco tempo atrás, o Sora da OpenAI dominava as conversas. Agora, Google, Runway e outros competidores estão empilhando lançamentos. Para quem não é técnico, o que importa é: está cada vez mais fácil e barato criar vídeos com qualidade profissional a partir de uma simples descrição de texto ou de uma foto.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter