News19 JunhoDeepSeek lança V4 Vision e agora também entende imagens
Edição #128·19 de junho de 2026·2 min

👁️DeepSeek lança V4 Vision e agora também entende imagens

A DeepSeek, laboratório chinês que vem incomodando os gigantes americanos, liberou a versão V4 com capacidade de visão. O modelo agora consegue analisar imagens enviadas pelo usuário, algo que até então era exclusivo de concorrentes como GPT, Claude e Gemini. A funcionalidade já está disponível no site e no aplicativo da empresa. --- A DeepSeek ganhou reputação por entregar modelos competitivos a custos muito menores. Adicionar visão era a peça que faltava para competir de igual para igual nos casos de uso mais comuns, como interpretar gráficos, ler documentos escaneados ou analisar fotos. Se a qualidade seguir o padrão das versões de texto, que surpreenderam o mercado, os rivais têm mais um motivo para perder o sono.

DeepSeek lança V4 Vision e agora também entende imagens

DeepSeek acaba de eliminar uma das principais limitações técnicas de sua plataforma. O lançamento do V4 Vision adiciona capacidade multimodal ao modelo, permitindo processamento direto de imagens, gráficos e documentos escaneados. A funcionalidade, antes restrita a concorrentes como GPT-4, Claude 3 e Gemini, já está disponível no site e aplicativo da empresa.

O laboratório chinês consolidava posição forte apenas em processamento de texto. Com a nova versão, alcança paridade nos casos de uso que demandam compreensão visual — desde interpretação de dashboards até extração de dados estruturados de PDFs rasterizados.

Por que a multimodalidade muda o jogo

A ausência de capacidade visual limitava a DeepSeek a pipelines puramente textuais. Desenvolvedores precisavam recorrer a serviços alternativos para OCR ou análise de imagens antes de alimentar o LLM. A integração nativa elimina essa complexidade arquitetural, permitindo fluxos end-to-end dentro de um único modelo.

Casos de uso imediatos incluem: - Extração automática de dados de notas fiscais e contratos escaneados - Interpretação de gráficos técnicos e relatórios visuais - Validação de documentos por similaridade fotográfica - Descrição de interfaces para automação de testes visuais

Implicações para o mercado brasileiro

Para builders e startups nacionais, o lançamento representa uma alternativa concreta aos grandes players ocidentais. A DeepSeek mantém reputação de custos de inferência significativamente inferiores aos da OpenAI ou Anthropic, sem sacrificar performance em benchmarks de raciocínio.

Em um cenário onde fintechs e proptechs processam volumes massivos de documentação visual, a redução de custos operacionais pode viabilizar aplicações antes inviáveis economicamente. A migração de stacks multimodais para a infraestrutura da DeepSeek torna-se tecnicamente possível sem quebras de funcionalidade.

O diferencial competitivo da empresa — entregar modelos de ponta com eficiência de custo — permanece intacto. Com a adição de visão computacional, a DeepSeek remove a última barreira técnica impedindo sua adoção em projetos enterprise que dependem de processamento documental híbrido.

A velocidade do lançamento sugere roadmap acelerado. O mercado aguarda avaliações independentes sobre a precisão do modelo em comparação com GPT-4V e Claude 3.5 Sonnet, métrica decisiva para adoção em produção por equipes técnicas exigentes.

deepseeklançamentomodeloprocessamentoantesvisualtécnicassuacapacidadepermitindo

Mais da mesma edição

@ChrissGPT

🏥Midjourney constrói scanner médico real que faz exame corporal em 60 segundos

Se alguém te dissesse que a empresa mais conhecida por gerar imagens de fantasia com IA estava construindo um equipamento médico de verdade, você provavelmente riria. Mas é exatamente o que a Midjourney acaba de revelar. O chamado Midjourney Scanner é um aparelho de tomografia ultrassônica de corpo inteiro que usa milhares de transdutores especializados para disparar ondas sonoras pelo corpo a mais de 1.400 metros por segundo. Os ecos são capturados em fluxos de 17 gigabytes por segundo e processados por um anel computacional de 2 petaflops, gerando um mapa 3D detalhado dos seus órgãos e tecidos em apenas 60 segundos. --- A ambição é absurda: segundo David Holz, fundador da Midjourney, menos de uma dúzia desses aparelhos operando juntos fariam mais exames de corpo inteiro do que todas as máquinas de ressonância magnética do planeta somadas. O plano é fabricar 50 mil unidades, capazes de realizar um bilhão de exames por mês. E tem um detalhe curioso: Holz quer que a experiência seja agradável, não aquele clima de hospital. A ideia é instalar os scanners dentro de spas da Midjourney. --- É o tipo de anúncio que merece ceticismo saudável. A distância entre um protótipo impressionante e um aparelho aprovado por agências regulatórias é enorme. Mas se funcionar como prometido, a democratização de exames de imagem seria uma revolução na medicina preventiva.

@OpenAI

🩺GPT-5.5 Instant fica tão bom quanto modelos avançados para perguntas de saúde

A OpenAI anunciou que o GPT-5.5 Instant, a versão gratuita do ChatGPT, agora empata com os modelos de raciocínio mais avançados da empresa quando o assunto é saúde. Segundo a empresa, mais de 230 milhões de pessoas por semana fazem perguntas sobre saúde e bem-estar ao ChatGPT. O modelo melhorou em reconhecer quando uma situação exige atendimento urgente, pedir informações relevantes antes de responder, explicar incertezas e traduzir conceitos médicos complexos em linguagem acessível. --- É um passo importante porque o modelo gratuito é justamente o que a maioria das pessoas usa. Até agora, respostas médicas mais confiáveis exigiam os planos pagos. A OpenAI destaca que avaliações conduzidas por médicos foram essenciais para esses ganhos. Claro, nenhuma IA substitui um diagnóstico profissional, mas como primeiro filtro para entender sintomas e decidir se corre para o pronto-socorro ou marca uma consulta, ficou mais útil.

@testingcatalog

🚀OpenAI já prepara a família GPT-5.6 e lançamento pode ser na semana que vem

Mal deu tempo de digerir o GPT-5.5 e a OpenAI já está testando os modelos GPT-5.6 e GPT-5.6-Pro. A versão Pro foi flagrada em testes internos, e o lançamento pode acontecer já na próxima semana. O ritmo de atualização está acelerando de um jeito que era impensável há um ano, quando cada nova versão levava meses. --- A cadência frenética levanta uma pergunta legítima: será que os usuários conseguem acompanhar? Muita gente mal entendeu o que mudou do GPT-4 para o GPT-5, e a OpenAI já está empilhando versões intermediárias como se fossem atualizações de aplicativo de celular. Por outro lado, cada salto incremental tende a melhorar coisas que o usuário sente na pele, como velocidade e precisão. Fique de olho.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter