🎙️Google lança app gratuito que transcreve e traduz por voz, tudo offline
O Google lançou o Eloquent, um aplicativo gratuito de ditado e transcrição por voz para Mac e iPhone que funciona inteiramente no seu aparelho, sem enviar nada para a nuvem. Ele roda com o modelo Gemma 12B e consegue transcrever áudio, traduzir entre idiomas, ditar texto e até polir o que você falou, tudo localmente. --- Quem testou relata que a transcrição é surpreendentemente boa, mesmo em arquivos curtos de 3 a 4 minutos. O app faz parte do projeto Google AI Edge, a aposta da empresa em colocar inteligência artificial para funcionar direto nos dispositivos, sem depender de conexão com internet. --- Para quem trabalha com entrevistas, reuniões ou simplesmente prefere falar em vez de digitar, é o tipo de ferramenta que pode entrar na rotina rápido. O fato de ser offline resolve duas dores de uma vez: funciona em qualquer lugar e seus dados não saem do aparelho.
O Google lançou o Eloquent, um aplicativo gratuito de ditado e transcrição por voz para Mac e iPhone que funciona inteiramente no seu aparelho, sem enviar nada para a nuvem. Ele roda com o modelo Gemma 12B e consegue transcrever áudio, traduzir entre idiomas, ditar texto e até polir o que você falou, tudo localmente.
— @ai_for_success View on X
O Google lançou o Eloquent, aplicativo gratuito de transcrição e tradução por voz que opera exclusivamente offline em dispositivos Apple. A ferramenta processa áudio localmente utilizando o modelo Gemma 12B, eliminando a dependência de APIs em nuvem e mantendo dados do usuário no dispositivo.
Arquitetura on-device e processamento local
Diferente de soluções como Whisper Cloud ou Google Cloud Speech-to-Text, o Eloquent executa inferência diretamente no hardware do Mac ou iPhone. O modelo Gemma 12B — versão compacta da família open source do Google — roda localmente para converter fala em texto, traduzir entre idiomas e refinar o conteúdo transcrito (polishing).
A distinção técnica aqui é o edge computing aplicado a NLP: em vez de enviar streams de áudio para servidores remotos, o aplicativo aproveita o Neural Engine dos chips Apple para processamento de speech-to-text sem latência de rede. Testes iniciais indicam precisão consistente mesmo em arquivos curtos de três a quatro minutos, cenário tradicionalmente desafiador para modelos compactos.