DeepL: A Nova Fronteira da Tradução de Voz

ByRedator
16/04/2026

Lançamento da Nova Plataforma de Tradução de Voz da DeepL

A DeepL, uma companhia conhecida por suas ferramentas de tradução textual, lançou recentemente uma suíte de tradução voz-a-voz. Essa nova plataforma é voltada para diversos contextos, como reuniões, conversas em dispositivos móveis e web, e diálogos em grupo, especialmente voltada para trabalhadores de linha de frente através de aplicativos personalizados.

API para Desenvolvedores Externos

Além disso, a empresa está disponibilizando uma API que permite que desenvolvedores e empresas externas integrem a tecnologia da DeepL em seus próprios projetos. Essa funcionalidade é especialmente útil para call centers e outras aplicações que exigem traduções em tempo real.

Avanços na Tradução de Voz

Em uma entrevista, o CEO da DeepL, Jarek Kutylowski, comentou que a transição do foco em tradução textual para a tradução de voz foi um passo lógico. “Após muitos anos direcionados à tradução de textos, a voz representou um caminho natural para nós”, afirmou. Segundo ele, a empresa já alcançou um progresso significativo na tradução de documentos, mas sentia que faltava um produto eficaz para tradução de voz em tempo real.

Desafios e Soluções em Tradução de Voz

Kurylowski ressaltou que os principais desafios para desenvolver um produto de tradução em tempo real estão relacionados à necessidade de equilibrar a redução da latência — o tempo de espera entre a fala e a reprodução do áudio traduzido — com a precisão dos resultados. Esse equilíbrio é essencial para garantir uma experiência fluida para os usuários.

Integração com Plataformas de Comunicação

A DeepL está lançando complementos para plataformas populares como Zoom e Microsoft Teams. Com essas ferramentas, os ouvintes podem optar por ouvir a tradução em tempo real enquanto outras pessoas falam em seus idiomas nativos ou podem acompanhar o texto traduzido em tempo real na tela. Este projeto está atualmente em acesso antecipado, e a empresa está mobilizando organizações para se inscreverem em uma lista de espera.

Participação em Conversas em Grupo

A solução também permite a participação em conversas em grupo durante sessões de treinamento ou workshops, onde os participantes podem ingressar através de um código QR. Isso amplia as possibilidades de interação e compreensão em contextos colaborativos.

Aprendizado Personalizado da Tecnologia

Outra característica interessante da nova tecnologia de tradução de voz é sua capacidade de aprender e se adaptar a vocabulários personalizados, incluindo termos específicos de setores, assim como nomes de empresas e pessoas. Essa adaptabilidade potencializa a eficácia da comunicação em nichos diversos.

O Futuro do Atendimento ao Cliente com IA

Kutylowski mencionou que a inteligência artificial está transformando o atendimento ao cliente, prevendo que uma camada de tradução ajudará empresas a oferecer suporte em idiomas que possuem poucos funcionários qualificados disponíveis, tornando esse processo mais acessível.

Controle Total sobre a Tecnologia de Tradução

A DeepL afirmou que controla toda a cadeia de valores da tradução voz-a-voz. Contudo, o sistema atual ainda realiza três etapas: converte a fala em texto, aplica a tradução e, por fim, transforma isso novamente em áudio. Com a experiência acumulada em tradução textual, a DeepL acredita que possui uma vantagem na qualidade das traduções. Olhando para o futuro, a empresa busca desenvolver um modelo de tradução de voz que elimine a etapa de conversão de texto.

Concorrência no Mercado de Tradução

A DeepL enfrenta concorrência de várias startups emergentes que operam em áreas relacionadas. A Sanas, por exemplo, levantou US$ 65 milhões no ano passado, utilizando inteligência artificial para modificar o sotaque dos falantes em tempo real, especialmente voltada para agentes de call center.

Outro competidor, a Camb.AI, com sede em Dubai, concentra-se na síntese de fala e tradução para empresas de mídia e entretenimento, ajudando-as a dublar e localizar conteúdo audiovisual em larga escala.

Por fim, a Palabra, apoiada pela empresa Seven Seven Six, fundada pelo co-fundador do Reddit, Alexis Ohanian, está desenvolvendo um motor de tradução de fala em tempo real que busca manter tanto o significado quanto a voz original do falante, posicionando-se diretamente como concorrente do que a DeepL está criando atualmente.