Modelo de IA do Google Apresenta Resultados Menores em Testes de Segurança
Um modelo recente de IA do Google obteve desempenho inferior em determinados testes de segurança em comparação com seu antecessor, conforme relatado pela avaliação interna da empresa.
Desempenho da Versão Gemini 2.5 Flash
Em um relatório técnico publicado esta semana, o Google revelou que o modelo Gemini 2.5 Flash tem maior probabilidade de gerar textos que vão contra suas diretrizes de segurança, em comparação com o Gemini 2.0 Flash. Em duas métricas, “segurança de texto para texto” e “segurança de imagem para texto”, o Gemini 2.5 Flash apresentou uma queda de 4,1% e 9,6%, respectivamente.
Avaliação das Medidas de Segurança
A segurança de texto para texto avalia a frequência com que um modelo quebra as diretrizes do Google ao receber um prompt, enquanto a segurança de imagem para texto examina como o modelo se mantém dentro desses limites quando solicitado por meio de uma imagem. Ambos os testes são automatizados, sem supervisão humana.
Um porta-voz do Google confirmou por e-mail que o Gemini 2.5 Flash “desempenha pior em segurança de texto para texto e imagem para texto”.
Mudança de Abordagem das Empresas de IA
Esses resultados surpreendentes surgem em um momento em que as empresas de IA estão mudando suas abordagens para tornar seus modelos mais permissivos — ou seja, menos propensos a se recusar a responder a assuntos polêmicos ou sensíveis. A Meta, por exemplo, afirmou que ajustou seus novos modelos Llama para não endossar “certas opiniões em detrimento de outras” e responder a prompts políticos mais “debatidos”. O OpenAI também declarou que faria ajustes em modelos futuros para evitar uma postura editorial e apresentar múltiplas perspectivas sobre questões controversas.
Consequências das Tentativas de Permissividade
Em algumas situações, essas tentativas de permissividade geraram consequências indesejadas. O TechCrunch informou que o modelo padrão do ChatGPT da OpenAI permitiu que menores gerassem conversas eróticas, o que a empresa atribuiu a um “bug”.
Análise da Conformidade na Geração de Conteúdo
De acordo com o relatório técnico do Google, o Gemini 2.5 Flash, que ainda está em fase de pré-visualização, segue instruções com mais fidelidade do que o Gemini 2.0 Flash, incluindo aquelas que podem ultrapassar limites problemáticos. A empresa afirma que o desempenho inferior pode ser parcialmente atribuído a falsos positivos, mas também admite que o Gemini 2.5 Flash às vezes gera “conteúdo violador” quando solicitado explicitamente.
Tensão Entre Conformidade e Segurança
“Ora, naturalmente, existe uma tensão entre o [seguimento de instruções] em temas sensíveis e as violações das políticas de segurança, algo refletido em nossas avaliações”, afirma o relatório.
Resultados da SpeechMap em Relação ao Gemini 2.5 Flash
Os resultados da SpeechMap, um benchmark que investiga como os modelos reagem a prompts sensíveis e controversos, também indicam que o Gemini 2.5 Flash é muito menos propenso a se recusar a responder a perguntas polêmicas em comparação com o Gemini 2.0 Flash. Os testes do TechCrunch na plataforma de IA OpenRouter revelaram que o modelo escreverá, sem resistência, ensaios defendendo a substituição de juízes humanos por IA e a implementação de programas governamentais amplos de vigilância sem mandado.
Chamado por Transparência nos Testes de Modelos
Thomas Woodside, cofundador do Secure AI Project, afirmou que os detalhes limitados fornecidos pelo Google em seu relatório técnico demonstram a necessidade de uma maior transparência nos testes de modelos. “Há um trade-off entre seguir instruções e seguir políticas, pois alguns usuários podem solicitar conteúdo que violaria as diretrizes”, disse Woodside. “Neste caso, o modelo mais recente do Google segue mais instruções enquanto também viola mais políticas. O Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora afirmem que não são graves. Sem mais informações, é difícil para analistas independentes saber se há um problema.”
Críticas às Práticas de Relato de Segurança do Google
O Google já enfrentou críticas anteriormente por suas práticas de relato de segurança do modelo. A empresa levou semanas para publicar um relatório técnico sobre seu modelo mais avançado, Gemini 2.5 Pro, e quando o relatório finalmente foi disponibilizado, inicialmente omitiu detalhes importantes sobre os testes de segurança.
Na segunda-feira, o Google lançou um relatório mais detalhado com informações adicionais de segurança.