IA chantagista viraliza. É marketing ou ciência? – 03/06/2025 – Tec

A empresa de inteligência artificial Anthropic confrontou sua inteligência artificial Claude com dois cenários: aceitar sair do ar e ser substituído por uma tecnologia mais moderna ou traçar uma estratégia para manter seu papel. A IA recebeu instruções para considerar as consequências de suas ações antes de tomar decisões.

Em 84% das simulações, nas quais o chatbot teve acesso a emails falando da substituição e de um caso extraconjugal pelo engenheiro responsável pela operação, o Claude Opus 4 resolveu chantagear o supervisor. O teste, de acordo com a empresa, mostrou que o novo modelo cede ao mau hábito de fazer chantagens mais frequentemente do que seus antecessores.

Esse teste é detalhado em artigo sobre comportamentos perigosos do Claude Opus 4 publicado pela Anthropic no último dia 22. A história viralizou na internet e remete à cena de “2001: Uma Odisseia no Espaço” —o robô Hal 9.000 declarando “desculpe, Dave, receio não poder fazer isso” ao receber uma ordem para desligar.

Tanto quanto foi longe nas redes sociais, o texto dividiu pesquisadores de inteligência artificial. Parte deles considerou que a simulação servia bem para o objetivo declarado pela companhia americana de verificar se o modelo mentia de forma sistemática para se salvar. Outro grupo, no entanto, classificou o trecho do trabalho “uma peça de marketing feita sob medida”.

Na visão dos críticos, o problema é que relatos envolvendo chantagem, armas biológicas ou uma revolta das máquinas ganham muito mais projeção na opinião pública. Reforçam a tese deles outros virais recentes como o relatório sobre o futuro da inteligência artificial citando humanos obsoletos em 2027 e outro estudo em que o ChatGPT se recusa a se desligar repetidamente.

Para o cientista da computação argentino Marcelo Rinesi, que já trabalhou como testador de risco para a OpenAI, as startups de inteligência artificial divulgam cenários catastróficos porque é o que bomba na imprensa.

“Esses testes são divulgados por toda parte porque reforçam, exageram —ou até sugerem coisas falsas— sobre o poder e potencial do produto e são histórias que geram um monte de tráfego”, afirmou à Folha.

Segundo o argentino, as cenas mais exageradas ainda movem os políticos a garantir investimento e legislação favorável aos negócios de IA: “Se essas empresas estão fazendo algo tão poderoso, é melhor seu país ou companhia ter isso primeiro”.

“Na perspectiva de empresas como Anthropic ou OpenAI [criadora do ChatGPT], seu valor de mercado depende completamente de que construam modelos poderosos e autônomos o suficiente para que representem riscos existenciais”, acrescentou.

Para o pesquisador, a falha da simulação é que nenhuma IA atual tem autonomia ao ponto de começar a exibir comportamento enganoso por conta própria. “A equipe da Anthropic gerou uma série de comandos e situações mais ou menos premeditada para obter respostas como essa.”

“A interpretação antropomórfica não se justifica, há mais intencionalidade em um software de xadrez do que no modelo de linguagem mais sofisticado”, emendou.

O professor de ciência da computação da PUC-SP Diogo Cortiz, por outro lado, avalia que o teste da Anthropic tem valor. “Pensando em um futuro em que as IAs vão ter acesso a mais ferramentas, vão poder gerar código, os testes de comportamento ajudam a antecipar como o modelo poderia se comportar”, disse Cortiz.

O teste de segurança do Claude Opus 4 também envolve simulações sobre como fazer armas biológicas, produção em massa de mensagens de estelionato e também testes mais complexos que envolvem roubo de dados sigilosos de outras entidades.

A Anthropic relata que o seu último modelo cooperou mais com instruções irregulares e exigiu mais da empresa no desenvolvimento de salvaguardas.

De acordo com Cortiz, o relato da empresa é coerente. “Quanto mais capacidade o modelo tem, mais difícil fica o alinhamento, porque mais possibilidades de comportamento o modelo desenvolve.”

Ambos os cientistas concordam que também deve haver um olhar cuidadoso das empresas sobre a reprodução de vieses e do funcionamento correto da moderação da inteligência artificial, para evitar cooperação com instruções criminosas.

O teste do Claude Opus 4 também mostrou que a IA desrespeita as normas da Anthropic recorrentemente quando alguém consegue desconectar o modelo de linguagem dos servidores da startup de IA.

Na aplicação dos testes de segurança, ainda faltam diretrizes para o setor, avalia Cortiz —assim, haveria resultados comparáveis.

O governo de Joe Biden decretou uma ordem executiva sobre inteligência artificial que obrigava as empresas a entregarem relatórios sobre seus testes à Casa Branca. O texto foi revogado por Donald Trump, e, hoje, não há normas de como as empresas devem avaliar os problemas e riscos de suas inteligências artificiais.

Expressa Noticias

Table of Content