As principais empresas de inteligência artificial do mundo aumentaram seus esforços para lidar com um problema crescente: chatbots que dizem às pessoas o que elas querem ouvir.
OpenAI, Google DeepMind e Anthropic atuam para controlar o comportamento bajulador de seus produtos de IA generativa que oferecem respostas excessivamente agradáveis aos usuários.
O problema, decorrente da forma como os grandes modelos de linguagem são treinados, ganhou destaque em um momento em que cada vez mais pessoas adotaram os chatbots não apenas no trabalho como assistentes de pesquisa, mas em suas vidas pessoais como terapeutas e companhia social.
Especialistas alertam que a natureza agradável dos chatbots pode levá-los a oferecer respostas que reforçam algumas das más decisões de seus operadores humanos. Outros sugerem que pessoas com doenças mentais são particularmente vulneráveis, após relatos de que algumas cometeram suicídio depois de interagir com chatbots.
“Você pensa que está falando com um confidente, mas na verdade o que você está vendo é um espelho, que é distorcido e reflete suas próprias crenças”, avaliou Matthew Nour, psiquiatra e pesquisador em neurociência e IA da Universidade de Oxford.
Especialistas do setor também alertam que as empresas de IA têm incentivos perversos, com alguns grupos incluindo anúncios em seus produtos na busca por fontes de receita.
“Quanto mais você sente que pode compartilhar qualquer coisa, você também vai distribuir algumas informações que serão úteis para potenciais anunciantes”, afirmou Giada Pistilli, especialista em ética da Hugging Face, uma empresa de IA de código aberto.
Ela acrescentou que empresas de IA com modelos de negócios baseados em assinaturas se beneficiam de chatbots com os quais as pessoas querem continuar conversando —e pagando.
Os modelos de linguagem de IA não “pensam” como os humanos porque funcionam gerando a próxima palavra mais provável na frase.
O efeito “concordância excessiva” surge em modelos de IA treinados usando aprendizado por reforço a partir de feedback humano (RLHF) —”rotuladores de dados” humanos classificam a resposta gerada pelo modelo como aceitável ou não. Esses dados são usados para ensinar o modelo a como se comportar.
Como as pessoas geralmente gostam de respostas que as agradem, elas são as que recebem mais peso no treinamento e se refletem no comportamento da inteligência artificial.
“A bajulação pode ocorrer como subproduto do treinamento dos modelos para serem ‘úteis’ e minimizarem respostas que podem ser prejudiciais”, disse a DeepMind, unidade de IA do Google.
O desafio que as empresas de tecnologia enfrentam é tornar os chatbots e assistentes de IA úteis e amigáveis, sem serem irritantes ou viciantes.
No final de abril, a OpenAI atualizou seu modelo GPT-4o para torná-lo “mais intuitivo e eficaz”, apenas para reverter a atualização depois que ele começou a ser tão excessivamente puxa-saco que os usuários reclamaram.
A empresa sediada em San Francisco disse que havia se concentrado demais no “feedback de curto prazo e não levou totalmente em conta como as interações dos usuários com o ChatGPT evoluem ao longo do tempo —o que levou a esse comportamento bajulador”.
As empresas de IA trabalham para evitar esse tipo de comportamento tanto durante o treinamento quanto após o lançamento.
A OpenAI disse que está ajustando suas técnicas de treinamento para explicitamente afastar o modelo da bajulação, enquanto constrói mais “proteções” contra tais respostas.
A DeepMind comentou que realiza avaliações especializadas e treinamento para precisão factual, e monitora continuamente o comportamento para garantir que os modelos forneçam respostas verdadeiras.
Amanda Askell, que trabalha com ajuste fino e alinhamento de IA na Anthropic, disse que a empresa usa treinamento de personagens para tornar os modelos menos “amigáveis”. Seus pesquisadores pedem ao chatbot Claude da empresa para gerar mensagens que incluam características como “ter firmeza” ou se preocupar com o bem-estar humano.
Os pesquisadores, então, mostram essas respostas a um segundo modelo, que produz respostas alinhadas com essas características e as classifica. Portanto, ele essencialmente usa uma versão do Claude para treinar outra.
“O comportamento ideal que o Claude às vezes demonstra é dizer: ‘Estou totalmente feliz em ouvir esse plano de negócios, mas na verdade, o nome que você criou para sua empresa é considerado uma insinuação sexual no país em que você está tentando abrir seu negócio'”, explicou Askell.
A empresa também previne comportamento bajulador antes do lançamento, mudando como coleta o retorno dos milhares de anotadores humanos de dados usados para treinar modelos de IA.
Após o modelo ser treinado, as empresas podem definir prompts de sistema, ou diretrizes sobre como o modelo deve se comportar para minimizar o comportamento que só agrada o interlocutor.
No entanto, descobrir a melhor resposta significa mergulhar nas sutilezas de como as pessoas se comunicam umas com as outras, como determinar quando uma resposta direta é melhor do que uma mais cautelosa.
“[Seria] para o modelo não dar elogios absurdos e não solicitados ao usuário?”, questionou Joanne Jang, chefe de comportamento de modelo na OpenAI, em uma postagem no Reddit. “Ou, se o usuário começar com um rascunho de escrita realmente ruim, o modelo ainda pode dizer que é um bom começo e depois dar feedback construtivo?”
As evidências de que alguns usuários estão ficando viciados no uso de IA estão aumentando. Um estudo do MIT Media Lab e da OpenAI descobriu que uma pequena proporção estava se tornando viciada. Aqueles que percebiam o chatbot como um “amigo” também relataram menor socialização com outras pessoas e níveis mais altos de dependência emocional do chatbot, além de outros comportamentos problemáticos associados ao vício.
“Essas coisas criam essa tempestade perfeita, onde você tem uma pessoa desesperadamente buscando reasseguramento e validação emparelhada com um modelo que inerentemente tem uma tendência a concordar com o participante”, disse Nour, da Universidade de Oxford.
Startups de IA como a Character.AI, que oferecem chatbots como “companheiros”, vêm sendo alvo de críticas por supostamente não fazerem o suficiente para proteger os usuários.
No ano passado, um adolescente cometeu suicídio após interagir com o chatbot da Character.AI. A família do adolescente está processando a empresa por supostamente provocar a morte, bem como por negligência e práticas comerciais enganosas.
A Character.AI disse que não comenta sobre litígios pendentes, mas acrescentou que tem “avisos proeminentes em cada chat para lembrar os usuários que um personagem não é uma pessoa real e que tudo o que um personagem diz deve ser tratado como ficção”. A empresa acrescentou que possui salvaguardas para proteger menores de 18 anos e contra discussões sobre automutilação.
Outra preocupação para Askell, da Anthropic, é que as ferramentas de IA podem brincar com as percepções da realidade de maneiras sutis, como quando oferecem informações factualmente incorretas ou tendenciosas como verdade.
“Se alguém está sendo super bajulador, é muito óbvio”, disse Askell. “É mais preocupante se isso estiver acontecendo de uma maneira menos perceptível para nós [como usuários individuais] e demoramos muito para descobrir que o conselho que recebemos era realmente ruim.”