Em setembro, a criadora do ChatGPT, OpenAI, introduziu uma tecnologia de inteligência artificial capaz de “raciocinar” em tarefas envolvendo matemática, programação e ciência. Agora, essa tecnologia pode lidar com tarefas semelhantes que envolvem imagens, incluindo esboços, pôsteres, diagramas e gráficos.
Nesta quarta-feira (16), a empresa apresentou duas novas versões de sua tecnologia de raciocínio chamadas OpenAI o3 e OpenAI o4-mini. Ambas podem lidar com tarefas que envolvem tanto imagens quanto texto.
Esses sistemas podem “manipular, recortar e transformar imagens a serviço da tarefa que você deseja realizar”, disse Mark Chen, chefe de pesquisa da OpenAI, ao anunciar o novo sistema durante uma transmissão ao vivo pela internet.
A OpenAI também afirmou que esses sistemas poderiam gerar imagens, pesquisar na web e usar outras ferramentas digitais.
Diferentemente das primeiras versões de seu chatbot ChatGPT, esses sistemas de raciocínio gastam uma quantidade significativa de tempo “pensando” sobre uma pergunta antes de responder, em vez de fornecer uma resposta instantânea.
Os sistemas fazem parte de um esforço mais amplo para construir IA que possa raciocinar através de tarefas complexas. Empresas como Google, Meta e DeepSeek, uma startup chinesa, estão desenvolvendo tecnologias semelhantes.
O objetivo é construir sistemas que possam resolver um problema através de uma série de etapas, cada uma se baseando na anterior, semelhante à forma como os humanos raciocinam. Essas tecnologias podem ser particularmente úteis para programadores que usam sistemas de IA para escrever código.
Os sistemas de raciocínio são baseados em uma tecnologia chamada modelos de linguagem grandes, ou LLMs. Para construir sistemas de raciocínio, as empresas submetem os LLMs a um processo adicional chamado aprendizado por reforço. Durante esse processo, um sistema aprende comportamentos através de extensivas tentativas e erros.
Ao trabalhar com vários problemas matemáticos, por exemplo, ele pode aprender quais métodos levam à resposta correta e quais não. Se repetir esse processo com um grande número de problemas, pode identificar padrões.
Os sistemas mais recentes da OpenAI aprenderam a lidar com problemas que envolvem tanto imagens quanto texto.
Especialistas apontam que os sistemas de raciocínio não necessariamente raciocinam como um humano. Além disso, como outras tecnologias de IA, eles podem errar e inventar coisas —um fenômeno chamado alucinação.
A OpenAI também revelou uma nova ferramenta, Codex CLI, que foi projetada para facilitar ainda mais tarefas de programação que envolvem sistemas como o3 e o4-mini. Chamada de agente de IA, ela fornece maneiras de usar esses sistemas de IA em conjunto com código existente armazenado na máquina pessoal de um programador.
A empresa disse que está tornando esta ferramenta de código aberto, o que significa que está compartilhando livremente o algoritmo do programa (não a do modelo) com programadores e empresas, permitindo que eles modifiquem a tecnologia e construam novos recursos.
A OpenAI disse que, a partir desta quarta-feira, esses novos sistemas estariam disponíveis para qualquer pessoa que assinasse o ChatGPT Plus, por US$ 20 (R$ 117,60) por mês, ou o ChatGPT Pro, um serviço de US$ 200 (R$ 1.176) por mês que fornece acesso a todas as ferramentas mais recentes da empresa.