Os produtos advindos da Inteligência Artificial (IA) têm remodelado o mundo. Não é exagero dizer que as tecnologias estão passando por uma revolução sem precedentes que, ao que parece, tende à continuidade e cada vez mais também ao desenvolvimento. No entanto, existe uma questão lógica simples que até mesmo a IA mais avançada não consegue resolver, como demonstra um recente estudo.

O artigo, que ainda não passou pela revisão de especialistas, discute o dilema da IA conhecido como “Alice no País das Maravilhas” – ou AIW. O problema envolve um simples exercício de lógica: “Alice tem [X] irmãos e [Y] irmãs. Quantos irmãos tem o irmão de Alice?”.

Os estudos exploraram várias versões do problema, como alternando os valores de X e Y ou modificando as instruções para incluir condições adicionais, mas o raciocínio básico necessário para resolver o enigma foi inexistente.

Modelos de linguagem de IA não conseguem ter raciocínio simples

A solução para o enigma lógico é simples: é o número de irmãs que Alice tem, contando com ela própria. Portanto, se Alice tiver três irmãos e uma irmã, cada irmão terá duas irmãs.

O curioso foi que, ao examinar esta questão em uma ampla gama de modelos de linguagem de IA, incluindo GPT-3, GPT-4, GPT-4o da OpenAI, Claude 3 Opus da Anthropic, Gemini do Google, Llama da Meta, Mextral da Mistral AI, Dbrx da Mosaic e Command R+ da Cohere, os pesquisadores descobriram que todos os modelos apresentaram desempenho significativamente abaixo do esperado.

A exceção foi o GPT-4o mais recente, que alcançou uma taxa de sucesso que, em termos de padrões de notas escolares, poderia ser considerada tecnicamente aceitável.

Contudo, os problemas não se limitaram às imprecisões básicas: quando solicitados a explicar o seu raciocínio, as IAs apresentaram linhas de pensamentos estranhos e incorretos que não faziam sentido. Mais curiosamente, quando informadas de que suas respostas eram incorretas, os modelos muitas vezes reagiam com indignação e mantinham suas respostas erradas.

Colapso dramático

Os pesquisadores do LAOIN (organização sem fins lucrativos de pesquisa em IA) escreveram no artigo que o padrão geral representa um “colapso dramático das capacidades funcionais e de raciocínio de modelos de última geração treinados nas maiores escalas disponíveis […] usando um problema de senso comum simples, curto e convencional, formulado em linguagem natural concisa, facilmente solucionável por humanos.”

“O colapso é dramático, pois os modelos também expressam um forte excesso de confiança nas suas soluções erradas, ao mesmo tempo que fornecem explicações muitas vezes sem sentido, semelhantes a ‘raciocínios’, semelhantes a confabulações, para justificar e respaldar a validade das suas respostas claramente falhadas, tornando-as plausíveis”, afirmam os cientistas.

GPT-4o tem desempenho um pouco melhor

Imagem: Canva

De acordo com o artigo, o recém-lançado GPT-4o da OpenAI declarou a maior taxa de acerto, respondendo corretamente à pergunta AIW em quase 65% dos benefícios. Porém, essa taxa apenas atinge o nível mínimo considerado aceitável, sendo que o modelo seguinte mais próximo foi o Claude 3 Opus, da Anthropic, com uma taxa de sucesso de 43%.

O modelo Llama mais eficiente da Meta, especificamente o Llama 2-7b, dentre várias variantes testadas, obteve uma taxa de sucesso de 30%, enquanto o Gemini Pro do Google apresentou uma taxa extremamente baixa, com apenas 0,8% de acertos.

O aspecto mais intrigante, porém, reside na comparação desses números com outros padrões do setor, essencialmente os resultados de testes padronizados para modelos de IA que medem sua eficácia.

Avaliando a capacidade de uma IA para resolver problemas

Os cientistas destacam uma referência essencial conhecida como MMLU, abreviação para “Multi-task Language Understanding”, destinada a avaliar a habilidade das IAs em resolver uma variedade de problemas.

Segundo os pesquisadores, os modelos GPT-4o, Claude 3 Opus, Llama 2-7b e Gemini Pro obtiveram sucessos nos respectivos testes MMLU de cerca de 88%, 87%, 64% e 72%. Esses números contrastaram significativamente com os resultados encontrados no problema AIW.

Para os cientistas, esta discrepância levanta questões importantes sobre os métodos utilizados para avaliar as capacidades de resolução de problemas e julgamento dos modelos de linguagem.