GPT-5 atinge 62,7% de precisão em incidentes de produção, ficando aquém do patamar de referência de 72,7% para especialistas

De acordo com os benchmarks mais recentes da Datadog e da Carnegie Mellon, o GPT-5 atingiu 62,7% de precisão no teste ARFBench, ficando aquém dos especialistas humanos do domínio, com 72,7%. O ARFBench é o primeiro benchmark de IA construído a partir de 63 incidentes reais de produção, com 750 perguntas de escolha múltipla que cobrem 142 métricas de monitorização e 5,38 milhões de pontos de dados — sem dados sintéticos.

Os modelos de IA têm mais dificuldade no raciocínio entre métricas (questões do Tier III), em que o GPT-5 obteve apenas 47,5% de F1. Um modelo teórico-oráculo especialista, que combina IA e julgamento humano, alcança 87,2% de precisão, evidenciando como a colaboração pode superar qualquer uma das abordagens isoladamente. O modelo híbrido da Datadog, Toto-1.0-QA-Experimental, liderou o ranking com 63,9% de precisão, superando o GPT-5 na identificação de anomalias.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário