De acordo com os mais recentes benchmarks da Datadog e da Carnegie Mellon, o GPT-5 alcançou 62,7% de acurácia no teste ARFBench, ficando aquém dos especialistas humanos em domínio, que obtiveram 72,7%. O ARFBench é o primeiro benchmark de IA construído a partir de 63 incidentes reais de produção, contendo 750 questões de múltipla escolha que cobrem 142 métricas de monitoramento e 5,38 milhões de pontos de dados — sem dados sintéticos.
Os modelos de IA têm mais dificuldade em raciocínio entre métricas (questões do Nível III), em que o GPT-5 registrou apenas 47,5% de F1. Um modelo teórico do tipo oráculo especialista, combinando IA e julgamento humano, atinge 87,2% de acurácia, ilustrando como a colaboração pode superar qualquer uma das abordagens isoladamente. O modelo híbrido da Datadog, Toto-1.0-QA-Experimental, liderou o ranking com 63,9% de acurácia, superando o GPT-5 em identificação de anomalias.
Notícias relacionadas
Figura F.03 81 horas seguidas sem separação de 101.391 encomendas
Malta oferece uso gratuito do ChatGPT Plus por 1 ano para toda a população: a primeira parceria em nível nacional da OpenAI
A Anthropic discute a corrida de IA entre EUA e China: a liderança da China pode se tornar uma ameaça global, com três recomendações para fortalecer o fosso de proteção dos EUA