Cinco modelos de IA de Frontier discreparon en un 67% de las afirmaciones de verificación de hechos en el último estudio

Según el investigador Kosta Jordanov, de Lenz Research, cinco modelos de IA fronterizos discreparon en el 67% de 1.000 afirmaciones de verificación de hechos en el mundo real que se probaron este mes. A los modelos—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro con Search y Sonar Pro—se les pidió clasificar las afirmaciones como verdaderas, mayormente verdaderas, engañosas o falsas. En el 34% de los casos, la discrepancia fue grave: un modelo calificó una afirmación como verdadera mientras que otro la etiquetó como falsa.

El estudio midió el acuerdo usando el alfa de Krippendorff, que obtuvo 0,639 en una escala donde 1,0 indica acuerdo perfecto; los investigadores generalmente consideran que puntuaciones por debajo de 0,8 son débiles. El acuerdo unánime solo ocurrió en 328 de 1.000 afirmaciones y, notablemente, ninguna afirmación recibió veredictos unánimes de “mayormente verdadera”. Los investigadores utilizaron afirmaciones presentadas por usuarios reales a la plataforma de verificación de hechos de Lenz en lugar de puntos de referencia estándar, lo que reduce la probabilidad de que los modelos “patrón-matchearan” contra los datos de entrenamiento.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
GateUser-84f1f85dvip
· hace1h
Vibraciones 1000x 🤑
Ver originalResponder0
GateUser-84f1f85dvip
· hace1h
Manténte firme 💪
Ver originalResponder0
GateUser-84f1f85dvip
· hace1h
Corrida de toros 🐂
Ver originalResponder0
GateUser-84f1f85dvip
· hace1h
Mono en 🚀
Ver originalResponder0