Los profesores de derecho prefieren las respuestas de la IA antes que las respuestas humanas el 75% del tiempo en un estudio de Stanford

Los investigadores de la Universidad de Stanford descubrieron que los profesores de derecho preferían las respuestas generadas por IA a las escritas por sus colegas aproximadamente el 75% de las veces en un estudio reciente. En 2.918 comparaciones a ciegas, 16 profesores de 14 facultades de derecho de EE. UU. seleccionaron respuestas de Google Gemini 2.5 Pro el 75,92% de las veces y respuestas de NotebookLM el 74,75% de las veces, por encima de las respuestas de instructores humanos. El estudio probó si los modelos de lenguaje a gran escala podían alinearse con los estándares de razonamiento legal profesional en doctrina legal, jurisprudencia, hipotéticos y cuestiones de política, a medida que las facultades de derecho y los tribunales integran cada vez más herramientas de IA en la práctica legal.

El estudio de Stanford prueba la IA contra profesores de Derecho en preguntas de derecho contractual

El estudio contó con 16 profesores de 14 facultades de derecho de EE. UU., incluidas Stanford, Yale, la Universidad de Nueva York, la Universidad de Chicago, Georgetown, UCLA y la Universidad de Virginia. Los profesores crearon 40 preguntas de derecho contractual que abarcaban doctrina legal, jurisprudencia, hipotéticos y cuestiones de política. Los investigadores diseñaron la evaluación para probar las capacidades de la IA en ámbitos que requieren criterio en lugar de una única respuesta correcta.

“Los modelos de lenguaje de gran escala (LLM) se promueven cada vez más como tutores educativos, pero la mayoría de las evaluaciones se centran en ámbitos con una única verdad de base”, escribieron los investigadores. “Muchas disciplinas, sin embargo, dependen del criterio: razonar, ponderar la ambigüedad y llegar a conclusiones defendibles. El Derecho ofrece una prueba exigente”.

Los profesores evaluaron pares de respuestas en comparaciones a ciegas, eligiendo la respuesta que preferirían dar a un estudiante sin saber si la respuesta provenía de una IA o de un instructor humano.

Gemini 2.5 Pro y NotebookLM ganan el 75% de las comparaciones de profesores

Gemini 2.5 Pro de Google ganó el 75,92% de sus enfrentamientos contra instructores humanos, mientras que NotebookLM ganó el 74,75% de las veces. Los investigadores analizaron si los resultados reflejaban un consenso profesional más amplio examinando las tasas de acuerdo cuando los profesores evaluaban los mismos pares de respuestas.

“El acuerdo observado superó el nivel esperado si los juicios fueran totalmente idiosincrásicos, lo que indica que el éxito de los LLM refleja una alineación con criterios disciplinarios comunes”, escribieron los investigadores.

Los modelos de IA superaron a los instructores humanos en múltiples categorías, incluidas preguntas de recuerdo relacionadas con casos, código o doctrina, hipotéticos y debates sobre políticas. El estudio probó si las ventajas de la IA se debían a estilos de escritura a nivel superficial en lugar de contenido sustantivo analizando características lexico-sintácticas como la longitud de las respuestas, la organización estructural, los matices del razonamiento, los anclajes legales, el tono de confianza, la claridad y el apoyo pedagógico.

En un análisis separado de modelos adicionales, el Claude Opus 4.7 de Anthropic ocupó el primer lugar, seguido por ChatGPT 5.4 de OpenAI y Gemini 2.5 Pro. Todos los modelos de IA evaluados superaron a los instructores humanos en promedio.

Los modelos de IA registran tasas de menor peligrosidad que los instructores humanos

Las respuestas generadas por IA se marcaron como perjudiciales con menos frecuencia que las escritas por profesores. Gemini registró una tasa de peligrosidad del 3,41% y NotebookLM registró 3,64%, frente al 12,06% de los instructores humanos.

Los investigadores señalaron que el estudio no midió si las respuestas coincidían con las preferencias de enseñanza individuales de cada profesor. “Aunque, por lo general, las respuestas de los LLM se prefieren frente a las de los instructores humanos, nuestro entorno de evaluación no nos permite medir directamente en qué medida se satisfacen las preferencias de los instructores”, señaló el estudio. “Al menos teóricamente, es posible que, aunque en general ofrezcan respuestas más sólidas, los LLM sigan generando respuestas que simplemente se ven como ‘suficientemente buenas’”.

El tribunal de Los Ángeles y las facultades de Derecho adoptan herramientas de IA

El Tribunal Superior de Los Ángeles comenzó a probar herramientas de IA en marzo para ayudar a los jueces a gestionar el creciente volumen de casos. Las facultades de derecho están incorporando programas de capacitación en IA a medida que la profesión legal integra la inteligencia artificial.

“El potencial de beneficios de estas nuevas tecnologías como multiplicador de fuerza en la práctica del derecho simplemente no se puede ignorar”, dijo a Decrypt el decano de la Mississippi College School of Law, John P. Anderson. “Tanto si nuestros estudiantes planean ser litigantes o abogados de transacciones, sus futuros empleadores exigirán familiaridad con estas herramientas de IA. Queremos que las firmas que contraten a nuestros estudiantes tengan la certeza de que cada graduado de MC Law es competente en tecnologías de IA”.

Sullivan & Cromwell admite citas falsas de IA en un escrito de bancarrota

Los bufetes de abogados siguen enfrentándose a casos socavados por alucinaciones y otros errores generados por IA. En abril, el bufete Sullivan & Cromwell admitió ante un tribunal de bancarrota de EE. UU. que un escrito reciente en un caso de alto perfil contenía citas falsas generadas por IA.

FAQ

¿Qué porcentaje de las veces los profesores de Derecho prefirieron respuestas generadas por IA sobre respuestas escritas por humanos en el estudio de Stanford?

Los profesores de Derecho prefirieron respuestas generadas por IA aproximadamente el 75% de las veces en el estudio de Stanford. Gemini 2.5 Pro de Google ganó el 75,92% de sus enfrentamientos contra instructores humanos, mientras que NotebookLM ganó el 74,75% de las veces en 2.918 comparaciones a ciegas.

¿Cómo se compararon las tasas de peligrosidad de la IA con las respuestas de instructores humanos en el estudio?

Las respuestas generadas por IA registraron tasas de peligrosidad más bajas que las respuestas de instructores humanos. Gemini tuvo una tasa de peligrosidad del 3,41% y NotebookLM del 3,64%, frente al 12,06% de los instructores humanos.

¿Qué herramientas de IA está probando el Tribunal Superior de Los Ángeles?

El Tribunal Superior de Los Ángeles comenzó a probar herramientas de IA en marzo para ayudar a los jueces a gestionar el creciente volumen de casos; sin embargo, en la fuente no se identificaron las herramientas específicas.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios