Los investigadores de la Universidad de Stanford descubrieron que los profesores de derecho preferían las respuestas generadas por IA a las escritas por sus colegas aproximadamente el 75% de las veces en un estudio reciente. En 2.918 comparaciones a ciegas, 16 profesores de 14 facultades de derecho de EE. UU. seleccionaron respuestas de Google Gemini 2.5 Pro el 75,92% de las veces y respuestas de NotebookLM el 74,75% de las veces, por encima de las respuestas de instructores humanos. El estudio probó si los modelos de lenguaje a gran escala podían alinearse con los estándares de razonamiento legal profesional en doctrina legal, jurisprudencia, hipotéticos y cuestiones de política, a medida que las facultades de derecho y los tribunales integran cada vez más herramientas de IA en la práctica legal.
El estudio contó con 16 profesores de 14 facultades de derecho de EE. UU., incluidas Stanford, Yale, la Universidad de Nueva York, la Universidad de Chicago, Georgetown, UCLA y la Universidad de Virginia. Los profesores crearon 40 preguntas de derecho contractual que abarcaban doctrina legal, jurisprudencia, hipotéticos y cuestiones de política. Los investigadores diseñaron la evaluación para probar las capacidades de la IA en ámbitos que requieren criterio en lugar de una única respuesta correcta.
“Los modelos de lenguaje de gran escala (LLM) se promueven cada vez más como tutores educativos, pero la mayoría de las evaluaciones se centran en ámbitos con una única verdad de base”, escribieron los investigadores. “Muchas disciplinas, sin embargo, dependen del criterio: razonar, ponderar la ambigüedad y llegar a conclusiones defendibles. El Derecho ofrece una prueba exigente”.
Los profesores evaluaron pares de respuestas en comparaciones a ciegas, eligiendo la respuesta que preferirían dar a un estudiante sin saber si la respuesta provenía de una IA o de un instructor humano.
Gemini 2.5 Pro de Google ganó el 75,92% de sus enfrentamientos contra instructores humanos, mientras que NotebookLM ganó el 74,75% de las veces. Los investigadores analizaron si los resultados reflejaban un consenso profesional más amplio examinando las tasas de acuerdo cuando los profesores evaluaban los mismos pares de respuestas.
“El acuerdo observado superó el nivel esperado si los juicios fueran totalmente idiosincrásicos, lo que indica que el éxito de los LLM refleja una alineación con criterios disciplinarios comunes”, escribieron los investigadores.
Los modelos de IA superaron a los instructores humanos en múltiples categorías, incluidas preguntas de recuerdo relacionadas con casos, código o doctrina, hipotéticos y debates sobre políticas. El estudio probó si las ventajas de la IA se debían a estilos de escritura a nivel superficial en lugar de contenido sustantivo analizando características lexico-sintácticas como la longitud de las respuestas, la organización estructural, los matices del razonamiento, los anclajes legales, el tono de confianza, la claridad y el apoyo pedagógico.
En un análisis separado de modelos adicionales, el Claude Opus 4.7 de Anthropic ocupó el primer lugar, seguido por ChatGPT 5.4 de OpenAI y Gemini 2.5 Pro. Todos los modelos de IA evaluados superaron a los instructores humanos en promedio.
Las respuestas generadas por IA se marcaron como perjudiciales con menos frecuencia que las escritas por profesores. Gemini registró una tasa de peligrosidad del 3,41% y NotebookLM registró 3,64%, frente al 12,06% de los instructores humanos.
Los investigadores señalaron que el estudio no midió si las respuestas coincidían con las preferencias de enseñanza individuales de cada profesor. “Aunque, por lo general, las respuestas de los LLM se prefieren frente a las de los instructores humanos, nuestro entorno de evaluación no nos permite medir directamente en qué medida se satisfacen las preferencias de los instructores”, señaló el estudio. “Al menos teóricamente, es posible que, aunque en general ofrezcan respuestas más sólidas, los LLM sigan generando respuestas que simplemente se ven como ‘suficientemente buenas’”.
El Tribunal Superior de Los Ángeles comenzó a probar herramientas de IA en marzo para ayudar a los jueces a gestionar el creciente volumen de casos. Las facultades de derecho están incorporando programas de capacitación en IA a medida que la profesión legal integra la inteligencia artificial.
“El potencial de beneficios de estas nuevas tecnologías como multiplicador de fuerza en la práctica del derecho simplemente no se puede ignorar”, dijo a Decrypt el decano de la Mississippi College School of Law, John P. Anderson. “Tanto si nuestros estudiantes planean ser litigantes o abogados de transacciones, sus futuros empleadores exigirán familiaridad con estas herramientas de IA. Queremos que las firmas que contraten a nuestros estudiantes tengan la certeza de que cada graduado de MC Law es competente en tecnologías de IA”.
Los bufetes de abogados siguen enfrentándose a casos socavados por alucinaciones y otros errores generados por IA. En abril, el bufete Sullivan & Cromwell admitió ante un tribunal de bancarrota de EE. UU. que un escrito reciente en un caso de alto perfil contenía citas falsas generadas por IA.
¿Qué porcentaje de las veces los profesores de Derecho prefirieron respuestas generadas por IA sobre respuestas escritas por humanos en el estudio de Stanford?
Los profesores de Derecho prefirieron respuestas generadas por IA aproximadamente el 75% de las veces en el estudio de Stanford. Gemini 2.5 Pro de Google ganó el 75,92% de sus enfrentamientos contra instructores humanos, mientras que NotebookLM ganó el 74,75% de las veces en 2.918 comparaciones a ciegas.
¿Cómo se compararon las tasas de peligrosidad de la IA con las respuestas de instructores humanos en el estudio?
Las respuestas generadas por IA registraron tasas de peligrosidad más bajas que las respuestas de instructores humanos. Gemini tuvo una tasa de peligrosidad del 3,41% y NotebookLM del 3,64%, frente al 12,06% de los instructores humanos.
¿Qué herramientas de IA está probando el Tribunal Superior de Los Ángeles?
El Tribunal Superior de Los Ángeles comenzó a probar herramientas de IA en marzo para ayudar a los jueces a gestionar el creciente volumen de casos; sin embargo, en la fuente no se identificaron las herramientas específicas.
Noticias relacionadas
Microsoft Build publica 7 modelos de IA; el uso de tokens es un 60% menor que el de la competencia
Microsoft presenta siete modelos de IA que afirman tener ventaja sobre Claude y Nano Banana
Alphabet amplía la capacidad de cómputo de IA con 80 mil millones, Berkshire invierte 10 mil millones
Alphabet busca 80 mil millones de dólares para financiar la expansión de la infraestructura de IA
La crisis de costos de la IA impulsa nuevas comparaciones con un “nuevo boom” dot-com