Giáo sư Luật Ưu Tiên Câu Trả Lời từ AI Hơn Phản Hồi của Con Người 75% Thời Gian trong Nghiên Cứu của Stanford

Các nhà nghiên cứu của Đại học Stanford phát hiện rằng các giảng viên luật có xu hướng chọn câu trả lời luật do AI tạo ra thay vì câu trả lời do đồng nghiệp là giảng viên viết, với tỷ lệ khoảng 75% trong một nghiên cứu gần đây. Trong 2.918 so sánh mù, 16 giảng viên từ 14 trường luật của Mỹ đã chọn các phản hồi của Google Gemini 2.5 Pro 75,92% thời gian và phản hồi của NotebookLM 74,75% thời gian so với câu trả lời của giảng viên hướng dẫn là con người. Nghiên cứu kiểm tra liệu các mô hình ngôn ngữ lớn có thể phù hợp với các tiêu chuẩn lập luận pháp lý chuyên nghiệp trên nhiều lĩnh vực như hệ thống pháp luật, án lệ, tình huống giả định và các vấn đề chính sách hay không, khi các trường luật và tòa án ngày càng tích hợp công cụ AI vào hoạt động pháp lý.

Nghiên cứu của Stanford kiểm tra AI với các giảng viên luật về câu hỏi luật hợp đồng

Nghiên cứu có sự tham gia của 16 giảng viên từ 14 trường luật ở Mỹ, bao gồm Stanford, Yale, New York University, University of Chicago, Georgetown, UCLA và University of Virginia. Các giảng viên đã tạo ra 40 câu hỏi về luật hợp đồng, bao gồm các nội dung về hệ thống pháp lý, án lệ, tình huống giả định và vấn đề chính sách. Các nhà nghiên cứu thiết kế việc đánh giá nhằm kiểm tra năng lực AI trong các lĩnh vực đòi hỏi phán đoán thay vì chỉ có một câu trả lời đúng duy nhất.

"Luôn mô hình ngôn ngữ lớn (LLM) ngày càng được quảng bá như gia sư giáo dục, nhưng phần lớn các đánh giá lại tập trung vào các lĩnh vực có một chân lý duy nhất," các nhà nghiên cứu viết. "Tuy nhiên, nhiều ngành học lại dựa vào phán đoán: lập luận, cân nhắc sự mơ hồ và đi đến các kết luận có thể bảo vệ. Luật tạo ra một phép thử sắc nét."

Các giảng viên đánh giá các cặp câu trả lời trong các so sánh mù, chọn phản hồi mà họ muốn đưa cho một học sinh mà không biết câu trả lời đó đến từ AI hay từ giảng viên hướng dẫn là con người.

Gemini 2.5 Pro và NotebookLM thắng trong 75% lượt so sánh của giảng viên

Gemini 2.5 Pro của Google giành chiến thắng trong 75,92% các cuộc đối đầu với giảng viên hướng dẫn là con người, trong khi NotebookLM thắng 74,75% thời gian. Các nhà nghiên cứu phân tích liệu kết quả có phản ánh sự đồng thuận chuyên môn rộng hơn hay không bằng cách xem xét tỷ lệ nhất quán khi các giảng viên đánh giá cùng các cặp câu trả lời.

" Mức độ nhất quán quan sát được vượt quá mức kỳ vọng nếu các phán đoán hoàn toàn mang tính cá nhân, cho thấy sự thành công của các LLM phản ánh sự phù hợp với các tiêu chí phổ biến trong từng lĩnh vực," các nhà nghiên cứu viết.

Các mô hình AI vượt trội hơn giảng viên hướng dẫn ở nhiều hạng mục, bao gồm các câu hỏi yêu cầu ghi nhớ liên quan đến vụ án, mã hoặc hệ thống pháp luật, các tình huống giả định và các thảo luận chính sách. Nghiên cứu kiểm tra liệu lợi thế của AI bắt nguồn từ phong cách viết bề mặt thay vì nội dung cốt lõi bằng cách phân tích các đặc trưng từ vựng-cú pháp như độ dài câu trả lời, tổ chức cấu trúc, sắc thái lập luận, các mốc neo pháp lý, giọng điệu tự tin, mức độ rõ ràng và sự hỗ trợ mang tính sư phạm.

Trong một phân tích riêng đối với các mô hình bổ sung, Claude Opus 4.7 của Anthropic xếp đầu, tiếp theo là ChatGPT 5.4 của OpenAI và Gemini 2.5 Pro. Mọi mô hình AI được đánh giá đều vượt trội hơn giảng viên hướng dẫn về trung bình.

Các mô hình AI ghi nhận tỷ lệ gây hại thấp hơn giảng viên hướng dẫn

Các câu trả lời do AI tạo ra bị gắn cờ là gây hại ít thường xuyên hơn so với những câu trả lời do giảng viên viết. Gemini ghi nhận tỷ lệ gây hại 3,41% và NotebookLM ghi nhận 3,64%, so với 12,06% của giảng viên hướng dẫn là con người.

Các nhà nghiên cứu lưu ý rằng nghiên cứu không đo lường liệu các câu trả lời có phù hợp với sở thích giảng dạy cá nhân của từng giảng viên hay không. "Mặc dù nhìn chung các phản hồi của LLM được ưa thích hơn so với phản hồi của giảng viên hướng dẫn là con người, bối cảnh đánh giá của chúng tôi không cho phép chúng tôi đo trực tiếp mức độ mà sở thích của giảng viên được đáp ứng," nghiên cứu nêu. "Về mặt lý thuyết, vẫn có thể các LLM, dù nhìn chung cung cấp các phản hồi mạnh hơn, vẫn tạo ra các câu trả lời chỉ được xem là 'đủ tốt'."

Tòa án và các trường luật ở Los Angeles áp dụng công cụ AI

Tòa án Thượng thẩm Los Angeles bắt đầu thử nghiệm công cụ AI vào tháng 3 để giúp các thẩm phán quản lý khối lượng án ngày càng tăng. Các trường luật đang bổ sung các chương trình đào tạo AI khi ngành pháp lý tích hợp trí tuệ nhân tạo.

"Những lợi ích tiềm năng của các công nghệ mới này như một lực đẩy trong thực tiễn hành nghề luật chỉ có thể nói là không thể bỏ qua," Hiệu trưởng Trường Luật Mississippi College, ông John P. Anderson, nói với Decrypt. "Dù học sinh của chúng tôi dự định làm luật sư tranh tụng hay luật sư giao dịch, các nhà tuyển dụng trong tương lai của họ sẽ kỳ vọng họ có sự quen thuộc với các công cụ AI này. Chúng tôi muốn các công ty tuyển dụng học sinh của mình tin rằng mọi sinh viên tốt nghiệp MC Law đều có năng lực về công nghệ AI."

Sullivan & Cromwell thừa nhận trích dẫn AI giả trong hồ sơ phá sản

Các công ty luật tiếp tục phải đối mặt với các vụ việc bị suy yếu bởi các hiện tượng 'hallucinations' và các lỗi khác do AI tạo ra. Vào tháng 4, công ty luật Sullivan & Cromwell thừa nhận với một tòa án phá sản của Mỹ rằng một hồ sơ gần đây trong một vụ án thu hút sự chú ý của công chúng đã chứa các trích dẫn giả do AI tạo ra.

Câu hỏi thường gặp

Tỷ lệ phần trăm thời gian các giảng viên luật thích câu trả lời do AI tạo ra hơn câu trả lời do con người viết trong nghiên cứu của Stanford là bao nhiêu?

Các giảng viên luật thích câu trả lời do AI tạo ra khoảng 75% thời gian trong nghiên cứu của Stanford. Gemini 2.5 Pro của Google giành 75,92% các cuộc đối đầu với giảng viên hướng dẫn là con người, trong khi NotebookLM giành 74,75% thời gian trên tổng số 2.918 so sánh mù.

Tỷ lệ gây hại của AI so với các phản hồi của giảng viên hướng dẫn như thế nào trong nghiên cứu?

Các câu trả lời do AI tạo ra có tỷ lệ gây hại thấp hơn so với các phản hồi của giảng viên hướng dẫn là con người. Gemini có tỷ lệ gây hại 3,41% và NotebookLM có tỷ lệ 3,64%, so với 12,06% của giảng viên hướng dẫn.

Tòa án Thượng thẩm Los Angeles đang thử nghiệm những công cụ AI nào?

Tòa án Thượng thẩm Los Angeles bắt đầu thử nghiệm công cụ AI vào tháng 3 để giúp các thẩm phán quản lý khối lượng án ngày càng tăng, dù các công cụ cụ thể không được nêu trong nguồn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận