Google AI Overviews Sai 1 Trong 10 Lần, Hàng Triệu Lỗi Mỗi Giờ

MarketWhisper

AI Overviews

Một nghiên cứu mới của Oumi, được The New York Times đưa tin, phát hiện Google AI Overviews không chính xác 9% thời gian — tương đương với hàng chục triệu câu trả lời sai mỗi giờ trên quy mô của Google. Hơn một nửa số phản hồi chính xác cũng trích dẫn các nguồn không thực sự ủng hộ đầy đủ các tuyên bố của chúng, trong khi Google gọi nghiên cứu này là “nghiêm trọng bị lỗi”.

Ý nghĩa thực sự của các con số ở quy mô Google

Oumi đã phân tích 4.326 truy vấn tìm kiếm được trả lời bởi Gemini 2 vào tháng 10 và Gemini 3 vào tháng 2, phát hiện Gemini 2 đạt độ chính xác 85% trong khi Gemini 3 cải thiện lên 91%. Riêng lẻ, đây là các con số có thể bảo vệ được đối với một hệ thống AI tạo sinh.

Thách thức nằm ở quy mô. Với tốc độ được Google công bố là 5 nghìn tỷ+ lượt tìm kiếm mỗi năm, phép tính tạo ra một bức tranh đáng lo ngại:

· ~14 triệu phản hồi AI không chính xác được tạo ra mỗi giờ

· ~230.000 câu trả lời sai được cung cấp mỗi phút

· ~4.000 lỗi được tạo ra mỗi giây tại thời điểm sử dụng cao điểm

Lập luận về quy mô làm thay đổi toàn bộ cuộc tranh luận về độ chính xác: ngay cả một tỷ lệ lỗi nhỏ, khi được áp dụng cho một hệ thống được hàng tỷ người sử dụng, thì theo nghĩa tuyệt đối lại trở thành một vấn đề lan truyền thông tin sai trên quy mô lớn.

Vấn đề “grounding”: Các trích dẫn không đứng vững

Ngoài các con số độ chính xác thô, Oumi xác định một vấn đề riêng biệt và có lẽ còn đáng lo hơn: “grounding” — liệu các nguồn được trích dẫn trong AI Overviews có thực sự hỗ trợ các tuyên bố đang được đưa ra hay không. Các phát hiện cho thấy Gemini 3, mặc dù chính xác hơn phiên bản tiền nhiệm, lại tệ hơn đáng kể trong việc cung cấp các trích dẫn thực sự mang tính hỗ trợ.

Dưới Gemini 2, 37% câu trả lời đúng không được grounding. Con số này tăng lên 56% dưới Gemini 3 — nghĩa là phần lớn các phản hồi chính xác vẫn liên kết đến các nguồn không hoàn toàn ủng hộ thông tin được cung cấp. Điều này tạo ra một vấn đề xác minh: người dùng nhấp vào để “xác nhận” một câu trả lời có thể thấy rằng nguồn nói điều gì đó khác hoặc không đầy đủ.

Phân tích nguồn trích dẫn trên 5.380 tài liệu tham chiếu được dẫn cũng làm dấy lên lo ngại về nền tảng. Facebook xếp thứ hai trong các nguồn được trích dẫn nhiều nhất nói chung, trong khi Reddit đứng thứ tư. Cả hai đều là các nền tảng truyền thông xã hội, nơi nội dung do người dùng tạo ra và chưa được xác thực là phổ biến — việc xuất hiện ở đầu một kết quả tìm kiếm được tổng hợp bởi AI lại đem đến cho chúng một uy tín không xứng đáng. Facebook được trích dẫn trong 5% số phản hồi chính xác và 7% số phản hồi không chính xác, gợi ý một mô hình đáng để theo dõi.

Phản biện của Google: Các câu hỏi về phương pháp và dữ liệu nội bộ

Google không chấp nhận các kết luận của nghiên cứu mà không có phản hồi. Người phát ngôn Ned Adriance đặt câu hỏi về thiết kế cốt lõi của phần phân tích: Oumi đánh giá độ chính xác AI của Google bằng chính mô hình AI của mình, điều này tạo ra sự vòng lặp phương pháp — nếu mô hình của Oumi cũng có thể mắc sai lầm, thì các đánh giá của họ về các lỗi của Google có thể cũng không đáng tin.

“Nghiên cứu này có những lỗ hổng nghiêm trọng,” Adriance nói. “Nó không phản ánh điều mọi người thực sự đang tìm kiếm trên Google.”

Google cũng công bố dữ liệu so sánh của riêng mình. Công ty cho biết Gemini 3 độc lập — hoạt động mà không có bối cảnh bổ sung do AI Overviews cung cấp — không chính xác 28% thời gian, cho thấy hệ thống AI Overviews mang lại những cải tiến về độ chính xác có ý nghĩa so với đầu ra thô của mô hình. Công ty duy trì tuyên bố miễn trừ tiêu chuẩn của mình ở cuối mọi AI Overviews: “AI có thể mắc sai lầm, vì vậy hãy kiểm tra lại các phản hồi.”

FAQ

Google AI Overviews là gì và được giới thiệu khi nào?

Google AI Overviews là các bản tóm tắt do AI tạo ra, xuất hiện ở đầu kết quả Google Search, tổng hợp câu trả lời cho các truy vấn của người dùng và trích dẫn các nguồn web hỗ trợ. Được cung cấp bởi các mô hình Gemini của Google, tính năng này được giới thiệu rộng rãi vào năm 2024 và hiện xuất hiện trên khắp hàng tỷ lượt tìm kiếm trên toàn cầu. Chúng khác với kết quả tìm kiếm chuẩn, vì chúng tạo ra văn bản thay vì chỉ đơn thuần liệt kê các liên kết.

“ungrounded” trong bối cảnh này có nghĩa là gì, và vì sao điều đó quan trọng?

Một AI Overview được coi là “ungrounded” khi các trang web mà nó trích dẫn không thực sự xác minh hoặc không hỗ trợ đầy đủ thông tin được trình bày trong bản tóm tắt. Điều này gây vấn đề vì những người dùng cố gắng kiểm tra một tuyên bố bằng cách nhấp vào nguồn được trích dẫn có thể thấy rằng nguồn mâu thuẫn, hỗ trợ một phần, hoặc hoàn toàn không liên quan đến tuyên bố của AI — làm suy yếu vai trò của hệ thống như một công cụ cung cấp thông tin đáng tin cậy và khiến việc xác minh độc lập trở nên khó hơn.

Người dùng nên tiếp cận AI Overviews như thế nào trước những lo ngại về độ chính xác này?

Chính Google cũng thừa nhận giới hạn với tuyên bố miễn trừ được tích hợp sẵn rằng AI có thể mắc sai lầm. Với các truy vấn ít rủi ro, AI Overviews có thể cung cấp một điểm khởi đầu hữu ích. Với các quyết định về sức khỏe, pháp lý, tài chính hoặc các quyết định mang tính thực tế, người dùng nên tự xác minh thông tin thông qua các nguồn chính thống, nguồn gốc ban đầu thay vì chỉ dựa vào các bản tóm tắt được tổng hợp bởi AI. Việc kiểm tra trực tiếp các nguồn được trích dẫn — thay vì chấp nhận cách AI mô tả chúng — là điều nên làm.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận