Timnit Gebru 拒撤 AI 论文被 Google 开除，五年后 5 大预言全中

2026-06-08 02:39:34

2020 年 12 月，Timnit Gebru（時任 Google 倫理 AI 團隊共同負責人）在休假期間收到 email，告知她已被 Google 解雇；起因是 Google 要求她撤下或拿掉員工掛名論文，她拒絕。論文提出的幻覺與無理解、偏見放大、環境成本、訓練資料無法稽核、語言中心化——五年後均在現實中找到案例。

五個預言的現實對照：確認的案例與數據

幻覺與無理解：論文在 2021 年描述了後來被稱為「幻覺」的現象，指 LLM 只是依照機率把語言形式縫在一起，「沒有任何對意義的指涉」。這一問題已成為所有主流 AI 系統的已知缺陷，在多個獨立的學術評測中獲得驗證。

偏見放大：Amazon 從 2014 年開發的 AI 招募工具，於 2018 年因系統性歧視女性應徵者而被廢棄，模型從以男性為主的歷史履歷中學到了偏向男性的評估標準。Obermeyer 等人 2019 年發表於《Science》的研究揭露，一個廣泛使用的醫療風險演算法以「醫療花費」替代「病情嚴重程度」，導致同等風險分數下黑人患者實際病情更重；研究確認，修正後被標記需要額外照護的黑人患者比例將從 17.7% 提高到 46.5%。

環境成本：Google 2024 年環境報告披露，2023 年溫室氣體排放達約 1,430 萬公噸 CO₂e，較 2019 年基準增加 48%，Google 確認主因是 AI 帶動的資料中心用電大幅攀升，直接威脅 Google 原訂的 2030 年碳中和目標。

訓練資料無法稽核：2023 年 12 月，史丹佛網路觀測站在 LAION-5B 資料集（包含 58.5 億組圖文對，曾用於訓練 Stable Diffusion）中發現 3,226 筆疑似兒少性虐待內容（CSAM），其中 1,008 筆經外部機構確認；LAION-5B 隨即下架。

語言中心化：Thompson 等人 2024 年的研究分析了 63.8 億個句子組成的網路語料庫，發現其中 57.1% 的句子屬於多語平行集合，即很可能是機器翻譯產生的低品質重複內容，且這一比例在低資源語言中尤高，意味著低資源語言的語料庫正在被機器翻譯的劣質產物汙染。

Gebru 被開除的確認事實與論文背景

論文共六位作者，其中四位為 Google 員工；Gebru 收到解雇通知時正在休假，Google 的要求是撤下或移除員工掛名，Gebru 拒絕後在休假中被告知解雇決定。

論文於 2021 年 3 月正式發表。論文明確指出：打造 LLM 的公司，其財務與競爭誘因在結構上不可能讓「安全與倫理」拖慢產品上線速度。Gebru 被開除的事件本身，被廣泛引用為這一結構性論點的具體驗證。

常見問題

〈隨機鸚鵡〉論文的核心學術主張是什麼？

依據論文本身，核心論點有兩層：第一層是技術性的，指出 LLM 存在幻覺、偏見放大、環境成本、資料無法稽核、語言中心化五類系統性風險。第二層更根本，指出這五類風險之所以難以被解決，原因是打造 LLM 的公司在競爭和財務壓力下，結構性地傾向於讓速度優先於安全。論文在 ACM FAccT 研討會的同儕審查過程中通過了學術評審。

Amazon AI 招募工具的偏見問題是如何被發現和處理的？

依據公開報道，Amazon 的 AI 招募工具從 2014 年開始開發，模型以過去十年間以男性為主的歷史履歷資料進行訓練，自動學到了偏向男性的評估模式，導致含「women's chess club」等詞彙的履歷自動扣分。這一偏見問題於 2018 年被發現，Amazon 隨即廢棄了這套工具，並確認沒有用它來評估真實應徵者。

Google 2024 年環境報告披露的碳排放增加，是否完全歸因於 AI？

依據 Google 2024 年環境報告，2023 年溫室氣體排放達約 1,430 萬公噸 CO₂e，較 2019 年基準增加 48%，Google 明確指出主因是 AI 帶動的資料中心用電大幅攀升。Google 的說明並未主張碳排放增加 100% 由 AI 造成，但 AI 基礎設施的擴張被確認為增幅最主要的驅動因素。

免责声明：本页面信息可能来自第三方，仅供参考，不代表 Gate 的观点或意见，亦不构成任何财务、投资或法律建议。数字资产交易风险较高，请勿仅依赖本页面信息作出决策。具体内容详见声明。