Theo nhóm liên kết an toàn của OpenAI, công ty gần đây đã phát hiện một lỗi huấn luyện nghiêm trọng ảnh hưởng đến 6 mô hình ngôn ngữ lớn, trong đó có GPT-5.4. Thinking: cơ chế phần thưởng vô tình chấm điểm các chuỗi “thinking” của mô hình—quá trình suy luận nội bộ trước khi tạo ra câu trả lời. GPT-5.5 không bị ảnh hưởng. Sự cố vi phạm một nguyên tắc an toàn cốt lõi của AI rằng các chuỗi thinking không bao giờ được đưa vào đánh giá, vì điều này có thể khiến mô hình được khuyến khích bịa ra suy luận để đạt điểm cao hơn.
Hệ thống chấm điểm lỗi đã đưa nhầm các chuỗi thinking vào khi đánh giá liệu câu trả lời có hữu ích hay không, hoặc liệu mô hình có bị tấn công làm thỏa hiệp hay không. Các mẫu huấn luyện bị ảnh hưởng chiếm nhiều nhất 3,8% tập dữ liệu. OpenAI đã vá lỗ hổng và tiến hành các thí nghiệm so sánh xác nhận rằng mô hình không phát triển hành vi lừa dối. Công ty đã triển khai một hệ thống quét tự động trên toàn bộ các pipeline huấn luyện để ngăn sự cố tái diễn.