Hầu hết các nền tảng Thương mại điện tử đều đề cập đến những thách thức kỹ thuật lớn: tìm kiếm theo quy mô, tồn kho theo thời gian thực, đề xuất cá nhân hóa. Nhưng có một vấn đề ẩn mà gần như mọi nhà bán lẻ đều gặp phải: tính nhất quán của giá trị thuộc tính. Những điều này có vẻ không quan trọng ở bề mặt, nhưng lại là nền tảng cho việc khám phá sản phẩm, bộ lọc, so sánh và độ liên quan của tìm kiếm.
Trong các danh mục sản phẩm thực tế, tình trạng rất hỗn loạn. Các thông số kích thước xuất hiện như “XL”, “Small”, “12cm”, “Large” lộn xộn. Màu sắc được ghi nhận như “RAL 3020”, “Crimson”, “Red” và “Dark Red” trộn lẫn. Nhân lên những bất đồng này qua hàng triệu SKU với hàng chục thuộc tính cho mỗi sản phẩm – hệ thống sẽ trở nên vô dụng. Bộ lọc hoạt động không dự đoán được, các công cụ tìm kiếm mất chất lượng, và khách hàng cảm thấy thất vọng khi điều hướng.
Vấn đề quy mô lớn
Là một kỹ sư Full-Stack tại Zoro, tôi đối mặt chính xác với nhiệm vụ này: xây dựng một hệ thống không chỉ quản lý các thuộc tính này mà còn cấu trúc chúng một cách thông minh. Mục tiêu đơn giản, nhưng thực thi phức tạp: cung cấp hơn 3 triệu+ SKU với các giá trị thuộc tính nhất quán, có thể theo dõi được.
Thách thức là: không thể viết quy tắc thủ công cho từng danh mục. Cần một thứ có thể suy nghĩ, nhưng vẫn kiểm soát được. Đây là lúc AI vào cuộc – không như một hộp đen, mà như một đối tác cho logic xác định.
Chiến lược lai: AI với giới hạn
Phương pháp của tôi hoàn toàn khác biệt: một pipeline lai, kết hợp trí tuệ LLM với các quy tắc rõ ràng và kiểm soát thương mại. Kết quả: có thể giải thích, dự đoán được, mở rộng quy mô và có thể kiểm soát bởi con người.
Hệ thống xử lý thuộc tính không theo thời gian thực, mà qua các công việc nền tảng ngoại tuyến. Nghe có vẻ như một sự thỏa hiệp, nhưng thực ra là một quyết định kiến trúc có lợi lớn:
Thông lượng cao: xử lý lượng dữ liệu khổng lồ mà không làm quá tải hệ thống trực tiếp
Độ tin cậy: các sự cố không ảnh hưởng đến lưu lượng khách hàng
Hiệu quả chi phí: tính toán diễn ra vào thời điểm ít tải
Cách ly: độ trễ của LLM không ảnh hưởng đến trang sản phẩm
Tính nhất quán: cập nhật theo nguyên tắc, dự đoán được
Xử lý theo thời gian thực sẽ dẫn đến độ trễ không thể dự đoán, chi phí cao hơn và phụ thuộc mong manh. Các công việc nền tảng mang lại hiệu quả xếp chồng, gọi AI bất đồng bộ và các điểm kiểm tra của con người.
Chuẩn bị: Làm sạch trước khi thông minh
Trước khi LLM xem xét thuộc tính, tôi thực hiện bước làm sạch:
Cắt bỏ khoảng trắng
Loại bỏ giá trị rỗng
Loại bỏ trùng lặp
Chuyển đổi ngữ cảnh danh mục thành chuỗi có cấu trúc
LLM nhận dữ liệu sạch, rõ ràng. Rác vào, rác ra – ở quy mô này, lỗi nhỏ có thể gây ra vấn đề lớn. Việc làm sạch là nền tảng cho mọi thứ tiếp theo.
Dịch vụ AI: Suy nghĩ có ngữ cảnh
Dịch vụ LLM nhận nhiều hơn là chỉ các giá trị thô. Nó nhận:
các thuộc tính đã làm sạch
breadcrumbs danh mục
metadata thuộc tính
Với ngữ cảnh này, mô hình hiểu rằng “Spannung” trong dụng cụ điện là số, “Size” trong quần áo theo một trình tự đã biết, và “Farbe” có thể tuân theo tiêu chuẩn RAL. Mô hình trả về: các giá trị đã sắp xếp, tên thuộc tính tinh chỉnh và quyết định xem cần sắp xếp xác định hay dựa trên ngữ cảnh.
Điều này cho phép pipeline xử lý các loại thuộc tính khác nhau mà không cần viết quy tắc mới cho từng danh mục.
Các phương án dự phòng thông minh: Không phải lúc nào cũng cần AI
Không phải tất cả các thuộc tính đều cần trí tuệ nhân tạo. Các phạm vi số, giá trị dựa trên đơn vị và lượng đơn giản sẽ hưởng lợi nhiều hơn từ logic xác định:
xử lý nhanh hơn
sắp xếp dự đoán được
chi phí thấp hơn
không gây nhầm lẫn
Pipeline tự động nhận diện các trường hợp này và sử dụng quy tắc thay vì AI. Điều này giữ cho hệ thống hiệu quả và tránh các lần gọi mô hình không cần thiết.
Nhà bán lẻ giữ quyền kiểm soát
Mỗi danh mục có thể được đánh dấu là:
LLM_SORT: để mô hình quyết định
MANUAL_SORT: nhà bán lẻ xác định thứ tự thủ công
Hệ thống kép này cho phép kiểm soát thực sự của con người. AI làm phần việc, con người quyết định cuối cùng. Điều này xây dựng niềm tin – nhà bán lẻ có thể ghi đè mô hình mà không làm gián đoạn pipeline.
Lưu trữ và đồng bộ
Tất cả kết quả được lưu trong cơ sở dữ liệu MongoDB – hệ thống trung tâm cho:
các thuộc tính đã sắp xếp
tên thuộc tính tinh chỉnh
thẻ sắp xếp theo danh mục
các trường sortOrder liên quan đến sản phẩm
Từ đó, các công việc outbound đồng bộ dữ liệu với:
Elasticsearch cho tìm kiếm dựa trên từ khóa
Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector
Bộ lọc xuất hiện theo thứ tự hợp lý, trang sản phẩm hiển thị các thuộc tính nhất quán, các công cụ tìm kiếm xếp hạng sản phẩm chính xác hơn.
Từ hỗn loạn đến trật tự: Chuyển đổi
Dưới đây là sức mạnh của hệ thống trong thực tế:
Thuộc tính
Nhập thô
Xuất sắp xếp
Kích thước
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Màu sắc
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Số
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Từ các đầu vào hỗn loạn, tạo ra các chuỗi hợp lý, nhất quán.
Kiến trúc vận hành
Toàn bộ pipeline theo quy trình sau:
Dữ liệu sản phẩm từ hệ thống PIM
Công việc trích xuất thu thập thuộc tính và ngữ cảnh danh mục
Dịch vụ sắp xếp AI xử lý thông minh
MongoDB lưu trữ kết quả
Các công việc outbound đồng bộ lại với hệ thống PIM
Các công việc đồng bộ Elasticsearch và Vespa phân phối dữ liệu đến hệ thống tìm kiếm
Các dịch vụ API kết nối tìm kiếm với trang khách hàng
Quy trình này đảm bảo không mất giá trị thuộc tính nào – dù do AI sắp xếp hay do con người đặt, đều được phản ánh đầy đủ.
Tại sao không xử lý theo thời gian thực?
Pipeline theo thời gian thực có thể nghe có vẻ hấp dẫn, nhưng sẽ dẫn đến:
độ trễ không thể dự đoán
đỉnh cao tính toán
phụ thuộc mong manh
phức tạp vận hành
Các công việc nền tảng mang lại hiệu quả thông lượng, khả năng chịu lỗi và chi phí dự đoán được. Nhược điểm nhỏ: có chút trễ giữa thu thập dữ liệu và hiển thị. Ưu điểm lớn: tính nhất quán quy mô mà khách hàng thực sự trân trọng.
Ảnh hưởng
Hệ thống mang lại kết quả đo lường được:
sắp xếp nhất quán trên hơn 3 triệu SKU
các thuộc tính số dự đoán được qua quy tắc
cơ chế kiểm soát của nhà bán lẻ qua gắn thẻ thủ công
trang sản phẩm sạch hơn, bộ lọc trực quan hơn
độ liên quan tìm kiếm cải thiện và tỷ lệ chuyển đổi cao hơn
tăng cường niềm tin khách hàng
Đây không chỉ là chiến thắng kỹ thuật – mà còn nâng cao trải nghiệm người dùng và doanh thu.
Những bài học chính
Hybrid vượt trội hơn AI thuần túy: Trong quy mô, bạn cần giới hạn, không chỉ trí tuệ
Ngữ cảnh là vua: Môi trường phù hợp cải thiện đáng kể độ chính xác của LLM
Offline là online mới: Cho thông lượng và độ tin cậy, không phải thời gian thực
Con người giữ quyền kiểm soát: Các cơ chế ghi đè xây dựng niềm tin thực sự
Dữ liệu sạch là nền tảng: Garbage In, Garbage Out – luôn làm sạch trước
Kết luận
Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản. Nhưng qua hàng triệu sản phẩm, nó trở thành thử thách thực sự. Bằng cách kết hợp trí tuệ LLM với quy tắc rõ ràng và kiểm soát thương mại, tôi đã biến một vấn đề ẩn thành một hệ thống sạch sẽ, có thể mở rộng.
Đây chính là sức mạnh của các phương pháp lai: kết hợp tốt nhất của con người và máy móc. Và đôi khi, thành công lớn nhất đến từ việc giải quyết những vấn đề nhàm chán nhất – những vấn đề dễ bỏ qua, nhưng xuất hiện trên mọi trang sản phẩm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Quản lý thuộc tính dựa trên KI trong Thương mại điện tử: Cách tôi đã hòa giải hàng triệu dữ liệu sản phẩm
Hầu hết các nền tảng Thương mại điện tử đều đề cập đến những thách thức kỹ thuật lớn: tìm kiếm theo quy mô, tồn kho theo thời gian thực, đề xuất cá nhân hóa. Nhưng có một vấn đề ẩn mà gần như mọi nhà bán lẻ đều gặp phải: tính nhất quán của giá trị thuộc tính. Những điều này có vẻ không quan trọng ở bề mặt, nhưng lại là nền tảng cho việc khám phá sản phẩm, bộ lọc, so sánh và độ liên quan của tìm kiếm.
Trong các danh mục sản phẩm thực tế, tình trạng rất hỗn loạn. Các thông số kích thước xuất hiện như “XL”, “Small”, “12cm”, “Large” lộn xộn. Màu sắc được ghi nhận như “RAL 3020”, “Crimson”, “Red” và “Dark Red” trộn lẫn. Nhân lên những bất đồng này qua hàng triệu SKU với hàng chục thuộc tính cho mỗi sản phẩm – hệ thống sẽ trở nên vô dụng. Bộ lọc hoạt động không dự đoán được, các công cụ tìm kiếm mất chất lượng, và khách hàng cảm thấy thất vọng khi điều hướng.
Vấn đề quy mô lớn
Là một kỹ sư Full-Stack tại Zoro, tôi đối mặt chính xác với nhiệm vụ này: xây dựng một hệ thống không chỉ quản lý các thuộc tính này mà còn cấu trúc chúng một cách thông minh. Mục tiêu đơn giản, nhưng thực thi phức tạp: cung cấp hơn 3 triệu+ SKU với các giá trị thuộc tính nhất quán, có thể theo dõi được.
Thách thức là: không thể viết quy tắc thủ công cho từng danh mục. Cần một thứ có thể suy nghĩ, nhưng vẫn kiểm soát được. Đây là lúc AI vào cuộc – không như một hộp đen, mà như một đối tác cho logic xác định.
Chiến lược lai: AI với giới hạn
Phương pháp của tôi hoàn toàn khác biệt: một pipeline lai, kết hợp trí tuệ LLM với các quy tắc rõ ràng và kiểm soát thương mại. Kết quả: có thể giải thích, dự đoán được, mở rộng quy mô và có thể kiểm soát bởi con người.
Hệ thống xử lý thuộc tính không theo thời gian thực, mà qua các công việc nền tảng ngoại tuyến. Nghe có vẻ như một sự thỏa hiệp, nhưng thực ra là một quyết định kiến trúc có lợi lớn:
Xử lý theo thời gian thực sẽ dẫn đến độ trễ không thể dự đoán, chi phí cao hơn và phụ thuộc mong manh. Các công việc nền tảng mang lại hiệu quả xếp chồng, gọi AI bất đồng bộ và các điểm kiểm tra của con người.
Chuẩn bị: Làm sạch trước khi thông minh
Trước khi LLM xem xét thuộc tính, tôi thực hiện bước làm sạch:
LLM nhận dữ liệu sạch, rõ ràng. Rác vào, rác ra – ở quy mô này, lỗi nhỏ có thể gây ra vấn đề lớn. Việc làm sạch là nền tảng cho mọi thứ tiếp theo.
Dịch vụ AI: Suy nghĩ có ngữ cảnh
Dịch vụ LLM nhận nhiều hơn là chỉ các giá trị thô. Nó nhận:
Với ngữ cảnh này, mô hình hiểu rằng “Spannung” trong dụng cụ điện là số, “Size” trong quần áo theo một trình tự đã biết, và “Farbe” có thể tuân theo tiêu chuẩn RAL. Mô hình trả về: các giá trị đã sắp xếp, tên thuộc tính tinh chỉnh và quyết định xem cần sắp xếp xác định hay dựa trên ngữ cảnh.
Điều này cho phép pipeline xử lý các loại thuộc tính khác nhau mà không cần viết quy tắc mới cho từng danh mục.
Các phương án dự phòng thông minh: Không phải lúc nào cũng cần AI
Không phải tất cả các thuộc tính đều cần trí tuệ nhân tạo. Các phạm vi số, giá trị dựa trên đơn vị và lượng đơn giản sẽ hưởng lợi nhiều hơn từ logic xác định:
Pipeline tự động nhận diện các trường hợp này và sử dụng quy tắc thay vì AI. Điều này giữ cho hệ thống hiệu quả và tránh các lần gọi mô hình không cần thiết.
Nhà bán lẻ giữ quyền kiểm soát
Mỗi danh mục có thể được đánh dấu là:
Hệ thống kép này cho phép kiểm soát thực sự của con người. AI làm phần việc, con người quyết định cuối cùng. Điều này xây dựng niềm tin – nhà bán lẻ có thể ghi đè mô hình mà không làm gián đoạn pipeline.
Lưu trữ và đồng bộ
Tất cả kết quả được lưu trong cơ sở dữ liệu MongoDB – hệ thống trung tâm cho:
Từ đó, các công việc outbound đồng bộ dữ liệu với:
Bộ lọc xuất hiện theo thứ tự hợp lý, trang sản phẩm hiển thị các thuộc tính nhất quán, các công cụ tìm kiếm xếp hạng sản phẩm chính xác hơn.
Từ hỗn loạn đến trật tự: Chuyển đổi
Dưới đây là sức mạnh của hệ thống trong thực tế:
Từ các đầu vào hỗn loạn, tạo ra các chuỗi hợp lý, nhất quán.
Kiến trúc vận hành
Toàn bộ pipeline theo quy trình sau:
Quy trình này đảm bảo không mất giá trị thuộc tính nào – dù do AI sắp xếp hay do con người đặt, đều được phản ánh đầy đủ.
Tại sao không xử lý theo thời gian thực?
Pipeline theo thời gian thực có thể nghe có vẻ hấp dẫn, nhưng sẽ dẫn đến:
Các công việc nền tảng mang lại hiệu quả thông lượng, khả năng chịu lỗi và chi phí dự đoán được. Nhược điểm nhỏ: có chút trễ giữa thu thập dữ liệu và hiển thị. Ưu điểm lớn: tính nhất quán quy mô mà khách hàng thực sự trân trọng.
Ảnh hưởng
Hệ thống mang lại kết quả đo lường được:
Đây không chỉ là chiến thắng kỹ thuật – mà còn nâng cao trải nghiệm người dùng và doanh thu.
Những bài học chính
Kết luận
Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản. Nhưng qua hàng triệu sản phẩm, nó trở thành thử thách thực sự. Bằng cách kết hợp trí tuệ LLM với quy tắc rõ ràng và kiểm soát thương mại, tôi đã biến một vấn đề ẩn thành một hệ thống sạch sẽ, có thể mở rộng.
Đây chính là sức mạnh của các phương pháp lai: kết hợp tốt nhất của con người và máy móc. Và đôi khi, thành công lớn nhất đến từ việc giải quyết những vấn đề nhàm chán nhất – những vấn đề dễ bỏ qua, nhưng xuất hiện trên mọi trang sản phẩm.