Quản lý thuộc tính dựa trên KI trong Thương mại điện tử: Cách tôi đã hòa giải hàng triệu dữ liệu sản phẩm

Hầu hết các nền tảng Thương mại điện tử đều đề cập đến những thách thức kỹ thuật lớn: tìm kiếm theo quy mô, tồn kho theo thời gian thực, đề xuất cá nhân hóa. Nhưng có một vấn đề ẩn mà gần như mọi nhà bán lẻ đều gặp phải: tính nhất quán của giá trị thuộc tính. Những điều này có vẻ không quan trọng ở bề mặt, nhưng lại là nền tảng cho việc khám phá sản phẩm, bộ lọc, so sánh và độ liên quan của tìm kiếm.

Trong các danh mục sản phẩm thực tế, tình trạng rất hỗn loạn. Các thông số kích thước xuất hiện như “XL”, “Small”, “12cm”, “Large” lộn xộn. Màu sắc được ghi nhận như “RAL 3020”, “Crimson”, “Red” và “Dark Red” trộn lẫn. Nhân lên những bất đồng này qua hàng triệu SKU với hàng chục thuộc tính cho mỗi sản phẩm – hệ thống sẽ trở nên vô dụng. Bộ lọc hoạt động không dự đoán được, các công cụ tìm kiếm mất chất lượng, và khách hàng cảm thấy thất vọng khi điều hướng.

Vấn đề quy mô lớn

Là một kỹ sư Full-Stack tại Zoro, tôi đối mặt chính xác với nhiệm vụ này: xây dựng một hệ thống không chỉ quản lý các thuộc tính này mà còn cấu trúc chúng một cách thông minh. Mục tiêu đơn giản, nhưng thực thi phức tạp: cung cấp hơn 3 triệu+ SKU với các giá trị thuộc tính nhất quán, có thể theo dõi được.

Thách thức là: không thể viết quy tắc thủ công cho từng danh mục. Cần một thứ có thể suy nghĩ, nhưng vẫn kiểm soát được. Đây là lúc AI vào cuộc – không như một hộp đen, mà như một đối tác cho logic xác định.

Chiến lược lai: AI với giới hạn

Phương pháp của tôi hoàn toàn khác biệt: một pipeline lai, kết hợp trí tuệ LLM với các quy tắc rõ ràng và kiểm soát thương mại. Kết quả: có thể giải thích, dự đoán được, mở rộng quy mô và có thể kiểm soát bởi con người.

Hệ thống xử lý thuộc tính không theo thời gian thực, mà qua các công việc nền tảng ngoại tuyến. Nghe có vẻ như một sự thỏa hiệp, nhưng thực ra là một quyết định kiến trúc có lợi lớn:

  • Thông lượng cao: xử lý lượng dữ liệu khổng lồ mà không làm quá tải hệ thống trực tiếp
  • Độ tin cậy: các sự cố không ảnh hưởng đến lưu lượng khách hàng
  • Hiệu quả chi phí: tính toán diễn ra vào thời điểm ít tải
  • Cách ly: độ trễ của LLM không ảnh hưởng đến trang sản phẩm
  • Tính nhất quán: cập nhật theo nguyên tắc, dự đoán được

Xử lý theo thời gian thực sẽ dẫn đến độ trễ không thể dự đoán, chi phí cao hơn và phụ thuộc mong manh. Các công việc nền tảng mang lại hiệu quả xếp chồng, gọi AI bất đồng bộ và các điểm kiểm tra của con người.

Chuẩn bị: Làm sạch trước khi thông minh

Trước khi LLM xem xét thuộc tính, tôi thực hiện bước làm sạch:

  • Cắt bỏ khoảng trắng
  • Loại bỏ giá trị rỗng
  • Loại bỏ trùng lặp
  • Chuyển đổi ngữ cảnh danh mục thành chuỗi có cấu trúc

LLM nhận dữ liệu sạch, rõ ràng. Rác vào, rác ra – ở quy mô này, lỗi nhỏ có thể gây ra vấn đề lớn. Việc làm sạch là nền tảng cho mọi thứ tiếp theo.

Dịch vụ AI: Suy nghĩ có ngữ cảnh

Dịch vụ LLM nhận nhiều hơn là chỉ các giá trị thô. Nó nhận:

  • các thuộc tính đã làm sạch
  • breadcrumbs danh mục
  • metadata thuộc tính

Với ngữ cảnh này, mô hình hiểu rằng “Spannung” trong dụng cụ điện là số, “Size” trong quần áo theo một trình tự đã biết, và “Farbe” có thể tuân theo tiêu chuẩn RAL. Mô hình trả về: các giá trị đã sắp xếp, tên thuộc tính tinh chỉnh và quyết định xem cần sắp xếp xác định hay dựa trên ngữ cảnh.

Điều này cho phép pipeline xử lý các loại thuộc tính khác nhau mà không cần viết quy tắc mới cho từng danh mục.

Các phương án dự phòng thông minh: Không phải lúc nào cũng cần AI

Không phải tất cả các thuộc tính đều cần trí tuệ nhân tạo. Các phạm vi số, giá trị dựa trên đơn vị và lượng đơn giản sẽ hưởng lợi nhiều hơn từ logic xác định:

  • xử lý nhanh hơn
  • sắp xếp dự đoán được
  • chi phí thấp hơn
  • không gây nhầm lẫn

Pipeline tự động nhận diện các trường hợp này và sử dụng quy tắc thay vì AI. Điều này giữ cho hệ thống hiệu quả và tránh các lần gọi mô hình không cần thiết.

Nhà bán lẻ giữ quyền kiểm soát

Mỗi danh mục có thể được đánh dấu là:

  • LLM_SORT: để mô hình quyết định
  • MANUAL_SORT: nhà bán lẻ xác định thứ tự thủ công

Hệ thống kép này cho phép kiểm soát thực sự của con người. AI làm phần việc, con người quyết định cuối cùng. Điều này xây dựng niềm tin – nhà bán lẻ có thể ghi đè mô hình mà không làm gián đoạn pipeline.

Lưu trữ và đồng bộ

Tất cả kết quả được lưu trong cơ sở dữ liệu MongoDB – hệ thống trung tâm cho:

  • các thuộc tính đã sắp xếp
  • tên thuộc tính tinh chỉnh
  • thẻ sắp xếp theo danh mục
  • các trường sortOrder liên quan đến sản phẩm

Từ đó, các công việc outbound đồng bộ dữ liệu với:

  • Elasticsearch cho tìm kiếm dựa trên từ khóa
  • Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector

Bộ lọc xuất hiện theo thứ tự hợp lý, trang sản phẩm hiển thị các thuộc tính nhất quán, các công cụ tìm kiếm xếp hạng sản phẩm chính xác hơn.

Từ hỗn loạn đến trật tự: Chuyển đổi

Dưới đây là sức mạnh của hệ thống trong thực tế:

Thuộc tính Nhập thô Xuất sắp xếp
Kích thước XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Màu sắc RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Số 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Từ các đầu vào hỗn loạn, tạo ra các chuỗi hợp lý, nhất quán.

Kiến trúc vận hành

Toàn bộ pipeline theo quy trình sau:

  1. Dữ liệu sản phẩm từ hệ thống PIM
  2. Công việc trích xuất thu thập thuộc tính và ngữ cảnh danh mục
  3. Dịch vụ sắp xếp AI xử lý thông minh
  4. MongoDB lưu trữ kết quả
  5. Các công việc outbound đồng bộ lại với hệ thống PIM
  6. Các công việc đồng bộ Elasticsearch và Vespa phân phối dữ liệu đến hệ thống tìm kiếm
  7. Các dịch vụ API kết nối tìm kiếm với trang khách hàng

Quy trình này đảm bảo không mất giá trị thuộc tính nào – dù do AI sắp xếp hay do con người đặt, đều được phản ánh đầy đủ.

Tại sao không xử lý theo thời gian thực?

Pipeline theo thời gian thực có thể nghe có vẻ hấp dẫn, nhưng sẽ dẫn đến:

  • độ trễ không thể dự đoán
  • đỉnh cao tính toán
  • phụ thuộc mong manh
  • phức tạp vận hành

Các công việc nền tảng mang lại hiệu quả thông lượng, khả năng chịu lỗi và chi phí dự đoán được. Nhược điểm nhỏ: có chút trễ giữa thu thập dữ liệu và hiển thị. Ưu điểm lớn: tính nhất quán quy mô mà khách hàng thực sự trân trọng.

Ảnh hưởng

Hệ thống mang lại kết quả đo lường được:

  • sắp xếp nhất quán trên hơn 3 triệu SKU
  • các thuộc tính số dự đoán được qua quy tắc
  • cơ chế kiểm soát của nhà bán lẻ qua gắn thẻ thủ công
  • trang sản phẩm sạch hơn, bộ lọc trực quan hơn
  • độ liên quan tìm kiếm cải thiện và tỷ lệ chuyển đổi cao hơn
  • tăng cường niềm tin khách hàng

Đây không chỉ là chiến thắng kỹ thuật – mà còn nâng cao trải nghiệm người dùng và doanh thu.

Những bài học chính

  • Hybrid vượt trội hơn AI thuần túy: Trong quy mô, bạn cần giới hạn, không chỉ trí tuệ
  • Ngữ cảnh là vua: Môi trường phù hợp cải thiện đáng kể độ chính xác của LLM
  • Offline là online mới: Cho thông lượng và độ tin cậy, không phải thời gian thực
  • Con người giữ quyền kiểm soát: Các cơ chế ghi đè xây dựng niềm tin thực sự
  • Dữ liệu sạch là nền tảng: Garbage In, Garbage Out – luôn làm sạch trước

Kết luận

Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản. Nhưng qua hàng triệu sản phẩm, nó trở thành thử thách thực sự. Bằng cách kết hợp trí tuệ LLM với quy tắc rõ ràng và kiểm soát thương mại, tôi đã biến một vấn đề ẩn thành một hệ thống sạch sẽ, có thể mở rộng.

Đây chính là sức mạnh của các phương pháp lai: kết hợp tốt nhất của con người và máy móc. Và đôi khi, thành công lớn nhất đến từ việc giải quyết những vấn đề nhàm chán nhất – những vấn đề dễ bỏ qua, nhưng xuất hiện trên mọi trang sản phẩm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim