Quản lý thuộc tính dựa trên KI trong Thương mại điện tử: Cách tôi đã hòa giải hàng triệu dữ liệu sản phẩm

2026-01-15 22:53:46

Hầu hết các nền tảng Thương mại điện tử đều đề cập đến những thách thức kỹ thuật lớn: tìm kiếm theo quy mô, tồn kho theo thời gian thực, đề xuất cá nhân hóa. Nhưng có một vấn đề ẩn mà gần như mọi nhà bán lẻ đều gặp phải: tính nhất quán của giá trị thuộc tính. Những điều này có vẻ không quan trọng ở bề mặt, nhưng lại là nền tảng cho việc khám phá sản phẩm, bộ lọc, so sánh và độ liên quan của tìm kiếm.

Trong các danh mục sản phẩm thực tế, tình trạng rất hỗn loạn. Các thông số kích thước xuất hiện như “XL”, “Small”, “12cm”, “Large” lộn xộn. Màu sắc được ghi nhận như “RAL 3020”, “Crimson”, “Red” và “Dark Red” trộn lẫn. Nhân lên những bất đồng này qua hàng triệu SKU với hàng chục thuộc tính cho mỗi sản phẩm – hệ thống sẽ trở nên vô dụng. Bộ lọc hoạt động không dự đoán được, các công cụ tìm kiếm mất chất lượng, và khách hàng cảm thấy thất vọng khi điều hướng.

Vấn đề quy mô lớn

Là một kỹ sư Full-Stack tại Zoro, tôi đối mặt chính xác với nhiệm vụ này: xây dựng một hệ thống không chỉ quản lý các thuộc tính này mà còn cấu trúc chúng một cách thông minh. Mục tiêu đơn giản, nhưng thực thi phức tạp: cung cấp hơn 3 triệu+ SKU với các giá trị thuộc tính nhất quán, có thể theo dõi được.

Thách thức là: không thể viết quy tắc thủ công cho từng danh mục. Cần một thứ có thể suy nghĩ, nhưng vẫn kiểm soát được. Đây là lúc AI vào cuộc – không như một hộp đen, mà như một đối tác cho logic xác định.

Chiến lược lai: AI với giới hạn

Phương pháp của tôi hoàn toàn khác biệt: một pipeline lai, kết hợp trí tuệ LLM với các quy tắc rõ ràng và kiểm soát thương mại. Kết quả: có thể giải thích, dự đoán được, mở rộng quy mô và có thể kiểm soát bởi con người.

Hệ thống xử lý thuộc tính không theo thời gian thực, mà qua các công việc nền tảng ngoại tuyến. Nghe có vẻ như một sự thỏa hiệp, nhưng thực ra là một quyết định kiến trúc có lợi lớn:

Thông lượng cao: xử lý lượng dữ liệu khổng lồ mà không làm quá tải hệ thống trực tiếp
Độ tin cậy: các sự cố không ảnh hưởng đến lưu lượng khách hàng
Hiệu quả chi phí: tính toán diễn ra vào thời điểm ít tải
Cách ly: độ trễ của LLM không ảnh hưởng đến trang sản phẩm
Tính nhất quán: cập nhật theo nguyên tắc, dự đoán được

Xử lý theo thời gian thực sẽ dẫn đến độ trễ không thể dự đoán, chi phí cao hơn và phụ thuộc mong manh. Các công việc nền tảng mang lại hiệu quả xếp chồng, gọi AI bất đồng bộ và các điểm kiểm tra của con người.

Chuẩn bị: Làm sạch trước khi thông minh

Trước khi LLM xem xét thuộc tính, tôi thực hiện bước làm sạch:

Cắt bỏ khoảng trắng
Loại bỏ giá trị rỗng
Loại bỏ trùng lặp
Chuyển đổi ngữ cảnh danh mục thành chuỗi có cấu trúc

LLM nhận dữ liệu sạch, rõ ràng. Rác vào, rác ra – ở quy mô này, lỗi nhỏ có thể gây ra vấn đề lớn. Việc làm sạch là nền tảng cho mọi thứ tiếp theo.

Dịch vụ AI: Suy nghĩ có ngữ cảnh

Dịch vụ LLM nhận nhiều hơn là chỉ các giá trị thô. Nó nhận:

các thuộc tính đã làm sạch
breadcrumbs danh mục
metadata thuộc tính

Với ngữ cảnh này, mô hình hiểu rằng “Spannung” trong dụng cụ điện là số, “Size” trong quần áo theo một trình tự đã biết, và “Farbe” có thể tuân theo tiêu chuẩn RAL. Mô hình trả về: các giá trị đã sắp xếp, tên thuộc tính tinh chỉnh và quyết định xem cần sắp xếp xác định hay dựa trên ngữ cảnh.

Điều này cho phép pipeline xử lý các loại thuộc tính khác nhau mà không cần viết quy tắc mới cho từng danh mục.

Các phương án dự phòng thông minh: Không phải lúc nào cũng cần AI

Không phải tất cả các thuộc tính đều cần trí tuệ nhân tạo. Các phạm vi số, giá trị dựa trên đơn vị và lượng đơn giản sẽ hưởng lợi nhiều hơn từ logic xác định:

xử lý nhanh hơn
sắp xếp dự đoán được
chi phí thấp hơn
không gây nhầm lẫn

Pipeline tự động nhận diện các trường hợp này và sử dụng quy tắc thay vì AI. Điều này giữ cho hệ thống hiệu quả và tránh các lần gọi mô hình không cần thiết.

Nhà bán lẻ giữ quyền kiểm soát

Mỗi danh mục có thể được đánh dấu là:

LLM_SORT: để mô hình quyết định
MANUAL_SORT: nhà bán lẻ xác định thứ tự thủ công

Hệ thống kép này cho phép kiểm soát thực sự của con người. AI làm phần việc, con người quyết định cuối cùng. Điều này xây dựng niềm tin – nhà bán lẻ có thể ghi đè mô hình mà không làm gián đoạn pipeline.

Lưu trữ và đồng bộ

Tất cả kết quả được lưu trong cơ sở dữ liệu MongoDB – hệ thống trung tâm cho:

các thuộc tính đã sắp xếp
tên thuộc tính tinh chỉnh
thẻ sắp xếp theo danh mục
các trường sortOrder liên quan đến sản phẩm

Từ đó, các công việc outbound đồng bộ dữ liệu với:

Elasticsearch cho tìm kiếm dựa trên từ khóa
Vespa cho tìm kiếm ngữ nghĩa và dựa trên vector

Bộ lọc xuất hiện theo thứ tự hợp lý, trang sản phẩm hiển thị các thuộc tính nhất quán, các công cụ tìm kiếm xếp hạng sản phẩm chính xác hơn.

Từ hỗn loạn đến trật tự: Chuyển đổi

Dưới đây là sức mạnh của hệ thống trong thực tế:

Thuộc tính	Nhập thô	Xuất sắp xếp
Kích thước	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Màu sắc	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, Red (RAL 3020)
Chất liệu	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Số	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

Từ các đầu vào hỗn loạn, tạo ra các chuỗi hợp lý, nhất quán.

Kiến trúc vận hành

Toàn bộ pipeline theo quy trình sau:

Dữ liệu sản phẩm từ hệ thống PIM
Công việc trích xuất thu thập thuộc tính và ngữ cảnh danh mục
Dịch vụ sắp xếp AI xử lý thông minh
MongoDB lưu trữ kết quả
Các công việc outbound đồng bộ lại với hệ thống PIM
Các công việc đồng bộ Elasticsearch và Vespa phân phối dữ liệu đến hệ thống tìm kiếm
Các dịch vụ API kết nối tìm kiếm với trang khách hàng

Quy trình này đảm bảo không mất giá trị thuộc tính nào – dù do AI sắp xếp hay do con người đặt, đều được phản ánh đầy đủ.

Tại sao không xử lý theo thời gian thực?

Pipeline theo thời gian thực có thể nghe có vẻ hấp dẫn, nhưng sẽ dẫn đến:

độ trễ không thể dự đoán
đỉnh cao tính toán
phụ thuộc mong manh
phức tạp vận hành

Các công việc nền tảng mang lại hiệu quả thông lượng, khả năng chịu lỗi và chi phí dự đoán được. Nhược điểm nhỏ: có chút trễ giữa thu thập dữ liệu và hiển thị. Ưu điểm lớn: tính nhất quán quy mô mà khách hàng thực sự trân trọng.

Ảnh hưởng

Hệ thống mang lại kết quả đo lường được:

sắp xếp nhất quán trên hơn 3 triệu SKU
các thuộc tính số dự đoán được qua quy tắc
cơ chế kiểm soát của nhà bán lẻ qua gắn thẻ thủ công
trang sản phẩm sạch hơn, bộ lọc trực quan hơn
độ liên quan tìm kiếm cải thiện và tỷ lệ chuyển đổi cao hơn
tăng cường niềm tin khách hàng

Đây không chỉ là chiến thắng kỹ thuật – mà còn nâng cao trải nghiệm người dùng và doanh thu.

Những bài học chính

Hybrid vượt trội hơn AI thuần túy: Trong quy mô, bạn cần giới hạn, không chỉ trí tuệ
Ngữ cảnh là vua: Môi trường phù hợp cải thiện đáng kể độ chính xác của LLM
Offline là online mới: Cho thông lượng và độ tin cậy, không phải thời gian thực
Con người giữ quyền kiểm soát: Các cơ chế ghi đè xây dựng niềm tin thực sự
Dữ liệu sạch là nền tảng: Garbage In, Garbage Out – luôn làm sạch trước

Kết luận

Sắp xếp giá trị thuộc tính nghe có vẻ đơn giản. Nhưng qua hàng triệu sản phẩm, nó trở thành thử thách thực sự. Bằng cách kết hợp trí tuệ LLM với quy tắc rõ ràng và kiểm soát thương mại, tôi đã biến một vấn đề ẩn thành một hệ thống sạch sẽ, có thể mở rộng.

Đây chính là sức mạnh của các phương pháp lai: kết hợp tốt nhất của con người và máy móc. Và đôi khi, thành công lớn nhất đến từ việc giải quyết những vấn đề nhàm chán nhất – những vấn đề dễ bỏ qua, nhưng xuất hiện trên mọi trang sản phẩm.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

0/400

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateTradFiExperience
19.27K Phổ biến
#
MyFavouriteChineseMemecoin
32.59K Phổ biến
#
GateLaunchpadIMU
16.48K Phổ biến
#
PrivacyCoinsDiverge
257 Phổ biến
#
BitMineBoostsETHStaking
146 Phổ biến

Gate Fun hot
Xem thêm

1
可爱马
可爱马
Vốn hóa:$3.57KNgười nắm giữ:0
0.00%
2
神马都是浮云
神马都是浮云
Vốn hóa:$3.62KNgười nắm giữ:2
0.00%
3
可爱的独角兽
可爱的独角兽
Vốn hóa:$3.57KNgười nắm giữ:1
0.00%
4
死了吗
死了吗
Vốn hóa:$3.62KNgười nắm giữ:2
0.05%
5
马儿升天
马儿升天
Vốn hóa:$0.1Người nắm giữ:1
0.00%

Ghim

sơ đồ trang web

Quản lý thuộc tính dựa trên KI trong Thương mại điện tử: Cách tôi đã hòa giải hàng triệu dữ liệu sản phẩm

Vấn đề quy mô lớn

Chiến lược lai: AI với giới hạn

Chuẩn bị: Làm sạch trước khi thông minh

Dịch vụ AI: Suy nghĩ có ngữ cảnh

Các phương án dự phòng thông minh: Không phải lúc nào cũng cần AI

Nhà bán lẻ giữ quyền kiểm soát

Lưu trữ và đồng bộ

Từ hỗn loạn đến trật tự: Chuyển đổi

Kiến trúc vận hành

Tại sao không xử lý theo thời gian thực?

Ảnh hưởng

Những bài học chính

Kết luận

Chủ đề thịnh hành

GateTradFiExperience

MyFavouriteChineseMemecoin

GateLaunchpadIMU

PrivacyCoinsDiverge

BitMineBoostsETHStaking

Gate Fun hot

可爱马

可爱马

神马都是浮云

神马都是浮云

可爱的独角兽

可爱的独角兽

死了吗

死了吗

马儿升天

马儿升天

Ghim