Pengelolaan atribut berbasis KI dalam E-Commerce: Bagaimana saya menyelaraskan jutaan data produk

2026-01-15 22:53:46

Sebagian besar platform E-Commerce berbicara tentang tantangan teknis besar: pencarian skala besar, stok waktu nyata, rekomendasi yang dipersonalisasi. Tetapi ada masalah tersembunyi yang hampir setiap retailer alami: konsistensi nilai atribut. Ini tampak sepele secara permukaan, tetapi merupakan fondasi untuk penemuan produk, filter, perbandingan, dan relevansi pencarian.

Dalam katalog produk nyata, kondisinya berantakan. Ukuran muncul sebagai “XL”, “Small”, “12cm”, “Large” secara acak. Warna dicatat sebagai “RAL 3020”, “Crimson”, “Red”, dan “Dark Red” secara campur aduk. Mengalikan ketidakkonsistenan ini dengan jutaan SKU dan puluhan atribut per produk – sistem akan menjadi tidak berguna. Filter berfungsi tidak terduga, mesin pencari kehilangan kualitas, dan pelanggan frustrasi saat menavigasi.

Masalah dalam skala besar

Sebagai insinyur Full-Stack di Zoro, saya menghadapi tugas ini: membangun sistem yang tidak hanya mengelola atribut ini, tetapi juga mengaturnya secara cerdas. Tujuannya sederhana, tetapi pelaksanaannya kompleks: menyediakan lebih dari 3 juta+ SKU dengan nilai atribut yang konsisten dan dapat dilacak.

Tantangannya: kita tidak bisa menulis aturan manual untuk setiap kategori. Kita membutuhkan sesuatu yang berpikir, tetapi tetap dapat dikendalikan. Di sinilah AI masuk – bukan sebagai solusi black-box, tetapi sebagai mitra untuk logika deterministik.

Strategi hibrida: AI dengan batasan

Pendekatan saya sangat berbeda: pipeline hibrida yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan. Hasilnya: dapat dijelaskan, prediktif, skalabel, dan dapat dikendalikan manusia.

Sistem ini memproses atribut bukan secara waktu nyata, tetapi dalam pekerjaan latar belakang offline. Ini terdengar seperti kompromi, tetapi merupakan keputusan arsitektur yang sadar dengan manfaat besar:

Throughput tinggi: data besar diproses tanpa membebani sistem langsung
Keandalan: kegagalan tidak mempengaruhi lalu lintas pelanggan
Efisiensi biaya: perhitungan dilakukan saat lalu lintas rendah
Isolasi: latensi LLM tidak pernah menyentuh halaman produk
Konsistensi: pembaruan atomik dan dapat diprediksi

Pemrosesan waktu nyata akan menyebabkan latensi tak terduga, biaya lebih tinggi, dan ketergantungan rapuh. Pekerjaan offline memberi kita efisiensi tumpukan, panggilan AI asinkron, dan titik pemeriksaan manusia.

Persiapan: pembersihan sebelum kecerdasan

Sebelum LLM melihat atribut, saya melakukan langkah pembersihan:

Trim whitespace
Hapus nilai kosong
Deduplicate duplikat
Ubah konteks kategori menjadi string terstruktur

LLM menerima input yang bersih dan jelas. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar. Pembersihan adalah fondasi untuk semua yang berikutnya.

Layanan AI: Berpikir dengan konteks

Layanan LLM menerima lebih dari sekadar nilai mentah. Ia mendapatkan:

atribut yang dibersihkan
breadcrumbs kategori
metadata atribut

Dengan konteks ini, model memahami bahwa “Spannung” dalam alat listrik adalah numerik, “Ukuran” dalam pakaian mengikuti progresi yang dikenal, dan “Warna” mungkin mengikuti standar RAL. Model mengembalikan: nilai yang terurut, nama atribut yang disempurnakan, dan keputusan apakah perlu pengurutan deterministik atau kontekstual.

Ini memungkinkan pipeline menangani berbagai tipe atribut tanpa harus menulis aturan baru untuk setiap kategori.

Cadangan cerdas: Tidak semua membutuhkan AI

Tidak semua atribut memerlukan kecerdasan buatan. Rentang numerik, nilai berbasis satuan, dan jumlah sederhana lebih cocok dengan logika deterministik:

proses lebih cepat
pengurutan yang dapat diprediksi
biaya lebih rendah
tidak ambigu

Pipeline secara otomatis mengenali kasus ini dan menggunakan aturan alih-alih AI. Ini menjaga efisiensi sistem dan menghindari panggilan model yang tidak perlu.

Kontrol tetap di tangan penjual

Setiap kategori dapat diberi label sebagai:

LLM_SORT: biarkan model memutuskan
MANUAL_SORT: penjual menentukan urutan secara manual

Sistem ganda ini memungkinkan kontrol manusia yang nyata. AI melakukan pekerjaan, manusia membuat keputusan akhir. Ini membangun kepercayaan – penjual dapat menimpa model tanpa mengganggu pipeline.

Persistensi dan sinkronisasi

Semua hasil disimpan dalam database MongoDB produk – sistem pusat untuk:

atribut yang diurutkan
nama atribut yang disempurnakan
tag urutan berdasarkan kategori
field sortOrder terkait produk

Dari sana, pekerjaan outbound menyinkronkan data ke:

Elasticsearch untuk pencarian berbasis kata kunci
Vespa untuk pencarian semantik dan vektor

Filter muncul dalam urutan logis, halaman produk menampilkan atribut yang konsisten, mesin pencari memberi peringkat produk lebih akurat.

Dari kekacauan ke keteraturan: Transformasi

Di sini kekuatan sistem terlihat dalam praktik:

Atribut	Input Mentah	Output Terurut
Ukuran	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Warna	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, Red (RAL 3020)
Material	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Numerik	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

Dari input berantakan, muncul urutan yang logis dan konsisten.

Arsitektur dalam gerak

Pipeline lengkap mengikuti alur ini:

Data produk mengalir dari sistem PIM
Pekerjaan ekstraksi mengumpulkan atribut dan konteks kategori
Layanan Sorting AI memproses secara cerdas
MongoDB menyimpan hasil
Pekerjaan sinkron outbound mengembalikan ke sistem PIM
Pekerjaan sinkron Elasticsearch dan Vespa menyebarkan data ke sistem pencarian
Layanan API menghubungkan pencarian dengan halaman pelanggan

Alur ini memastikan tidak ada nilai atribut yang hilang – baik yang diurutkan AI maupun yang ditetapkan manual, semuanya tercermin.

Mengapa bukan waktu nyata?

Pipeline waktu nyata mungkin terdengar menarik, tetapi akan menyebabkan:

latensi tak terduga
lonjakan biaya komputasi
ketergantungan rapuh
kompleksitas operasional

Pekerjaan offline memberi efisiensi throughput, toleransi kesalahan, dan biaya yang dapat diprediksi. Kekurangannya: sedikit penundaan antara pengambilan data dan tampilannya. Keuntungannya besar: konsistensi skala besar yang benar-benar dihargai pelanggan.

Dampaknya

Sistem ini memberikan hasil yang terukur:

pengurutan konsisten di atas 3 juta+ SKU
atribut numerik yang dapat diprediksi melalui aturan
mekanisme kontrol penjual melalui tagging manual
halaman produk yang lebih bersih, filter yang lebih intuitif
relevansi pencarian yang lebih baik dan konversi yang lebih tinggi
kepercayaan pelanggan yang diperkuat

Ini lebih dari kemenangan teknis – ini meningkatkan pengalaman pengguna dan pendapatan.

Temuan utama

Hibrida mengalahkan AI murni: dalam skala, Anda membutuhkan batasan, bukan hanya kecerdasan
Konteks adalah Raja: lingkungan yang tepat secara dramatis meningkatkan akurasi LLM
Offline adalah yang baru online: untuk throughput dan keandalan, bukan waktu nyata
Manusia tetap mengendalikan: mekanisme penimpaan membangun kepercayaan nyata
Input bersih adalah fondasi: Garbage In, Garbage Out – selalu bersihkan terlebih dahulu

Kesimpulan

Mengurutkan nilai atribut terdengar sederhana. Tetapi dengan jutaan produk, ini menjadi tantangan nyata. Dengan menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan, saya mengubah masalah tersembunyi ini menjadi sistem yang bersih dan skalabel.

Inilah kekuatan pendekatan hibrida: menggabungkan yang terbaik dari manusia dan mesin. Dan terkadang, keberhasilan terbesar berasal dari menyelesaikan masalah yang paling membosankan – masalah yang mudah terabaikan, tetapi muncul di setiap halaman produk.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.