Sebagian besar platform E-Commerce berbicara tentang tantangan teknis besar: pencarian skala besar, stok waktu nyata, rekomendasi yang dipersonalisasi. Tetapi ada masalah tersembunyi yang hampir setiap retailer alami: konsistensi nilai atribut. Ini tampak sepele secara permukaan, tetapi merupakan fondasi untuk penemuan produk, filter, perbandingan, dan relevansi pencarian.
Dalam katalog produk nyata, kondisinya berantakan. Ukuran muncul sebagai “XL”, “Small”, “12cm”, “Large” secara acak. Warna dicatat sebagai “RAL 3020”, “Crimson”, “Red”, dan “Dark Red” secara campur aduk. Mengalikan ketidakkonsistenan ini dengan jutaan SKU dan puluhan atribut per produk – sistem akan menjadi tidak berguna. Filter berfungsi tidak terduga, mesin pencari kehilangan kualitas, dan pelanggan frustrasi saat menavigasi.
Masalah dalam skala besar
Sebagai insinyur Full-Stack di Zoro, saya menghadapi tugas ini: membangun sistem yang tidak hanya mengelola atribut ini, tetapi juga mengaturnya secara cerdas. Tujuannya sederhana, tetapi pelaksanaannya kompleks: menyediakan lebih dari 3 juta+ SKU dengan nilai atribut yang konsisten dan dapat dilacak.
Tantangannya: kita tidak bisa menulis aturan manual untuk setiap kategori. Kita membutuhkan sesuatu yang berpikir, tetapi tetap dapat dikendalikan. Di sinilah AI masuk – bukan sebagai solusi black-box, tetapi sebagai mitra untuk logika deterministik.
Strategi hibrida: AI dengan batasan
Pendekatan saya sangat berbeda: pipeline hibrida yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan. Hasilnya: dapat dijelaskan, prediktif, skalabel, dan dapat dikendalikan manusia.
Sistem ini memproses atribut bukan secara waktu nyata, tetapi dalam pekerjaan latar belakang offline. Ini terdengar seperti kompromi, tetapi merupakan keputusan arsitektur yang sadar dengan manfaat besar:
Throughput tinggi: data besar diproses tanpa membebani sistem langsung
Keandalan: kegagalan tidak mempengaruhi lalu lintas pelanggan
Efisiensi biaya: perhitungan dilakukan saat lalu lintas rendah
Isolasi: latensi LLM tidak pernah menyentuh halaman produk
Konsistensi: pembaruan atomik dan dapat diprediksi
Pemrosesan waktu nyata akan menyebabkan latensi tak terduga, biaya lebih tinggi, dan ketergantungan rapuh. Pekerjaan offline memberi kita efisiensi tumpukan, panggilan AI asinkron, dan titik pemeriksaan manusia.
Persiapan: pembersihan sebelum kecerdasan
Sebelum LLM melihat atribut, saya melakukan langkah pembersihan:
Trim whitespace
Hapus nilai kosong
Deduplicate duplikat
Ubah konteks kategori menjadi string terstruktur
LLM menerima input yang bersih dan jelas. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar. Pembersihan adalah fondasi untuk semua yang berikutnya.
Layanan AI: Berpikir dengan konteks
Layanan LLM menerima lebih dari sekadar nilai mentah. Ia mendapatkan:
atribut yang dibersihkan
breadcrumbs kategori
metadata atribut
Dengan konteks ini, model memahami bahwa “Spannung” dalam alat listrik adalah numerik, “Ukuran” dalam pakaian mengikuti progresi yang dikenal, dan “Warna” mungkin mengikuti standar RAL. Model mengembalikan: nilai yang terurut, nama atribut yang disempurnakan, dan keputusan apakah perlu pengurutan deterministik atau kontekstual.
Ini memungkinkan pipeline menangani berbagai tipe atribut tanpa harus menulis aturan baru untuk setiap kategori.
Cadangan cerdas: Tidak semua membutuhkan AI
Tidak semua atribut memerlukan kecerdasan buatan. Rentang numerik, nilai berbasis satuan, dan jumlah sederhana lebih cocok dengan logika deterministik:
proses lebih cepat
pengurutan yang dapat diprediksi
biaya lebih rendah
tidak ambigu
Pipeline secara otomatis mengenali kasus ini dan menggunakan aturan alih-alih AI. Ini menjaga efisiensi sistem dan menghindari panggilan model yang tidak perlu.
Kontrol tetap di tangan penjual
Setiap kategori dapat diberi label sebagai:
LLM_SORT: biarkan model memutuskan
MANUAL_SORT: penjual menentukan urutan secara manual
Sistem ganda ini memungkinkan kontrol manusia yang nyata. AI melakukan pekerjaan, manusia membuat keputusan akhir. Ini membangun kepercayaan – penjual dapat menimpa model tanpa mengganggu pipeline.
Persistensi dan sinkronisasi
Semua hasil disimpan dalam database MongoDB produk – sistem pusat untuk:
atribut yang diurutkan
nama atribut yang disempurnakan
tag urutan berdasarkan kategori
field sortOrder terkait produk
Dari sana, pekerjaan outbound menyinkronkan data ke:
Elasticsearch untuk pencarian berbasis kata kunci
Vespa untuk pencarian semantik dan vektor
Filter muncul dalam urutan logis, halaman produk menampilkan atribut yang konsisten, mesin pencari memberi peringkat produk lebih akurat.
Dari kekacauan ke keteraturan: Transformasi
Di sini kekuatan sistem terlihat dalam praktik:
Atribut
Input Mentah
Output Terurut
Ukuran
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Warna
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numerik
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Dari input berantakan, muncul urutan yang logis dan konsisten.
Arsitektur dalam gerak
Pipeline lengkap mengikuti alur ini:
Data produk mengalir dari sistem PIM
Pekerjaan ekstraksi mengumpulkan atribut dan konteks kategori
Layanan Sorting AI memproses secara cerdas
MongoDB menyimpan hasil
Pekerjaan sinkron outbound mengembalikan ke sistem PIM
Pekerjaan sinkron Elasticsearch dan Vespa menyebarkan data ke sistem pencarian
Layanan API menghubungkan pencarian dengan halaman pelanggan
Alur ini memastikan tidak ada nilai atribut yang hilang – baik yang diurutkan AI maupun yang ditetapkan manual, semuanya tercermin.
Mengapa bukan waktu nyata?
Pipeline waktu nyata mungkin terdengar menarik, tetapi akan menyebabkan:
latensi tak terduga
lonjakan biaya komputasi
ketergantungan rapuh
kompleksitas operasional
Pekerjaan offline memberi efisiensi throughput, toleransi kesalahan, dan biaya yang dapat diprediksi. Kekurangannya: sedikit penundaan antara pengambilan data dan tampilannya. Keuntungannya besar: konsistensi skala besar yang benar-benar dihargai pelanggan.
Dampaknya
Sistem ini memberikan hasil yang terukur:
pengurutan konsisten di atas 3 juta+ SKU
atribut numerik yang dapat diprediksi melalui aturan
mekanisme kontrol penjual melalui tagging manual
halaman produk yang lebih bersih, filter yang lebih intuitif
relevansi pencarian yang lebih baik dan konversi yang lebih tinggi
kepercayaan pelanggan yang diperkuat
Ini lebih dari kemenangan teknis – ini meningkatkan pengalaman pengguna dan pendapatan.
Temuan utama
Hibrida mengalahkan AI murni: dalam skala, Anda membutuhkan batasan, bukan hanya kecerdasan
Konteks adalah Raja: lingkungan yang tepat secara dramatis meningkatkan akurasi LLM
Offline adalah yang baru online: untuk throughput dan keandalan, bukan waktu nyata
Manusia tetap mengendalikan: mekanisme penimpaan membangun kepercayaan nyata
Input bersih adalah fondasi: Garbage In, Garbage Out – selalu bersihkan terlebih dahulu
Kesimpulan
Mengurutkan nilai atribut terdengar sederhana. Tetapi dengan jutaan produk, ini menjadi tantangan nyata. Dengan menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan, saya mengubah masalah tersembunyi ini menjadi sistem yang bersih dan skalabel.
Inilah kekuatan pendekatan hibrida: menggabungkan yang terbaik dari manusia dan mesin. Dan terkadang, keberhasilan terbesar berasal dari menyelesaikan masalah yang paling membosankan – masalah yang mudah terabaikan, tetapi muncul di setiap halaman produk.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Pengelolaan atribut berbasis KI dalam E-Commerce: Bagaimana saya menyelaraskan jutaan data produk
Sebagian besar platform E-Commerce berbicara tentang tantangan teknis besar: pencarian skala besar, stok waktu nyata, rekomendasi yang dipersonalisasi. Tetapi ada masalah tersembunyi yang hampir setiap retailer alami: konsistensi nilai atribut. Ini tampak sepele secara permukaan, tetapi merupakan fondasi untuk penemuan produk, filter, perbandingan, dan relevansi pencarian.
Dalam katalog produk nyata, kondisinya berantakan. Ukuran muncul sebagai “XL”, “Small”, “12cm”, “Large” secara acak. Warna dicatat sebagai “RAL 3020”, “Crimson”, “Red”, dan “Dark Red” secara campur aduk. Mengalikan ketidakkonsistenan ini dengan jutaan SKU dan puluhan atribut per produk – sistem akan menjadi tidak berguna. Filter berfungsi tidak terduga, mesin pencari kehilangan kualitas, dan pelanggan frustrasi saat menavigasi.
Masalah dalam skala besar
Sebagai insinyur Full-Stack di Zoro, saya menghadapi tugas ini: membangun sistem yang tidak hanya mengelola atribut ini, tetapi juga mengaturnya secara cerdas. Tujuannya sederhana, tetapi pelaksanaannya kompleks: menyediakan lebih dari 3 juta+ SKU dengan nilai atribut yang konsisten dan dapat dilacak.
Tantangannya: kita tidak bisa menulis aturan manual untuk setiap kategori. Kita membutuhkan sesuatu yang berpikir, tetapi tetap dapat dikendalikan. Di sinilah AI masuk – bukan sebagai solusi black-box, tetapi sebagai mitra untuk logika deterministik.
Strategi hibrida: AI dengan batasan
Pendekatan saya sangat berbeda: pipeline hibrida yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan. Hasilnya: dapat dijelaskan, prediktif, skalabel, dan dapat dikendalikan manusia.
Sistem ini memproses atribut bukan secara waktu nyata, tetapi dalam pekerjaan latar belakang offline. Ini terdengar seperti kompromi, tetapi merupakan keputusan arsitektur yang sadar dengan manfaat besar:
Pemrosesan waktu nyata akan menyebabkan latensi tak terduga, biaya lebih tinggi, dan ketergantungan rapuh. Pekerjaan offline memberi kita efisiensi tumpukan, panggilan AI asinkron, dan titik pemeriksaan manusia.
Persiapan: pembersihan sebelum kecerdasan
Sebelum LLM melihat atribut, saya melakukan langkah pembersihan:
LLM menerima input yang bersih dan jelas. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar. Pembersihan adalah fondasi untuk semua yang berikutnya.
Layanan AI: Berpikir dengan konteks
Layanan LLM menerima lebih dari sekadar nilai mentah. Ia mendapatkan:
Dengan konteks ini, model memahami bahwa “Spannung” dalam alat listrik adalah numerik, “Ukuran” dalam pakaian mengikuti progresi yang dikenal, dan “Warna” mungkin mengikuti standar RAL. Model mengembalikan: nilai yang terurut, nama atribut yang disempurnakan, dan keputusan apakah perlu pengurutan deterministik atau kontekstual.
Ini memungkinkan pipeline menangani berbagai tipe atribut tanpa harus menulis aturan baru untuk setiap kategori.
Cadangan cerdas: Tidak semua membutuhkan AI
Tidak semua atribut memerlukan kecerdasan buatan. Rentang numerik, nilai berbasis satuan, dan jumlah sederhana lebih cocok dengan logika deterministik:
Pipeline secara otomatis mengenali kasus ini dan menggunakan aturan alih-alih AI. Ini menjaga efisiensi sistem dan menghindari panggilan model yang tidak perlu.
Kontrol tetap di tangan penjual
Setiap kategori dapat diberi label sebagai:
Sistem ganda ini memungkinkan kontrol manusia yang nyata. AI melakukan pekerjaan, manusia membuat keputusan akhir. Ini membangun kepercayaan – penjual dapat menimpa model tanpa mengganggu pipeline.
Persistensi dan sinkronisasi
Semua hasil disimpan dalam database MongoDB produk – sistem pusat untuk:
Dari sana, pekerjaan outbound menyinkronkan data ke:
Filter muncul dalam urutan logis, halaman produk menampilkan atribut yang konsisten, mesin pencari memberi peringkat produk lebih akurat.
Dari kekacauan ke keteraturan: Transformasi
Di sini kekuatan sistem terlihat dalam praktik:
Dari input berantakan, muncul urutan yang logis dan konsisten.
Arsitektur dalam gerak
Pipeline lengkap mengikuti alur ini:
Alur ini memastikan tidak ada nilai atribut yang hilang – baik yang diurutkan AI maupun yang ditetapkan manual, semuanya tercermin.
Mengapa bukan waktu nyata?
Pipeline waktu nyata mungkin terdengar menarik, tetapi akan menyebabkan:
Pekerjaan offline memberi efisiensi throughput, toleransi kesalahan, dan biaya yang dapat diprediksi. Kekurangannya: sedikit penundaan antara pengambilan data dan tampilannya. Keuntungannya besar: konsistensi skala besar yang benar-benar dihargai pelanggan.
Dampaknya
Sistem ini memberikan hasil yang terukur:
Ini lebih dari kemenangan teknis – ini meningkatkan pengalaman pengguna dan pendapatan.
Temuan utama
Kesimpulan
Mengurutkan nilai atribut terdengar sederhana. Tetapi dengan jutaan produk, ini menjadi tantangan nyata. Dengan menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan, saya mengubah masalah tersembunyi ini menjadi sistem yang bersih dan skalabel.
Inilah kekuatan pendekatan hibrida: menggabungkan yang terbaik dari manusia dan mesin. Dan terkadang, keberhasilan terbesar berasal dari menyelesaikan masalah yang paling membosankan – masalah yang mudah terabaikan, tetapi muncul di setiap halaman produk.