Pengelolaan atribut berbasis KI dalam E-Commerce: Bagaimana saya menyelaraskan jutaan data produk

Sebagian besar platform E-Commerce berbicara tentang tantangan teknis besar: pencarian skala besar, stok waktu nyata, rekomendasi yang dipersonalisasi. Tetapi ada masalah tersembunyi yang hampir setiap retailer alami: konsistensi nilai atribut. Ini tampak sepele secara permukaan, tetapi merupakan fondasi untuk penemuan produk, filter, perbandingan, dan relevansi pencarian.

Dalam katalog produk nyata, kondisinya berantakan. Ukuran muncul sebagai “XL”, “Small”, “12cm”, “Large” secara acak. Warna dicatat sebagai “RAL 3020”, “Crimson”, “Red”, dan “Dark Red” secara campur aduk. Mengalikan ketidakkonsistenan ini dengan jutaan SKU dan puluhan atribut per produk – sistem akan menjadi tidak berguna. Filter berfungsi tidak terduga, mesin pencari kehilangan kualitas, dan pelanggan frustrasi saat menavigasi.

Masalah dalam skala besar

Sebagai insinyur Full-Stack di Zoro, saya menghadapi tugas ini: membangun sistem yang tidak hanya mengelola atribut ini, tetapi juga mengaturnya secara cerdas. Tujuannya sederhana, tetapi pelaksanaannya kompleks: menyediakan lebih dari 3 juta+ SKU dengan nilai atribut yang konsisten dan dapat dilacak.

Tantangannya: kita tidak bisa menulis aturan manual untuk setiap kategori. Kita membutuhkan sesuatu yang berpikir, tetapi tetap dapat dikendalikan. Di sinilah AI masuk – bukan sebagai solusi black-box, tetapi sebagai mitra untuk logika deterministik.

Strategi hibrida: AI dengan batasan

Pendekatan saya sangat berbeda: pipeline hibrida yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan. Hasilnya: dapat dijelaskan, prediktif, skalabel, dan dapat dikendalikan manusia.

Sistem ini memproses atribut bukan secara waktu nyata, tetapi dalam pekerjaan latar belakang offline. Ini terdengar seperti kompromi, tetapi merupakan keputusan arsitektur yang sadar dengan manfaat besar:

  • Throughput tinggi: data besar diproses tanpa membebani sistem langsung
  • Keandalan: kegagalan tidak mempengaruhi lalu lintas pelanggan
  • Efisiensi biaya: perhitungan dilakukan saat lalu lintas rendah
  • Isolasi: latensi LLM tidak pernah menyentuh halaman produk
  • Konsistensi: pembaruan atomik dan dapat diprediksi

Pemrosesan waktu nyata akan menyebabkan latensi tak terduga, biaya lebih tinggi, dan ketergantungan rapuh. Pekerjaan offline memberi kita efisiensi tumpukan, panggilan AI asinkron, dan titik pemeriksaan manusia.

Persiapan: pembersihan sebelum kecerdasan

Sebelum LLM melihat atribut, saya melakukan langkah pembersihan:

  • Trim whitespace
  • Hapus nilai kosong
  • Deduplicate duplikat
  • Ubah konteks kategori menjadi string terstruktur

LLM menerima input yang bersih dan jelas. Sampah masuk, sampah keluar – dalam skala ini, kesalahan kecil bisa menjadi masalah besar. Pembersihan adalah fondasi untuk semua yang berikutnya.

Layanan AI: Berpikir dengan konteks

Layanan LLM menerima lebih dari sekadar nilai mentah. Ia mendapatkan:

  • atribut yang dibersihkan
  • breadcrumbs kategori
  • metadata atribut

Dengan konteks ini, model memahami bahwa “Spannung” dalam alat listrik adalah numerik, “Ukuran” dalam pakaian mengikuti progresi yang dikenal, dan “Warna” mungkin mengikuti standar RAL. Model mengembalikan: nilai yang terurut, nama atribut yang disempurnakan, dan keputusan apakah perlu pengurutan deterministik atau kontekstual.

Ini memungkinkan pipeline menangani berbagai tipe atribut tanpa harus menulis aturan baru untuk setiap kategori.

Cadangan cerdas: Tidak semua membutuhkan AI

Tidak semua atribut memerlukan kecerdasan buatan. Rentang numerik, nilai berbasis satuan, dan jumlah sederhana lebih cocok dengan logika deterministik:

  • proses lebih cepat
  • pengurutan yang dapat diprediksi
  • biaya lebih rendah
  • tidak ambigu

Pipeline secara otomatis mengenali kasus ini dan menggunakan aturan alih-alih AI. Ini menjaga efisiensi sistem dan menghindari panggilan model yang tidak perlu.

Kontrol tetap di tangan penjual

Setiap kategori dapat diberi label sebagai:

  • LLM_SORT: biarkan model memutuskan
  • MANUAL_SORT: penjual menentukan urutan secara manual

Sistem ganda ini memungkinkan kontrol manusia yang nyata. AI melakukan pekerjaan, manusia membuat keputusan akhir. Ini membangun kepercayaan – penjual dapat menimpa model tanpa mengganggu pipeline.

Persistensi dan sinkronisasi

Semua hasil disimpan dalam database MongoDB produk – sistem pusat untuk:

  • atribut yang diurutkan
  • nama atribut yang disempurnakan
  • tag urutan berdasarkan kategori
  • field sortOrder terkait produk

Dari sana, pekerjaan outbound menyinkronkan data ke:

  • Elasticsearch untuk pencarian berbasis kata kunci
  • Vespa untuk pencarian semantik dan vektor

Filter muncul dalam urutan logis, halaman produk menampilkan atribut yang konsisten, mesin pencari memberi peringkat produk lebih akurat.

Dari kekacauan ke keteraturan: Transformasi

Di sini kekuatan sistem terlihat dalam praktik:

Atribut Input Mentah Output Terurut
Ukuran XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Warna RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numerik 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Dari input berantakan, muncul urutan yang logis dan konsisten.

Arsitektur dalam gerak

Pipeline lengkap mengikuti alur ini:

  1. Data produk mengalir dari sistem PIM
  2. Pekerjaan ekstraksi mengumpulkan atribut dan konteks kategori
  3. Layanan Sorting AI memproses secara cerdas
  4. MongoDB menyimpan hasil
  5. Pekerjaan sinkron outbound mengembalikan ke sistem PIM
  6. Pekerjaan sinkron Elasticsearch dan Vespa menyebarkan data ke sistem pencarian
  7. Layanan API menghubungkan pencarian dengan halaman pelanggan

Alur ini memastikan tidak ada nilai atribut yang hilang – baik yang diurutkan AI maupun yang ditetapkan manual, semuanya tercermin.

Mengapa bukan waktu nyata?

Pipeline waktu nyata mungkin terdengar menarik, tetapi akan menyebabkan:

  • latensi tak terduga
  • lonjakan biaya komputasi
  • ketergantungan rapuh
  • kompleksitas operasional

Pekerjaan offline memberi efisiensi throughput, toleransi kesalahan, dan biaya yang dapat diprediksi. Kekurangannya: sedikit penundaan antara pengambilan data dan tampilannya. Keuntungannya besar: konsistensi skala besar yang benar-benar dihargai pelanggan.

Dampaknya

Sistem ini memberikan hasil yang terukur:

  • pengurutan konsisten di atas 3 juta+ SKU
  • atribut numerik yang dapat diprediksi melalui aturan
  • mekanisme kontrol penjual melalui tagging manual
  • halaman produk yang lebih bersih, filter yang lebih intuitif
  • relevansi pencarian yang lebih baik dan konversi yang lebih tinggi
  • kepercayaan pelanggan yang diperkuat

Ini lebih dari kemenangan teknis – ini meningkatkan pengalaman pengguna dan pendapatan.

Temuan utama

  • Hibrida mengalahkan AI murni: dalam skala, Anda membutuhkan batasan, bukan hanya kecerdasan
  • Konteks adalah Raja: lingkungan yang tepat secara dramatis meningkatkan akurasi LLM
  • Offline adalah yang baru online: untuk throughput dan keandalan, bukan waktu nyata
  • Manusia tetap mengendalikan: mekanisme penimpaan membangun kepercayaan nyata
  • Input bersih adalah fondasi: Garbage In, Garbage Out – selalu bersihkan terlebih dahulu

Kesimpulan

Mengurutkan nilai atribut terdengar sederhana. Tetapi dengan jutaan produk, ini menjadi tantangan nyata. Dengan menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol perdagangan, saya mengubah masalah tersembunyi ini menjadi sistem yang bersih dan skalabel.

Inilah kekuatan pendekatan hibrida: menggabungkan yang terbaik dari manusia dan mesin. Dan terkadang, keberhasilan terbesar berasal dari menyelesaikan masalah yang paling membosankan – masalah yang mudah terabaikan, tetapi muncul di setiap halaman produk.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)