Управління атрибутами на основі ШІ в електронній комерції: як я узгодив мільйони даних про продукти

Більшість платформ електронної комерції говорять про великі технічні виклики: пошук у масштабі, реальний час-інвентаризація, персоналізовані рекомендації. Але існує прихована проблема, яка майже всіх роздрібних продавців турбує: послідовність атрибутних значень. Вони здаються поверхнево неважливими, але є фундаментом для відкриття продуктів, фільтрів, порівнянь і релевантності пошуку.

У реальних каталогах товарів стан хаотичний. Вказівки розмірів з’являються як “XL”, “Small”, “12cm”, “Large” безладно. Кольори записані як “RAL 3020”, “Crimson”, “Red” і “Dark Red” змішано. Помножте цю невідповідність на мільйони SKU з десятками атрибутів на продукт — система стане непридатною. Фільтри працюють непередбачувано, пошукові системи втрачають якість, а клієнти розчаровані навігацією.

Проблема у великому масштабі

Як Full-Stack інженер у Zoro, я стикався саме з цим завданням: створити систему, яка не лише керує цими атрибутами, а й розумно їх структурованує. Мета була проста, але реалізація складна: забезпечити понад 3 мільйони SKU з послідовними, зрозумілими атрибутними значеннями.

Виклик: не можна для кожної категорії писати ручні правила. Потрібно щось, що думає, але залишається контрольованим. Тут на допомогу прийшла ШІ — не як чорна скринька, а як партнер для детерміністичної логіки.

Гібридна стратегія: ШІ з керівними рамками

Мій підхід був радикально іншим: гібридний пайплайн, що поєднує інтелект LLM з чіткими правилами і торговими контролями. Результат: пояснюваний, передбачуваний, масштабований і керований людьми.

Система обробляє атрибути не в реальному часі, а у фонових офлайн-завданнях. Це звучить як компроміс, але свідоме архітектурне рішення з великими перевагами:

  • Висока пропускна здатність: обробляються великі обсяги даних без навантаження на живу систему
  • Надійність: збої ніколи не впливають на клієнтський трафік
  • Економічність: обчислення виконуються у менш навантажених часах
  • Ізоляція: затримка LLM ніколи не торкається сторінок продуктів
  • Послідовність: оновлення атомарні і передбачувані

Обробка у реальному часі могла б спричинити непередбачувану затримку, вищі витрати і крихкі залежності. Офлайн-завдання дають нам ефективність, асинхронні виклики ШІ і точки людської перевірки.

Підготовка: очищення перед інтелектом

Перед тим, як LLM подивиться на атрибути, я виконує крок очищення:

  • обрізання пробілів
  • видалення порожніх значень
  • дедуплікація дублікатів
  • перетворення контексту категорії у структуровані рядки

LLM отримує чисті, зрозумілі вхідні дані. Мусор — мусор, і в цьому масштабі дрібні помилки стають великими проблемами. Очищення — основа всього, що йде далі.

Сервіс ШІ: мислення з контекстом

Сервіс LLM отримує не лише сирі значення. Він отримує:

  • очищені атрибути
  • breadcrumb-лінії категорій
  • метадані атрибутів

З цим контекстом модель розуміє, що “Напруга” у електроінструментах — числове, “Розмір” у одязі — слідує відомій прогресії, а “Колір” можливо враховує стандарти RAL. Модель повертає: впорядковані значення, уточнені імена атрибутів і рішення, чи потрібне детерміністичне або контекстуальне сортування.

Це дозволяє пайплайну обробляти різні типи атрибутів без написання нових правил для кожної категорії.

Інтелектуальні резерви: не всюди потрібен ШІ

Не кожен атрибут потребує штучного інтелекту. числові діапазони, значення з одиницями і прості кількості краще обробляти детерміністично:

  • швидша обробка
  • передбачуване сортування
  • нижчі витрати
  • відсутність неоднозначності

Пайплайн автоматично розпізнає ці випадки і використовує правила замість ШІ. Це зберігає систему ефективною і уникає зайвих викликів моделей.

Контроль зберігають продавці

Кожна категорія може бути позначена як:

  • LLM_SORT: дозволити моделі визначати порядок
  • MANUAL_SORT: продавці визначають порядок вручну

Ця двовекторна система забезпечує реальний людський контроль. ШІ виконує роботу, люди приймають остаточні рішення. Це формує довіру — продавці можуть переписати модель, не порушуючи пайплайн.

Збереження і синхронізація

Усі результати зберігаються у MongoDB — центральній системі для:

  • відсортованих атрибутів
  • уточнених імен атрибутів
  • тегів сортування за категоріями
  • полів sortOrder для продуктів

Звідти вихідні завдання синхронізують дані з:

  • Elasticsearch для пошуку за ключовими словами
  • Vespa для семантичного і векторного пошуку

Фільтри з’являються у логічному порядку, сторінки продуктів показують послідовні атрибути, пошукові системи ранжують продукти точніше.

Від хаосу до порядку: трансформація

Ось як система проявляє свою силу на практиці:

Атрибут Сирий вхід Відсортований вивід
Розмір XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Колір RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Матеріал Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Числовий 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

З хаотичних вхідних даних виникають логічні, послідовні послідовності.

Архітектура у дії

Повна пайплайн слідує цьому процесу:

  1. Дані продуктів надходять з PIM-системи
  2. Завдання витягання збирає атрибути і контекст категорії
  3. Сервіс AI Sorting обробля їх інтелектуально
  4. MongoDB зберігає результати
  5. Вихідні завдання синхронізують з PIM
  6. Завдання синхронізації Elasticsearch і Vespa поширюють дані до пошукових систем
  7. API-сервіси з’єднують пошук із клієнтськими сторінками

Цей процес гарантує, що жодне значення атрибута не загубиться — чи то від сортування ШІ, чи вручну встановлене, — воно всюди відображається.

Чому не в реальному часі?

Реалтайм-пайплайн міг би здаватися привабливим, але призвів би до:

  • непередбачуваної затримки
  • вищих піків обчислень
  • крихких залежностей
  • операційної складності

Офлайн-завдання дають пропускну здатність, стійкість до помилок і передбачувані витрати. Маленький недолік: легка затримка між збором даних і їх відображенням. Велика перевага: послідовність у масштабі, яку цінують клієнти.

Впливи

Система дає вимірювані результати:

  • послідовне сортування понад 3М+ SKU
  • передбачувані числові атрибути за правилами
  • механізми контролю продавців через ручне тегування
  • чисті сторінки продуктів, інтуїтивні фільтри
  • покращена релевантність пошуку і вищий конверсійний показник
  • зміцнена довіра клієнтів

Це був більше ніж технічний успіх — це покращило користувацький досвід і збільшило продажі.

Основні висновки

  • Гібрид краще за чистий ШІ: у масштабі потрібні керівні рамки, а не лише інтелект
  • Контекст — король: правильне оточення значно підвищує точність LLM
  • Офлайн — новий онлайн: для пропускної здатності і надійності, не в реальному часі
  • Люди зберігають контроль: механізми переписування формують справжню довіру
  • Чистий вхід — фундаментальний: Garbage In, Garbage Out — завжди спершу очищуйте

Висновок

Сортування атрибутних значень здається простим. Але на мільйонах продуктів це стає справжнім викликом. Завдяки поєднанню інтелекту LLM з чіткими правилами і торговими контролями я перетворив приховану проблему у чисту, масштабовану систему.

Це сила гібридних підходів: вони поєднують найкраще з людини і машини. І іноді найбільші успіхи приходять із вирішення найпростіших проблем — тих, що легко пропустити, але які з’являються на кожній сторінці продукту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити