Управління атрибутами на основі ШІ в електронній комерції: як я узгодив мільйони даних про продукти

2026-01-15 22:53:46

Більшість платформ електронної комерції говорять про великі технічні виклики: пошук у масштабі, реальний час-інвентаризація, персоналізовані рекомендації. Але існує прихована проблема, яка майже всіх роздрібних продавців турбує: послідовність атрибутних значень. Вони здаються поверхнево неважливими, але є фундаментом для відкриття продуктів, фільтрів, порівнянь і релевантності пошуку.

У реальних каталогах товарів стан хаотичний. Вказівки розмірів з’являються як “XL”, “Small”, “12cm”, “Large” безладно. Кольори записані як “RAL 3020”, “Crimson”, “Red” і “Dark Red” змішано. Помножте цю невідповідність на мільйони SKU з десятками атрибутів на продукт — система стане непридатною. Фільтри працюють непередбачувано, пошукові системи втрачають якість, а клієнти розчаровані навігацією.

Проблема у великому масштабі

Як Full-Stack інженер у Zoro, я стикався саме з цим завданням: створити систему, яка не лише керує цими атрибутами, а й розумно їх структурованує. Мета була проста, але реалізація складна: забезпечити понад 3 мільйони SKU з послідовними, зрозумілими атрибутними значеннями.

Виклик: не можна для кожної категорії писати ручні правила. Потрібно щось, що думає, але залишається контрольованим. Тут на допомогу прийшла ШІ — не як чорна скринька, а як партнер для детерміністичної логіки.

Гібридна стратегія: ШІ з керівними рамками

Мій підхід був радикально іншим: гібридний пайплайн, що поєднує інтелект LLM з чіткими правилами і торговими контролями. Результат: пояснюваний, передбачуваний, масштабований і керований людьми.

Система обробляє атрибути не в реальному часі, а у фонових офлайн-завданнях. Це звучить як компроміс, але свідоме архітектурне рішення з великими перевагами:

Висока пропускна здатність: обробляються великі обсяги даних без навантаження на живу систему
Надійність: збої ніколи не впливають на клієнтський трафік
Економічність: обчислення виконуються у менш навантажених часах
Ізоляція: затримка LLM ніколи не торкається сторінок продуктів
Послідовність: оновлення атомарні і передбачувані

Обробка у реальному часі могла б спричинити непередбачувану затримку, вищі витрати і крихкі залежності. Офлайн-завдання дають нам ефективність, асинхронні виклики ШІ і точки людської перевірки.

Підготовка: очищення перед інтелектом

Перед тим, як LLM подивиться на атрибути, я виконує крок очищення:

обрізання пробілів
видалення порожніх значень
дедуплікація дублікатів
перетворення контексту категорії у структуровані рядки

LLM отримує чисті, зрозумілі вхідні дані. Мусор — мусор, і в цьому масштабі дрібні помилки стають великими проблемами. Очищення — основа всього, що йде далі.

Сервіс ШІ: мислення з контекстом

Сервіс LLM отримує не лише сирі значення. Він отримує:

очищені атрибути
breadcrumb-лінії категорій
метадані атрибутів

З цим контекстом модель розуміє, що “Напруга” у електроінструментах — числове, “Розмір” у одязі — слідує відомій прогресії, а “Колір” можливо враховує стандарти RAL. Модель повертає: впорядковані значення, уточнені імена атрибутів і рішення, чи потрібне детерміністичне або контекстуальне сортування.

Це дозволяє пайплайну обробляти різні типи атрибутів без написання нових правил для кожної категорії.

Інтелектуальні резерви: не всюди потрібен ШІ

Не кожен атрибут потребує штучного інтелекту. числові діапазони, значення з одиницями і прості кількості краще обробляти детерміністично:

швидша обробка
передбачуване сортування
нижчі витрати
відсутність неоднозначності

Пайплайн автоматично розпізнає ці випадки і використовує правила замість ШІ. Це зберігає систему ефективною і уникає зайвих викликів моделей.

Контроль зберігають продавці

Кожна категорія може бути позначена як:

LLM_SORT: дозволити моделі визначати порядок
MANUAL_SORT: продавці визначають порядок вручну

Ця двовекторна система забезпечує реальний людський контроль. ШІ виконує роботу, люди приймають остаточні рішення. Це формує довіру — продавці можуть переписати модель, не порушуючи пайплайн.

Збереження і синхронізація

Усі результати зберігаються у MongoDB — центральній системі для:

відсортованих атрибутів
уточнених імен атрибутів
тегів сортування за категоріями
полів sortOrder для продуктів

Звідти вихідні завдання синхронізують дані з:

Elasticsearch для пошуку за ключовими словами
Vespa для семантичного і векторного пошуку

Фільтри з’являються у логічному порядку, сторінки продуктів показують послідовні атрибути, пошукові системи ранжують продукти точніше.

Від хаосу до порядку: трансформація

Ось як система проявляє свою силу на практиці:

Атрибут	Сирий вхід	Відсортований вивід
Розмір	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Колір	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, Red (RAL 3020)
Матеріал	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Числовий	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

З хаотичних вхідних даних виникають логічні, послідовні послідовності.

Архітектура у дії

Повна пайплайн слідує цьому процесу:

Дані продуктів надходять з PIM-системи
Завдання витягання збирає атрибути і контекст категорії
Сервіс AI Sorting обробля їх інтелектуально
MongoDB зберігає результати
Вихідні завдання синхронізують з PIM
Завдання синхронізації Elasticsearch і Vespa поширюють дані до пошукових систем
API-сервіси з’єднують пошук із клієнтськими сторінками

Цей процес гарантує, що жодне значення атрибута не загубиться — чи то від сортування ШІ, чи вручну встановлене, — воно всюди відображається.

Чому не в реальному часі?

Реалтайм-пайплайн міг би здаватися привабливим, але призвів би до:

непередбачуваної затримки
вищих піків обчислень
крихких залежностей
операційної складності

Офлайн-завдання дають пропускну здатність, стійкість до помилок і передбачувані витрати. Маленький недолік: легка затримка між збором даних і їх відображенням. Велика перевага: послідовність у масштабі, яку цінують клієнти.

Впливи

Система дає вимірювані результати:

послідовне сортування понад 3М+ SKU
передбачувані числові атрибути за правилами
механізми контролю продавців через ручне тегування
чисті сторінки продуктів, інтуїтивні фільтри
покращена релевантність пошуку і вищий конверсійний показник
зміцнена довіра клієнтів

Це був більше ніж технічний успіх — це покращило користувацький досвід і збільшило продажі.

Основні висновки

Гібрид краще за чистий ШІ: у масштабі потрібні керівні рамки, а не лише інтелект
Контекст — король: правильне оточення значно підвищує точність LLM
Офлайн — новий онлайн: для пропускної здатності і надійності, не в реальному часі
Люди зберігають контроль: механізми переписування формують справжню довіру
Чистий вхід — фундаментальний: Garbage In, Garbage Out — завжди спершу очищуйте

Висновок

Сортування атрибутних значень здається простим. Але на мільйонах продуктів це стає справжнім викликом. Завдяки поєднанню інтелекту LLM з чіткими правилами і торговими контролями я перетворив приховану проблему у чисту, масштабовану систему.

Це сила гібридних підходів: вони поєднують найкраще з людини і машини. І іноді найбільші успіхи приходять із вирішення найпростіших проблем — тих, що легко пропустити, але які з’являються на кожній сторінці продукту.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Популярні теми
Дізнатися більше
#
GateTradFiExperience
17.25K Популярність
#
MyFavouriteChineseMemecoin
33.9K Популярність
#
GateLaunchpadIMU
16K Популярність
#
BTCReboundto$96,000
6.85K Популярність
#
XMRBreakstoNewHighs
2.91K Популярність

Популярні активності Gate Fun
Дізнатися більше

1
骑马的骑士
骑马的骑士
Рин. кап.:$3.56KХолдери:1
0.00%
2
萨尔马特
萨尔马特
Рин. кап.:$4.07KХолдери:2
2.39%
3
GN2.0
GN2.0
Рин. кап.:$3.63KХолдери:2
0.18%
4
迦楼罗
迦楼罗
Рин. кап.:$3.56KХолдери:1
0.00%
5
GM2.0
GM2.0
Рин. кап.:$20.66KХолдери:116
52.17%

Закріпити

карта сайту

Управління атрибутами на основі ШІ в електронній комерції: як я узгодив мільйони даних про продукти

Проблема у великому масштабі

Гібридна стратегія: ШІ з керівними рамками

Підготовка: очищення перед інтелектом

Сервіс ШІ: мислення з контекстом

Інтелектуальні резерви: не всюди потрібен ШІ

Контроль зберігають продавці

Збереження і синхронізація

Від хаосу до порядку: трансформація

Архітектура у дії

Чому не в реальному часі?

Впливи

Основні висновки

Висновок

Популярні теми

GateTradFiExperience

MyFavouriteChineseMemecoin

GateLaunchpadIMU

BTCReboundto$96,000

XMRBreakstoNewHighs

Популярні активності Gate Fun

骑马的骑士

骑马的骑士

萨尔马特

萨尔马特

GN2.0

GN2.0

迦楼罗

迦楼罗

GM2.0

GM2.0

Закріпити