Большинство платформ электронной коммерции говорят о больших технических вызовах: поиск по масштабам, данные в реальном времени, персонализированные рекомендации. Но есть скрытая проблема, которая мучает почти каждого ритейлера: согласованность значений атрибутов. Они кажутся на первый взгляд неважными, но являются фундаментом для обнаружения продуктов, фильтров, сравнений и релевантности поиска.
В реальных каталогах товаров состояние хаотичное. Размеры указываются как “XL”, “Small”, “12cm”, “Large” в беспорядке. Цвета записываются как “RAL 3020”, “Crimson”, “Red” и “Dark Red” смешанно. Умножьте эти несогласованности миллионами SKU и десятками атрибутов на продукт — система станет непригодной для использования. Фильтры работают непредсказуемо, поисковые системы теряют качество, а клиенты разочаровываются при навигации.
Проблема в крупном масштабе
Будучи full-stack-инженером в Zoro, я столкнулся именно с этой задачей: создать систему, которая не только управляет этими атрибутами, но и структурирует их разумно. Цель была проста, но выполнение — сложное: обеспечить 3 миллиона+ SKU с согласованными, понятными значениями атрибутов.
Вызов: нельзя для каждой категории писать ручные правила. Нужно что-то, что думает, но остается контролируемым. Здесь на помощь пришел ИИ — не как черный ящик, а как партнер для детерминированной логики.
Гибридная стратегия: ИИ с ограничителями
Мой подход был радикально другим: гибридный пайплайн, объединяющий интеллект LLM с четкими правилами и торговыми контролями. Результат: объяснимый, предсказуемый, масштабируемый и управляемый человеком.
Система обрабатывает атрибуты не в реальном времени, а в оффлайн-заданиях. Это кажется компромиссом, но сознательным архитектурным решением с большими преимуществами:
Высокая пропускная способность: обрабатываются огромные объемы данных без нагрузки на живую систему
Надежность: сбои никогда не влияют на клиентский трафик
Экономия: вычисления выполняются в периоды низкой нагрузки
Изоляция: задержка LLM никогда не затрагивает страницы товаров
Согласованность: обновления атомарны и предсказуемы
Обработка в реальном времени могла бы привести к непредсказуемой задержке, высоким затратам и хрупким зависимостям. Оффлайн-задания дают нам эффективность, асинхронные вызовы ИИ и точки проверки человеком.
Подготовка: очистка перед интеллектом
Перед тем, как LLM посмотрит на атрибуты, я выполняю этап очистки:
Удаление лишних пробелов
Удаление пустых значений
Удаление дубликатов
Преобразование контекста категории в структурированные строки
LLM получает чистые, ясные входные данные. Мусор — мусор, и в этом масштабе мелкие ошибки превращаются в большие проблемы. Очистка — основа всего последующего.
Сервис ИИ: мышление с контекстом
Сервис LLM получает не только сырые значения. Он получает:
очищенные атрибуты
хлебные крошки категории
метаданные атрибутов
С этим контекстом модель понимает, что “напряжение” в электроинструментах — числовое, “размер” в одежде — следует известной прогрессии, а “цвет” возможно, учитывает стандарты RAL. Модель возвращает: упорядоченные значения, уточненные имена атрибутов и решение — нужен ли детерминированный или контекстуальный сортировочный подход.
Это позволяет пайплайну обрабатывать разные типы атрибутов без необходимости писать новые правила для каждой категории.
Умные резервные механизмы: не везде нужен ИИ
Не все атрибуты требуют искусственного интеллекта. Числовые диапазоны, значения на основе единиц измерения и простые множества лучше обрабатывать детерминированной логикой:
более быстрая обработка
предсказуемая сортировка
меньшие затраты
отсутствие неоднозначности
Пайплайн автоматически распознает такие случаи и использует правила вместо ИИ. Это делает систему эффективной и избегает ненужных вызовов модели.
Контроль остается у продавцов
Каждая категория может быть помечена как:
LLM_SORT: модель сама решает порядок
MANUAL_SORT: продавец задает порядок вручную
Эта двойная система обеспечивает реальный человеческий контроль. ИИ делает работу, человек принимает окончательное решение. Это укрепляет доверие — продавцы могут переопределять модель, не нарушая работу пайплайна.
Сохранение и синхронизация
Все результаты сохраняются в MongoDB — центральной системе для:
отсортированных атрибутов
уточненных имен атрибутов
категорийных тегов сортировки
полей sortOrder для продуктов
Оттуда внешние задания синхронизируют данные с:
Elasticsearch для поиска по ключевым словам
Vespa для семантического и векторного поиска
Фильтры отображаются в логическом порядке, страницы товаров показывают согласованные атрибуты, поисковые системы ранжируют продукты точнее.
От хаоса к порядку: трансформация
Здесь проявляется мощь системы на практике:
Атрибут
Исходные данные
Отсортированный вывод
Размер
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Цвет
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Материал
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Числовой
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Из хаотичных входных данных получаются логичные, согласованные последовательности.
Архитектура в движении
Весь пайплайн работает по следующему сценарию:
Данные о продуктах поступают из PIM-системы
Задача извлечения собирает атрибуты и контекст категории
Сервис сортировки ИИ обрабатывает их умно
MongoDB сохраняет результаты
Внешние задания синхронизируют с PIM
Задания синхронизации Elasticsearch и Vespa распространяют данные в поисковые системы
API-сервисы связывают поиск с клиентскими страницами
Этот сценарий гарантирует, что ни одно значение атрибута не потеряется — будь то отсортировано ИИ или установлено вручную, оно везде отражено.
Почему не в реальном времени?
Реалтайм-пайплайн выглядел бы привлекательно, но привел бы к:
непредсказуемой задержке
высоким пиковым нагрузкам
хрупким зависимостям
операционной сложности
Оффлайн-задания дают эффективность, устойчивость к ошибкам и предсказуемые затраты. Маленький минус — небольшая задержка между сбором данных и отображением. Большой плюс — согласованность в масштабе, которую ценят клиенты.
Влияние
Эта система дает измеримые результаты:
согласованная сортировка более чем по 3М SKU
предсказуемые числовые атрибуты по правилам
механизмы контроля продавцов через ручное тегирование
более чистые страницы товаров, интуитивные фильтры
улучшенная релевантность поиска и рост конверсии
укрепление доверия клиентов
Это было больше, чем техническая победа — это улучшение пользовательского опыта и увеличение продаж.
Основные выводы
Гибрид лучше чистого ИИ: в масштабе нужны ограничители, а не только интеллект
Контекст — король: правильная среда значительно повышает точность LLM
Оффлайн — это новое онлайн: для пропускной способности и надежности, а не в реальном времени
Люди сохраняют контроль: механизмы переопределения создают настоящее доверие
Чистый ввод — основа: Garbage In, Garbage Out — всегда сначала очищайте
Итог
Сортировка значений атрибутов кажется простой задачей. Но при миллионах товаров превращается в настоящую проблему. Объединив интеллект LLM с четкими правилами и контролями, я превратил скрытую проблему в чистую, масштабируемую систему.
Это сила гибридных подходов: они объединяют лучшее из человека и машины. И иногда самые большие успехи достигаются в решении самых скучных проблем — тех, что легко пропустить, но которые встречаются на каждой странице товара.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Управление атрибутами на базе ИИ в электронной коммерции: как я гармонизировал миллионы данных о продуктах
Большинство платформ электронной коммерции говорят о больших технических вызовах: поиск по масштабам, данные в реальном времени, персонализированные рекомендации. Но есть скрытая проблема, которая мучает почти каждого ритейлера: согласованность значений атрибутов. Они кажутся на первый взгляд неважными, но являются фундаментом для обнаружения продуктов, фильтров, сравнений и релевантности поиска.
В реальных каталогах товаров состояние хаотичное. Размеры указываются как “XL”, “Small”, “12cm”, “Large” в беспорядке. Цвета записываются как “RAL 3020”, “Crimson”, “Red” и “Dark Red” смешанно. Умножьте эти несогласованности миллионами SKU и десятками атрибутов на продукт — система станет непригодной для использования. Фильтры работают непредсказуемо, поисковые системы теряют качество, а клиенты разочаровываются при навигации.
Проблема в крупном масштабе
Будучи full-stack-инженером в Zoro, я столкнулся именно с этой задачей: создать систему, которая не только управляет этими атрибутами, но и структурирует их разумно. Цель была проста, но выполнение — сложное: обеспечить 3 миллиона+ SKU с согласованными, понятными значениями атрибутов.
Вызов: нельзя для каждой категории писать ручные правила. Нужно что-то, что думает, но остается контролируемым. Здесь на помощь пришел ИИ — не как черный ящик, а как партнер для детерминированной логики.
Гибридная стратегия: ИИ с ограничителями
Мой подход был радикально другим: гибридный пайплайн, объединяющий интеллект LLM с четкими правилами и торговыми контролями. Результат: объяснимый, предсказуемый, масштабируемый и управляемый человеком.
Система обрабатывает атрибуты не в реальном времени, а в оффлайн-заданиях. Это кажется компромиссом, но сознательным архитектурным решением с большими преимуществами:
Обработка в реальном времени могла бы привести к непредсказуемой задержке, высоким затратам и хрупким зависимостям. Оффлайн-задания дают нам эффективность, асинхронные вызовы ИИ и точки проверки человеком.
Подготовка: очистка перед интеллектом
Перед тем, как LLM посмотрит на атрибуты, я выполняю этап очистки:
LLM получает чистые, ясные входные данные. Мусор — мусор, и в этом масштабе мелкие ошибки превращаются в большие проблемы. Очистка — основа всего последующего.
Сервис ИИ: мышление с контекстом
Сервис LLM получает не только сырые значения. Он получает:
С этим контекстом модель понимает, что “напряжение” в электроинструментах — числовое, “размер” в одежде — следует известной прогрессии, а “цвет” возможно, учитывает стандарты RAL. Модель возвращает: упорядоченные значения, уточненные имена атрибутов и решение — нужен ли детерминированный или контекстуальный сортировочный подход.
Это позволяет пайплайну обрабатывать разные типы атрибутов без необходимости писать новые правила для каждой категории.
Умные резервные механизмы: не везде нужен ИИ
Не все атрибуты требуют искусственного интеллекта. Числовые диапазоны, значения на основе единиц измерения и простые множества лучше обрабатывать детерминированной логикой:
Пайплайн автоматически распознает такие случаи и использует правила вместо ИИ. Это делает систему эффективной и избегает ненужных вызовов модели.
Контроль остается у продавцов
Каждая категория может быть помечена как:
Эта двойная система обеспечивает реальный человеческий контроль. ИИ делает работу, человек принимает окончательное решение. Это укрепляет доверие — продавцы могут переопределять модель, не нарушая работу пайплайна.
Сохранение и синхронизация
Все результаты сохраняются в MongoDB — центральной системе для:
Оттуда внешние задания синхронизируют данные с:
Фильтры отображаются в логическом порядке, страницы товаров показывают согласованные атрибуты, поисковые системы ранжируют продукты точнее.
От хаоса к порядку: трансформация
Здесь проявляется мощь системы на практике:
Из хаотичных входных данных получаются логичные, согласованные последовательности.
Архитектура в движении
Весь пайплайн работает по следующему сценарию:
Этот сценарий гарантирует, что ни одно значение атрибута не потеряется — будь то отсортировано ИИ или установлено вручную, оно везде отражено.
Почему не в реальном времени?
Реалтайм-пайплайн выглядел бы привлекательно, но привел бы к:
Оффлайн-задания дают эффективность, устойчивость к ошибкам и предсказуемые затраты. Маленький минус — небольшая задержка между сбором данных и отображением. Большой плюс — согласованность в масштабе, которую ценят клиенты.
Влияние
Эта система дает измеримые результаты:
Это было больше, чем техническая победа — это улучшение пользовательского опыта и увеличение продаж.
Основные выводы
Итог
Сортировка значений атрибутов кажется простой задачей. Но при миллионах товаров превращается в настоящую проблему. Объединив интеллект LLM с четкими правилами и контролями, я превратил скрытую проблему в чистую, масштабируемую систему.
Это сила гибридных подходов: они объединяют лучшее из человека и машины. И иногда самые большие успехи достигаются в решении самых скучных проблем — тех, что легко пропустить, но которые встречаются на каждой странице товара.