Gestión de atributos basada en IA en comercio electrónico: Cómo armonicé millones de datos de productos

La mayoría de las plataformas de comercio electrónico hablan de grandes desafíos técnicos: búsqueda a escala, inventarios en tiempo real, recomendaciones personalizadas. Pero hay un problema oculto que casi todos los minoristas enfrentan: la consistencia de los valores de atributos. Estos parecen superficialmente irrelevantes, pero son la base para la descubribilidad de productos, filtros, comparaciones y relevancia en búsquedas.

En catálogos de productos reales, el estado es caótico. Las dimensiones aparecen como “XL”, “Small”, “12cm”, “Large” mezclados. Los colores se registran como “RAL 3020”, “Crimson”, “Red” y “Dark Red” de forma dispersa. Multiplique estas inconsistencias por millones de SKUs con docenas de atributos por producto – el sistema se vuelve inutilizable. Los filtros funcionan de forma impredecible, los motores de búsqueda pierden calidad y los clientes se frustran al navegar.

El problema a gran escala

Como ingeniero full-stack en Zoro, me enfrenté exactamente a esta tarea: construir un sistema que no solo gestione estos atributos, sino que los estructure de forma inteligente. El objetivo era simple, pero la ejecución compleja: proveer más de 3 millones de SKUs con valores de atributos consistentes y rastreables.

El desafío: no se puede codificar reglas manuales para cada categoría. Se necesita algo que piense, pero que también sea controlable. Aquí entró la IA, no como una caja negra, sino como una compañera para lógica determinista.

La estrategia híbrida: IA con límites

Mi enfoque fue radicalmente diferente: una pipeline híbrida que combina la inteligencia de LLM con reglas claras y controles comerciales. El resultado: explicable, predecible, escalable y controlable por humanos.

El sistema procesa los atributos no en tiempo real, sino en trabajos en segundo plano offline. Esto puede sonar como un compromiso, pero es una decisión arquitectónica consciente con grandes ventajas:

  • Alto rendimiento: se procesan grandes volúmenes de datos sin cargar los sistemas en vivo
  • Fiabilidad: las fallas nunca afectan el tráfico de clientes
  • Eficiencia de costos: los cálculos se hacen en horarios de baja demanda
  • Aislamiento: la latencia de LLM nunca afecta las páginas de producto
  • Consistencia: las actualizaciones son atómicas y predecibles

Procesar en tiempo real habría generado latencias impredecibles, costos mayores y dependencias frágiles. Los trabajos en segundo plano nos dan eficiencia en lotes, llamadas asíncronas a IA y puntos de revisión humana.

Preparación: limpieza antes de la inteligencia

Antes de que el LLM vea los atributos, realizo un paso de limpieza:

  • Recortar espacios en blanco
  • Eliminar valores vacíos
  • Deduplciar duplicados
  • Convertir el contexto de categoría en cadenas estructuradas

El LLM recibe entradas limpias y claras. Basura afuera, basura adentro – a esta escala, pequeños errores se vuelven grandes problemas. La limpieza es la base de todo lo que sigue.

El servicio de IA: pensar con contexto

El servicio de LLM recibe más que valores en crudo. Recibe:

  • atributos limpios
  • breadcrumbs de categoría
  • metadatos de atributos

Con este contexto, el modelo entiende que “Spannung” en herramientas eléctricas es numérico, que “Tamaño” en ropa sigue una progresión conocida, y que “Color” puede respetar estándares RAL. El modelo devuelve: valores ordenados, nombres de atributos refinados y la decisión de si se requiere ordenamiento determinista o contextual.

Esto permite a la pipeline manejar diferentes tipos de atributos sin codificar reglas nuevas para cada categoría.

Fallbacks inteligentes: no siempre se necesita IA

No todos los atributos requieren inteligencia artificial. Los rangos numéricos, valores con unidades y cantidades simples se benefician más de lógica determinista:

  • procesamiento más rápido
  • ordenamiento predecible
  • costos menores
  • sin ambigüedad

La pipeline detecta automáticamente estos casos y usa reglas en lugar de IA. Esto mantiene el sistema eficiente y evita llamadas innecesarias a modelos.

Los minoristas mantienen el control

Cada categoría puede marcarse como:

  • LLM_SORT: dejar que el modelo decida
  • MANUAL_SORT: los minoristas definen el orden manualmente

Este sistema dual permite control humano real. La IA hace el trabajo, las personas toman las decisiones finales. Esto genera confianza: los minoristas pueden sobrescribir el modelo sin interrumpir la pipeline.

Persistencia y sincronización

Todos los resultados se almacenan en una base de datos MongoDB de productos – el sistema nervioso central para:

  • atributos ordenados
  • nombres de atributos refinados
  • etiquetas de ordenamiento por categoría
  • campos sortOrder por producto

Desde allí, los trabajos de salida sincronizan los datos con:

  • Elasticsearch para búsquedas por palabra clave
  • Vespa para búsquedas semánticas y vectoriales

Los filtros aparecen en orden lógico, las páginas de producto muestran atributos consistentes, los motores de búsqueda clasifican mejor los productos.

De caos a orden: la transformación

Aquí se muestra la potencia del sistema en la práctica:

Atributo Entrada en crudo Salida ordenada
Tamaño XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Color RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

De entradas caóticas surgen secuencias lógicas y coherentes.

La arquitectura en movimiento

Toda la pipeline sigue este flujo:

  1. Los datos del producto fluyen desde el sistema PIM
  2. El trabajo de extracción recopila atributos y contexto de categoría
  3. El servicio de ordenamiento con IA procesa esto de forma inteligente
  4. MongoDB guarda los resultados
  5. Los trabajos de salida sincronizan con el PIM
  6. Los trabajos de sincronización con Elasticsearch y Vespa distribuyen los datos a los sistemas de búsqueda
  7. Los servicios API conectan la búsqueda con las páginas de cliente

Este flujo asegura que ningún valor de atributo se pierda – ya sea ordenado por IA o establecido manualmente, siempre se refleja en todas partes.

¿Por qué no en tiempo real?

Una pipeline en tiempo real habría sido atractiva, pero llevaría a:

  • latencias impredecibles
  • picos de carga mayores
  • dependencias frágiles
  • complejidad operativa

Los trabajos en segundo plano ofrecen eficiencia en rendimiento, tolerancia a errores y costos predecibles. La pequeña desventaja: una ligera demora entre captura de datos y visualización. La gran ventaja: consistencia a escala que los clientes realmente valoran.

Los resultados

El sistema entrega resultados medibles:

  • ordenamiento consistente en más de 3M+ SKUs
  • atributos numéricos predecibles mediante reglas
  • mecanismos de control para minoristas mediante etiquetado manual
  • páginas de producto más limpias, filtros más intuitivos
  • mayor relevancia en búsquedas y mejor tasa de conversión
  • mayor confianza del cliente

Fue más que un éxito técnico: mejoró la experiencia del usuario y las ventas.

Las principales conclusiones

  • Híbrido supera a IA pura: a escala, necesitas límites, no solo inteligencia
  • El contexto es rey: el entorno correcto mejora dramáticamente la precisión del LLM
  • Offline es lo nuevo online: para rendimiento y fiabilidad, no en tiempo real
  • Las personas mantienen el control: mecanismos de sobrescritura generan confianza real
  • Entrada limpia es fundamental: Garbage In, Garbage Out – siempre limpiar primero

Conclusión

Ordenar valores de atributos parece sencillo. Pero con millones de productos, se vuelve un reto real. Combinando la inteligencia de LLM con reglas claras y controles comerciales, transformé un problema oculto en un sistema limpio y escalable.

Esa es la fuerza de los enfoques híbridos: combinan lo mejor del humano y la máquina. Y a veces, los mayores éxitos nacen de resolver los problemas más aburridos – los que son fáciles de pasar por alto, pero que aparecen en cada página de producto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)