Gestão de atributos baseada em IA no comércio eletrónico: Como harmonizei milhões de dados de produtos

A maioria das plataformas de comércio eletrónico fala de grandes desafios técnicos: busca em escala, inventários em tempo real, recomendações personalizadas. Mas há um problema oculto que quase todos os retalhistas enfrentam: a consistência dos valores de atributos. Estes parecem superficialmente irrelevantes, mas são a base para descoberta de produtos, filtros, comparações e relevância na pesquisa.

Nos catálogos de produtos reais, o estado é caótico. As indicações de tamanho aparecem como “XL”, “Small”, “12cm”, “Large” misturadas. As cores são registadas como “RAL 3020”, “Crimson”, “Red” e “Dark Red” de forma confusa. Multiplique estas inconsistências por milhões de SKUs com dezenas de atributos por produto – o sistema torna-se inutilizável. Os filtros funcionam de forma imprevisível, os motores de busca perdem qualidade, e os clientes frustram-se na navegação.

O problema em grande escala

Como engenheiro full-stack na Zoro, enfrentei exatamente esta tarefa: construir um sistema que não apenas gerisse estes atributos, mas que os estruturasse de forma inteligente. O objetivo era simples, mas a execução complexa: disponibilizar mais de 3 milhões de SKUs com valores de atributos consistentes e rastreáveis.

O desafio: não se pode codificar regras manuais para cada categoria. É preciso algo que pense, mas que também permaneça controlável. Aqui entrou a IA – não como uma caixa preta, mas como parceira para lógica determinística.

A estratégia híbrida: IA com limites

A minha abordagem foi radicalmente diferente: uma pipeline híbrida que combina inteligência de LLM com regras claras e controles comerciais. O resultado: explicável, previsível, escalável e controlável por humanos.

O sistema processa atributos não em tempo real, mas em jobs de background offline. Parece um compromisso, mas é uma decisão arquitetónica consciente com grandes vantagens:

  • Alto throughput: grandes volumes de dados são processados sem sobrecarregar sistemas ao vivo
  • Confiabilidade: falhas nunca afetam o tráfego de clientes
  • Eficiência de custos: cálculos feitos em horários de menor tráfego
  • Isolamento: latência do LLM nunca afeta páginas de produto
  • Consistência: atualizações são atômicas e previsíveis

Processar em tempo real levaria a latências imprevisíveis, custos elevados e dependências frágeis. Jobs offline oferecem eficiência de empilhamento, chamadas assíncronas ao IA e pontos de revisão humana.

Preparação: limpeza antes da inteligência

Antes do LLM analisar os atributos, faço uma etapa de limpeza:

  • remover espaços em branco
  • eliminar valores vazios
  • deduplicar duplicados
  • transformar o contexto de categoria em strings estruturadas

O LLM recebe entradas limpas e claras. lixo entra, lixo sai – nesta escala, pequenos erros tornam-se grandes problemas. A limpeza é a base de tudo o que se segue.

O serviço de IA: pensar com contexto

O serviço de LLM recebe mais do que valores crus. Recebe:

  • atributos limpos
  • breadcrumbs de categoria
  • metadados de atributos

Com este contexto, o modelo entende que “Spannung” em ferramentas elétricas é numérico, que “Tamanho” em vestuário segue uma progressão conhecida, e que “Cor” pode respeitar padrões RAL. O modelo devolve: valores ordenados, nomes de atributos refinados e a decisão de aplicar ordenação determinística ou baseada em contexto.

Isto permite à pipeline lidar com diferentes tipos de atributos, sem precisar codificar novas regras para cada categoria.

Fallbacks inteligentes: nem tudo precisa de IA

Nem todo atributo necessita de inteligência artificial. Faixas numéricas, valores baseados em unidades e quantidades simples beneficiam-se mais de lógica determinística:

  • processamento mais rápido
  • ordenação previsível
  • custos menores
  • ausência de ambiguidade

A pipeline reconhece automaticamente estes casos e usa regras em vez de IA. Assim, mantém-se a eficiência do sistema e evita chamadas desnecessárias ao modelo.

Os retalhistas mantêm o controlo

Cada categoria pode ser marcada como:

  • LLM_SORT: deixar o modelo decidir
  • MANUAL_SORT: retalhista define a ordem manualmente

Este sistema dual permite controlo humano real. A IA faz o trabalho, as pessoas tomam as decisões finais. Isso constrói confiança – os retalhistas podem sobrescrever o modelo sem interromper a pipeline.

Persistência e sincronização

Todos os resultados vão para uma base de dados MongoDB de produtos – o sistema nervoso central para:

  • atributos ordenados
  • nomes de atributos refinados
  • tags de ordenação por categoria
  • campos de ordenação por produto

De lá, jobs de outbound sincronizam os dados com:

  • Elasticsearch para pesquisa por palavras-chave
  • Vespa para pesquisa semântica e baseada em vetores

Filtros aparecem em ordem lógica, páginas de produto mostram atributos consistentes, motores de busca classificam produtos com maior precisão.

De caos a ordem: a transformação

Aqui mostra-se o poder do sistema na prática:

Atributo Entrada bruta Saída ordenada
Tamanho XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Cor RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, Red (RAL 3020)
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

De entradas caóticas surgem sequências lógicas e consistentes.

A arquitetura em movimento

Toda a pipeline segue este fluxo:

  1. Dados de produto vêm do sistema PIM
  2. O job de extração recolhe atributos e contexto de categoria
  3. O serviço de ordenação IA processa de forma inteligente
  4. MongoDB armazena os resultados
  5. Jobs de outbound sincronizam com o PIM
  6. Jobs de sincronização com Elasticsearch e Vespa distribuem os dados às buscas
  7. Serviços API conectam busca às páginas do cliente

Este fluxo garante que nenhum valor de atributo se perca – seja ordenado por IA ou definido manualmente, tudo é refletido.

Por que não em tempo real?

Uma pipeline em tempo real pareceria atraente, mas levaria a:

  • latência imprevisível
  • picos de processamento elevados
  • dependências frágeis
  • complexidade operacional

Jobs offline oferecem eficiência de throughput, tolerância a erros e custos previsíveis. A pequena desvantagem: uma ligeira demora entre captura de dados e exibição. A grande vantagem: consistência em escala que os clientes realmente valorizam.

Os efeitos

O sistema fornece resultados mensuráveis:

  • ordenação consistente em mais de 3M+ SKUs
  • atributos numéricos previsíveis por regras
  • mecanismos de controlo pelos retalhistas via marcações manuais
  • páginas de produto mais limpas, filtros mais intuitivos
  • relevância de pesquisa melhorada e maior conversão
  • maior confiança do cliente

Foi mais do que uma vitória técnica – melhorou a experiência do utilizador e as vendas.

As principais conclusões

  • Híbrido supera IA pura: em escala, precisas de limites, não só de inteligência
  • Contexto é rei: o ambiente certo melhora drasticamente a precisão do LLM
  • Offline é o novo online: para throughput e fiabilidade, não em tempo real
  • Controlo humano: mecanismos de sobrescrição criam confiança real
  • Entrada limpa é fundamental: Garbage In, Garbage Out – limpe sempre primeiro

Conclusão

Ordenar valores de atributos parece simples. Mas, por milhões de produtos, torna-se um verdadeiro desafio. Combinando inteligência de LLM com regras claras e controles comerciais, transformei um problema oculto num sistema limpo e escalável.

Esta é a força de abordagens híbridas: unem o melhor do humano e da máquina. E às vezes, os maiores sucessos vêm de resolver problemas mais chatos – aqueles que parecem pequenos, mas aparecem em cada página de produto.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)