A maioria das plataformas de comércio eletrónico fala de grandes desafios técnicos: busca em escala, inventários em tempo real, recomendações personalizadas. Mas há um problema oculto que quase todos os retalhistas enfrentam: a consistência dos valores de atributos. Estes parecem superficialmente irrelevantes, mas são a base para descoberta de produtos, filtros, comparações e relevância na pesquisa.
Nos catálogos de produtos reais, o estado é caótico. As indicações de tamanho aparecem como “XL”, “Small”, “12cm”, “Large” misturadas. As cores são registadas como “RAL 3020”, “Crimson”, “Red” e “Dark Red” de forma confusa. Multiplique estas inconsistências por milhões de SKUs com dezenas de atributos por produto – o sistema torna-se inutilizável. Os filtros funcionam de forma imprevisível, os motores de busca perdem qualidade, e os clientes frustram-se na navegação.
O problema em grande escala
Como engenheiro full-stack na Zoro, enfrentei exatamente esta tarefa: construir um sistema que não apenas gerisse estes atributos, mas que os estruturasse de forma inteligente. O objetivo era simples, mas a execução complexa: disponibilizar mais de 3 milhões de SKUs com valores de atributos consistentes e rastreáveis.
O desafio: não se pode codificar regras manuais para cada categoria. É preciso algo que pense, mas que também permaneça controlável. Aqui entrou a IA – não como uma caixa preta, mas como parceira para lógica determinística.
A estratégia híbrida: IA com limites
A minha abordagem foi radicalmente diferente: uma pipeline híbrida que combina inteligência de LLM com regras claras e controles comerciais. O resultado: explicável, previsível, escalável e controlável por humanos.
O sistema processa atributos não em tempo real, mas em jobs de background offline. Parece um compromisso, mas é uma decisão arquitetónica consciente com grandes vantagens:
Alto throughput: grandes volumes de dados são processados sem sobrecarregar sistemas ao vivo
Confiabilidade: falhas nunca afetam o tráfego de clientes
Eficiência de custos: cálculos feitos em horários de menor tráfego
Isolamento: latência do LLM nunca afeta páginas de produto
Consistência: atualizações são atômicas e previsíveis
Processar em tempo real levaria a latências imprevisíveis, custos elevados e dependências frágeis. Jobs offline oferecem eficiência de empilhamento, chamadas assíncronas ao IA e pontos de revisão humana.
Preparação: limpeza antes da inteligência
Antes do LLM analisar os atributos, faço uma etapa de limpeza:
remover espaços em branco
eliminar valores vazios
deduplicar duplicados
transformar o contexto de categoria em strings estruturadas
O LLM recebe entradas limpas e claras. lixo entra, lixo sai – nesta escala, pequenos erros tornam-se grandes problemas. A limpeza é a base de tudo o que se segue.
O serviço de IA: pensar com contexto
O serviço de LLM recebe mais do que valores crus. Recebe:
atributos limpos
breadcrumbs de categoria
metadados de atributos
Com este contexto, o modelo entende que “Spannung” em ferramentas elétricas é numérico, que “Tamanho” em vestuário segue uma progressão conhecida, e que “Cor” pode respeitar padrões RAL. O modelo devolve: valores ordenados, nomes de atributos refinados e a decisão de aplicar ordenação determinística ou baseada em contexto.
Isto permite à pipeline lidar com diferentes tipos de atributos, sem precisar codificar novas regras para cada categoria.
Fallbacks inteligentes: nem tudo precisa de IA
Nem todo atributo necessita de inteligência artificial. Faixas numéricas, valores baseados em unidades e quantidades simples beneficiam-se mais de lógica determinística:
processamento mais rápido
ordenação previsível
custos menores
ausência de ambiguidade
A pipeline reconhece automaticamente estes casos e usa regras em vez de IA. Assim, mantém-se a eficiência do sistema e evita chamadas desnecessárias ao modelo.
Os retalhistas mantêm o controlo
Cada categoria pode ser marcada como:
LLM_SORT: deixar o modelo decidir
MANUAL_SORT: retalhista define a ordem manualmente
Este sistema dual permite controlo humano real. A IA faz o trabalho, as pessoas tomam as decisões finais. Isso constrói confiança – os retalhistas podem sobrescrever o modelo sem interromper a pipeline.
Persistência e sincronização
Todos os resultados vão para uma base de dados MongoDB de produtos – o sistema nervoso central para:
atributos ordenados
nomes de atributos refinados
tags de ordenação por categoria
campos de ordenação por produto
De lá, jobs de outbound sincronizam os dados com:
Elasticsearch para pesquisa por palavras-chave
Vespa para pesquisa semântica e baseada em vetores
Filtros aparecem em ordem lógica, páginas de produto mostram atributos consistentes, motores de busca classificam produtos com maior precisão.
De caos a ordem: a transformação
Aqui mostra-se o poder do sistema na prática:
Atributo
Entrada bruta
Saída ordenada
Tamanho
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Cor
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, Red (RAL 3020)
Material
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numérico
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
De entradas caóticas surgem sequências lógicas e consistentes.
A arquitetura em movimento
Toda a pipeline segue este fluxo:
Dados de produto vêm do sistema PIM
O job de extração recolhe atributos e contexto de categoria
O serviço de ordenação IA processa de forma inteligente
MongoDB armazena os resultados
Jobs de outbound sincronizam com o PIM
Jobs de sincronização com Elasticsearch e Vespa distribuem os dados às buscas
Serviços API conectam busca às páginas do cliente
Este fluxo garante que nenhum valor de atributo se perca – seja ordenado por IA ou definido manualmente, tudo é refletido.
Por que não em tempo real?
Uma pipeline em tempo real pareceria atraente, mas levaria a:
latência imprevisível
picos de processamento elevados
dependências frágeis
complexidade operacional
Jobs offline oferecem eficiência de throughput, tolerância a erros e custos previsíveis. A pequena desvantagem: uma ligeira demora entre captura de dados e exibição. A grande vantagem: consistência em escala que os clientes realmente valorizam.
Os efeitos
O sistema fornece resultados mensuráveis:
ordenação consistente em mais de 3M+ SKUs
atributos numéricos previsíveis por regras
mecanismos de controlo pelos retalhistas via marcações manuais
páginas de produto mais limpas, filtros mais intuitivos
relevância de pesquisa melhorada e maior conversão
maior confiança do cliente
Foi mais do que uma vitória técnica – melhorou a experiência do utilizador e as vendas.
As principais conclusões
Híbrido supera IA pura: em escala, precisas de limites, não só de inteligência
Contexto é rei: o ambiente certo melhora drasticamente a precisão do LLM
Offline é o novo online: para throughput e fiabilidade, não em tempo real
Controlo humano: mecanismos de sobrescrição criam confiança real
Entrada limpa é fundamental: Garbage In, Garbage Out – limpe sempre primeiro
Conclusão
Ordenar valores de atributos parece simples. Mas, por milhões de produtos, torna-se um verdadeiro desafio. Combinando inteligência de LLM com regras claras e controles comerciais, transformei um problema oculto num sistema limpo e escalável.
Esta é a força de abordagens híbridas: unem o melhor do humano e da máquina. E às vezes, os maiores sucessos vêm de resolver problemas mais chatos – aqueles que parecem pequenos, mas aparecem em cada página de produto.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Gestão de atributos baseada em IA no comércio eletrónico: Como harmonizei milhões de dados de produtos
A maioria das plataformas de comércio eletrónico fala de grandes desafios técnicos: busca em escala, inventários em tempo real, recomendações personalizadas. Mas há um problema oculto que quase todos os retalhistas enfrentam: a consistência dos valores de atributos. Estes parecem superficialmente irrelevantes, mas são a base para descoberta de produtos, filtros, comparações e relevância na pesquisa.
Nos catálogos de produtos reais, o estado é caótico. As indicações de tamanho aparecem como “XL”, “Small”, “12cm”, “Large” misturadas. As cores são registadas como “RAL 3020”, “Crimson”, “Red” e “Dark Red” de forma confusa. Multiplique estas inconsistências por milhões de SKUs com dezenas de atributos por produto – o sistema torna-se inutilizável. Os filtros funcionam de forma imprevisível, os motores de busca perdem qualidade, e os clientes frustram-se na navegação.
O problema em grande escala
Como engenheiro full-stack na Zoro, enfrentei exatamente esta tarefa: construir um sistema que não apenas gerisse estes atributos, mas que os estruturasse de forma inteligente. O objetivo era simples, mas a execução complexa: disponibilizar mais de 3 milhões de SKUs com valores de atributos consistentes e rastreáveis.
O desafio: não se pode codificar regras manuais para cada categoria. É preciso algo que pense, mas que também permaneça controlável. Aqui entrou a IA – não como uma caixa preta, mas como parceira para lógica determinística.
A estratégia híbrida: IA com limites
A minha abordagem foi radicalmente diferente: uma pipeline híbrida que combina inteligência de LLM com regras claras e controles comerciais. O resultado: explicável, previsível, escalável e controlável por humanos.
O sistema processa atributos não em tempo real, mas em jobs de background offline. Parece um compromisso, mas é uma decisão arquitetónica consciente com grandes vantagens:
Processar em tempo real levaria a latências imprevisíveis, custos elevados e dependências frágeis. Jobs offline oferecem eficiência de empilhamento, chamadas assíncronas ao IA e pontos de revisão humana.
Preparação: limpeza antes da inteligência
Antes do LLM analisar os atributos, faço uma etapa de limpeza:
O LLM recebe entradas limpas e claras. lixo entra, lixo sai – nesta escala, pequenos erros tornam-se grandes problemas. A limpeza é a base de tudo o que se segue.
O serviço de IA: pensar com contexto
O serviço de LLM recebe mais do que valores crus. Recebe:
Com este contexto, o modelo entende que “Spannung” em ferramentas elétricas é numérico, que “Tamanho” em vestuário segue uma progressão conhecida, e que “Cor” pode respeitar padrões RAL. O modelo devolve: valores ordenados, nomes de atributos refinados e a decisão de aplicar ordenação determinística ou baseada em contexto.
Isto permite à pipeline lidar com diferentes tipos de atributos, sem precisar codificar novas regras para cada categoria.
Fallbacks inteligentes: nem tudo precisa de IA
Nem todo atributo necessita de inteligência artificial. Faixas numéricas, valores baseados em unidades e quantidades simples beneficiam-se mais de lógica determinística:
A pipeline reconhece automaticamente estes casos e usa regras em vez de IA. Assim, mantém-se a eficiência do sistema e evita chamadas desnecessárias ao modelo.
Os retalhistas mantêm o controlo
Cada categoria pode ser marcada como:
Este sistema dual permite controlo humano real. A IA faz o trabalho, as pessoas tomam as decisões finais. Isso constrói confiança – os retalhistas podem sobrescrever o modelo sem interromper a pipeline.
Persistência e sincronização
Todos os resultados vão para uma base de dados MongoDB de produtos – o sistema nervoso central para:
De lá, jobs de outbound sincronizam os dados com:
Filtros aparecem em ordem lógica, páginas de produto mostram atributos consistentes, motores de busca classificam produtos com maior precisão.
De caos a ordem: a transformação
Aqui mostra-se o poder do sistema na prática:
De entradas caóticas surgem sequências lógicas e consistentes.
A arquitetura em movimento
Toda a pipeline segue este fluxo:
Este fluxo garante que nenhum valor de atributo se perca – seja ordenado por IA ou definido manualmente, tudo é refletido.
Por que não em tempo real?
Uma pipeline em tempo real pareceria atraente, mas levaria a:
Jobs offline oferecem eficiência de throughput, tolerância a erros e custos previsíveis. A pequena desvantagem: uma ligeira demora entre captura de dados e exibição. A grande vantagem: consistência em escala que os clientes realmente valorizam.
Os efeitos
O sistema fornece resultados mensuráveis:
Foi mais do que uma vitória técnica – melhorou a experiência do utilizador e as vendas.
As principais conclusões
Conclusão
Ordenar valores de atributos parece simples. Mas, por milhões de produtos, torna-se um verdadeiro desafio. Combinando inteligência de LLM com regras claras e controles comerciais, transformei um problema oculto num sistema limpo e escalável.
Esta é a força de abordagens híbridas: unem o melhor do humano e da máquina. E às vezes, os maiores sucessos vêm de resolver problemas mais chatos – aqueles que parecem pequenos, mas aparecem em cada página de produto.