Por que a busca para e-commerce precisa de governança

Descubra por que a busca para e-commerce falha sem governança e como uma camada de controle garante resultados previsíveis e orientados pela intenção, melhorando a recuperação.

Os varejistas de e-commerce precisam lidar com vários tipos de consultas fundamentalmente diferentes dentro do mesmo sistema. Um comprador que procura por “laranjas” espera a fruta, não produtos que contenham a palavra “laranja”, como suco de laranja ou geleia de laranja, e não produtos cítricos semanticamente relacionados. Um comprador que procura um "presente para o avô que gosta de doces" precisa de uma descoberta semântica, não de uma correspondência literal de palavras-chave.

Recuperação lexical (correspondência de texto), recuperação semântica (correspondência de conceitos) e recuperação híbrida (combinação de sinais lexicais e semânticos) não resolvem esses problemas por si só. A recuperação lexical pode retornar qualquer conteúdo que contenha a palavra "laranjas", enquanto a recuperação semântica pura, em uma consulta com alta intenção como "laranjas", pode ampliar o escopo para itens relacionados, como limões ou toranjas. A recuperação híbrida mescla esses sinais lexicais e semânticos, mas ainda não determina se essa consulta deve ser tratada como uma consulta de navegação, quais restrições devem ser impostas ou quais políticas de negócios se aplicam. A lacuna não está na tecnologia de recuperação em si; está na ausência de uma camada de governança que entenda que tipo de consulta é esta e quais restrições devem ser impostas antes de a recuperação começar.

Neste blog, exploramos a governança de busca para e-commerce, por que isso é importante e como uma camada de controle garante uma recuperação previsível e precisa.

Governança, neste contexto, significa introduzir uma camada de decisão entre a consulta do usuário e o mecanismo de recuperação de dados. Esta camada realiza as seguintes funções:

  • Classifica a intenção da consulta: isso é navegação ("laranjas") ou descoberta ("presente para o avô")?
  • Aplica restrições comerciais: Quais limites de categoria, regras de elegibilidade, restrições de disponibilidade ou políticas de comercialização se aplicam?
  • Caminhos para a estratégia apropriada: deve-se usar recuperação lexical, semântica ou híbrida?

Uma camada de governança determina qual abordagem de recuperação deve ser usada para cada consulta, quais restrições devem ser aplicadas e quais políticas de negócios devem ser aplicadas antes do início da recuperação. É importante não confundir governança com recuperação híbrida: híbrida é uma estratégia de recuperação que combina sinais lexicais e semânticos, enquanto a governança é a camada inicial de decisão que determina se deve ser usada a recuperação lexical, semântica ou híbrida.

O status quo: a implementação da camada de aplicação "spaghetti"

Atualmente, muitos varejistas tentam resolver isso inserindo lógica diretamente na camada de aplicação. Isso geralmente resulta em código espaguete, ou seja, milhares de linhas de instruções if-then fixas no código, regex e templates de busca complexos.

Essa abordagem pode fornecer resultados de busca desejados, como mostrado acima; no entanto, ela cria atritos operacionais significativos:

  • Dependência da engenharia: usuários da área de negócios e a equipe de merchandising não conseguem modificar o comportamento de busca sem abrir chamados para a engenharia e enfrentar longos ciclos de implantação, que muitas vezes levam várias semanas.
  • Fragmentação: a lógica de busca fica dispersa entre o código da aplicação e os modelos de busca, sendo difícil de explicar ou auditar, tornando arriscado evoluir.

Mesmo quando as equipes reconhecem a necessidade de roteamento, o debate frequentemente se concentra na questão errada: qual método de recuperação escolher.

A falsa escolha: lexical vs. semântico vs. híbrido

As equipes de busca costumam enquadrar o desafio como uma escolha de estratégia de recuperação: lexical/BM25 versus semântica/vetores versus híbrida. Esse enquadramento é compreensível (os métodos de recuperação são importantes), mas ignora a falha mais comum em implantações reais: usar uma única abordagem de recuperação para todas as consultas gera resultados abaixo do ideal.

A busca de comércio é uma combinação de intenções fundamentalmente diferentes:

  • Navegação determinística e de alta intenção ("laranjas", "leite", "chocolate sem amendoim", "azeite de oliva barato").
  • Descoberta exploratória ("jaqueta para caminhar nas montanhas", "presente para uma criança de 12 anos que gosta de robótica").
  • Restrições operacionais (disponibilidade, tamanho, preço, cor).
  • Merchandising e campanhas (impulsionar, enterrar, campanhas sazonais).

Quando o sistema encaminha todos esses elementos pela mesma estratégia de recuperação, os resultados frequentemente apresentam erros sistemáticos e previsíveis, devido à falta de governança no modelo operacional. Quando as equipes não percebem isso como uma lacuna de governança, elas recorrem à única ferramenta que possuem: mais ajustes.

Por que o "ajuste de relevância" pode se tornar cíclico

Sem uma camada de roteamento, a "relevância" frequentemente se transforma em um amontoado interminável:

  • Por que essa consulta mostra acessórios acima do produto núcleo?
  • Por que essa consulta principal passou a exibir itens relacionados de repente?
  • Por que os resultados mudaram depois que adicionamos sinônimos, ajustamos analisadores ou ativamos a funcionalidade híbrida?
  • Por que a equipe de negócios precisa de um release de engenharia para corrigir uma única consulta?

As equipes respondem com mais ajustes: mais sinônimos, mais impulsos, mais experimentos de reclassificação, mais exceções no código da aplicação. Isso pode funcionar por um tempo, mas frequentemente produz um comportamento frágil, porque o sistema ainda não possui uma camada de decisão explícita para determinar o tipo de consulta e impor as restrições corretas antes da recuperação.

A anatomia da intenção do e-commerce: cabeça e cauda

Nesta seção, usamos "cabeça" e "cauda" como abreviações práticas para padrões comuns de navegação e exploração de consultas no comércio eletrônico. No mundo real, muitas consultas contêm aspectos de ambos:

Consultas principais (intenção determinística)

São consultas diretas e navegacionais onde o usuário sabe exatamente o que quer:

  • Intenção de item único ("laranjas", "leite", "pão").
  • Marcas exatas ou famílias de produtos ("iPhone 15 Pro", "Coca Coke").
  • SKUs, números de modelo, tamanhos ("ABC123", "Air Max 270").

Para essas consultas, a recuperação lexical pode lidar com correspondência de tokens (palavras correspondentes), mas o negócio também espera respeitar restrições, devolver rankings previsíveis e ter resultados controláveis. Um profissional de merchandising precisa garantir que uma consulta seja resolvida dentro dos limites da categoria correta, respeite os critérios de elegibilidade e destaque as prioridades específicas do negócio.

A governança é necessária para fazer cumprir a resolução pretendida. Por exemplo, "laranjas" devem corresponder à categoria de hortifrúti, não a suco de laranja, geleia de laranja ou refrigerante de laranja.

Consultas de cauda (descoberta exploratória)

São consultas descritivas e ricas em intenção, nas quais os consumidores exploram:

  • "Presente para o avô que adora doces"
  • "Jaqueta para caminhadas nas montanhas"
  • "Sapatos para ficar em pé o dia todo"

A recuperação lexical costuma apresentar dificuldades nesse caso. A recuperação semântica se destaca porque pode conectar o conceito de consulta ao produto, mesmo quando a redação não corresponde. Mas a recuperação semântica sozinha raramente é suficiente também. Consultas reais frequentemente exigem restrições para serem aplicadas, independentemente do método de recuperação usado.

As restrições são ortogonais ao método de recuperação

Aplicar restrições à recuperação semântica não significa busca híbrida. São conceitos ortogonais. Restrições, como filtros e boosts no Elasticsearch, podem ser aplicadas a qualquer recuperação lexical, semântica ou híbrida. O desafio é decidir como a consulta deve ser interpretada, quais restrições devem ser aplicadas e qual estratégia de recuperação deve ser utilizada.

Abaixo estão alguns exemplos de consultas que combinam recuperação com restrições rígidas:

  • Laranjas: recuperação lexical para "laranjas" mais uma restrição de categoria, como "Frutas" ou "Produtos", eliminando geleia de laranja, suco de laranja e refrigerante de laranja.
  • Frutas com alto teor de vitamina C por menos de US$ 4: recuperação semântica com foco em intenção nutricional, além de restrições que limitam os resultados à categoria de frutas e produtos por menos de US$ 4.
  • Sapatos confortáveis para trabalhar: recuperação semântica para intenção contextual mais uma restrição de categoria que limita os resultados a sapatos.

Essas consultas não podem ser tratadas por uma única abordagem:

  • A recuperação lexical pura geralmente é insuficiente aqui porque frases como "rico em vitamina C" ou "confortável" podem não existir como atributos bem definidos e estruturados. Talvez seja necessário inferi-las a partir de descrições, análises ou especificações do produto.
  • A recuperação semântica pura também nem sempre é suficiente, pois, sem restrições explícitas, uma consulta como "frutas ricas em vitamina C" pode se expandir para suplementos vitamínicos, bebidas com sabor de frutas ou vegetais ricos em vitaminas fora da categoria e faixa de preço pretendidas.

Uma camada de governança determina se uma consulta precisa de recuperação lexical, compreensão semântica, aplicação de restrições ou alguma combinação dessas. Sem essa camada, as equipes de comércio eletrônico podem acabar:

  • Excesso de restrições: usar a recuperação lexical para pedidos semânticos (por exemplo, "presente para o avô").
  • Sub-restrição: utilizar consultas semânticas para consultas principais de alta intenção (por exemplo, "laranjas").

O desafio da governança é construir um sistema que possa tomar a decisão correta para cada classe de consulta.

O que acontece sem governança

O modo de falha mais comum é simples: as equipes pegam a consulta bruta do usuário e a encaminham diretamente para uma única estratégia de recuperação (lexical, semântica ou híbrida), sem uma camada intermediária de governança.

A recuperação lexical falha na resolução pretendida

Quando um usuário pesquisa por “laranjas”, uma estratégia de recuperação lexical pode retornar qualquer resultado que contenha esse token: suco de laranja, geleia de laranja ou refrigerante de laranja. O sistema encontrou o termo corretamente, mas, sem governança, pode não resolver o contexto de compra pretendido (a fruta).

A recuperação semântica se expande além das restrições pretendidas

Quando um usuário busca por "laranjas", um sistema semântico pode recuperar itens conceitualmente relacionados entre conceitos de produtos próximos. O sistema pode entender corretamente o domínio mais amplo (frutas ou produtos), mas, sem uma governança explícita, ele ainda pode se expandir além da restrição pretendida pelo usuário (especificamente laranjas).

A lacuna é a governança

O que é necessário é uma camada de decisão a montante que determine a intenção da consulta e impeça as restrições corretas antes do início da recuperação. Isso resolve questões como:

  • Itens semelhantes ou relacionados aparecendo ao lado do que o usuário realmente queria.
  • Limites de categorias desfocados ("bebidas" versus. "produtos").
  • Incapacidade de implementar aumentos sazonais ou campanhas.
  • Resultados imprevisíveis e inexplicáveis.

Compreensão e roteamento de intenções: o plano de controle necessário

Um sistema de busca governado introduz um plano de controle leve antes da recuperação (antes de executar uma consulta no Elasticsearch). O controle será discutido em detalhes nas partes 3 e 4 desta série de blog; por enquanto, discutiremos apenas o que ele pode fazer, mas não como funciona:

Um plano de controle pode detectar intenção, aplicar políticas de negócio e garantir a estratégia de recuperação apropriada da seguinte forma:

1. Detectar sinais de intenção

  • Essa consulta é provavelmente navegação versus descoberta?
  • É uma consulta conhecida como principal (leite, pão, bananas)?
  • Existe uma interpretação conhecida de produto, marca ou categoria (por exemplo, "laranjas" deve ser interpretado como hortifrúti).
  • A consulta segue um padrão semelhante ao SKU?
  • A consulta se enquadra em uma campanha ativa ou em uma política sazonal (por exemplo, durante o Natal, aumentar os resultados relacionados a peru)?
  • A consulta implica alguma restrição (categoria, atributos, exclusões, preço/tamanho/cor)?

2. Aplicar governança e políticas de negócios

  • Aplique primeiro as restrições determinísticas (categoria/atributo/negação/disponibilidade).
  • Aplique políticas de comercialização ativas (impulsionar/enterrar/fixar/substituir).
  • Resolva conflitos com regras de precedência (por exemplo, substituições de campanhas versus políticas globais).

3. Encaminhar para a estratégia de recuperação apropriada

  • Lexical (rápido, determinístico) para consultas de navegação/de alta intenção.
  • Recuperação semântica para consultas verdadeiras de descoberta.
  • Híbrido onde sinais lexicais e semânticos combinados agregam valor sob restrições explícitas de negócios.

Na prática, a saída do plano de controle não é simplesmente “usar híbrido” ou “usar semântico”. Trata-se de um plano de recuperação de compras controlado: uma interpretação da intenção do comprador, das restrições e políticas que devem ser aplicadas e da estratégia de recuperação que deve ser executada. Alguns exemplos simples tornam isso concreto:

Consulta do clienteInterpretação governadaExemplo de plano de recuperação
"Chocolate sem amendoim"Consulta orientada a produto com uma restrição de exclusão rígidaRecuperação lexical para chocolate com um filtro de exclusão para produtos que contenham amendoim.
"azeite de oliva barato"Consulta de produto/categoria com restrição de preçoRecuperação lexical para azeite de oliva mais um filtro de preço limitado no limite do varejista para barato
"frutas ricas em vitamina C abaixo de $ 4"Consulta de descoberta que exige compreensão semântica mais restrições rígidasRecuperação semântica por intenção nutricional, restrita à categoria de frutas e filtrada para produtos com preço inferior a $ 4

Um plano de controle seleciona a política e a estratégia de recuperação adequadas para cada consulta de forma consistente, previsível e em escala. Isso torna os métodos avançados de recuperação mais previsíveis em produção porque as restrições alinhadas à intenção são aplicadas primeiro e as decisões de roteamento são explícitas, em vez de implícitas.

Como isso se relaciona com outras abordagens

Algumas equipes usam modelos de incorporação aprimorados para capturar melhor a semântica do produto, o que pode melhorar substancialmente a qualidade da recuperação semântica. Outros utilizam abordagens de reclassificação, como o Learning To Rank (LTR), para otimizar a ordenação dos resultados com base em engajamento ou sinais de negócio após a recuperação. Ambos são valiosos e frequentemente complementares. Embeddings melhores melhoram a correspondência de similaridade. A reclassificação melhora a ordem entre os candidatos recuperados.

A governança aborda uma camada diferente do problema: ela se situa antes da recuperação de dados. Ela decide qual estratégia de recuperação usar (por exemplo, lexical, semântica ou híbrida), quais restrições determinísticas são necessárias e quais consultas devem combinar várias políticas de negócios.

O que um plano de controle governado permite

Depois que uma camada de governança é implementada, o modelo operacional muda de forma fundamental. Consultas de busca críticas para a receita se tornam previsíveis. As equipes de negócios podem atualizar o comportamento de busca sem precisar esperar pelos ciclos de release da engenharia. E métodos avançados de recuperação, como a semântica e a híbrida, podem ser adotados de forma incremental, com roteamento e mecanismos de proteção, em vez de uma chave liga/desliga global.

O próximo post desta série explora como esse modelo operacional funciona na prática e por que ele pode ser tão importante quanto a tecnologia de retrieval que está por trás dele.

Se um comerciante precisar abrir um ticket do Jira e esperar por uma implantação para corrigir uma consulta crítica de receita, o gargalo não é o mecanismo; é o modelo operacional. A pesquisa moderna de comércio eletrônico precisa de uma forma de traduzir a intenção comercial em um comportamento de pesquisa controlado e auditável de forma rápida e segura, sem deixar de usar a recuperação avançada, que agrega valor mensurável.

O que vem a seguir nesta série

Os padrões explorados nesta série operam antes da recuperação: traduzindo a intenção comercial na estratégia de consulta correta antes do início da geração da consulta. No próximo post, passamos do problema técnico para o operacional: o que acontece quando equipes de negócios conseguem mudar o comportamento de busca sem uma implantação de engenharia, e por que a governança torna isso seguro.

Coloque em prática o buscar governado de comércio eletrônico

Gargalos de engenharia, lógica frágil da camada de aplicativos e resultados de busca imprevisíveis são problemas que a Elastic Services pode ajudar a resolver em contratos de serviços de comércio eletrônico corporativo. A arquitetura do plano de controle governado descrita nesta série foi construída pela Elastic Services Engineering.

Se sua equipe está gastando ciclos de engenharia traduzindo solicitações de merchandising em alterações de código, ou se o backlog de relevância de buscar nunca parece diminuir, podemos ajudá-lo a avaliar sua arquitetura atual e construir um caminho para uma buscar governada e editável pela área de negócios. Entre em contato com Elastic Services.

Participe da discussão

Tem dúvidas sobre governança de buscar, estratégias de recuperação ou arquitetura de buscar para e-commerce? Participe da conversa mais ampla da comunidade Elastic.

Quão útil foi este conteúdo?

Não útil

Um pouco útil

Muito útil

Conteúdo relacionado

Pronto para criar buscas de última geração?

Uma pesquisa suficientemente avançada não se consegue apenas com o esforço de uma só pessoa. O Elasticsearch é impulsionado por cientistas de dados, especialistas em operações de aprendizado de máquina, engenheiros e muitos outros que são tão apaixonados por buscas quanto você. Vamos nos conectar e trabalhar juntos para construir a experiência de busca mágica que lhe trará os resultados desejados.

Experimente você mesmo(a)