Pour l’e-commerce, il est crucial de pouvoir prendre en charge des types de requêtes variés et de natures diverses au sein d’un seul et même dispositif. Un acheteur cherchant des « oranges » veut le fruit lui-même, pas des articles incluant le terme « orange » (comme du jus ou de la confiture), ni des agrumes sémantiquement liés. Un client cherchant un « cadeau pour un grand-père gourmand » a besoin d’une découverte sémantique, et non d’une simple correspondance littérale par mots-clés.
La recherche lexicale (mise en correspondance de textes), la recherche sémantique (mise en correspondance de concepts) et la recherche hybride (combinaison de signaux lexicaux et sémantiques) ne résolvent pas ces problèmes à elles seules. La recherche lexicale peut renvoyer n’importe quel résultat contenant le mot « oranges », tandis qu’une recherche purement sémantique sur une requête à forte intention comme « oranges » peut s’élargir à des articles connexes, tels que des citrons ou des pamplemousses. La récupération hybride mélange ces signaux lexicaux et sémantiques, mais elle ne permet toujours pas de déterminer si cette requête doit être traitée comme navigationnelle, quelles contraintes doivent être imposées ou quelles politiques commerciales doivent s’appliquer. Le problème n’est pas lié à l’outil de récupération en soi, mais plutôt au manque d’un palier de gouvernance qui identifierait le type de requête et les restrictions à imposer en amont du processus de recherche.
Cet article se penche sur la gouvernance des moteurs de recherche e-commerce, les enjeux qu’elle représente et comment une couche de contrôle assure un « retrieval » fiable et pertinent.
Que signifie la gouvernance dans la recherche sur les sites e-commerce ?
Dans ce contexte, la gouvernance signifie l’introduction d’une couche de décision entre la requête de l’utilisateur et le moteur de recherche. Cette couche remplit les fonctions suivantes :
- Classifie l’intention de la requête : s’agit-il de navigation (« oranges ») ou de découverte (« cadeau pour grand-père ») ?
- Applique des contraintes commerciales : quelles limites de catégorie, règles d'éligibilité, contraintes de disponibilité ou politiques de merchandising s'appliquent ?
- Oriente vers la stratégie appropriée : faut-il utiliser la récupération lexicale, la récupération sémantique ou une approche hybride ?
Une couche de gouvernance détermine l’approche de récupération à utiliser pour chaque requête, les contraintes à respecter et les politiques commerciales à appliquer avant que la recherche ne commence. Il est important de ne pas confondre la gouvernance avec la récupération hybride : la recherche hybride est une stratégie de récupération qui combine des signaux lexicaux et sémantiques, tandis que la gouvernance est la couche de décision en amont qui détermine s’il convient d’utiliser une approche lexicale, sémantique ou hybride.
Le statu quo : l’implémentation « spaghetti » de la couche application
Aujourd’hui, la solution retenue par de nombreux distributeurs consiste à injecter de la logique métier directement au niveau de l’application. Cette approche mène souvent à un code spaghetti : des milliers de lignes mêlant structures conditionnelles rigides, expressions régulières et modèles de recherche alambiqués.

Cette approche peut fournir les résultats de recherche souhaités, comme indiqué ci-dessus, mais elle crée des frictions opérationnelles importantes :
- Contraintes liées à l’ingénierie : sans tickets de développement et sans cycles de déploiement prolongés (souvent de plusieurs semaines), les responsables métier ne disposent d’aucun levier pour faire évoluer le comportement de recherche.
- Fragmentation : la logique de recherche se retrouve éparpillée entre le code applicatif et les modèles de recherche, ce qui la rend difficile à expliquer ou à auditer, et rend toute évolution risquée.
Même lorsque les équipes reconnaissent la nécessité du routage, le débat se concentre souvent sur la mauvaise question : quelle méthode de récupération choisir.
Le faux choix : lexical ou sémantique ou hybride
Les équipes de recherche présentent souvent le défi comme un choix de stratégie de récupération : lexicale/BM25 versus sémantique/vecteurs versus hybride. Cette approche est compréhensible (les méthodes de récupération sont importantes), mais elle passe à côté du mode d'échec le plus courant dans les déploiements réels, à savoir qu'utiliser une seule approche de récupération pour toutes les requêtes donnera des résultats sous-optimaux.
La recherche commerciale est un mélange d'intentions fondamentalement différentes :
- Recherche de navigation déterministe, intention marquée (ex. : « oranges », « lait », « chocolat sans arachides », « huile d’olive à petit prix »).
- Découverte exploratoire (« blouson pour la randonnée en montagne », « cadeau pour un enfant de 12 ans qui aime la robotique »).
- Contraintes opérationnelles (disponibilité, taille, prix, couleur).
- Merchandising et campagnes (Boost, Bury, campagnes saisonnières).
Lorsque le système achemine tout cela via la même stratégie de récupération, les résultats sont souvent systématiquement erronés de manière prévisible, car le modèle opérationnel manque de gouvernance. Lorsque les équipes ne reconnaissent pas cela comme une lacune de gouvernance, elles réagissent avec le seul levier dont elles disposent : davantage de réglages.
Pourquoi le réglage de la pertinence peut devenir cyclique
Sans couche de routage, la « pertinence » se transforme souvent en un carnet de commandes interminable :
- Pourquoi cette requête affiche-t-elle les accessoires au-dessus du produit principal ?
- Pourquoi cette requête phare affiche-t-elle tout à coup des produits apparentés plutôt que des correspondances exactes ?
- Pourquoi les résultats ont-ils changé après l’ajout de synonymes, l’ajustement des analyseurs ou l’activation du mode hybride ?
- Pourquoi l'équipe métier a-t-elle besoin d'une version d'ingénierie pour corriger une seule requête ?
En réponse, les équipes intensifient les ajustements : ajout de synonymes, hausse des pondérations, nouveaux essais de réordonnancement et prolifération de cas particuliers dans le code de l’application. Cela peut donner des résultats temporaires, toutefois la solution reste instable : sans un étage décisionnel clair pour identifier la nature de la requête et appliquer les restrictions nécessaires en amont, le système demeure imprévisible.
Structure des intentions e-commerce : entre requêtes fréquentes et requêtes spécifiques de la longue traîne
Nous employons ici les appellations « head » et « tail » pour illustrer de manière concrète les types de requêtes de navigation et de découverte les plus fréquents sur les sites de vente en ligne. Dans le monde réel, de nombreuses requêtes présentent des caractéristiques propres à ces deux catégories :
Requêtes principales (intention déterministe)
Ce sont des requêtes de navigation ciblées pour lesquelles l’utilisateur a une idée précise de son besoin :
- Intention à un seul élément (« oranges », « lait », « pain »).
- Des marques exactes ou des familles de produits (« iPhone 15 Pro », « Diet Coke »).
- Des références (SKU), des numéros de modèles ou des tailles (« ABC123 », « Air Max 270 »).
Pour ces requêtes, la récupération lexicale peut gérer la correspondance des jetons (faire correspondre les mots), mais l’entreprise s’attend également à ce que les contraintes soient respectées, que les classements soient prévisibles et que les résultats soient contrôlables. Un gestionnaire de catalogue doit garantir que les résultats d’une requête respectent le cloisonnement des catégories, les règles de disponibilité et les priorités stratégiques de l’entreprise.
Une gouvernance est nécessaire pour mettre en œuvre la résolution envisagée. Par exemple, « oranges » doit correspondre à la catégorie des produits agricoles, et non au jus d'orange, à la marmelade d'orange ou au soda à l'orange.
Requêtes extrêmes (découverte exploratoire)
Il s’agit de requêtes descriptives, riches en intentions, dans lesquelles les clients explorent :
- « Cadeau pour un grand-père gourmand »
- « Blouson pour la randonnée en montagne »
- « Chaussures pour rester debout toute la journée »
La récupération lexicale est souvent difficile à mettre en œuvre. La récupération sémantique excelle car elle peut l’intention de la requête au produit, même lorsque les termes ne correspondent pas littéralement. Mais la récupération sémantique seule est rarement suffisante non plus. Les requêtes réelles nécessitent souvent l'application de contraintes, quelle que soit la méthode de recherche utilisée.
Le respect des contraintes est indépendant de la méthode de recherche utilisée
L'application de contraintes à la récupération sémantique ne signifie pas recherche hybride. Ces notions sont orthogonales. Les contraintes (filtres, boosts) au sein d’Elasticsearch sont applicables à n’importe quel mode de récupération : lexical, sémantique ou hybride. Toute la difficulté réside dans le choix de l’interprétation de la requête, des contraintes à respecter et de la méthode de récupération des données la plus appropriée.
Voici quelques exemples de requêtes combinant la récupération avec des contraintes strictes :
- Oranges : recherche lexicale sur le terme « oranges » associée à un filtre de catégorie (ex. : « Fruits »), excluant ainsi la confiture d’orange, le jus d’orange ou les boissons gazeuses à l’orange.
- Fruits riches en vitamine C à moins de 4 $ : recherche sémantique pour cibler l’aspect nutritionnel, complétée par des restrictions pour ne conserver que la catégorie des fruits et les articles dont le prix ne dépasse pas 4 $.
- Chaussures confortables pour le travail : recherche sémantique pour l'intention contextuelle plus une contrainte de catégorie limitant les résultats aux chaussures.
Ces requêtes ne peuvent pas être traitées par une seule approche :
- La récupération lexicale pure s’avère ici limitée, car des locutions comme « riche en vitamine C » ou « confortable » ne correspondent pas toujours à des attributs propres et structurés. Il peut être nécessaire de les inférer en analysant les descriptions, les évaluations d’utilisateurs ou les caractéristiques des articles.
- Une recherche sémantique pure peut également montrer ses limites ; sans l’application de contraintes, une requête du type « fruits riches en vitamine C » risque de proposer des compléments alimentaires, des boissons fruitées ou des légumes, dépassant alors le cadre de la catégorie et des prix initialement prévus.
Une couche de gouvernance détermine si une requête nécessite une récupération lexicale, une compréhension sémantique, l’application de contraintes, ou une combinaison de ces éléments. Faute d’une telle structure, les équipes e-commerce pourraient être confrontées aux situations suivantes :
- Sur-filtrage : appliquer une recherche lexicale à des requêtes sémantiques (comme « cadeau pour grand-père »), ce qui limite indûment les résultats.
- Sous-contrainte : utiliser des requêtes sémantiques pour des requêtes de tête à forte intention (par exemple, « oranges »).
En matière de gouvernance, la difficulté réside dans la création d’un système pouvant appliquer le traitement le plus approprié selon la classe de requête rencontrée.
Ce qui se passe en l’absence de gouvernance
Le mode de défaillance le plus courant est simple : les équipes prennent la requête brute de l’utilisateur et la transmettent directement à une stratégie de récupération unique (lexicale, sémantique ou hybride), sans couche de gouvernance intermédiaire.
La récupération lexicale ne parvient pas à la résolution prévue
Lorsqu'un utilisateur recherche « oranges », une stratégie de recherche lexicale peut renvoyer tout élément contenant ce jeton : jus d'orange, marmelade d'orange ou soda à l'orange. Le système a correctement associé le terme, mais sans gouvernance, il peut ne pas résoudre le contexte d'achat prévu (le fruit).

La récupération sémantique va au-delà des contraintes prévues
Lorsqu’un utilisateur recherche des « oranges », un système sémantique peut récupérer des articles conceptuellement liés à travers des concepts de produits proches. Le système peut comprendre correctement le domaine plus large (fruits ou produits), mais sans une gouvernance explicite, il peut encore s'élargir au-delà de la contrainte voulue par l'utilisateur (notamment les oranges).

L'écart, c'est la gouvernance
Ce qu’il faut, c’est une couche de décision en amont qui détermine l’intention de la requête et impose les bonnes contraintes avant même que la récupération ne commence. Cette approche corrige les types d’erreurs suivants :
- Éléments similaires ou connexes apparaissant aux côtés de ce que l'utilisateur voulait réellement.
- Des frontières de catégories floues (« boissons » par rapport à « produits frais »).
- Incapacité à mettre en œuvre des augmentations saisonnières ou des campagnes.
- Des résultats imprévisibles et inexplicables.
Compréhension de l'intention et routage : le plan de contrôle nécessaire
Un système de recherche gouverné introduit un plan de contrôle léger devant la recherche (avant d’exécuter une requête dans Elasticsearch). Ce mécanisme de contrôle sera examiné plus en profondeur dans les troisième et quatrième volets de cette série ; ici, nous nous concentrons sur ses capacités plutôt que sur ses modalités techniques :

Un plan de contrôle peut détecter l'intention, appliquer des politiques commerciales et assurer la stratégie de récupération appropriée comme suit :
1. Détectez les signaux d'intention
- Cette requête relève-t-elle de la navigation ou de la découverte ?
- La requête correspond-elle à un produit phare identifié (lait, pain, bananes) ?
- Y a-t-il une correspondance identifiée avec un produit, une marque ou une catégorie spécifique (par exemple, « oranges » devrait être redirigé vers les produits frais) ?
- La requête est-elle un modèle de type SKU ?
- Cette recherche correspond-elle à une campagne en cours ou à une règle saisonnière (par exemple, mettre en avant les produits liés à la dinde lors des fêtes de fin d’année) ?
- Cette recherche contient-elle des restrictions implicites (catégorie, caractéristiques, éléments à exclure, prix/format/coloris) ?
2. Appliquer les politiques de gouvernance et commerciales
- Appliquez d'abord les contraintes déterministes (catégorie/attribut/négation/disponibilité).
- Appliquer les politiques de merchandising actives (promotion/enterrement/épinglage/remplacement).
- Résoudre les conflits à l’aide de règles de priorité (par exemple, les dérogations liées aux campagnes par rapport aux politiques globales).
3. Orientation vers la stratégie de récupération appropriée
- Lexicale (rapide, déterministe) pour les requêtes principales de navigation/à forte intention.
- Extraction sémantique pour les requêtes True Discovery.
- Une approche hybride où le cumul des signaux lexicaux et sémantiques crée de la valeur, tout en respectant des règles métier explicites.
Dans les faits, la sortie du plan de contrôle n’est pas une simple commande du type « utiliser la recherche hybride » ou « utiliser la recherche sémantique ». Il s’agit d’un plan de recherche régulé, incluant une analyse de l’intention de l’utilisateur, les politiques et contraintes applicables, ainsi que la stratégie d’extraction à lancer. Pour illustrer ce propos, prenons quelques exemples simples :
| Requête d'acheteur | Interprétation dirigée | Exemple de plan de récupération |
|---|---|---|
| « chocolat sans arachides » | Requête orientée produit avec une contrainte d’exclusion stricte | Recherche lexicale sur le chocolat, avec un filtre d’exclusion pour les produits contenant des arachides |
| « huile d’olive bon marché » | Requête produit/catégorie avec contrainte de prix | Récupération lexicale pour l'huile d'olive avec un filtre de prix plafonné au seuil du détaillant pour les produits bon marché |
| « fruit riche en vitamine C en moins de 4 $ » | Requête de découverte nécessitant une compréhension sémantique et des contraintes strictes | Recherche sémantique pour l'intention nutritionnelle, limitée à la catégorie des fruits et filtrée aux produits d'un prix inférieur à 4 $ |
Un plan de contrôle sélectionne la politique et la stratégie de récupération appropriées pour chaque requête de manière cohérente, prévisible et à grande échelle. Cette approche fiabilise les méthodes de recherche complexes en environnement de production, dans la mesure où les restrictions liées à l’intention priment et où les choix de routage sont clairement définis plutôt que suggérés.
Comment cela se rapporte à d'autres approches
Certaines équipes s’appuient sur des modèles de plongements sémantiques plus performants pour affiner la compréhension des produits, ce qui permet d’accroître sensiblement la pertinence de la recherche sémantique. Certaines équipes privilégient des méthodes de reclassement comme le Learning To Rank (LTR), qui permettent d’ajuster l’ordre des résultats selon l’interaction des utilisateurs ou des indicateurs métier une fois le « retrieval » effectué. Les deux sont précieux et souvent complémentaires. De meilleurs plongements améliorent la correspondance de similarité. Le reclassement améliore l'ordre parmi les candidats récupérés.
La gouvernance traite un aspect différent de la problématique : elle intervient en amont du processus de récupération des données. Ce plan définit la stratégie de recherche (lexicale, sémantique ou hybride), impose les contraintes déterministes adéquates et identifie les requêtes nécessitant l’application conjointe de plusieurs politiques d’entreprise.
Ce que permet un plan de contrôle gouverné
Une fois qu'une couche de gouvernance est mise en place, le modèle opérationnel change fondamentalement. Les requêtes critiques pour les revenus deviennent prévisibles. Les équipes métier peuvent mettre à jour les comportements de recherche sans attendre les cycles de publication de l'ingénierie. Les techniques de récupération de données sophistiquées, comme les modèles sémantiques ou hybrides, peuvent être déployées de manière incrémentale, sécurisées par un aiguillage et des barrières de sécurité, au lieu d’être activées de façon binaire à l’échelle du système.
La suite de cette série examine l’application réelle de ce modèle opérationnel et les raisons pour lesquelles il compte tout autant que les outils techniques de récupération de données utilisés.
Si la correction d’une requête à fort impact financier nécessite l’ouverture d’un ticket Jira et un déploiement technique, le blocage ne se situe pas au niveau du moteur de recherche, mais bien au niveau du modèle d’exploitation. Le commerce en ligne actuel doit pouvoir transformer une intention métier en un comportement de recherche encadré et vérifiable, avec rapidité et sécurité, tout en tirant parti des méthodes de récupération de données sophistiquées quand elles génèrent une valeur ajoutée concrète.
À suivre dans cette série
Les approches présentées dans cette série se situent en amont du processus de recherche : elles transforment l’intention commerciale en une stratégie de requête optimale avant que la génération de la requête proprement dite ne commence. Dans la suite de cette série, nous déplaçons le curseur du technique vers l’opérationnel : nous verrons comment l’autonomie des équipes métier sur le comportement de recherche, sans mise en production, est rendue possible et sûre grâce à la gouvernance.
Mettre en pratique la recherche e-commerce réglementée
Les freins techniques, la fragilité de la couche logique applicative et l’instabilité des résultats de recherche sont autant de défis que les services Elastic vous aident à relever dans le cadre de prestations pour le commerce en ligne de grande envergure. L’architecture de plan de contrôle gouverné décrite dans cette série a été conçue par l’ingénierie des services Elastic.
Que vous perdiez un temps précieux en développement pour ajuster vos stratégies de mise en avant ou que l’optimisation de votre moteur de recherche stagne, nous sommes là pour analyser votre infrastructure et mettre en place une solution de recherche structurée, directement éditable par vos experts métier. Contactez Elastic Services.
Rejoignez la discussion
Avez-vous des questions sur la gouvernance de la recherche, les stratégies de récupération ou l'architecture de recherche e-commerce ? Participez à la discussion élargie de la communauté Elastic.




