Usando a API de Inferência Elasticsearch junto com modelos de Hugging Face

Em atualizações recentes, o Elasticsearch introduziu uma integração nativa para conectar a modelos hospedados no Hugging Face Inference Service. Neste post, vamos explorar como configurar essa integração e realizar inferência por meio de chamadas simples de API usando um grande modelo de linguagem (LLM). Vamos usar SmolLM3-3B, um modelo leve de uso geral com bom equilíbrio entre uso de recursos e qualidade da resposta.

Gráfico de dispersão mostrando vários modelos de linguagem pequenos plotados pelo tamanho do modelo (em bilhões de parâmetros) no eixo x e a taxa de vitória (em porcentagem) no eixo y. O SmolLM3‑3B aparece no topo da tendência de eficiência, com uma taxa de vitória maior do que outros modelos de tamanho semelhante.

Pré-requisitos

Elasticsearch 9.3 ou Elastic Cloud Serverless: você pode criar uma implantação na nuvem seguindo essas instruções, ou você pode usar o start-local quickstart.
Python 3.12: baixe o Python aqui.
Hugging Face Token de acesso.

Chat completions usando um endpoint de inferência do Hugging Face

Primeiro, vamos construir um exemplo prático que conecta o Elasticsearch a um endpoint de inferência Hugging Face para gerar recomendações baseadas em IA a partir de uma coleção de artigos de blog. Para a base de conhecimento do app, usaremos um conjunto de dados de artigos de blog da empresa, que contém informações valiosas, mas frequentemente difíceis de navegar.

Com este endpoint, a busca semântica recupera os artigos mais relevantes para uma consulta específica, e um Hugging Face LLM gera recomendações curtas e contextuais com base nesses resultados.

Vamos dar uma olhada em uma visão geral do fluxo de informações que vamos criar:

Diagrama de fluxo mostrando um índice Elasticsearch que fornece resultados de busca semântica para um endpoint de inferência, que retorna recomendações de artigos.

Neste artigo, testaremos a capacidade do SmolLM3-3B de combinar seu tamanho compacto com fortes capacidades de raciocínio multíngue e chamada de ferramentas. Com base em uma consulta de busca, enviaremos todo o conteúdo correspondente (em inglês e espanhol) para o LLM para gerar uma lista de artigos recomendados com uma descrição personalizada com base na consulta de busca e nos resultados.

Veja como poderia ser a UI de um site de artigos com um sistema de geração de recomendações por IA.

UI de um site de artigos com um sistema de geração de recomendações por IA, listando três exemplos, com texto em inglês e títulos em inglês ou espanhol.

Você pode encontrar a implementação completa desta aplicação no notebook vinculado.

Configuração de endpoints de inferência do Elasticsearch

Para usar o endpoint de inferência do Hugging Face no Elasticsearch, precisamos de dois elementos importantes: uma chave de API do Hugging Face e uma URL de endpoint do Hugging Face em execução. Ela deverá ficar assim:

O endpoint de inferência Hugging Face no Elasticsearch permite diferentes tipos de tarefas: text_embedding, completion, chat_completion, e rerank. Neste post do blog, usamos chat_completion porque precisamos que o modelo gere recomendações conversacionais baseadas nos resultados de busca e em um prompt do sistema. Esse endpoint nos permite realizar preenchimentos de chat diretamente do Elasticsearch de forma simples usando a API do Elasticsearch:

Isso servirá como o núcleo da aplicação, recebendo o prompt e os resultados de busca que passarão pelo modelo. Com a teoria explicada, vamos começar a implementar a aplicação.

Configurando o endpoint de inferência no Hugging Face

Para implantar o modelo Hugging Face, vamos usar implantações Hugging Face One-Click, um serviço fácil e rápido para implantar endpoints de modelos. Lembre-se de que este é um serviço pago, e seu uso pode incorrer em custos adicionais. Esta etapa criará a instância do modelo que será usada para gerar as recomendações dos artigos.

Você pode escolher um modelo do catálogo de um clique.

Exibição da interface de um catálogo de modelos filtrado para "smoll3", mostrando um modelo chamado "smollm3‑3b" com geração de texto, vLLM, GPU 1× Nvidia L4 e um preço listado de US$ 0,80, além de uma nota sugerindo que você amplie a busca para todos os modelos de Hugging Face.

Vamos escolher o modelo SmolLM3-3B :

Interface para criar um endpoint para o modelo SmolLM3‑3B, mostrando o nome do modelo, uma nota "verified by Hugging Face", um campo de nome de endpoint, um custo de US$ 0,80 por hora por réplica em execução, uma opção cURL e um botão "Create Endpoint".

A partir daqui, pegue o URL do endpoint do Hugging Face:

Visualização do **dashboard** de um endpoint de inferência Hugging Face chamado "smollm3‑3b‑pnz", mostrando um status verde de execução, uma réplica ativa, zero solicitações na última hora, guias de navegação e o URL do endpoint exibido.

Como mencionado na documentação de endpoints de inferência Hugging Face do Elasticsearch, a geração de texto requer um modelo compatível com a API OpenAI. Por esse motivo, precisamos anexar o subcaminho /v1/chat/completions à URL do endpoint Hugging Face. O resultado final ficará assim:

Com isso pronto, podemos começar a programar em um notebook Python.

Gerando a Chave API do Hugging Face

Crie uma conta Hugging Face e obtenha um token de API seguindo estas instruções. Você pode escolher entre três tipos de token: detalhado (recomendado para produção, pois fornece acesso apenas a recursos específicos); de leitura (para acesso somente leitura); ou de gravação (para acesso de leitura e gravação). Para este tutorial, um token de leitura é suficiente, já que só precisamos chamar o endpoint de inferência. Guarde esta chave para o próximo passo.

Configurando o endpoint de inferência do Elasticsearch

Primeiro, vamos declarar um cliente Elasticsearch Python:

Em seguida, vamos criar um endpoint de inferência no Elasticsearch que use o modelo Hugging Face. Esse endpoint nos permitirá gerar respostas com base nos posts do blog e no prompt passado para o modelo.

Conjunto de dados

O conjunto de dados contém os posts do blog que serão consultados, representando um conjunto de conteúdo multilíngue usado em todo o fluxo de trabalho:

Mapeamento do Elasticsearch

Com o conjunto de dados definido, precisamos criar um esquema de dados que se ajuste adequadamente à estrutura do post do blog. Os seguintes mapeamentos de índice serão usados para armazenar os dados no Elasticsearch:

Aqui, podemos ver com mais clareza como os dados são estruturados. Usaremos busca semântica para recuperar resultados baseados em linguagem natural, junto com a propriedade copy_to para copiar o conteúdo do campo para o campo semantic_text. Além disso, o campo title contém dois subcampos: o subcampo original armazena o título em inglês ou espanhol, dependendo do idioma original do artigo; e o subcampo translated_title está presente apenas para artigos em espanhol e contém a tradução para o inglês do título original.

Ingestão de dados

O seguinte trecho de código ingere o conjunto de dados de postagens do blog no Elasticsearch usando a bulk API:

Agora que os artigos já estão no Elasticsearch, precisamos criar uma função capaz de buscar no campo semantic_text:

Precisamos também de uma função que chame o endpoint de inferência. Neste caso, chamaremos o endpoint usando chat_completion tipo de tarefa para obter respostas de streaming:

Agora podemos escrever uma função que chama a função de busca semântica, junto com o endpoint de inferência chat_completions e o endpoint de recomendações, para gerar os dados que serão alocados nos cartões:

Finalmente, precisamos extrair as informações e formatá-las para serem impressas:

Vamos testar isso fazendo uma pergunta sobre as postagens do blog de segurança:

Aqui podemos ver os cartões no console gerados pelo fluxo de trabalho:

Seção intitulada "Artigos Recomendados" apresenta cinco resumos de artigos em caixa, incluindo tópicos sobre vulnerabilidade no sistema de autenticação, riscos de migração, desempenho da REST API v2 e melhorias na autenticação, mudanças no sistema de notificações e um guia completo para a nova API.

Você pode ver os resultados completos, incluindo todos os acertos e a resposta do LLM, neste arquivo.

Estamos pedindo artigos relacionados a: "Segurança e vulnerabilidades." Esta pergunta é usada como consulta de busca nos documentos armazenados no Elasticsearch. Os resultados recuperados são então passados para o modelo, que gera recomendações com base em seu conteúdo. Como podemos ver, o modelo fez um ótimo trabalho criando textos curtos envolventes que podem motivar o leitor a clicar.

Conclusão

Este exemplo mostra como Elasticsearch e Hugging Face podem ser combinados para criar um sistema centralizado rápido e eficiente para aplicações de IA. Essa abordagem reduz o esforço manual e oferece flexibilidade, graças ao extenso catálogo de modelos da Hugging Face. O uso do SmolLM3-3B, em particular, demonstra como modelos compactos e multilíngues ainda podem fornecer raciocínio significativo e geração de conteúdo quando combinados com busca semântica. Juntas, essas ferramentas oferecem uma base escalável e eficaz para construir análises inteligentes de conteúdo e aplicações multilíngues.

Quão útil foi este conteúdo?

Não útil

Um pouco útil

Muito útil

Reportar um problema

Conteúdo relacionado

Impulsionando o Elasticsearch: adicionando suporte nativo à API do Prometheus

Integrações

11 de maio de 2026

Impulsionando o Elasticsearch: adicionando suporte nativo à API do Prometheus

Consulte o Elasticsearch diretamente de clientes compatíveis com Prometheus via endpoints nativos de PromQL, descoberta e metadados. Envie dados para o Elasticsearch com Prometheus Remote Write.

Por: Felix Barnsteiner

Como criar aplicações de IA agentiva com Mastra e Elasticsearch

IA Agêntica

8 de abril de 2026

Como criar aplicações de IA agentiva com Mastra e Elasticsearch

Aprenda como construir aplicações de IA agentiva usando Mastra e Elasticsearch com um exemplo prático.

Por: Enrico Zimuel

A ferramenta shell não é uma solução milagrosa para engenharia de contexto

IA Agêntica

25 de março de 2026

A ferramenta shell não é uma solução milagrosa para engenharia de contexto

Saiba quais ferramentas de recuperação de contexto existem para a engenharia de contexto, como elas funcionam e as vantagens e desvantagens.

Por: Leonie Monigatti

Criando um servidor MCP do Elasticsearch com TypeScript

IA Agêntica Integrações

27 de março de 2026

Criando um servidor MCP do Elasticsearch com TypeScript

Saiba como criar servidor MCP do Elasticsearch com TypeScript e Claude Desktop.

Por: Jeffrey Rengifo

A extensão Gemini CLI para Elasticsearch com ferramentas e recursos

Integrações IA Agêntica

17 de março de 2026

A extensão Gemini CLI para Elasticsearch com ferramentas e recursos

Apresentamos a extensão da Elastic para a CLI Gemini do Google, que permite buscar, extrair e analisar dados do Elasticsearch em fluxos de trabalho de desenvolvedores e agentes.

WR EZ

Por: Walter Rafelsberger e Enrico Zimuel