Guias
Base de Conhecimento
Integração da Base de Conhecimento em uma Aplicação
8min
criando uma aplicação integrada com a base de conhecimento uma "base de conhecimento" pode ser usada como uma fonte de informações externa para fornecer respostas precisas às perguntas dos usuários via llm você pode associar uma base de conhecimento existente a qualquer tipo de aplicação no paragraph tomando como exemplo um assistente de chat, o processo é o seguinte vá para conhecimento criar conhecimento carregar arquivo vá para estúdio criar aplicação selecionar chatbot insira o contexto, clique em adicionar e selecione uma das bases de conhecimento criadas em configurações de contexto configuração de recuperação, configure a recuperação habilite citação e atribuição em adicionar funcionalidades em depurar e pré visualizar, insira perguntas de usuários relacionadas à base de conhecimento para depuração após a depuração, clique no botão publicar para criar uma aplicação de ia baseada em sua própria base de conhecimento! conectando o conhecimento e configurando o modo de recuperação em aplicações que utilizam várias bases de conhecimento, é essencial configurar o modo de recuperação para aumentar a precisão do conteúdo recuperado para configurar o modo de recuperação para as bases de conhecimento, navegue para contexto configurações de recuperação configuração de reclassificação recuperação n para 1 (legado) o método de recuperação n para 1 opera através de function call/react, onde cada base de conhecimento vinculada serve como uma ferramenta funcional o llm seleciona autonomamente a base de conhecimento mais relevante que se alinha à pergunta do usuário para a busca, com base na similaridade semântica entre a pergunta do usuário e a descrição da base de conhecimento o diagrama a seguir ilustra esse princípio por exemplo, na aplicação a, se houver três bases de conhecimento associadas, k1, k2 e k3, quando um usuário enviar uma pergunta, o llm irá avaliar as descrições dessas bases de conhecimento, identificar a melhor correspondência e utilizar esse conteúdo para a busca embora esse método não exija a configuração de um modelo de reclassificação, ele identifica apenas uma base de conhecimento a eficácia dessa estratégia de recuperação depende da interpretação do llm sobre a descrição da base de conhecimento isso pode levar a julgamentos subótimos durante o processo de recuperação, potencialmente resultando em respostas incompletas ou imprecisas, o que afeta a qualidade dos resultados das consultas a partir de setembro, essa abordagem será automaticamente alterada para o modo de recuperação multipath, portanto, recomenda se mudar com antecedência no modo n para 1, a eficácia da recuperação é influenciada por três fatores principais capacidade do modelo de inferência do sistema alguns modelos podem seguir de forma inconsistente as instruções de function call/react clareza da descrição da base de conhecimento uma descrição clara afeta significativamente o raciocínio do llm sobre a pergunta do usuário e as bases de conhecimento relevantes número de bases de conhecimento um número excessivo de bases de conhecimento pode prejudicar a precisão do raciocínio do llm e exceder o limite da janela de contexto do modelo de inferência estratégias para melhorar a eficácia da recuperação no modo n para 1 opte por um modelo de inferência do sistema mais eficaz limite o número de bases de conhecimento associadas forneça descrições claras para cada base de conhecimento ao carregar um arquivo de conteúdo para uma base de conhecimento, o modelo de inferência do sistema gerará automaticamente uma descrição resumida para obter os melhores resultados de recuperação nesse modo, revise o resumo gerado pelo sistema em “base de conhecimento > configurações > descrição da base de conhecimento” para garantir que ele resuma de forma eficaz o conteúdo da base de conhecimento recuperação multipath (recomendada) no modo de recuperação multipath, o recuperador escaneia todas as bases de conhecimento vinculadas à aplicação em busca de conteúdo de texto relevante para a pergunta do usuário os resultados são então consolidados abaixo está o diagrama de fluxo técnico para o modo de recuperação multipath esse método consulta simultaneamente todas as bases de conhecimento conectadas no "contexto", buscando segmentos de texto relevantes em várias bases de conhecimento, coletando todo o conteúdo que se alinha à pergunta do usuário e, por fim, aplicando a estratégia de reclassificação para identificar o conteúdo mais apropriado para responder ao usuário essa abordagem de recuperação oferece resultados mais abrangentes e precisos ao utilizar várias bases de conhecimento simultaneamente por exemplo, na aplicação a, com três bases de conhecimento k1, k2 e k3 quando um usuário envia uma pergunta, múltiplas partes de conteúdo relevantes serão recuperadas e combinadas dessas bases de conhecimento para garantir que o conteúdo mais pertinente seja identificado, a estratégia de reclassificação é empregada para encontrar o conteúdo que melhor se relaciona com a pergunta do usuário, aumentando a precisão e confiabilidade dos resultados em cenários práticos de perguntas e respostas, as fontes de conteúdo e os métodos de recuperação para cada base de conhecimento podem variar para gerenciar o conteúdo misto retornado da recuperação, a estratégia de reclassificação atua como um mecanismo de ordenação refinado ela garante que o conteúdo candidato se alinhe bem à pergunta do usuário, otimizando a classificação dos resultados em várias bases de conhecimento para identificar o conteúdo mais adequado, melhorando assim a qualidade das respostas e a experiência geral do usuário considerando os custos associados ao uso da reclassificação e as necessidades do negócio, o modo de recuperação multipath oferece duas configurações de reclassificação pontuação ponderada essa configuração usa mecanismos de pontuação interna e não requer um modelo de reclassificação externo, evitando custos de processamento adicionais você pode selecionar a estratégia de correspondência de conteúdo mais adequada ajustando os deslizadores de proporção de peso para semântica ou palavras chave valor semântico de 1 esse modo ativa apenas a recuperação semântica ao utilizar o modelo de embedding, a profundidade de busca pode ser aumentada mesmo que as palavras exatas da consulta não apareçam na base de conhecimento, pois calcula distâncias de vetores para retornar o conteúdo relevante além disso, ao lidar com conteúdo multilíngue, a recuperação semântica pode capturar significados em diferentes idiomas, resultando em resultados de busca mais precisos em várias línguas valor de palavra chave de 1 esse modo ativa apenas a recuperação por palavra chave ele corresponde o texto de entrada do usuário ao texto completo da base de conhecimento, sendo ideal para cenários onde o usuário conhece a informação ou terminologia exata esse método é eficiente em termos de recursos, tornando o adequado para a recuperação rápida de informações em grandes repositórios de documentos pesos personalizados para palavras chave e semântica além de habilitar apenas os modos de recuperação semântica ou por palavra chave, oferecemos uma pontuação ponderada personalizada e flexível você pode determinar a melhor proporção de pesos para o seu cenário de negócios ajustando continuamente os pesos de ambos modelo de reclassificação o modelo de reclassificação é um sistema de pontuação externo que calcula a relevância entre a pergunta do usuário e cada documento candidato fornecido, melhorando os resultados da classificação semântica e retornando uma lista de documentos classificados por relevância de alto para baixo embora esse método incorra em alguns custos adicionais, ele é mais eficaz ao lidar com conteúdo complexo da base de conhecimento, como conteúdo que combina consultas semânticas e correspondência por palavra chave, ou casos envolvendo conteúdo multilíngue atualmente, o paragraph suporta vários modelos de reclassificação para usar modelos de reclassificação externos, você precisará fornecer uma chave de api insira a chave de api para o modelo de reclassificação (como cohere, jina, etc ) na página "provedor de modelos" parâmetros ajustáveis topk este parâmetro filtra os segmentos de texto mais semelhantes à pergunta do usuário o sistema ajusta dinamicamente o número de segmentos com base no tamanho da janela de contexto do modelo selecionado um valor mais alto resulta em mais segmentos de texto sendo recuperados limite de pontuação este parâmetro estabelece o limite de similaridade para filtrar segmentos de texto apenas aqueles segmentos com uma pontuação de similaridade de recuperação vetorial que exceder o limite estabelecido serão recuperados um valor de limite mais alto resulta em menos textos sendo recuperados, mas os textos recuperados provavelmente serão mais relevantes ajuste este parâmetro com base nas suas necessidades específicas de precisão versus recuperação o modo de multi recuperação pode alcançar resultados de recuperação de maior qualidade ao recuperar de várias bases de conhecimento; portanto, é recomendado definir o modo de recuperação como multi recuperação perguntas frequentes como devo escolher as configurações de reclassificação no modo de multi recuperação? se os usuários souberem a informação ou terminologia exata, e a recuperação por palavra chave puder fornecer resultados correspondentes com precisão, defina a palavra chave como 1 na "pontuação ponderada" se o vocabulário exato não aparecer na base de conhecimento, ou se houver consultas em diferentes idiomas, é recomendado definir a semântica como 1 na "pontuação ponderada" se o pessoal de negócios estiver familiarizado com os cenários reais de questionamento dos usuários e desejar ajustar ativamente a proporção de semântica ou palavras chave, é recomendado ajustar a proporção na "pontuação ponderada" por conta própria se o conteúdo na base de conhecimento for complexo e não puder ser correspondido por condições simples, como semântica ou palavras chave, mas exigir respostas precisas, e se você estiver disposto a incorrer em custos adicionais, é recomendado usar o modelo de reclassificação para a recuperação de conteúdo o que devo fazer se encontrar problemas para localizar a "pontuação ponderada" ou a necessidade de configurar um modelo de reclassificação? aqui está como o método de recuperação da base de conhecimento afeta a recuperação multipath o que devo fazer se não conseguir ajustar a "pontuação ponderada" ao referenciar várias bases de conhecimento e uma mensagem de erro aparecer? esse problema ocorre porque os modelos de embedding usados nas diferentes bases de conhecimento referenciadas são inconsistentes, gerando essa notificação para evitar conflitos no conteúdo de recuperação é recomendável configurar e habilitar o modelo de reclassificação no "provedor de modelos" ou unificar as configurações de recuperação das bases de conhecimento por que não consigo encontrar a opção "pontuação ponderada" no modo de multi recuperação, e vejo apenas o modelo de reclassificação? verifique se a sua base de conhecimento está usando o modo de índice "econômico" se for o caso, altere para o modo de índice "alta qualidade"