Guias
Base de Conhecimento
Criar Base de Conhecimento e Carregar Documentos
13min
criando uma base de conhecimento clique em conhecimento na barra de navegação principal do paragraph nesta página, você pode ver suas bases de conhecimento existentes clique em criar conhecimento para entrar no assistente de configuração se você já tiver preparado os arquivos, pode começar carregando os; se ainda não tiver preparado documentos, pode primeiro criar uma base de conhecimento vazia se você optar por usar uma fonte de dados externa ao criar uma base de conhecimento, o tipo de base de conhecimento não poderá ser alterado isso é para evitar dificuldades na gestão da base de conhecimento causadas por ter múltiplas fontes de dados em uma única base se precisar usar várias fontes de dados, é recomendado criar várias bases de conhecimento carregando documentos passos para carregar documentos na base de conhecimento selecione o documento que deseja carregar de seus arquivos locais; segmente e limpe o documento e pré visualize o efeito; escolha e configure o modo de indexação e as configurações de recuperação; aguarde até que os fragmentos sejam incorporados; carregamento concluído, agora você pode usá lo em suas aplicações 🎉 limitações para carregamento de documentos o limite de tamanho de upload para um único documento é de 15mb; o número máximo de arquivos para upload em lote é 20; diferentes planos de assinatura da versão saas limitam o número de uploads em lote, total de uploads de documentos e armazenamento de vetores segmentação e limpeza segmentação modelos de linguagem têm uma janela de contexto limitada, geralmente exigindo que o texto inteiro seja segmentado e, em seguida, recuperando os segmentos mais relevantes para a pergunta do usuário, conhecido como o modo de recuperação topk além disso, tamanhos apropriados de segmentos ajudam a corresponder ao conteúdo mais relevante e reduzir o ruído de informação ao fazer a correspondência semântica entre as perguntas dos usuários e os segmentos de texto limpeza para garantir a qualidade da recuperação de texto, geralmente é necessário limpar os dados antes de passá los para o modelo por exemplo, caracteres indesejados ou linhas em branco podem afetar a qualidade da resposta o paragraph oferece vários métodos de limpeza para ajudar a limpar a saída antes de enviá la para as aplicações subsequentes a segmentação e a limpeza suportam duas estratégias de configuração modo automático (a ser descontinuado) modo personalizado no modo personalizado, os usuários podem configurar as definições de fragmentação e limpeza de acordo com diferentes formatos de documentos e requisitos de cenário regras de segmentação identificador de segmentação defina um identificador, como "\n", e o sistema segmentará o texto quando o identificador aparecer comprimento máximo do segmento segmente com base no limite máximo de caracteres do texto, segmentando forçadamente quando exceder esse comprimento comprimento de sobreposição do segmento defina o número de caracteres sobrepostos entre segmentos recomenda se definir entre 10 25% do comprimento do segmento, o que ajuda a manter a relevância semântica entre os segmentos e melhora os resultados de recuperação durante a recuperação multi segmentada regras de pré processamento substituir espaços, quebras de linha e tabulações contínuos; excluir todas as urls e endereços de e mail configuração opcional de etl em aplicações de nível de produção de rag, para obter melhor recuperação de dados, dados de múltiplas fontes precisam ser pré processados e limpos, ou seja, etl (extrair, transformar e carregar) para aprimorar as capacidades de pré processamento de dados não estruturados/semi estruturados, o paragraph suporta soluções opcionais de etl paragraph etl e unstructured etl soluções de etl na versão saas padrão é unstructured etl e não pode ser alterado; soluções de etl na versão comunitária padrão é paragraph etl, mas pode ativar o unstructured etl por meio de variáveis de ambiente diferenças nos formatos de arquivos suportados para análise paragraph etl unstructured etl txt, markdown, md, pdf, html, htm, xlsx, xls, docx, csv txt, markdown, md, pdf, html, htm, xlsx, xls, docx, csv, eml, msg, pptx, ppt, xml, epub diferentes soluções de etl podem ter diferenças nos efeitos de extração de arquivos para mais informações sobre os métodos de processamento de dados do unstructured etl , consulte a documentação oficial métodos de indexação você precisa escolher o método de indexação do texto para especificar o método de correspondência de dados a estratégia de indexação está frequentemente relacionada ao método de recuperação, e você deve escolher o método apropriado de acordo com o cenário modo de alta qualidade utiliza a interface de embeddings da openai para processamento, proporcionando maior precisão nas consultas dos usuários modo econômico usa indexação por palavras chave, reduzindo a precisão, mas sem custos de tokens modo q\&a (apenas na versão comunitária) o modo de segmentação q\&a difere do modo "q para p" (pergunta para parágrafo) mencionado anteriormente ele usa o modo "q para q" (pergunta para pergunta) cada segmento gera um par de correspondência q\&a por meio da sumarização quando carregar documentos para a base de conhecimento, o sistema segmenta o texto para que as perguntas dos usuários (entrada) possam corresponder aos segmentos de texto relevantes (q para p) e, finalmente, produzir o resultado o texto da pergunta é em linguagem natural com estrutura gramatical completa, não apenas algumas palavras chave em uma tarefa de recuperação de documentos portanto, o modo q para q (pergunta correspondendo a pergunta) torna a semântica e a correspondência mais claras e atende às necessidades de cenários com perguntas de alta frequência e alta semelhança configurações de recuperação no modo de indexação de alta qualidade, o paragraph oferece três opções de recuperação pesquisa vetorial gera embeddings de consulta e pesquisa o fragmento de texto mais semelhante à sua representação vetorial pesquisa de texto completo indexa todos os termos no documento, permitindo que os usuários pesquisem qualquer termo e recuperem o fragmento de texto relevante que contém esses termos pesquisa híbrida executa pesquisas de texto completo e vetorial simultaneamente, reordenando para selecionar a melhor correspondência para a consulta do usuário é necessário configurar a api do modelo de reordenação (rerank) as configurações específicas para os três métodos de recuperação são as seguintes pesquisa vetorial definição gerando embeddings de consulta para buscar o fragmento de texto mais semelhante à representação vetorial da consulta configurações de pesquisa vetorial topk este parâmetro filtra os fragmentos de texto que são mais semelhantes à pergunta do usuário o sistema ajusta dinamicamente o número de trechos com base no tamanho da janela de contexto do modelo selecionado o valor padrão é 3, o que significa que um valor maior resulta em mais segmentos de texto sendo recuperados limite de pontuação este parâmetro define o limite de similaridade para filtrar os fragmentos de texto apenas os fragmentos que excederem a pontuação especificada serão recuperados por padrão, esta configuração está desativada, o que significa que não haverá filtragem de valores de similaridade para os fragmentos recuperados quando ativado, o valor padrão é 0 5 um valor maior provavelmente resultará em menos textos recuperados modelo de reordenação (rerank) após configurar a chave da api para o modelo de reordenação na página "provedor de modelos", você pode habilitar o “modelo de reordenação” nas configurações de recuperação o sistema realizará a reordenação semântica dos resultados recuperados após a pesquisa híbrida, otimizando os resultados de classificação uma vez estabelecido o modelo de reordenação, as configurações de topk e limite de pontuação só entrarão em vigor durante a etapa de reordenação pesquisa de texto completo definição indexa todos os termos no documento, permitindo que os usuários consultem quaisquer termos e retornem fragmentos de texto contendo esses termos configurações de pesquisa de texto completo topk este parâmetro filtra os fragmentos de texto que são mais semelhantes à pergunta do usuário o sistema ajusta dinamicamente o número de trechos com base no tamanho da janela de contexto do modelo selecionado o valor padrão é 3, o que significa que um valor maior resulta em mais segmentos de texto sendo recuperados limite de pontuação este parâmetro define o limite de similaridade para filtrar os fragmentos de texto apenas os fragmentos que excederem a pontuação especificada serão recuperados por padrão, esta configuração está desativada, o que significa que não haverá filtragem de valores de similaridade para os fragmentos recuperados quando ativado, o valor padrão é 0 5 um valor maior provavelmente resultará em menos textos recuperados modelo de reordenação (rerank) após configurar a chave da api para o modelo de reordenação na página "provedor de modelos", você pode habilitar o “modelo de reordenação” nas configurações de recuperação o sistema realizará a reordenação semântica dos resultados recuperados após a pesquisa híbrida, otimizando os resultados de classificação uma vez estabelecido o modelo de reordenação, as configurações de topk e limite de pontuação só entrarão em vigor durante a etapa de reordenação pesquisa híbrida definição este processo realiza simultaneamente a pesquisa de texto completo e a pesquisa vetorial, incorporando uma etapa de reordenação para selecionar os melhores resultados que correspondem à consulta do usuário de ambos os tipos de resultados de pesquisa nesse modo, os usuários podem especificar "configurações de peso" sem a necessidade de configurar a api do modelo de reordenação, ou podem optar por um modelo de reordenação para a recuperação configurações de pesquisa híbrida configurações de peso esta função permite que os usuários definam pesos personalizados para a prioridade semântica e a prioridade de palavras chave a pesquisa por palavra chave refere se à realização de uma pesquisa de texto completo dentro da base de conhecimento, enquanto a pesquisa semântica envolve a pesquisa vetorial dentro da base de conhecimento valor semântico de 1 isso ativa apenas o modo de pesquisa semântica utilizando modelos de embeddings, mesmo que os termos exatos da consulta não apareçam na base de conhecimento, a pesquisa pode explorar mais profundamente calculando distâncias vetoriais, retornando assim conteúdo relevante além disso, ao lidar com conteúdo multilíngue, a pesquisa semântica pode capturar o significado em diferentes idiomas, proporcionando resultados de busca mais precisos entre idiomas valor de palavra chave de 1 isso ativa apenas o modo de pesquisa por palavra chave ele realiza uma correspondência exata com o texto de entrada na base de conhecimento, adequado para cenários onde o usuário conhece a informação exata ou a terminologia essa abordagem consome menos recursos computacionais e é ideal para buscas rápidas em uma grande base de conhecimento de documentos pesos personalizados de palavra chave e semântica além de permitir apenas a pesquisa semântica ou por palavra chave, fornecemos configurações flexíveis de pesos personalizados você pode ajustar continuamente os pesos dos dois métodos para identificar a proporção de peso ideal que se adapta ao seu cenário de negócios topk este parâmetro filtra os fragmentos de texto que são mais semelhantes à pergunta do usuário o sistema ajusta dinamicamente o número de trechos com base no tamanho da janela de contexto do modelo selecionado o valor padrão é 3, o que significa que um valor maior resulta em mais segmentos de texto sendo recuperados limite de pontuação este parâmetro define o limite de similaridade para filtrar os fragmentos de texto apenas os fragmentos que excederem a pontuação especificada serão recuperados por padrão, esta configuração está desativada, o que significa que não haverá filtragem de valores de similaridade para os fragmentos recuperados quando ativado, o valor padrão é 0 5 um valor maior provavelmente resultará em menos textos recuperados modelo de reordenação (rerank) após configurar a chave da api para o modelo de reordenação na página "provedor de modelos", você pode habilitar o “modelo de reordenação” nas configurações de recuperação o sistema realizará a reordenação semântica dos resultados recuperados após a pesquisa híbrida, otimizando os resultados de classificação uma vez estabelecido o modelo de reordenação, as configurações de topk e limite de pontuação só entrarão em vigor durante a etapa de reordenação