Sincronizar Dados de um Website

4 min

este documento apresenta como realizar a extração de dados de uma página da web, convertê los em markdown e importá los para a base de conhecimento do paragraph a base de conhecimento do paragraph suporta a extração de páginas da web e a conversão em markdown para importação por meio da integração com o firecrawl o firecrawl é uma ferramenta de parsing de páginas da web de código aberto que converte páginas da web em um formato de texto markdown limpo, facilmente reconhecido por modelos de linguagem (llms) ele também fornece um serviço de api fácil de usar como configurar configurar as credenciais da api firecrawl primeiro, você precisa configurar as credenciais do firecrawl na seção fonte de dados da página de configurações faça login no site do firecrawl para concluir o registro, obtenha sua chave de api e, em seguida, insira e salve essa chave no paragraph extrair página da web de destino na página de criação da base de conhecimento, selecione sincronizar do site e insira o url da página que deseja extrair as opções de configuração incluem rastrear subpáginas define se deseja ou não rastrear subpáginas limite de rastreamento de páginas especifica o número máximo de páginas a serem rastreadas profundidade máxima de scraping determina a profundidade máxima do scraping nas páginas caminhos excluídos define os caminhos que devem ser excluídos do scraping incluir apenas caminhos especifica os caminhos a serem incluídos no scraping escopo de extração de conteúdo define a área do conteúdo a ser extraído após completar a configuração, clique em executar para visualizar as páginas analisadas revisar os resultados da importação após importar o texto analisado da página da web, ele será armazenado nos documentos da base de conhecimento visualize os resultados da importação e clique em adicionar url para continuar importando novas páginas da web