Guias
Modelo
Integrar Modelos Locais Implantados pelo LocalAI
6min
o localai é uma api rest substituta compatível com as especificações da api openai para inferência local ele permite que você execute llms (e não apenas) localmente ou on premises com hardware de consumo, suportando várias famílias de modelos compatíveis com o formato ggml não requer gpu o paragraph permite a integração com o localai para implantação local de capacidades de inferência de grandes modelos de linguagem e de embeddings implantando o localai iniciando o localai você pode se referir ao guia oficial de introdução para a implantação, ou integrar rapidamente seguindo os passos abaixo (estes passos são derivados do exemplo de consulta de dados do localai) primeiro, clone o repositório de código do localai e navegue até o diretório especificado $ git clone https //github com/go skynet/localai $ cd localai/examples/langchain chroma baixe os modelos de exemplo de llm e de embeddings $ wget https //huggingface co/skeskinen/ggml/resolve/main/all minilm l6 v2/ggml model q4 0 bin o models/bert $ wget https //gpt4all io/models/ggml gpt4all j bin o models/ggml gpt4all j aqui, escolhemos dois modelos menores que são compatíveis em todas as plataformas o ggml gpt4all j serve como o modelo llm padrão, e o all minilm l6 v2 serve como o modelo de embeddings padrão, para implantação rápida local configure o arquivo env $ mv env example env nota certifique se de que o valor da variável threads no arquivo env não exceda o número de núcleos de cpu da sua máquina inicie o localai \# inicie com docker compose $ docker compose up d build \# veja os logs & espere até a construção ser concluída $ docker logs f langchain chroma api 1 7 16am inf iniciando localai usando 4 threads, com o caminho dos modelos /models 7 16am inf versão do localai v1 24 1 (9cc8d9086580bd2a96f5c96a6b873242879c70bc) o endpoint da api de requisição do localai estará disponível em http //127 0 0 1 8080 e ele fornece dois modelos, a saber modelo llm ggml gpt4all j nome de acesso externo gpt 3 5 turbo (este nome é personalizável e pode ser configurado em models/gpt 3 5 turbo yaml ) modelo de embedding all minilm l6 v2 nome de acesso externo text embedding ada 002 (este nome é personalizável e pode ser configurado em models/embeddings yaml ) se você usar o método de implantação do paragraph via docker, precisa prestar atenção à configuração da rede para garantir que o contêiner do paragraph possa acessar o endpoint do localai o contêiner do paragraph não pode acessar o localhost internamente, sendo necessário usar o endereço ip do host integre os modelos no paragraph vá para configurações > provedores de modelos > localai e preencha modelo 1 ggml gpt4all j tipo de modelo geração de texto nome do modelo gpt 3 5 turbo url do servidor http //127 0 0 1 8080 se o paragraph estiver implantado via docker, preencha o domínio do host http //\<seu domínio endpoint do localai> 8080 , que pode ser um endereço ip da lan, como http //192 168 1 100 8080 clique em "salvar" para usar o modelo no aplicativo modelo 2 all minilm l6 v2 tipo de modelo embeddings nome do modelo text embedding ada 002 url do servidor http //127 0 0 1 8080 se o paragraph estiver implantado via docker, preencha o domínio do host http //\<seu domínio endpoint do localai> 8080 , que pode ser um endereço ip da lan, como http //192 168 1 100 8080 clique em "salvar" para usar o modelo no aplicativo