O LocalAI é uma API REST substituta compatível com as especificações da API OpenAI para inferência local. Ele permite que você execute LLMs (e não apenas) localmente ou on-premises com hardware de consumo, suportando várias famílias de modelos compatíveis com o formato ggml. Não requer GPU.

O Paragraph permite a integração com o LocalAI para implantação local de capacidades de inferência de grandes modelos de linguagem e de embeddings.

Você pode se referir ao guia oficial de Introdução para a implantação, ou integrar rapidamente seguindo os passos abaixo:

(Estes passos são derivados do exemplo de consulta de dados do LocalAI)

Primeiro, clone o repositório de código do LocalAI e navegue até o diretório especificado.

Baixe os modelos de exemplo de LLM e de Embeddings.

Aqui, escolhemos dois modelos menores que são compatíveis em todas as plataformas. O 

 serve como o modelo de Embeddings padrão, para implantação rápida local.

NOTA: Certifique-se de que o valor da variável THREADS no arquivo 

 não exceda o número de núcleos de CPU da sua máquina.

O endpoint da API de requisição do LocalAI estará disponível em 

Se você usar o método de implantação do Paragraph via Docker, precisa prestar atenção à configuração da rede para garantir que o contêiner do Paragraph possa acessar o endpoint do LocalAI. O contêiner do Paragraph não pode acessar o localhost internamente, sendo necessário usar o endereço IP do host.

Se o Paragraph estiver implantado via Docker, preencha o domínio do host: 

http://<seu-domínio-endpoint-do-LocalAI>:8080

, que pode ser um endereço IP da LAN, como: 

Clique em "Salvar" para usar o modelo no aplicativo.

Integrar Modelos Locais Implantados pelo OpenLLM

Integrar Modelos Locais Implantados pelo LocalAI

Integrar Modelos Locais Implantados pelo Ollama

Paragraph

Lista de Provedores de Modelos

Recursos e Especificações

Adicionar Novo Provedor

Integração de Modelos Predefinidos

Integração de Modelos Customizados

Interfaces

Schema

Integre Modelos Open Source do Hugging Face

Integrar Modelos Open Source do Replicate

Integrar Modelos Locais Implantados pelo Xinference

Balanceamento de Carga

Modelo

Criar Aplicação

Assistente de Conversação

Agente

Kits de Ferramentas de Aplicação

Orquestração de Aplicações