O Xorbits inference é uma biblioteca poderosa e versátil, projetada para atender modelos de linguagem, reconhecimento de fala e multimodais, podendo até ser usada em laptops. Ela suporta vários modelos compatíveis com GGML, como chatglm, baichuan, whisper, vicuna, orca, etc. O Paragraph suporta a conexão com as capacidades de inferência de grandes modelos de linguagem e de embedding implantados localmente pelo Xinference.

Note que geralmente não é necessário encontrar manualmente o endereço IP do contêiner Docker para acessar o serviço, pois o Docker oferece um recurso de mapeamento de portas. Isso permite que você mapeie as portas do contêiner para as portas da máquina local, permitindo o acesso via seu endereço local. Por exemplo, se você usou o parâmetro 

 ao executar o contêiner, você pode acessar o serviço dentro do contêiner visitando 

Se você realmente precisar usar diretamente o endereço IP do contêiner, os passos acima irão ajudá-lo a obter essa informação.

Existem duas maneiras de implantar o Xinference, nomeadamente implantação local e implantação distribuída. Aqui, tomaremos a implantação local como exemplo.

O Xinference iniciará um worker localmente por padrão, com o endpoint: 

, e a porta padrão é 9997. Por padrão, o acesso é limitado apenas à máquina local, mas pode ser configurado com 

 para permitir o acesso de qualquer cliente não local. Para modificar o host ou a porta, você pode consultar as informações de ajuda do Xinference: 

Se você usar o método de implantação do Docker do Paragraph, precisa prestar atenção à configuração de rede para garantir que o contêiner do Paragraph possa acessar o endpoint do Xinference. O contêiner do Paragraph não pode acessar o 

 internamente, e você precisará usar o endereço IP do host.

, selecione o modelo e a especificação que você precisa implantar, conforme mostrado abaixo:

Como diferentes modelos têm diferentes compatibilidades em diferentes plataformas de hardware, consulte os modelos integrados do Xinference para garantir que o modelo criado suporte a plataforma de hardware atual.

Copie o ID do modelo na página de Modelos em Execução, como: 

Clique em "Salvar" para usar o modelo no aplicativo Paragraph.

O Paragraph também suporta o uso de modelos integrados do Xinference como modelos de Embedding, basta selecionar o tipo 

Para mais informações sobre o Xinference, consulte: 

Integrar Modelos Open Source do Replicate

Integrar Modelos Locais Implantados pelo Xinference

Integrar Modelos Locais Implantados pelo OpenLLM

Paragraph

Lista de Provedores de Modelos

Recursos e Especificações

Adicionar Novo Provedor

Integração de Modelos Predefinidos

Integração de Modelos Customizados

Interfaces

Schema

Integre Modelos Open Source do Hugging Face

Integrar Modelos Locais Implantados pelo LocalAI

Integrar Modelos Locais Implantados pelo Ollama

Balanceamento de Carga

Modelo

Criar Aplicação

Assistente de Conversação

Agente

Kits de Ferramentas de Aplicação

Orquestração de Aplicações