Guias
Modelo
Integrar Modelos Locais Implantados pelo Xinference
7min
o xorbits inference é uma biblioteca poderosa e versátil, projetada para atender modelos de linguagem, reconhecimento de fala e multimodais, podendo até ser usada em laptops ela suporta vários modelos compatíveis com ggml, como chatglm, baichuan, whisper, vicuna, orca, etc o paragraph suporta a conexão com as capacidades de inferência de grandes modelos de linguagem e de embedding implantados localmente pelo xinference implantando o xinference note que geralmente não é necessário encontrar manualmente o endereço ip do contêiner docker para acessar o serviço, pois o docker oferece um recurso de mapeamento de portas isso permite que você mapeie as portas do contêiner para as portas da máquina local, permitindo o acesso via seu endereço local por exemplo, se você usou o parâmetro p 80 80 ao executar o contêiner, você pode acessar o serviço dentro do contêiner visitando http //localhost 80 ou http //127 0 0 1 80 se você realmente precisar usar diretamente o endereço ip do contêiner, os passos acima irão ajudá lo a obter essa informação iniciando o xinference existem duas maneiras de implantar o xinference, nomeadamente implantação local e implantação distribuída aqui, tomaremos a implantação local como exemplo primeiro, instale o xinference via pypi $ pip install "xinference\[all]" inicie o xinference localmente $ xinference local 2023 08 20 19 21 05,265 xinference 10148 info xinference iniciado com sucesso endpoint http //127 0 0 1 9997 2023 08 20 19 21 05,266 xinference core supervisor 10148 info worker 127 0 0 1 37822 foi adicionado com sucesso 2023 08 20 19 21 05,267 xinference deploy worker 10148 info worker do xinference iniciado com sucesso o xinference iniciará um worker localmente por padrão, com o endpoint http //127 0 0 1 9997 , e a porta padrão é 9997 por padrão, o acesso é limitado apenas à máquina local, mas pode ser configurado com h 0 0 0 0 para permitir o acesso de qualquer cliente não local para modificar o host ou a porta, você pode consultar as informações de ajuda do xinference xinference local help se você usar o método de implantação do docker do paragraph, precisa prestar atenção à configuração de rede para garantir que o contêiner do paragraph possa acessar o endpoint do xinference o contêiner do paragraph não pode acessar o localhost internamente, e você precisará usar o endereço ip do host criar e implantar o modelo visite http //127 0 0 1 9997 , selecione o modelo e a especificação que você precisa implantar, conforme mostrado abaixo como diferentes modelos têm diferentes compatibilidades em diferentes plataformas de hardware, consulte os modelos integrados do xinference para garantir que o modelo criado suporte a plataforma de hardware atual obter o uid do modelo copie o id do modelo na página de modelos em execução, como 2c886330 8849 11ee 9518 43b0b8f40bea depois que o modelo for implantado, conecte o modelo implantado no paragraph em configurações > provedores de modelos > xinference , insira nome do modelo vicuna v1 3 url do servidor http //\<ip da máquina> 9997 (substitua pelo endereço ip da sua máquina) uid do modelo 2c886330 8849 11ee 9518 43b0b8f40bea clique em "salvar" para usar o modelo no aplicativo paragraph o paragraph também suporta o uso de modelos integrados do xinference como modelos de embedding, basta selecionar o tipo embeddings na caixa de configuração para mais informações sobre o xinference, consulte xorbits inference