Integrar Modelos Locais Implantados pelo Ollama

11 min

o ollama é um cliente de framework de inferência local que permite a implantação com um clique de llms, como llama 2, mistral, llava, entre outros o paragraph suporta a integração das capacidades de llm e text embedding de grandes modelos de linguagem implantados com o ollama integração rápida baixar e iniciar o ollama baixar ollama visite https //ollama ai/download https //ollama ai/download para baixar o cliente ollama para o seu sistema execute o ollama e converse com o llava ollama run llava após o lançamento bem sucedido, o ollama inicia um serviço de api na porta local 11434, que pode ser acessado em http //localhost 11434 para outros modelos, visite ollama models https //ollama com/models para mais detalhes integrar ollama no paragraph em configurações > provedores de modelos > ollama , preencha nome do modelo llava url base http //\<seu domínio endpoint do ollama> 11434 tipo de modelo chat comprimento do contexto do modelo 4096 o comprimento máximo de contexto do modelo se não tiver certeza, use o valor padrão de 4096 limite máximo de tokens 4096 o número máximo de tokens retornados pelo modelo se não houver requisitos específicos para o modelo, isso pode ser consistente com o comprimento do contexto do modelo suporte para visão sim marque esta opção se o modelo suportar compreensão de imagens (multimodal), como o llava clique em "salvar" para usar o modelo no aplicativo após verificar que não há erros o método de integração para modelos de embeddings é semelhante ao de llm, basta alterar o tipo de modelo para text embedding usar modelos ollama acesse a página de prompt eng do aplicativo que precisa ser configurado, selecione o modelo llava sob o provedor ollama e use o após configurar os parâmetros do modelo faq ⚠️ se você estiver usando docker para implantar o paragraph e o ollama, pode encontrar o seguinte erro httpconnectionpool(host=127 0 0 1, port=11434) max retries exceeded with url /cpi/chat (caused by newconnectionerror('\<urllib3 connection httpconnection object at 0x7f8562812c20> fail to establish a new connection \[errno 111] connection refused')) esse erro ocorre porque o serviço ollama não está acessível a partir do contêiner docker o localhost geralmente se refere ao próprio contêiner, não à máquina host ou a outros contêineres para resolver esse problema, você precisa expor o serviço ollama para a rede configurando variáveis de ambiente no mac se o ollama for executado como um aplicativo macos, as variáveis de ambiente devem ser configuradas usando launchctl para cada variável de ambiente, chame launchctl setenv launchctl setenv ollama host "0 0 0 0" reinicie o aplicativo ollama se os passos acima não forem eficazes, você pode usar o seguinte método o problema está no próprio docker, e para acessar o host do docker, você deve conectar se ao host docker internal portanto, substituir localhost por host docker internal no serviço fará com que funcione corretamente http //host docker internal 11434 configurando variáveis de ambiente no linux se o ollama for executado como um serviço systemd , as variáveis de ambiente devem ser configuradas usando systemctl edite o serviço systemd chamando systemctl edit ollama service isso abrirá um editor para cada variável de ambiente, adicione uma linha environment na seção \[service] \[service] environment="ollama host=0 0 0 0" salve e saia recarregue o systemd e reinicie o ollama systemctl daemon reload systemctl restart ollama configurando variáveis de ambiente no windows no windows, o ollama herda suas variáveis de ambiente de usuário e sistema primeiro, saia do ollama clicando nele na barra de tarefas edite as variáveis de ambiente do sistema no painel de controle edite ou crie novas variáveis para sua conta de usuário para ollama host , ollama models , etc clique em ok/aplicar para salvar execute o ollama em uma nova janela de terminal como posso expor o ollama na minha rede? o ollama vincula o 127 0 0 1 à porta 11434 por padrão altere o endereço de vinculação com a variável de ambiente ollama host