(Screenshot do LM Studio rodando localmente o Phi-3 Mini no meu computador, a solicitação que fiz na tela foi a de resumir um artigo)
Um dos problemas para rodar uma LLM generativa como o ChatGPT, Llama, Gemini, etc., localmente, são as exigências do sistema. Segundo recomendações de especialistas uma configuração mínima seria um computador com 64gb de memória RAM, 1 tb de espaço em disco, de preferência SSD, processador Core i7 de 11a. geração para cima, placa gráfica NVIDIA recomendada a RTX 4070 ou superior. E mesmo como essa configuração, não é garantida que a LLM vai “voar” no seu computador, pelo contrário, pode ter uma demora irritante para responder os “prompts” ou solicitações.
Ouvi falar do LM Studio, uma ferramenta que permite baixar os modelos de linguagem diretamente do Hughingface e rodar eles localmente, sem precisar de conexão com a internet, sem enviar dados para servidores externos. É uma situação ideal para empresas que desejam garantir a privacidade das suas informações e que informações importantes não venham vazar para fora do ambiente da empresa.
Em um artigo anterior descrevi minha experiência com o Mistral 7B, uma LLM francesa de código aberto. Fiquei inicialmente feliz por ter conseguido rodar a LLM localmente mas o tempo de resposta era muito grande então não era prático, ainda não era a solução para alguém que rodasse o LM Studio com Mistral 7B numa configuração mais modesta como a minha. Embora meu notebook seja Core i7 de 12a. geração, ele só tem 16Gb de RAM e placa de vídeo NVIDIA mas um modelo bem inferior , o Geforce MX550, bem aquém de uma placa RTX 4070.
Assim passou um bom tempo para fazer uma nova tentativa. Me animou saber que a Meta tinha lançado o novo Llama 3B mini, que seria bem menor. Também estava interessado em testar dois novos modelos: O Phi-3 Mini da Microsoft, um modelo compacto de LLM assim como o Gema do Google, também um modelo compacto.
Embora empolgado com a possiblidade de rodar o Llama 3B localmente, ele caiu no mesmo problema do Mistral 7B, o tempo de resposta era horroroso. Abandonei o Llama 3B e baixei o Phi-3 Mini. Fui fazer os testes e surpresa de surpresas, o tempo de resposta era razoável, demorava um pouquinho para responder, mas ainda dentro do tolerável. Fiquei muito contente e pensei: Será que o Gema do Google também vai ter performance semelhante no meu equipamento?
Fiz alguns testes com o Gema, mas ele demorava mais para responder que o Phi-3 Mini. Além disso para algumas perguntas simples ele demorava muito para responder e respondia de forma inesperada muitas vezes. Tentei “conversar” com ele, como faço com o ChatGPT, mas ele não está capacitado para manter uma conversa coerente. Respondeu errado a várias solicitações, sei que é uma versão mini, mas nem por isso era admissível assim que abandonei os testes com o Gema e fiquei apenas com o Phi-3 Mini da Microsoft, o único que roda decentemente no meu equipamento, que está longe de ser a configuração ideal. Ele foi capaz de manter uma longa conversa de forma coerente e respondeu corretamente a minhas solicitações. Pronto! Agora sim tenho um IA Generativa que posso chamar de “minha” rodando localmente no meu computador, com toda privacidade e segurança, fiz testes desconectado da internet e ele continuou funcionando corretamente. Pode ser que no futuro as coisas mudem mas no momento minha IA Generativa favorita para rodar localmente passou a ser o Phi-3 Mini. E se funcionou bem comigo com certeza funcionará bem com outros usuários que tenham uma configuração igual ou superior à minha.
Llama 2: Continuando meus testes com modelos de IA generativa, testei e descartei outros modelos mas quando testei o llama2 chat 7B, baixando ele para meu computador usando o LM Studio tive um grata surpresa. O llama2 chat 7B funciona bem rápido, é capaz de te ajudar com código em várias linguagens, com SQL e também responde perguntas gerais. Analisando código se saiu melhor ainda que o Phi-3 Mini, então ele passou a ser minha segunda LLMs instalada localmente no meu computador e não precisei escrever uma linha de código, só baixar o modelo do Hughingface com o LM Studio , que ele mesmo instala e já está pronto como opção de modelo a ser utilizado nas suas conversas com a inteligência artificial. Lembrando que minha configuração de computador é de 16gb de RAM, processador Core i7 12a. geração e placa gráfica modesta, a NVIDIA MX550.
O LM Studio também permite que você chame as LLMs via API simulando um servidor local abrindo novas possibilidades.
Links: LM Studio
Ernesto Villafuerte Oyola
CEO – Aomega Treinamento e Consultoria
https://www.aomega.com.br