LLM Local : calcul du contexte et comparaison des modèles

Lorsque vous exécutez des modèles de langage large (LLM) localement avec Ollama, le context window (fenêtre contextuelle) est une caractéristique cruciale. Plus elle est grande, plus le modèle peut traiter de texte en une seule requête — idéal pour l’analyse de documents longs ou les conversations complexes. Mais cette capacité a un coût : elle dépend directement de votre matériel, en particulier de votre RAM (pour CPU) ou VRAM (pour GPU).

Cet article explique comment estimer le context window d’un LLM en fonction de votre mémoire disponible, puis compare plusieurs modèles populaires d’Ollama : gemma4:latest, gemma4:26b, glm-4.7-flash et qwen3.5.

[Lire]
Catégories : DevOps Divers  Tags: LLM Ollama vLLM IA 

Découverte d'Ollama avec Cline et les modèles GLM d'OpenCode

Les modèles de langage large (Large Language Models — LLM) ont révolutionné l’intelligence artificielle. Mais avec l’augmentation des besoins en calcul et les préoccupations liées à la confidentialité, une alternative gagne en popularité : les LLM exécutés localement. Dans cet article, nous explorerons quatre outils clés de cet écosystème en pleine expansion : Ollama, Cline, GLM et OpenCode.

[Lire]
Catégories : DevOps Divers  Tags: LLM Cline Ollama 

Ollama et ROCm sur GPU AMD : guide pour l'architecture RDNA

Exploiter la puissance d’un GPU AMD pour l’IA locale demande une configuration précise, surtout pour les cartes RDNA 2 comme la RX 6700. Ce guide vous montre comment installer Ollama avec accélération ROCm, configurer l’extension Cline et résoudre les erreurs de compatibilité.

[Lire]
Catégories : DevOps Divers  Tags: Cline LLM Ollama