Au-delà d'Ollama : optimisez l'inférence avec vLLM et TGI

Ollama a révolutionné l’accès aux LLM locaux par sa simplicité déconcertante. Cependant, pour ceux qui gèrent des charges de travail intensives, qui servent plusieurs utilisateurs ou qui recherchent un débit de tokens maximal, Ollama peut devenir un goulot d’étranglement.

S’il est parfait pour le “chat” interactif, Ollama n’est pas conçu pour le throughput (débit global). C’est ici qu’entrent en jeu vLLM et TGI (Text Generation Inference).

[Lire]
Catégories : DevOps Divers  Tags: vLLM LLM Docker Performances IA 

Hugo : Optimisation des images WebP et CI/CD sur GitLab

En 2018, je vous expliquais comment j’avais migré mon WordPress vers Hugo. Depuis, Hugo est resté mon outil de prédilection pour ce blog. Cependant, avec le temps et l’accumulation d’articles, j’ai dû optimiser mon flux de travail, notamment pour la gestion des images et l’automatisation du déploiement.

[Lire]
Catégories : DevOps  Tags: Gitlab CI/CD Hugo WebP Astuce ImageMagick 

Découverte de Zed : un éditeur de code moderne et rapide

Après plusieurs années d’utilisation intensive de Vscodium (la version libre de VSCode), j’ai récemment pris le temps de tester Zed. Bien que je ne compte pas pour le moment migrer vers Zed, je trouve tout de même l’IDE très intéressant. Ce test a été une véritable révélation en termes de performance et d’expérience utilisateur.

[Lire]
Catégories : DevOps  Tags: Outils LLM vLLM 

LLM Local : calcul du contexte et comparaison des modèles

Lorsque vous exécutez des modèles de langage large (LLM) localement avec Ollama, le context window (fenêtre contextuelle) est une caractéristique cruciale. Plus elle est grande, plus le modèle peut traiter de texte en une seule requête — idéal pour l’analyse de documents longs ou les conversations complexes. Mais cette capacité a un coût : elle dépend directement de votre matériel, en particulier de votre RAM (pour CPU) ou VRAM (pour GPU).

Cet article explique comment estimer le context window d’un LLM en fonction de votre mémoire disponible, puis compare plusieurs modèles populaires d’Ollama : gemma4:latest, gemma4:26b, glm-4.7-flash et qwen3.5.

[Lire]
Catégories : DevOps Divers  Tags: LLM Ollama vLLM IA 

Découverte d'Ollama avec Cline et les modèles GLM d'OpenCode

Les modèles de langage large (Large Language Models — LLM) ont révolutionné l’intelligence artificielle. Mais avec l’augmentation des besoins en calcul et les préoccupations liées à la confidentialité, une alternative gagne en popularité : les LLM exécutés localement. Dans cet article, nous explorerons quatre outils clés de cet écosystème en pleine expansion : Ollama, Cline, GLM et OpenCode.

[Lire]
Catégories : DevOps Divers  Tags: LLM Cline Ollama 

Ollama et ROCm sur GPU AMD : guide pour l'architecture RDNA

Exploiter la puissance d’un GPU AMD pour l’IA locale demande une configuration précise, surtout pour les cartes RDNA 2 comme la RX 6700. Ce guide vous montre comment installer Ollama avec accélération ROCm, configurer l’extension Cline et résoudre les erreurs de compatibilité.

[Lire]
Catégories : DevOps Divers  Tags: Cline LLM Ollama