Overview of all pages with the category #DevOps

Au-delà d'Ollama : optimisez l'inférence avec vLLM et TGI

Publié le 14-05-2026 (Mise à jour le 03-06-2026) | 6 minutes | pad

Ollama a révolutionné l’accès aux LLM locaux par sa simplicité déconcertante. Cependant, pour ceux qui gèrent des charges de travail intensives, qui servent plusieurs utilisateurs ou qui recherchent un débit de tokens maximal, Ollama peut devenir un goulot d’étranglement.

S’il est parfait pour le “chat” interactif, Ollama n’est pas conçu pour le throughput (débit global). C’est ici qu’entrent en jeu vLLM et TGI (Text Generation Inference).

[Lire]

Hugo : Optimisation des images WebP et CI/CD sur GitLab

Publié le 13-05-2026 (Mise à jour le 03-06-2026) | 5 minutes | pad

En 2018, je vous expliquais comment j’avais migré mon WordPress vers Hugo. Depuis, Hugo est resté mon outil de prédilection pour ce blog. Cependant, avec le temps et l’accumulation d’articles, j’ai dû optimiser mon flux de travail, notamment pour la gestion des images et l’automatisation du déploiement.

[Lire]

Catégories : DevOps Tags: Gitlab CI/CD Hugo WebP Astuce ImageMagick

Découverte de Zed : un éditeur de code moderne et rapide

Publié le 12-05-2026 (Mise à jour le 03-06-2026) | 4 minutes | pad

Après plusieurs années d’utilisation intensive de Vscodium (la version libre de VSCode), j’ai récemment pris le temps de tester Zed. Bien que je ne compte pas pour le moment migrer vers Zed, je trouve tout de même l’IDE très intéressant. Ce test a été une véritable révélation en termes de performance et d’expérience utilisateur.

[Lire]

Catégories : DevOps Tags: Outils LLM vLLM

LLM Local : calcul du contexte et comparaison des modèles

Publié le 10-05-2026 (Mise à jour le 03-06-2026) | 7 minutes | pad

Lorsque vous exécutez des modèles de langage large (LLM) localement avec Ollama, le context window (fenêtre contextuelle) est une caractéristique cruciale. Plus elle est grande, plus le modèle peut traiter de texte en une seule requête — idéal pour l’analyse de documents longs ou les conversations complexes. Mais cette capacité a un coût : elle dépend directement de votre matériel, en particulier de votre RAM (pour CPU) ou VRAM (pour GPU).

Cet article explique comment estimer le context window d’un LLM en fonction de votre mémoire disponible, puis compare plusieurs modèles populaires d’Ollama : gemma4:latest, gemma4:26b, glm-4.7-flash et qwen3.5.

[Lire]

Catégories : DevOps Divers Tags: LLM Ollama vLLM IA

Découverte d'Ollama avec Cline et les modèles GLM d'OpenCode

Publié le 08-05-2026 | 6 minutes | pad

Les modèles de langage large (Large Language Models — LLM) ont révolutionné l’intelligence artificielle. Mais avec l’augmentation des besoins en calcul et les préoccupations liées à la confidentialité, une alternative gagne en popularité : les LLM exécutés localement. Dans cet article, nous explorerons quatre outils clés de cet écosystème en pleine expansion : Ollama, Cline, GLM et OpenCode.

[Lire]

Catégories : DevOps Divers Tags: LLM Cline Ollama

Ollama et ROCm sur GPU AMD : guide pour l'architecture RDNA

Publié le 19-01-2026 | 5 minutes | pad

Exploiter la puissance d’un GPU AMD pour l’IA locale demande une configuration précise, surtout pour les cartes RDNA 2 comme la RX 6700. Ce guide vous montre comment installer Ollama avec accélération ROCm, configurer l’extension Cline et résoudre les erreurs de compatibilité.

[Lire]

Catégories : DevOps Divers Tags: Cline LLM Ollama