Overview of all pages with the tag #IA

L'Ère du faux de masse : l'enquête d'Amistory sur l'IA

Publié le 24-05-2026 (Mise à jour le 03-06-2026) | 4 minutes | pad

L’intelligence artificielle générative n’est plus une simple curiosité technologique ou un outil d’expérimentation pour passionnés de tech. En quelques mois, elle est devenue une infrastructure industrielle capable de redéfinir notre rapport à la vérité.

[Lire]

Catégories : News Tags: IA

Au-delà d'Ollama : optimisez l'inférence avec vLLM et TGI

Publié le 14-05-2026 (Mise à jour le 03-06-2026) | 6 minutes | pad

Ollama a révolutionné l’accès aux LLM locaux par sa simplicité déconcertante. Cependant, pour ceux qui gèrent des charges de travail intensives, qui servent plusieurs utilisateurs ou qui recherchent un débit de tokens maximal, Ollama peut devenir un goulot d’étranglement.

S’il est parfait pour le “chat” interactif, Ollama n’est pas conçu pour le throughput (débit global). C’est ici qu’entrent en jeu vLLM et TGI (Text Generation Inference).

[Lire]

Catégories : DevOps Divers Tags: vLLM LLM Docker Performances IA

LLM Local : calcul du contexte et comparaison des modèles

Publié le 10-05-2026 (Mise à jour le 03-06-2026) | 7 minutes | pad

Lorsque vous exécutez des modèles de langage large (LLM) localement avec Ollama, le context window (fenêtre contextuelle) est une caractéristique cruciale. Plus elle est grande, plus le modèle peut traiter de texte en une seule requête — idéal pour l’analyse de documents longs ou les conversations complexes. Mais cette capacité a un coût : elle dépend directement de votre matériel, en particulier de votre RAM (pour CPU) ou VRAM (pour GPU).

Cet article explique comment estimer le context window d’un LLM en fonction de votre mémoire disponible, puis compare plusieurs modèles populaires d’Ollama : gemma4:latest, gemma4:26b, glm-4.7-flash et qwen3.5.

[Lire]

Catégories : DevOps Divers Tags: LLM Ollama vLLM IA