L'Ère du faux de masse : l'enquête d'Amistory sur l'IA

L’intelligence artificielle générative n’est plus une simple curiosité technologique ou un outil d’expérimentation pour passionnés de tech. En quelques mois, elle est devenue une infrastructure industrielle capable de redéfinir notre rapport à la vérité.

[Lire]
Catégories : News  Tags: IA 

Au-delà d'Ollama : optimisez l'inférence avec vLLM et TGI

Ollama a révolutionné l’accès aux LLM locaux par sa simplicité déconcertante. Cependant, pour ceux qui gèrent des charges de travail intensives, qui servent plusieurs utilisateurs ou qui recherchent un débit de tokens maximal, Ollama peut devenir un goulot d’étranglement.

S’il est parfait pour le “chat” interactif, Ollama n’est pas conçu pour le throughput (débit global). C’est ici qu’entrent en jeu vLLM et TGI (Text Generation Inference).

[Lire]
Catégories : DevOps Divers  Tags: vLLM LLM Docker Performances IA 

LLM Local : calcul du contexte et comparaison des modèles

Lorsque vous exécutez des modèles de langage large (LLM) localement avec Ollama, le context window (fenêtre contextuelle) est une caractéristique cruciale. Plus elle est grande, plus le modèle peut traiter de texte en une seule requête — idéal pour l’analyse de documents longs ou les conversations complexes. Mais cette capacité a un coût : elle dépend directement de votre matériel, en particulier de votre RAM (pour CPU) ou VRAM (pour GPU).

Cet article explique comment estimer le context window d’un LLM en fonction de votre mémoire disponible, puis compare plusieurs modèles populaires d’Ollama : gemma4:latest, gemma4:26b, glm-4.7-flash et qwen3.5.

[Lire]
Catégories : DevOps Divers  Tags: LLM Ollama vLLM IA