L'état des LLM en 2026 : du chatbot à l'agent en production
RAG, agents, fine-tuning, évaluation — ce qui marche vraiment aujourd'hui en entreprise.
Depuis la sortie de GPT-4 en 2023, l'écosystème des modèles de langage a explosé. En 2025, Anthropic a publié Claude 3.5 Sonnet et Claude 3.7, OpenAI a lancé GPT-4o puis o1/o3 (modèles de raisonnement), et Google a déployé Gemini 1.5 Pro avec une fenêtre de contexte de 2 millions de tokens. Le coût d'un million de tokens en sortie sur les modèles 'flagship' a été divisé par plus de 10 en deux ans selon les pricings publics.
Le pattern dominant en production reste le RAG (Retrieval-Augmented Generation), formalisé par Meta AI en 2020 (Lewis et al., 'Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks'). Il consiste à récupérer des documents pertinents via un vector store (Pinecone, Weaviate, pgvector) puis à les injecter dans le prompt. C'est la base des chatbots documentaires d'entreprise.
L'autre grande tendance est celle des agents : modèles qui appellent des outils (function calling), planifient des étapes et exécutent du code. Anthropic a publié en novembre 2024 le Model Context Protocol (MCP), un standard ouvert pour connecter les LLM aux outils externes — déjà adopté par OpenAI et Google. Pour évaluer ces systèmes, l'écosystème converge vers LangSmith, Braintrust et le framework open-source Ragas.
