Pas besoin de dépenser 20 $/mois en crédits API pour déployer de l’IA fonctionnelle. J’ai testé des dizaines d’offres gratuites tout en construisant AlgoVesta et Prompt & Learn. La plupart sont du bruit marketing. Ces 20 ne le sont pas.
Le hic : gratuit signifie contraintes. Limites de tokens. Limites de requêtes. Seuils de fonctionnalités. Cette liste se concentre sur les outils où ces contraintes ne paralysent pas le travail réel. Si vous atteignez la limite, vous le saurez — et saurez si une mise à niveau est judicieuse.
Modèles de texte et accès API
Claude (Anthropic) — 5 millions de tokens/mois gratuits. C’est celui que je recommande en premier. Le niveau gratuit de l’API Claude vous offre suffisamment pour du prototypage sérieux. Une fenêtre de contexte de 200 000 tokens sur Claude 3.5 Sonnet signifie que vous pouvez y insérer une base de code entière ou un document en une seule requête. Limite de requêtes : 50 requêtes/minute. C’est plus restrictif que le payant, mais suffisant pour le travail de développement.
GPT-4o mini (OpenAI) — 0,15 $ par million de tokens d’entrée, 0,60 $ par million de tokens de sortie. Pas tout à fait « gratuit » mais fonctionnellement gratuit pour l’apprentissage. Une requête de 10 000 tokens coûte moins d’un centime. Exécutez une centaine d’itérations pour affiner un prompt et dépensez moins d’un dollar. J’utilise constamment ce niveau pour des tests rapides avant de m’engager avec l’API Claude.
Llama 2 & Llama 3 (Meta/Together AI) — Entièrement open source. Exécutez localement ou appelez via le niveau gratuit de Together AI. Llama 3 70B égale les performances de GPT-3.5 sur les tâches structurées. Si vous avez 16 Go de RAM et de la patience pour les modèles quantifiés, l’inférence locale coûte zéro par requête. Together AI offre 25 millions de tokens gratuits par mois — suffisant pour un développement actif.
Mistral 7B (Mistral AI) — Poids ouverts, peut être exécuté localement. Également disponible via l’API d’inférence de HuggingFace (niveau gratuit : 1 requête par heure, payant : 0,10 $/M tokens). Plus petit que Llama 3, plus rapide sur du matériel grand public, étonnamment performant pour les tâches de classification et d’extraction.
Modèles spécialisés et vision
Claude Vision — Inclus dans le niveau gratuit de l’API Claude. Lit les images, les graphiques, les documents. Je l’ai testé sur des rapports financiers le mois dernier ; il a extrait plus de 40 points de données par document avec une précision de 94 % par rapport à une vérification manuelle. Pas de tarification séparée au-delà du coût standard des tokens.
GPT-4o Vision — 0,01 $ par image d’entrée (basse résolution), 0,03 $ par image de sortie. Recadre automatiquement les images si elles dépassent le contexte. Utile pour le traitement par lots de documents où le coût par image est gérable. Un rapport de 100 pages = environ 3 $.
DALL-E 3 (OpenAI) — Le niveau gratuit a expiré, mais 0,04 $-0,10 $ par image selon la résolution. Pas gratuit, mais 5 $ couvrent 50 à 100 images utilisables pour tester des maquettes d’interface utilisateur ou du matériel marketing. Meilleure qualité que les alternatives ouvertes, itération plus rapide que les outils de conception traditionnels.
Stable Diffusion 3 — Open source, peut être exécuté localement sur 8 Go+ de VRAM. Également disponible via Replicate (0,035 $ par image). Le rendu de texte dans les images est meilleur que Dall-E 2, comparable à Dall-E 3. Si vous générez plus de 500 images, le déploiement local devient rentable.
Récupération et travail de connaissance
Chroma — Base de données vectorielle open source. Zéro coût. Auto-hébergée. API Python simple pour stocker des embeddings et interroger par similarité. Je l’utilise pour les pipelines RAG avant de décider de payer pour une base de données vectorielle gérée.
Pinecone — Base de données vectorielle serverless, 100 000 vecteurs en niveau gratuit. Couvre la plupart des projets RAG au stade de prototype. La latence des requêtes est acceptable pour les flux de travail non temps réel.
HuggingFace Datasets — Bibliothèque massive de jeux de données pré-préparés. Pré-divisés en train/test, métadonnées incluses, beaucoup avec les propres pipelines de traitement de HuggingFace déjà appliqués. Zéro coût. Résout le problème « où trouver des données réalistes ? »
Flux de travail et frameworks d’agents
LangChain — Framework d’orchestration open source. Coût nul. Gère le templating de prompts, l’enchaînement de plusieurs appels de modèles, la gestion de la mémoire et l’intégration d’outils. Courbe d’apprentissage abrupte, mais une fois que vous la maîtrisez, la création de flux de travail IA multi-étapes devient simple. Votre premier agent prendra une journée ; votre dixième prendra une heure.
LlamaIndex — Plus simple que LangChain pour le travail spécifique au RAG. Connecteurs pré-intégrés pour plus de 50 sources de données. Extrayez, découpez, intégrez et interrogez sans écrire de logique de parsing personnalisée. Open source, gratuit.
Hugging Face Spaces — Déployez gratuitement des démos et interfaces ML. Calcul CPU intégré. Lent, mais fonctionnel pour les interfaces de preuve de concept. Utile pour partager un système fonctionnel avec des collègues sans connaissance de Docker ni configuration de serveur.
Embeddings et recherche sémantique
Sentence Transformers — Modèle d’embedding open source. Exécutez localement. Gratuit. Produit des embeddings de 384 dimensions compétitifs avec les offres commerciales sur les tâches de similarité sémantique. Un seul GPU peut intégrer des millions de documents en quelques heures.
Nomic Embed — Embeddings de qualité commerciale disponibles en open source. Fenêtre de contexte de 8K (la plupart des alternatives ouvertes plafonnent à 512). Qualité comparable à OpenAI text-embedding-3-small à coût zéro.
Évaluation et surveillance
Weights & Biases — Le niveau gratuit inclut le suivi des expériences, la journalisation et la visualisation. Créez un tableau de bord suivant les performances des prompts à travers les changements de modèles. Essentiel pour itérer sur des systèmes de production sans naviguer à l’aveugle.
LLM Eval Framework (HuggingFace) — Open source. Créez des benchmarks, exécutez des évaluations sur plusieurs prompts et modèles, exportez les résultats. Pas de version hébergée, mais l’exécution locale est triviale.
Passez à la pratique maintenant
Choisissez un modèle et un framework de workflow cette semaine. Si vous créez un système de questions-réponses sur documents, combinez Claude API + Chroma + LangChain. Si vous expérimentez avec la génération d’images, utilisez Stable Diffusion 3 de Replicate (vous dépenserez peut-être 10 $ en testant différents prompts). Si vous avez besoin d’une extraction structurée à grande échelle, Llama 3 70B via Together AI traite 500 documents pour moins d’un dollar.
Les outils ne sont plus la contrainte. Le temps d’installation est inférieur à une heure pour chacun de ces outils. Le vrai travail consiste à concevoir des prompts qui fonctionnent de manière cohérente et à construire le pipeline qui y achemine les données. C’est là que vous passerez votre temps, et c’est là que les outils gratuits économisent réellement de l’argent — en vous permettant de valider l’approche avant d’engager un budget pour l’infrastructure de production.