ChatGPT est-il un meilleur trader que toi ?
ChatGPT au banc d’essai : découvrez si l’IA cache un véritable edge statistique en trading crypto.

Souvenez-vous : dans notre avant-dernier épisode, nous avons construit un dataset de graphiques BTC où chaque image montre X semaines de prix… mais masque volontairement la suivante.
Objectif : tester la combinaison computer vision + raisonnement financier de ChatGPT.
À chaque image, nous demandions :
Selon toi, la semaine suivante est-elle haussière, baissière ou neutre ?
Le but est maintenant de passer au backtest automatisé : au début de la semaine cachée, on entre en position d’après la réponse de ChatGPT ; on sort à la fin, sans autre règle.
👉 Aujourd’hui place aux résultats :
- ChatGPT est-il plus précis qu’un tirage aléatoire ?
- Ses prévisions dégagent-elles une performance exploitable ?
- Les indicateurs techniques améliorent-ils ses réponses ?
- Quelle est l’influence de la timeframe et du nombre de bougies ?
- Y a-t-il une différence de précision selon le modèle GPT choisi ?
- Et surtout : peut-on extraire un véritable edge statistique de ce processus ?
Comment juger la performance de ChatGPT ?
Nous avons choisi deux axes complémentaires :
1 - La précision statistique – Combien de fois l’IA devine-t-elle la bonne tendance ? Pour éviter tout biais visuel, nous avons choisi de faire cela de manière entièrement automatisée. Le code se charge de classifier chaque semaine selon une règle fixe.
Nous calculons l’ATR (un indicateur de volatilité) sur la dernière bougie visible – c’est-à-dire celle sur laquelle nous pourrions entrer en position. Ensuite, nous comparons cette valeur au prix de la dernière bougie cachée, qui correspond au point de sortie potentiel. En fonction de l’écart entre ces deux closes :
- Si le prix final dépasse le prix d’entrée de +1 ATR, la semaine est dite « haussière ».
- S’il est en dessous de –1 ATR, elle est dite « baissière ».
- Si l’écart reste compris entre ces deux bornes, la semaine est considérée comme « neutre ».
2- Le portefeuille – Gagner de l’argent ou non ! Nous simulons un backtest pour mesurer la performance réelle d’un portefeuille basé sur les signaux donnés par l’IA.
Nous allons donc maintenant tester l’effet de ces différents paramètres selon ces deux critères.
Le banc d’essai de départ
Définissons le setup de départ, notre référence contre laquelle nous allons comparer tous nos tests
- Modèle : GPT-4.1 (rapport qualité-prix correct https://platform.openai.com/docs/pricing).
- Période : année 2024.
- Timeframe : bougies 4 h.
- Contexte visible : 3 semaines, puis 1 semaine masquée.
- Aucun indicateur ajouté a nos chart pour commencer.
Le code est disponible gratuitement ici : https://github.com/CryptoRobotFr/gpt-vision-trader
Premières leçons (et premières surprises)
- Contexte minimal = précision minimale. Avec moins de cinq semaines d’historique, l’IA dépasse rarement 35 % de bonnes réponses, quel que soit le pas de temps.
- Plus on lui montre d’historique, plus elle se débrouille. Entre 9 et 14 semaines de contexte en 4 h, la précision grimpe au-dessus de 50 %.
- Daily vs 4 h : en daily, douze semaines passent encore, mais au-delà le graphique devient illisible et la précision retombe.
- Biais haussier marqué. ChatGPT identifie bien les marchés en hausse, se débrouille à peu près sur les baisses, mais échoue souvent sur les phases neutres. En d’autres termes, chatGPT identifie les tendances facilement lisible. Peu importe les outils, les marchés neutres restent une vraie bête noire à repérer !
Ce que changent vraiment les indicateurs
- Ajout de deux moyennes mobiles 20/50 → +15 points de précision globale (~ 70 %). Surtout, la détection des marchés neutres dépasse enfin 50 %.
- En revanche, ajouter RSI, ATR ou MACD en subplot n’apporte rien ; voire dégrade la précision. Trop d’informations techniques semblent brouiller l’IA. Cela reste à confirmer avec davantage de statistiques.
Trois ans de backtest, les resultats
Nous avons déroulé la méthode sur 2022 → 2025, avec donc 12 semaines visibles, une cachée, une timeframe de 4h, et les deux moyennes mobiles. Pour rappel, les règles sont très simples : Long si ChatGPT voit une semaine haussière, Flat si neutre, Short si baissière, et l’on ajuste à chaque nouvelle semaine.
Les résultats sont hallucinants :
- ROI : 14 964.12%
- Win Rate : 85.45%
- Max Drawdown : 33.58%
Par curiosité, et aussi pour obtenir une sorte de référence de performance "maximale", nous avons lancé le même backtest en nous basant cette fois sur nos propres choix bullish / bearish / neutral, selon notre définition basée sur l’ATR.
Résultats :
- ROI : 123 838.87%
- Win Rate : 100.00%
- Max Drawdown : 24.95%
Ce qui nous montre que ChatGPT se débrouille vraiment bien en comparaison… peut être même trop bien.
Nous tenons donc à exprimer un certain scepticisme. Les résultats de ChatGPT sont peut-être dans la case “trop beaux pour être vrais”. Il se peut qu’il y ait une erreur dans le code ou un biais dans les réponses de ChatGPT. Il va donc falloir plus de regards extérieurs, plus de réflexion, plus de tests pour valider, ou non, ces résultats.
Pour “la route”, nous avons aussi lancé le même backtest avec le modèle GPT-4o-mini, facturé moins cher. Les performances sont sensiblement inférieures, ce qui montre que le choix du modèle est aussi important que le reste du protocole, sans grande surprise.
Où aller maintenant ?
- Être challengé ! Au vu de ces résultats hallucinants, nous avons besoin que des personnes extérieures challengent le code et la méthode. Des tests indépendants de confirmation ou de rejet seraient extrêmement précieux pour valider, ou invalider, notre approche.
- Horizon quotidien ? Tester la même idée sur des trades de 24 h pour voir si l’IA réagit mieux aux micro-mouvements.
- Boucles d’expériences automatisées : faire tourner tous les paramètres (timeframe, longueur d’historique, indicateurs) et archiver chaque métrique dans un tableau de bord.
- Contexte enrichi : supports / résistances, figures chartistes, données macro (inflation, corrélations)… autant de pistes pour donner un œil « d’expert » à ChatGPT.
À vous de jouer !
Vous testez de votre côté ? Partagez vos scripts, vos résultats et vos observations sur notre Discord : plus nous serons nombreux à bidouiller, plus vite, nous saurerons si une vraie edge se cache dans ces images… ou s’il vaut mieux retourner lancer une pièce !
Commentaires ()