L'examen CT-AI v2.0
Syllabus ISTQB® Certified Tester AI Testing v2.0 — GA 17/04/2026
| Format | 40 questions QCM, 4 choix, une seule bonne réponse |
| Durée | 60 minutes (75 minutes si l'examen n'est pas dans votre langue maternelle) |
| Barème | 44 points au total — 36 questions à 1 point, 4 questions à 2 points (une dans chacun des chapitres 3, 4, 5 et 6) |
| Seuil de réussite | 29 / 44 points (65 %) |
| Points négatifs | Aucun — répondez toujours à toutes les questions |
| Prérequis | Certificat ISTQB® CTFL obligatoire |
| Niveaux K | K1 (mémoriser), K2 (comprendre), K3 (appliquer) — pas de K4 à l'examen |
Répartition officielle des questions
| Chapitre | Questions | Points |
| 1 — Introduction à l'IA | 6 | 6 |
| 2 — Caractéristiques qualité (ISO/IEC 25059) | 3 | 3 |
| 3 — Machine Learning | 7 | 8 (1 question à 2 pts) |
| 4 — Tester les systèmes à base d'IA | 5 | 6 (1 question à 2 pts) |
| 5 — Test des données d'entrée | 8 | 9 (1 question à 2 pts) |
| 6 — Test des modèles ML | 9 | 10 (1 question à 2 pts) |
| 7 — Test du développement ML | 2 | 2 |
⚠ Piège récurrent
Ne confondez pas CT-AI et CT-GenAI : le CT-AI porte sur le test des systèmes d'IA ;
le CT-GenAI porte sur l'utilisation de l'IA pour tester. Le chapitre « tester avec l'IA » a été retiré du CT-AI v2.0.
Non examinable : l'introduction (chapitre 0), les objectifs hands-on (HO), les références et les annexes du syllabus.
Les niveaux K en pratique
| Niveau | Signifie | Formulation type à l'examen |
| K1 Mémoriser | Se rappeler un terme ou un concept | « Lequel des termes suivants désigne… » |
| K2 Comprendre | Expliquer, comparer, classer, donner des exemples | « Lequel des énoncés suivants décrit le mieux… » |
| K3 Appliquer | Appliquer une procédure à un scénario donné | « Dans le scénario suivant, quelle technique / quel calcul… » |
Les 4 objectifs K3 du syllabus (donc les 4 questions à 2 points probables) :
AI-3.3.1 (calculer les métriques depuis une matrice de confusion),
AI-4.2.2 (mettre en œuvre le red teaming),
AI-5.1.5 (appliquer le dataset constraint testing),
AI-6.1.5 (dériver des cas de test métamorphiques).
1 — Introduction à l'intelligence artificielle
Durée syllabus : 120 min · 8 objectifs (tous K2) · 6 questions à l'examen
Mots-clés : système à base d'IA (AI-based system), intelligence artificielle, IA générale (general AI), apprentissage automatique (machine learning), framework de développement ML, IA étroite (narrow AI), super IA (super AI)
AI-1.1.1K2
Systèmes à base d'IA et systèmes conventionnels
Un système conventionnel est programmé avec des instructions explicites (if-then-else, boucles).
Son comportement est déterministe, prévisible et transparent : mêmes entrées → mêmes sorties.
Un système à base d'IA (surtout s'il repose sur le ML) ne suit pas de règles prédéfinies :
il apprend des motifs (patterns) dans les données pour répondre à de nouvelles entrées.
| Différence | En clair |
| Résolution de problème | L'IA s'appuie sur le raisonnement probabiliste, l'inférence statistique et la reconnaissance de motifs → les sorties ne sont pas toujours prévisibles |
| Explicabilité | Les architectures de deep learning peuvent contenir des milliards de paramètres : c'est le problème de la « boîte noire » (black box) — critique en santé, finance, défense, transport |
| Adaptabilité | Un système conventionnel est statique ; un système IA peut être auto-apprenant (self-learning) et continuer à évoluer avec de nouvelles données → surveillance continue obligatoire |
⚠ Piège d'examen
« Les systèmes IA sont toujours moins précis / les systèmes conventionnels sont plus flexibles » : les affirmations absolues (« toujours », « jamais ») sont presque toujours de mauvaises réponses. La bonne distinction : règles explicites vs apprentissage depuis les données.
AI-1.1.2K2
IA étroite, IA générale et super IA
| Type | Autre nom | À retenir |
| IA étroite (narrow AI) | weak AI | Exécute des tâches spécifiques. Toute l'IA déployée aujourd'hui est de l'IA étroite ; elle ne généralise pas au-delà de ses fonctions apprises. La frontier AI (IA de pointe, dont la GenAI à grande échelle) en est la forme la plus avancée — mais reste de l'IA étroite. |
| IA générale (general AI) | strong AI | Égale les capacités cognitives humaines sur la plupart des tâches intellectuelles ; apprend sans réentraînement. N'existe pas encore. |
| Super IA (super AI) | superintelligence artificielle | S'améliore seule sans intervention humaine et dépasse l'intelligence humaine. Théorique. Le passage de l'IA générale à la super IA = « singularité technologique » (technological singularity). |
⚠ Piège d'examen
ChatGPT et les LLM de pointe restent de la narrow AI (frontier AI), pas de l'IA générale. La super IA est théorique, l'IA générale n'existe pas encore.
AI-1.1.3K2
Les différentes technologies d'IA
Hiérarchie à connaître : IA ⊃ ML ⊃ Deep Learning. L'IA est le domaine le plus large ; l'apprentissage automatique (ML) en est une branche centrale ; le deep learning (DL) est un sous-ensemble du ML utilisant des réseaux de neurones profonds.
Les 3 formes d'apprentissage automatique :
- Apprentissage supervisé (supervised learning) — données étiquetées (labeled). Algorithmes : régression linéaire, arbres de décision. Tâches : prédiction, classification.
- Apprentissage non supervisé (unsupervised learning) — données non étiquetées. Techniques : algorithmes de clustering. Tâches : clustering (regroupement), association.
- Apprentissage par renforcement (reinforcement learning) — un agent apprend par essai-erreur avec récompenses/pénalités. Applications : robotique, véhicules autonomes, chatbots.
Technologies ML clés : réseaux de neurones, modèles bayésiens, machines à vecteurs de support (SVM), forêts aléatoires (random forests).
Deep learning (DL) — réseaux de neurones profonds :
- CNN (réseaux convolutifs) — reconnaissance d'images, détection d'objets ;
- RNN (réseaux récurrents) — données séquentielles (texte, séries temporelles) ;
- Transformers — dépendances à longue portée ; au cœur des modèles de NLP et de vision.
Autres technologies d'IA spécialisées : NLP (analyse de sentiment, traduction automatique), vision par ordinateur, logique floue (fuzzy logic — raisonnement sous incertitude), algorithmes de recherche (navigation, décision stratégique), systèmes experts / à base de règles, et IA agentique (agentic AI) — agents autonomes qui planifient, raisonnent et agissent indépendamment.
⚠ Piège d'examen
Mémorisez quelle forme d'apprentissage va avec quelle tâche : classification et régression → supervisé ; clustering et association → non supervisé ; récompenses/pénalités → renforcement.
AI-1.1.4K2
L'IA générative (GenAI)
La GenAI crée du contenu nouveau (texte, images, vidéo, musique, données complexes) ; beaucoup de systèmes GenAI font aussi de la classification et de la prédiction. Ils apprennent sur d'immenses volumes de données pour produire des sorties ressemblant aux données d'entraînement.
| Technologie cœur | Principe |
| GAN (réseaux antagonistes génératifs) | Deux réseaux de neurones en compétition pour créer des données synthétiques réalistes |
| Modèles de diffusion | Ajout puis retrait progressif de bruit pour produire des sorties de haute qualité |
| Transformers | Mécanismes d'auto-attention (self-attention) ; base des LLM ; adaptés au multimodal |
Préoccupations sociétales et éthiques : mésusage (deepfakes, désinformation, contenus frauduleux) ; impact sur l'emploi (automatisation de l'écriture, du design, du code, de la documentation juridique/médicale) ; durabilité (consommation d'énergie et empreinte carbone élevées).
Tendances actuelles : modèles de fondation (foundation models) affinés pour des applications spécifiques ; modèles multimodaux ; cadres réglementaires (EU AI Act).
AI-1.1.5K2
Le matériel pour les systèmes ML
Besoins du ML : grandes structures de données, traitement massivement parallèle, arithmétique en faible précision (quantization — p. ex. 4 bits au lieu de 32).
| Matériel | Caractéristiques | Idéal pour |
| CPU | Peu de cœurs, haute précision, fréquence élevée | Usage général ; moins efficace pour le ML |
| GPU | Des milliers de cœurs, massivement parallèle | Charges ML petites à moyennes |
| ASIC / System-on-Chip | Conçu sur mesure, traitement en mémoire, multi-cœurs | Edge computing (modèle entraîné dans le cloud) |
| Processeurs neuromorphiques | Inspirés du cerveau, architecture non-von Neumann | Émergent ; imite les structures neuronales |
Le matériel peut différer entre entraînement et inférence : un modèle de reconnaissance vocale tourne sur smartphone mais a été entraîné dans le cloud.
AI-1.1.6K2
Développement et hébergement des modèles d'IA
Options d'acquisition :
- Tiers / AIaaS (AI as a Service) — modèles préentraînés, déploiement plus rapide, mise sur le marché accélérée ;
- Privé (on-premises ou cloud sur mesure) — mieux adapté aux exigences ; demande des compétences spécialisées.
| Hébergement | Avantages | Inconvénients |
| Local (PC / smartphone) | Confidentialité, pas de coûts de licence cloud | Matériel limité |
| Serveurs on-premises dédiés | Contrôle renforcé | Investissement initial élevé |
| Cloud public | Évolutif, paiement à l'usage, sans maintenance | Considérations de sécurité |
| Cloud privé | Sécurité renforcée, personnalisation | Coût plus élevé |
| Hybride | Équilibre efficacité / contrôle | Complexité |
Le choix optimal dépend de : taille et complexité du modèle, exigences de performance, budget, sécurité/confidentialité, besoins de déploiement, exigences réglementaires.
AI-1.1.7K2
Les frameworks de développement ML
Fonctionnalités typiques d'un framework ML (p. ex. TensorFlow, PyTorch) :
| Fonction | Contenu |
| Gestion des données (data handling) | Chargement, prétraitement, gestion des données d'entraînement et de test |
| Construction du modèle | Bibliothèques d'algorithmes ML ; conception d'architectures de réseaux de neurones (couches, connexions) |
| Entraînement et optimisation | Ajustement itératif des paramètres ; entraînement distribué ; fine-tuning |
| Évaluation | Accuracy, precision, recall pour la classification ; taux d'erreur pour la régression |
| Déploiement | Conversion du modèle pour web, mobile, edge, systèmes embarqués |
Critères de sélection : domaine d'application, interface conviviale, configurabilité, expertise des utilisateurs, contraintes de déploiement, support de la communauté, maturité de l'écosystème.
AI-1.1.8K2
Réglementations et normes pour l'IA
Objectif : instaurer la confiance, promouvoir les bénéfices et atténuer les risques (usage sûr, équitable, transparent, durable, responsable et éthique).
| Instrument | Type | Focus |
| Principes IA de l'OCDE | Droit souple (soft law) | IA centrée sur l'humain, considérations éthiques, coopération internationale |
| ONU « Governing AI for Humanity » | Droit souple | Gouvernance responsable de l'IA |
| EU AI Act | Droit contraignant (hard law) | Approche par les risques (minimal → inacceptable) ; exigences strictes pour les systèmes à haut risque ; sanctions financières importantes |
| ISO/IEC TR 29119-11 | Norme technique | Test des systèmes à base d'IA |
| Série ISO/IEC 42119 | Norme technique (en développement) | Différents aspects du test des systèmes IA |
Beaucoup de pays hors UE préfèrent des réglementations plus légères pour encourager l'innovation. Des réglementations sectorielles émergent (santé, finance).
⚠ Piège d'examen
Seul l'EU AI Act est du droit contraignant (« hard law ») dans cette liste ; OCDE et ONU = « soft law ». Retenez son approche par les risques : minimal → limité → élevé → inacceptable.
2 — Caractéristiques qualité des systèmes à base d'IA
Durée syllabus : 45 min · 3 objectifs (tous K2) · 3 questions à l'examen
Mots-clés : adaptabilité fonctionnelle (functional adaptability), exactitude fonctionnelle IA (AI functional correctness), capacité d'intervention (intervenability), robustesse IA (AI robustness), sécurité-innocuité (safety), mitigation des risques sociétaux et éthiques, transparence, contrôlabilité par l'utilisateur (user controllability)
AI-2.1.1K2
Les caractéristiques qualité spécifiques à l'IA (ISO/IEC 25059)
La norme ISO/IEC 25059 étend ISO/IEC 25010 pour couvrir les spécificités de l'IA. Elle évalue les systèmes selon deux perspectives : qualité produit (product quality) et qualité à l'usage (quality in use).
| Caractéristique | Catégorie | En clair |
| Exactitude fonctionnelle IA (AI functional correctness) | Qualité produit | L'IA ne peut pas garantir une exactitude parfaite : on évalue les sorties correctes/incorrectes et on définit des seuils acceptables |
| Adaptabilité fonctionnelle (functional adaptability) | Qualité produit (sous-caract. de l'adéquation fonctionnelle) | Capacité à s'adapter de façon autonome aux changements de l'environnement opérationnel après déploiement |
| Contrôlabilité par l'utilisateur (user controllability) | Qualité produit (sous-caract. de la capacité d'interaction) | Un humain ou un agent externe peut intervenir à temps dans le fonctionnement du système |
| Transparence (transparency) | Qualité produit et qualité à l'usage | Degré de communication des informations appropriées sur le système IA aux parties prenantes |
| Robustesse IA (AI robustness) | Qualité produit (sous-caract. de la fiabilité) | Maintenir l'exactitude fonctionnelle malgré des entrées biaisées, adversariales ou invalides, des interférences externes, des conditions défavorables, un mésusage opérateur |
| Capacité d'intervention (intervenability) | Qualité produit (sous-caract. de la sécurité/security) | Un opérateur peut intervenir à temps pour prévenir un dommage ou un danger |
| Mitigation des risques sociétaux et éthiques | Qualité à l'usage (sous-caract. de l'absence de risque / freedom from risk) | Responsabilité (accountability), équité / non-discrimination, vie privée, sûreté, contrôle humain, durabilité environnementale, pratiques de travail… |
⚠ Piège d'examen
Sachez classer un comportement dans la bonne caractéristique : discrimination → mitigation des risques sociétaux et éthiques ; résistance aux entrées perturbées → robustesse IA ; opérateur qui reprend la main pour éviter un danger → intervenability (rattachée à la security) ; humain qui pilote le système → user controllability (interaction). Distinguez aussi les deux perspectives : seule la mitigation des risques sociétaux/éthiques est côté quality in use (la transparence est des deux côtés).
AI-2.1.2K2
IA et sécurité-innocuité (safety)
Les systèmes IA liés à la sécurité (safety-related) posent des défis supplémentaires par rapport aux systèmes de sécurité non-IA :
| Défi | En clair |
| Spécifications | Les exigences IA partent souvent d'objectifs vagues, fournis implicitement via les données d'entraînement ; la traçabilité exigences → implémentation peut être insuffisante |
| Non-déterminisme | Même un modèle rigoureusement testé peut avoir un comportement inattendu (génération de nombres aléatoires, légères variations d'entrée) |
| Auto-apprentissage (self-learning) | Le comportement s'éloigne progressivement du comportement testé à l'origine, après déploiement |
| Explicabilité et transparence | Processus de décision souvent opaques ; des outils comme LIME donnent des aperçus partiels mais ne sont pas largement disponibles |
| Réglementations en évolution | L'IA n'est pas couverte par les normes de sécurité fonctionnelle matures ; certaines interdisent son usage ; l'EU AI Act classe les composants de sécurité IA (aviation, dispositifs médicaux, automobile) comme haut risque |
⚠ Piège d'examen
Distinguez safety (sécurité-innocuité : absence de dommage aux personnes/biens) et security (sécurité informatique : protection contre les attaques). Les deux mots se traduisent par « sécurité » en français — l'examen français précise généralement le contexte.
AI-2.2.1K2
Critères d'acceptation pour les systèmes à base d'IA
Pour les systèmes IA, les critères d'acceptation sont souvent statistiques, probabilistes ou à base de seuils plutôt que binaires (réussite/échec).
| Caractéristique | Exemples de critères d'acceptation |
| Exactitude fonctionnelle IA | Accuracy ≥ 95 % pour la reconnaissance d'images ; recall ≥ 90 % pour la prédiction de défauts |
| Adaptabilité fonctionnelle | Le contrôle moteur s'adapte en 20 s après franchissement d'un seuil d'altitude ; le service de streaming ajuste la page d'accueil à ≥ 40 % de documentaires après 3 visionnages |
| Contrôlabilité par l'utilisateur | Le superviseur prend le contrôle du drone autonome en 0,5 s après un signal de détresse ; le système agricole notifie le fermier quand un capteur se dégrade de > 30 % |
| Transparence | Informations suffisantes sur le modèle ML tiers et la provenance des données d'entraînement ; l'API retourne l'identifiant de version du modèle déployé |
| Robustesse IA | Prédictions du système d'alerte en < 1 s quand la base est perturbée 30 s ; l'appareil edge passe en mode dégradé à > 85 °C pendant 10 s |
| Capacité d'intervention | Arrêt de la chaîne de production en 0,5 s en cas d'intrusion en zone de sécurité ; le réseau électrique laisse 30 s à l'ingénieur pour opposer un veto aux actions critiques proposées par l'IA |
| Mitigation des risques sociétaux et éthiques | Le système d'aide à la détermination des peines ne discrimine pas entre groupes ; le chatbot passe une évaluation de red teaming avec un score ≥ 95 % |
| Safety | Les composants non-IA sont conformes ISO 26262-6 niveau ASIL C ; 100 % des relations entrée/sortie ML cartographiables avec ≥ 99,9 % d'exactitude ; les signaux hors limites de > 10 % sont régulés en 0,15 s |
⚠ Piège d'examen
Un bon critère d'acceptation IA est quantifiable et lié à la qualité IA (seuil statistique + métrique). « Le système doit être testé par 3 testeurs » ou « développé avec les derniers frameworks » ne sont pas des critères d'acceptation.
3 — Machine Learning
Durée syllabus : 375 min (le plus long) · 8 objectifs examinables dont 1 K3 · 7 questions à l'examen (dont 1 à 2 pts)
Mots-clés : couverture des neurones par k-sections (k-multisection neuron coverage), critères de performance fonctionnelle ML, métrique de performance fonctionnelle ML, modèle ML, couverture des limites des neurones (neuron boundary coverage), couverture des neurones (neuron coverage), perceptron · association, classification, clustering, préparation des données, apprentissage automatique, algorithme ML, framework de développement ML, workflow ML, modèle préentraîné (pretrained model), régression ML, apprentissage par renforcement, apprentissage supervisé, apprentissage non supervisé
AI-3.1.1K2
Les différentes formes de ML
Apprentissage supervisé — données étiquetées ; le modèle apprend à associer entrées → sorties :
- Classification — affecter les entrées à des classes prédéfinies (spam / non-spam, reconnaissance d'images) ;
- Régression ML — prédire une valeur numérique continue (estimation d'âge, cours de bourse).
⚠ Piège d'examen
« Régression ML » ≠ « test de régression » des autres syllabus ISTQB (défauts liés aux changements). Ici, la régression ML prédit une valeur numérique continue.
Apprentissage non supervisé — données non étiquetées ; déduction de motifs :
- Clustering — regrouper les points de données par similarité (segmentation client) ;
- Association — identifier des relations/dépendances (recommandation de produits selon les achats).
Apprentissage par renforcement — un agent apprend en interagissant avec l'environnement via récompenses/pénalités. Défis : mise en place de l'environnement, conception de la fonction de récompense (reward function), choix de la stratégie. Applications : robotique, véhicules autonomes, chatbots adaptatifs.
AI-3.1.2K2
Le workflow ML
Ordre à connaître par cœur :
Comprendre les objectifs → Choisir un framework → Choisir & construire l'algorithme → Préparer & tester les données → [Génération du modèle : Entraîner ⇄ Évaluer ⇄ Ajuster] → Tester le modèle → Déployer → Utiliser → Surveiller & ajuster (→ réentraîner)
| Étape | En clair |
| Comprendre les objectifs | Définir la finalité ; aligner avec les priorités métier ; définir les critères d'acceptation et les métriques de performance fonctionnelle ML |
| Choisir un framework | Selon objectifs, critères d'acceptation, priorités métier |
| Choisir & construire l'algorithme | Selon objectifs, critères d'acceptation, données disponibles ; souvent depuis une bibliothèque logicielle |
| Préparer & tester les données | Acquisition, prétraitement, feature engineering ; EDA ; les données doivent être représentatives des données opérationnelles |
| Entraîner le modèle | L'algorithme ML utilise les données d'entraînement ; on configure les hyperparamètres du modèle (structure : couches, profondeur d'arbre) et les hyperparamètres de l'algorithme (contrôle de l'entraînement : itérations) |
| Évaluer le modèle | Comparaison aux métriques avec le dataset de validation ; comparaison de plusieurs modèles/algorithmes |
| Ajuster le modèle (tune) | Ajuster les hyperparamètres selon l'évaluation ; réentraîner |
| Tester le modèle | Avec le dataset de test indépendant ; vérifier les critères de performance fonctionnelle ML ; tests non fonctionnels aussi |
| Déployer le modèle | Réingénierie pour la plateforme cible (embarqué, API cloud/web) ; tester le modèle réingénié |
| Utiliser le modèle | Intégré dans un système IA plus large ; prédictions par lots ou en temps réel |
| Surveiller & ajuster | Évaluation régulière contre les critères d'acceptation ; détection et gestion de la dérive (drift) ; A/B testing pour les mises à jour |
⚠ Piège d'examen
La « génération du modèle » (model generation) = Entraîner + Évaluer + Ajuster — exactement ces trois activités, en boucle. « Tester le modèle » vient APRÈS, avec le dataset de test indépendant. L'évaluation utilise le dataset de validation, le test utilise le dataset de test.
Un modèle ML ne se déploie généralement pas isolément : son intégration avec des composants non-ML exige des tests de composants, système et acceptation.
AI-3.1.4K2
Modèles préentraînés, fine-tuning et RAG
Fine-tuning (affinage) :
- Part d'un réseau de neurones préentraîné et l'adapte à une nouvelle tâche ;
- Demande beaucoup moins de données qu'un entraînement complet ;
- Peut s'appliquer au réseau entier, à certaines couches (proches de la sortie) ou à des couches ajoutées ;
- Le succès dépend de la similarité entre la tâche d'origine et la nouvelle : adapter un classifieur de races de chats aux races de chiens → efficace ; l'adapter à des accents parlés → peu efficace.
RAG (retrieval-augmented generation, génération augmentée par récupération) :
- Fournit au LLM des sources de données spécifiques à la tâche ;
- Les sources sont transformées en format interrogeable et comparées au prompt ;
- Les documents pertinents sont incorporés dans un prompt enrichi → réponses plus précises ;
- Le modèle préentraîné n'est PAS modifié.
Un modèle préentraîné peut utiliser RAG, fine-tuning ou les deux. Les biais et vulnérabilités du modèle préentraîné sont hérités — il faut donc les tester.
⚠ Piège d'examen
Fine-tuning = modifie les poids du modèle. RAG = enrichit le prompt, ne modifie PAS le modèle. C'est LA distinction attendue.
AI-3.2.1K2
Les activités de préparation des données
La préparation des données est l'une des activités les plus cruciales et les plus coûteuses en ressources du workflow ML. Elle est intrinsèquement liée au pipeline de données (data pipeline).
| Activité | Contenu |
| 1. Acquisition des données | Identifier les types de données pertinents (numériques, catégorielles, images, texte) ; collecter (bases de données, API, capteurs temps réel) ; étiqueter (labeling) pour l'apprentissage supervisé ; vérifier exactitude et cohérence |
| 2. Prétraitement (preprocessing) | Nettoyage : suppression des défauts, doublons, valeurs aberrantes (outliers) ; imputation des valeurs manquantes (moyenne/médiane/mode) ; anonymisation des données personnelles · Transformation : mise à l'échelle, normalisation, conversion de format · Augmentation : accroître l'échantillon, exemples adversariaux pour la robustesse, données synthétiques · Échantillonnage (sampling) : sous-ensembles pour réduire temps et coût d'entraînement |
| 3. Feature engineering | Sélection des features pertinentes selon leur contribution à la performance ; extraction de features informatives et non redondantes |
En parallèle — l'analyse exploratoire des données (EDA) : découvrir tendances, motifs, anomalies ; visualiser les données (graphiques, diagrammes).
La préparation des données est itérative et souvent manuelle. Les données opérationnelles doivent correspondre aux caractéristiques des données d'entraînement.
AI-3.2.3K2
Datasets d'entraînement, de validation et de test
| Dataset | Rôle |
| Entraînement (training) | Entraîner le modèle |
| Validation | Évaluer et ajuster (tuner) le modèle pendant la génération |
| Test (holdout) | Tester le modèle ajusté — indépendant, jamais utilisé pendant l'entraînement |
Quand les données sont limitées : une division en trois risque le sous-apprentissage (underfitting). Stratégie : petit jeu de test (holdout) + validation croisée k-fold sur le reste (k = 5 ou 10 en général) :
- Données divisées en k plis (folds) ; modèle entraîné sur k−1 plis, validé sur le pli restant ; répété k fois ;
- Les métriques sont moyennées sur les k itérations → estimation fiable de la généralisation ;
- Modèle final entraîné sur toutes les données sauf le holdout ; évalué une seule fois sur le holdout.
La quantité de données nécessaire dépend de : la complexité attendue du modèle, l'algorithme utilisé, les ressources disponibles (RAM, disque, calcul, réseau, temps), la confiance souhaitée dans le modèle.
⚠ Piège d'examen
Validation = pour ajuster les hyperparamètres. Test = vérification finale indépendante. Si une option dit « le dataset de validation sert au test final », elle est fausse.
AI-3.3.1K3
Calculer les métriques de performance fonctionnelle ML (matrice de confusion)
La matrice de confusion résume les résultats d'un classifieur binaire :
| Réel positif | Réel négatif |
| Prédit positif | Vrai positif (TP) | Faux positif (FP) |
| Prédit négatif | Faux négatif (FN) | Vrai négatif (TN) |
| Métrique | Formule | Sens |
| Accuracy (exactitude) | (TP+TN)/(TP+TN+FP+FN) | % de toutes les classifications qui sont correctes |
| Precision (précision) | TP/(TP+FP) | Parmi les prédits positifs, combien le sont vraiment — confiance dans les prédictions positives |
| Recall (rappel, sensibilité) | TP/(TP+FN) | Parmi les réels positifs, combien sont détectés — confiance qu'aucun positif n'est manqué |
| F1-score | 2×(P×R)/(P+R) | Moyenne harmonique précision/rappel ; proche de 100 = les deux sont élevés |
Moyens mnémotechniques :
- Precision : dénominateur = tout ce qui est Prédit positif (TP+FP). « P comme Prédit ».
- Recall : dénominateur = tout ce qui est Réellement positif (TP+FN). « R comme Réel ».
- Diagnostic médical : rater un malade = FN grave → on veut un recall élevé. Alerte spam : accuser à tort = FP gênant → on veut une precision élevée.
Exemple travaillé (type examen, 2 pts). TP=150, FP=30, FN=20, TN=800.
Precision = 150/(150+30) = 150/180 = 83,3 % · Recall = 150/(150+20) = 150/170 = 88,2 % ·
Accuracy = (150+800)/1000 = 95 % · F1 = 2×(0,833×0,882)/(0,833+0,882) ≈ 85,7 %.
⚠ Les options inversent souvent precision et recall : vérifiez l'ordre !
AI-3.4.1K2
Structure et fonctionnement d'un réseau de neurones profond
Perceptron (monocouche) : une couche, un neurone ; apprentissage supervisé pour des classifieurs binaires sur des problèmes linéairement séparables (ex. spam / non-spam).
Réseau de neurones profond (DNN) = perceptron multicouche : couche d'entrée → plusieurs couches cachées → couche de sortie.
Calcul effectué par chaque neurone :
- Somme pondérée des valeurs d'activation des neurones connectés de la couche précédente ;
- Ajout du biais (bias) propre au neurone ;
- Passage dans une fonction d'activation non linéaire → produit la valeur d'activation.
Processus d'entraînement :
- Poids et biais initialisés à de petites valeurs aléatoires ;
- Les données d'entraînement traversent le réseau (passe avant / forward pass) → sortie générée ;
- Sortie comparée au résultat correct connu → calcul de l'erreur (loss) ;
- L'erreur est propagée en arrière (rétropropagation / backpropagation) → ajustement des poids et biais ;
- Un passage complet sur les données d'entraînement = une epoch ;
- On continue jusqu'à ce que la sortie soit suffisamment bonne.
⚠ Piège d'examen
La backpropagation propage l'erreur en arrière pour ajuster poids et biais — elle n'initialise pas les poids, ne choisit pas les données, ne définit pas l'architecture.
AI-3.4.3K2
Les mesures de couverture pour les réseaux de neurones
Un réseau de neurones n'a pas de chemins codés explicitement (le comportement vient des poids, biais et activations appris) → il faut des mesures de couverture spécialisées :
| Mesure | Définition |
| Neuron coverage (couverture des neurones) | Proportion de neurones dont la sortie dépasse un seuil spécifié pendant les tests |
| k-multisection neuron coverage (kMNC) | La plage de sortie de chaque neurone est divisée en k sections ; proportion de sections activées pendant les tests |
| Neuron boundary coverage (NBC) | Proportion de neurones dont la sortie dépasse le max ou passe sous le min atteints pendant l'entraînement |
Limites : la couverture structurelle seule ne garantit pas la généralisation ; les réseaux peuvent apprendre des corrélations fallacieuses (spurious). À compléter par du test adversarial et du test métamorphique.
⚠ Piège d'examen
kMNC = sections de la plage observée à l'entraînement ; NBC = au-delà des bornes observées à l'entraînement (zones extrêmes). Neuron coverage simple = dépassement d'un seuil fixé.
Hands-on non examinables : HO-3.1.3 (créer un modèle ML), HO-3.2.2 (préparation de données), HO-3.3.2 (évaluer un modèle), HO-3.3.3 (impact modèles × datasets), HO-3.4.2 (implémentation d'un perceptron).
4 — Tester les systèmes à base d'IA
Durée syllabus : 195 min · 7 objectifs examinables dont 1 K3 · 5 questions à l'examen (dont 1 à 2 pts)
Mots-clés : attaque (attack), test exploratoire, test basé sur les risques (risk-based testing), oracle de test · système IA adaptatif (adaptive AI-based system), système à base d'IA, IA générative, grand modèle de langage (LLM), système IA verrouillé (locked AI-based system)
AI-4.1.1K2
Systèmes IA verrouillés (locked) et adaptatifs (adaptive)
| Type | Description | Exemples | Testabilité |
| Système verrouillé (locked) | Ne change pas de comportement après déploiement ; poids et biais figés après l'entraînement | DNN déployé pour la détection de voie, reconnaissance de panneaux | Plus facile — largement déterministe ; un système mis à jour = un nouveau système à retester |
| Système adaptatif (adaptive) | Adapte son comportement une fois déployé (fonction de récompense, nouvel environnement) | Apprentissage par renforcement, moteurs de recommandation e-commerce | Plus complexe — peut changer de comportement pendant les tests |
Beaucoup de systèmes GenAI (chatbots LLM) sont déployés comme modèles verrouillés mais mis à jour périodiquement → entre les deux catégories.
⚠ Même un système verrouillé peut être non déterministe en pratique (précision en virgule flottante, calcul parallèle GPU).
Tester un système adaptatif : tests rigoureux avant déploiement (simulation des changements d'environnement, test des mécanismes d'apprentissage) ; les comportements nouveaux imprévisibles ne peuvent pas être testés à l'avance ; suite de tests automatisée pour les fonctions cœur, exécutée à chaque changement significatif ; surveillance continue de la dégradation des performances.
AI-4.1.2K2
Pourquoi une approche statistique est souvent nécessaire
| Raison | En clair |
| Non-déterminisme | Les systèmes IA sont probabilistes : mêmes entrées ≠ toujours mêmes sorties. Un test isolé ne reflète pas l'exactitude globale ; il faut une suite de tests assez grande pour la signification statistique |
| Évaluation distributionnelle | Le modèle est entraîné sur des distributions qui peuvent différer de l'environnement opérationnel → échantillon statistiquement significatif de scénarios opérationnels |
| Incertitude et biais | Le test statistique quantifie exactitude, équité et robustesse : intervalles de confiance, tests d'hypothèses, analyse d'erreurs |
| Contexte réglementaire et safety | Les industries réglementées doivent démontrer les seuils de sécurité/équité avec une confiance élevée |
AI-4.1.3K2
Oracles de test pour les systèmes IA
Le problème de l'oracle de test (test oracle problem) : déterminer si la sortie est correcte pour une entrée donnée.
Pourquoi c'est difficile avec l'IA :
- Sorties probabilistes et non déterministes — un verdict strict exige des seuils / plages de tolérance ;
- Développement exploratoire, spécifications incomplètes ou évolutives ;
- Complexité des tâches — trop complexes pour une vérification humaine ;
- Subjectivité — les attentes utilisateurs varient (assistants virtuels) ;
- Systèmes auto-apprenants — le comportement « correct » change avec le temps ; les résultats attendus initiaux deviennent invalides.
| Solution | En clair |
| Limites de sortie (output boundaries) | Plages acceptables convenues, distributions, limites spécifiées (ex. distance d'arrêt d'un véhicule autonome) |
| Limites environnementales | Spécifier les conditions de l'environnement de test (éclairage, température, latence réseau) |
| Consultation d'experts | Des experts du domaine définissent les résultats attendus (opinions divergentes ou faillibles possibles) |
| Tests spécialisés | A/B testing, back-to-back testing, test métamorphique — comparer des comportements sans résultats attendus explicites |
| Oracles de substitution (proxy oracles) | Systèmes/modèles secondaires (y compris d'autres IA) pour évaluer les sorties |
AI-4.2.1K2
Tester l'IA générative
Le test de la GenAI évalue : exactitude, cohérence, créativité, originalité, exigences fonctionnelles et non fonctionnelles.
Approche courante : test boîte noire — soumettre des entrées variées (prompts, images, données partielles) et évaluer les sorties (clarté, originalité, respect des règles du domaine).
Le problème de l'explosion des entrées (input explosion problem) — les entrées sont très diverses et difficiles à contrôler :
- System prompts optionnels + prompt utilisateur (données énormes et disparates) ;
- Accès par API ;
- Multiples paramètres (température, max tokens) ;
- Fenêtre de contexte (context window) qui retient la conversation précédente.
Évaluation des sorties : revue manuelle avec critères qualitatifs ; ou un second système GenAI qui détermine automatiquement le verdict (à utiliser avec prudence — il peut reproduire des biais/erreurs similaires).
Tests non fonctionnels : utilisation des ressources (CPU/GPU, mémoire, bande passante, temps de réponse).
Suites de benchmark : cadres d'évaluation standardisés ; datasets et tâches organisés pour des comparaisons cohérentes (compréhension du langage, raisonnement, capacités de codage).
AI-4.2.2K3
Le red teaming (K3 — à savoir appliquer)
Le red teaming (RT) est une attaque de défauts systématique, souvent en boîte noire, qui sonde un système IA pour identifier ses capacités nuisibles, en particulier dans ses sorties. Origine : jeux de guerre militaires, « tiger teams » de la NASA.
But : provoquer délibérément des résultats nuisibles/indésirables — violations de vie privée, propos racistes, instructions d'attaques CBRN… Les sorties nuisibles identifiées servent à mettre à jour et renforcer le système.
Le processus RT en 5 étapes (à connaître par cœur — question K3 à 2 pts probable) :
- Assembler une équipe diverse de testeurs ;
- Fournir un accès dans un environnement de test sûr ;
- Prompter pour identifier les vulnérabilités (questions ouvertes ou checklists) ;
- Analyser les défaillances identifiées pour comprendre les menaces ;
- Créer des datasets à partir de ces menaces pour soutenir les mitigations.
Stratégies de couverture : manuelle (génération de prompts par crowdsourcing) ; automatisée (un LLM génère les prompts d'attaque, un autre vérifie les sorties) ; hybride (créativité humaine + passage à l'échelle automatisé).
Quand : le plus efficace avant le déploiement, après les premières évaluations qualité. Activité cœur : prompting interactif (dialogues multi-tours de 15 à 20 échanges).
Blue teaming : surveillance défensive en temps réel et filtrage des entrées des systèmes IA opérationnels. Les enseignements du RT améliorent les filtres du blue teaming.
Le RT couvre safety et security, mais aussi fiabilité, vie privée, équité, biais et détection de désinformation. C'est de plus en plus une attente réglementaire (EU AI Act).
⚠ Piège d'examen
Équipe diverse (pas un expert unique), environnement sûr, et la sortie du processus = des datasets construits depuis les menaces. Une option qui parle de tests de performance ou d'un seul expert avec accès illimité est fausse. Red = attaque avant déploiement ; Blue = défense en production.
AI-4.3.1K2
Les niveaux de test des systèmes ML
Deux niveaux de test spécifiques au ML :
| Niveau spécifique ML | Périmètre |
| Test des données d'entrée (input data testing — chap. 5) | Données d'entraînement ET données de production utilisées pour générer les prédictions |
| Test du modèle ML (ML model testing — chap. 6) | Test des modèles ML (produit final du workflow ML) |
Les niveaux de test conventionnels restent nécessaires :
| Niveau | Contenu pour un système ML |
| Test de composants | Composants non-IA : UI, pipeline de données, composants de communication |
| Test d'intégration de composants | Pipeline de données → entrées/sorties du modèle ; test d'API des services AIaaS |
| Test système | Performance ML dans le système complet ; surtout si le modèle a été délibérément modifié (ex. compression du DNN) ; tests non fonctionnels |
| Test d'intégration système | Interfaces et échanges de données avec les systèmes/services externes |
| Test d'acceptation | Adéquation du service IA ; vérification des critères de performance fonctionnelle ML |
AI-4.3.2K2
Test basé sur les risques des systèmes ML
La plupart des cadres réglementaires exigent une approche basée sur les risques. Les risques spécifiques au ML se catégorisent selon le workflow ML :
| Domaine | Type de risque | Exemples |
| Développement | Risques projet | Choix d'algorithme sous-optimal, mauvaise approche d'évaluation, vulnérabilités de sécurité du framework |
| Données d'entrée | Risques produit | Données d'entraînement biaisées, défauts du pipeline de données, données non représentatives |
| Modèle | Risques produit | Performance fonctionnelle ML insuffisante, modèle suraappris (overfitted), sensibilité aux exemples adversariaux |
Les risques peuvent aussi être catégorisés selon les caractéristiques qualité ISO/IEC 25059.
⚠ Piège d'examen
Risques de développement = risques projet ; risques données et modèle = risques produit.
Hands-on non examinable : HO-4.2.3 (test exploratoire d'un LLM générant des cas de test par analyse des valeurs limites 2 et 3 valeurs).
5 — Test des données d'entrée pour les systèmes ML
Durée syllabus : 180 min · 6 objectifs examinables dont 1 K3 · 8 questions à l'examen (dont 1 à 2 pts)
Mots-clés : test du pipeline de données (data pipeline testing), test de représentativité des données (data representativeness testing), test des contraintes de dataset (dataset constraint testing), test des données d'entrée (input data testing), test d'exactitude des étiquettes (label correctness testing), revue, test du biais (testing for bias) · analyse d'impact disparate (disparate impact analysis), annotation multiple (multiple annotation)
Objectif du niveau de test : confirmer que les données utilisées pour l'entraînement, le test et la prédiction sont de qualité suffisante. Moyens : revues, techniques statistiques, EDA, test statique et dynamique du pipeline de données.
AI-5.1.1K2
Risques des données d'entrée et mitigations
| Risque potentiel | Mitigations possibles |
| Défauts dans les données d'entraînement menant à un biais ; biais algorithmique | Test du biais (5.1.2) |
| Données d'entraînement de sources non fiables ; données mal gérées | Test de provenance des données (data provenance testing) |
| Données d'entraînement empoisonnées (poisoned) | A/B testing (6.1.9) ; test de provenance ; EDA (3.2.1) ; attaques de red teaming (4.2.2) |
| Dataset incohérent ; données hors plage ; mauvais types de données | Test des contraintes de dataset (5.1.5) |
| Sélection de features sous-optimale | Test des features (feature testing) |
| Dataset déséquilibré ; dataset faussé par l'augmentation ; données manquantes | Test de représentativité des données (5.1.4) |
| Directives d'étiquetage médiocres ; données ambiguës ; mauvaise annotation | Test d'exactitude des étiquettes (5.1.6) |
| Défaillances du pipeline de données ; défauts de qualité ; dégradation des performances ; failles de sécurité | Test du pipeline de données (5.1.3) |
AI-5.1.2K2
Tester le biais
Biais = différences de traitement non aléatoires et injustes fondées sur des attributs sensibles (genre, âge, origine) — souvent illégal, rend le système discriminatoire.
Deux sources :
- Biais des données (data bias) — données d'entraînement non représentatives, historiquement faussées, ou délibérément empoisonnées ;
- Biais algorithmique (algorithmic bias) — défauts dans l'algorithme, le modèle ou le framework (ex. seuil de décision pour un score de crédit).
| Approche de test | En clair |
| Revues du workflow ML | Revoir la préparation des données pour repérer l'introduction de biais |
| Revues de la documentation des datasets | Comment les données ont été collectées, annotées, quelles populations sont représentées |
| Analyse statique | Programmes de préparation de données et code du modèle ; anti-patterns, mauvaise gestion des attributs sensibles |
| EDA des données d'entraînement | Visualisation et clustering pour révéler données déséquilibrées, distributions faussées, regroupements anormaux |
| Test dynamique | Soumettre un dataset connu non biaisé ; analyser les prédictions pour des différences statistiquement significatives entre groupes sensibles |
| Test d'exactitude des étiquettes | Repérer les mauvais étiquetages créant des associations incorrectes avec les attributs sensibles |
| Analyse d'impact disparate (disparate impact analysis) | Voir encadré ci-dessous |
L'analyse d'impact disparate en 4 étapes :
- Identifier les attributs sensibles (ex. le genre) ;
- Générer des contrefactuels (counterfactuals) — ex. changer le genre dans une demande de prêt, tout le reste inchangé ;
- Générer la sortie du modèle pour l'original et le contrefactuel ;
- Analyser les résultats : des différences statistiquement significatives signalent la présence d'un biais.
Peut s'appliquer à des
combinaisons d'attributs sensibles. Les contrefactuels doivent rester
réalistes.
AI-5.1.3K2
Le test du pipeline de données
Approche en couches :
| Niveau | Focus |
| Revues de conception | Pendant la phase de conception |
| Test de composants | Ingestion de données, scripts de transformation, interfaces capteurs ; revues de code, analyse statique, tests matériels ; validation de la logique de transformation, des règles de validation, de la gestion d'erreurs, des vulnérabilités |
| Test d'intégration de composants | Flux de données fluide entre interfaces internes ; détection des interfaces incompatibles |
| Test système | Smoke testing (fonctions de base) ; test fonctionnel (transformations, routage) ; non fonctionnel (performance, scalabilité, sécurité) ; injection de fautes ; back-to-back testing (pipeline opérationnel vs pipeline d'entraînement) |
| Test d'intégration système | Interaction avec les systèmes externes (sources de données, stockage, monitoring, modèles ML) |
| Test en production | Back-to-back testing (performance constante/améliorée) ; A/B testing ; outils de surveillance continue |
| Revues de gestion de configuration | Bonnes versions du code pipeline, configurations et datasets entre entraînement / test / production |
⚠ Piège d'examen
Les pipelines d'entraînement (prototypes exploratoires) privilégient l'intégrité des données ; les pipelines opérationnels privilégient fiabilité, performance, maintenabilité.
AI-5.1.4K2
Tester la représentativité des données
Détermine à quel point les caractéristiques du dataset correspondent aux données réelles que le modèle rencontrera. Adresse : datasets faussés (skewed), données manquantes, distributions de features disproportionnées, couverture insuffisante des scénarios opérationnels, classes déséquilibrées.
Les 3 étapes :
- Définir la population cible — comprendre les cas d'usage et le contexte opérationnel ; analyser les utilisateurs finaux et environnements ; identifier les distributions attendues et les cas limites critiques (experts du domaine, systèmes existants, datasets de référence NIST/industrie) ; appliquer un échantillonnage stratifié à des données de référence représentatives ;
- Analyser les caractéristiques des données — EDA sur les datasets d'entraînement/test ET le dataset de référence ; visualiser les distributions (histogrammes, nuages de points) ; examiner relations et corrélations entre features ; identifier anomalies, lacunes, concentrations inhabituelles ;
- Appliquer une évaluation statistique — tests statistiques formels (Chi-deux, Kolmogorov-Smirnov) pour comparer les distributions ; vérifier les déséquilibres (surtout en classification) ; vérifier la couverture des cas typiques ET des cas limites.
À réaliser avant l'entraînement du modèle. Après déploiement, surveiller en continu la dérive des données (data drift).
⚠ Piège d'examen
Le dataset de référence (reference dataset) fournit une ligne de base représentant la distribution des données opérationnelles cibles — il ne remplace ni le dataset de validation ni le dataset de test.
AI-5.1.5K3
Le test des contraintes de dataset (K3 — à savoir appliquer)
Vérifie que les données respectent des règles ou contraintes prédéfinies — confirme intégrité et cohérence. Généralement automatisé dans le pipeline de données (gros volumes) ; rapports fournis aux data scientists (entraînement) ou aux équipes d'exploitation (production).
| Famille | Contrainte | Vérifie que… |
Valeur unique (par attribut, par instance) | Missing | Pas de valeurs manquantes ni d'attributs manquants |
| Range | La valeur est dans une plage donnée |
| Type | La valeur correspond au type spécifié (entier, pas chaîne/réel) |
Multi-valeurs (sur plusieurs instances d'un même attribut) | Sum | La somme des valeurs égale / dépasse / ne dépasse pas une valeur donnée |
| Count | Le nombre de valeurs non nulles égale / dépasse / ne dépasse pas une valeur donnée |
| Duplicate | Valeurs/instances identiques ou quasi identiques sous une limite (souvent zéro) |
| Useful | L'attribut contient des valeurs répétées (des valeurs uniques comme un ID ou un horodatage n'apportent aucun motif ML utile) |
| Outlier | Identification des valeurs statistiquement aberrantes |
Comparaison (entre attributs) | Greater Than | Un attribut est supérieur à un autre |
| Correlate | Les valeurs d'un attribut corrèlent avec celles d'un autre |
⚠ Piège d'examen (K3, souvent 2 pts)
On vous donne un scénario et il faut choisir les bonnes contraintes. Réflexes : « revenu positif » → Range · « âge est un entier » → Type · « pas deux fois le même client » → Duplicate · « nombre de transactions par client sous un seuil » → Count · « un ID unique n'apprend rien au modèle » → Useful · « la date de fin après la date de début » → Greater Than · « les champs obligatoires remplis » → Missing.
AI-5.1.6K2
Le test d'exactitude des étiquettes (label correctness)
Des étiquettes inexactes ou incohérentes sapent directement la performance et la généralisation du modèle ML.
| Approche | En clair |
| Revue par experts | Des experts du domaine / annotateurs formés revoient manuellement un échantillon de données étiquetées |
| Annotation multiple (multiple annotation) | Chaque donnée est étiquetée indépendamment par plusieurs annotateurs ; les désaccords sont investigués ; on mesure l'accord inter-annotateurs (IAA) — Kappa de Cohen, % d'accord ; IAA faible → directives défectueuses ou données ambiguës |
| Priorisation par les risques | Concentrer la revue sur les données probablement mal étiquetées (ambiguës, proches d'une frontière de classe) et à fort impact |
| Analyse de distribution | Comparer la distribution des étiquettes à des datasets similaires pour révéler des anomalies |
| Tests automatisés à base de règles | Règles prédéfinies sur les étiquettes (ex. les boîtes englobantes ne se chevauchent pas et ne dépassent pas les limites de l'image) |
| Analyse de la perte du modèle (model loss analysis) | Les points à perte élevée pendant l'entraînement → probablement mal étiquetés |
| Analyse des scores de confiance | Prédictions à faible confiance → mauvais étiquetage possible, ambiguïté, ou hors distribution |
Meilleurs résultats en combinant : revues d'experts → scores IAA → approches basées modèle au fil du développement.
Hands-on non examinable : HO-5.1.7 (test des données d'entrée sur un dataset tabulaire : données manquantes, doublons, outliers).
6 — Test des modèles ML
Durée syllabus : 225 min · 9 objectifs examinables dont 1 K3 · 9 questions à l'examen (dont 1 à 2 pts) — le chapitre le plus pondéré
Mots-clés : A/B testing, test adversarial (adversarial testing), back-to-back testing, dérive conceptuelle (concept drift), dérive des données (data drift), test de dérive (drift testing), test métamorphique (metamorphic testing), performance fonctionnelle ML, test du modèle ML, revue · surapprentissage (overfitting), sous-apprentissage (underfitting)
AI-6.1.1K2
Risques des modèles ML et mitigations
| Risque potentiel | Mitigation possible |
| Modèle biaisé ou injuste | Test du biais (5.1.2) |
| Modèle non éthique | Test éthique du système |
| Exemples adversariaux | Test adversarial (6.1.4) |
| Modèle suraappris (overfitted) | Test du surapprentissage (6.1.8) |
| Modèle sous-appris (underfitted) | Test du sous-apprentissage (6.1.8) |
| Dérive des données / conceptuelle inacceptable | Test de dérive (6.1.7) |
| Le modèle provoque des effets de bord | Test des effets de bord (side-effects testing) |
| Le modèle exploite sa récompense (reward hacking) | Test du reward hacking |
| Défaut d'API du modèle | Test d'API (7.1.2) |
| Performance fonctionnelle ML requise non atteinte | Test de performance fonctionnelle ML (6.1.3) |
| Incorrections fonctionnelles ; défauts non fonctionnels ; problème de l'oracle | Test métamorphique (6.1.5) ; back-to-back (6.1.10) ; A/B (6.1.9) |
| Manque de robustesse IA | Test adversarial (6.1.4) ; fuzz testing ; test exploratoire |
| Mises à jour du modèle introduisant des défauts / dégradant les performances | Back-to-back (6.1.10) / A/B (6.1.9) |
| Vulnérabilités sécurité/safety ; violations vie privée ; sorties nuisibles | Red teaming (4.2.2) |
AI-6.1.2K2
Documentation et revue des modèles ML
La documentation est critique pour les systèmes IA — défis uniques : code généré par la machine difficile à comprendre, nature boîte noire, dépendance aux données, mises à jour fréquentes. Elle soutient : communication, décisions éclairées, vérification de la qualité/maintenabilité, conformité réglementaire (obligations de transparence de l'EU AI Act).
| Cadre de documentation | Contenu |
| Model Cards | Aperçu concis des usages prévus, résultats d'évaluation, considérations éthiques |
| Datasheets for Datasets | Format standardisé : motivation, composition, processus de collecte, usages d'un dataset |
Sections de la checklist de documentation : Général · Conception · Usage · Datasets · Test · Fonctionnel · Non-fonctionnel · Opérationnel.
Objectifs de la revue : repérer informations manquantes/inexactes/incohérentes ; améliorer clarté et lisibilité ; renforcer la maintenabilité ; fournir assez d'informations pour test et déploiement ; vérifier que toutes les exigences réglementaires sont satisfaites.
⚠ Piège d'examen
Model Cards = documentation d'un modèle (usages, évaluation, éthique). Datasheets for Datasets = documentation d'un dataset. Ne pas confondre.
AI-6.1.3K2
Test de performance fonctionnelle ML des systèmes probabilistes
Évalue à quel point le modèle remplit ses fonctions en mesurant les métriques (accuracy, recall, precision, F1) contre les critères d'acceptation. Pour un système probabiliste, on va au-delà d'un simple réussite/échec vers une mesure statistique.
Précondition : critères d'acceptation exprimés en termes statistiques, spécifiant une métrique, une marge d'erreur (MoE) et un niveau de confiance (CL).
Exemple : « 98 % d'accuracy avec une MoE de ±4 % à un CL de 95 % » → nécessite 601 cas de test ; au moins 589 doivent réussir.
Lecture d'un critère « 95 % ±3 % à 95 % CL » : l'accuracy estimée sur l'échantillon doit se situer entre 92 % et 98 % avec 95 % de confiance.
Deux options quand le nombre de tests augmente : fixer le CL → la MoE diminue (résultat plus précis) ; ou fixer la MoE → le CL augmente (résultat plus certain).
Test séquentiel (sequential testing) : cadre statistique formel d'arrêt anticipé — on s'arrête dès que les preuves suffisent, sans épuiser tout l'échantillon.
Systèmes critiques (safety) : exigences plus strictes (ex. « 99 % de fiabilité avec 95 % de confiance » → 299 cas de test, tous doivent réussir).
Note du syllabus : les formules et calculs numériques sont illustratifs — vous n'aurez pas à les dériver ni les calculer à l'examen.
AI-6.1.4K2
Le test adversarial (adversarial testing)
Test adversarial : fournir délibérément au modèle des perturbations des données d'entrée, souvent imperceptibles à l'humain, conçues pour provoquer des prédictions incorrectes.
Exemples adversariaux (adversarial examples) : les entrées de test qui réussissent à causer une mauvaise classification (souvent des versions légèrement modifiées d'entrées légitimes).
But : identifier les vulnérabilités → ajouter des garde-fous → améliorer la robustesse du modèle.
Deux types : exemples adversariaux accidentels (naturels) · attaques adversariales (usage malveillant des exemples adversariaux).
| Approche | En clair |
| Boîte noire | On se concentre sur entrées/sorties : créer un modèle équivalent aux internes connus → fabriquer des entrées adversariales → les appliquer à l'original (hypothèse de transférabilité) ; ou force brute avec un grand nombre de tests |
| Boîte blanche | Connaître les internes (architecture, paramètres, entraînement) facilite la fabrication d'exemples adversariaux |
| Manuelle | Fabriquer des exemples adversariaux spécifiques |
| Automatisée | Des algorithmes génèrent un grand nombre de variations |
AI-6.1.5K3
Le test métamorphique (K3 — à savoir appliquer)
Test métamorphique (MT) : technique où de nouveaux cas de test (dits de suivi / follow-up) sont dérivés d'un cas de test source déjà réussi, au moyen d'une relation métamorphique (MR).
Relation métamorphique (MR) : fondée sur une propriété de la fonction requise ; décrit comment un changement des entrées se reflète dans les résultats attendus.
Quand utiliser le MT (préféré au test classique par oracle) : pas de sorties attendues fiables (opacité du modèle, échelle des données) ; système en boîte noire ; des propriétés relationnelles (et non des valeurs absolues) suffisent.
Les 3 types de MR :
- Cohérence (consistency) — les sorties s'accordent entre entrées apparentées ;
- Monotonie (monotonicity) — la sortie change dans une direction avec l'entrée (ex. plus de cigarettes fumées → âge de décès prédit plus bas) ;
- Invariance (invariance) — la sortie reste stable sous certaines perturbations.
Applications : reconnaissance d'images, moteurs de recherche, optimisation d'itinéraire, reconnaissance vocale. Dériver les MR depuis la connaissance du domaine, les exigences ou des propriétés (lois physiques) ; les valider par revue d'experts, modèles de référence, couverture des cas limites.
Limites : des MR incorrectes/incomplètes → fausse confiance ; le MT détecte des défauts relationnels mais pas toutes les erreurs absolues ; à combiner avec d'autres techniques.
⚠ Piège d'examen (K3)
Une bonne MR est plausible et fondée sur le domaine. Ex. pour une prédiction de durée de vie : « ↑ activité physique → ↑ durée de vie » (monotonie +) et « ↑ tabac → ↓ durée de vie » (monotonie −). Méfiez-vous des MR absurdes : « doubler les facteurs de risque divise la durée par deux » (relation numérique arbitraire non justifiée) ou « changer toutes les features doit changer la prédiction » (pas une propriété fiable).
AI-6.1.7K2
Le test de dérive (drift testing)
| Type | Définition | Exemple |
| Dérive des données (data drift) | Les propriétés statistiques des données d'entrée changent avec le temps | Un filtre anti-spam rencontre de nouveaux types de phishing absents de l'entraînement |
| Dérive conceptuelle (concept drift) | La relation entrée → sortie correcte change avec le temps | Changement de réglementation financière : une transaction « faible risque » devient « haut risque » |
| Méthode | En clair |
| Test de dérive dynamique | S'appuie sur le retour des utilisateurs (ground truth actuelle) ; on compare la vérité terrain actuelle à la sortie du modèle ; l'écart est comparé à un seuil. Retour direct (l'utilisateur note une recommandation) ou indirect (films réellement regardés) |
| Test de dérive statique | Ne nécessite PAS la vérité terrain actuelle ; compare les propriétés statistiques des distributions d'entrée et de sortie prédite (ex. test de Kolmogorov-Smirnov) ; différence significative → indicateur de dérive |
⚠ Piège d'examen
Dynamique = a besoin de la vérité terrain actuelle (feedback). Statique = pas besoin de vérité terrain, compare des distributions. Fraudeurs qui changent de technique → concept drift (la définition du « frauduleux » a changé).
AI-6.1.8K2
Tester le surapprentissage et le sous-apprentissage
Trois résultats possibles : surapprentissage (overfitting), sous-apprentissage (underfitting), bon ajustement (right-fitting). À tester pendant l'entraînement, l'évaluation et l'ajustement.
| Surapprentissage (overfitting) | Sous-apprentissage (underfitting) |
| Cause | Le modèle apprend trop bien les données d'entraînement → capture le bruit plutôt que le motif sous-jacent | Modèle trop simple pour capturer la structure, OU données manquant de features reflétant les relations importantes |
| Symptôme | Mauvaise généralisation aux données nouvelles | Mauvaise performance sur l'entraînement ET la validation |
| Détection | Performance bien moins bonne sur le dataset de test que sur le dataset de validation | Métriques (accuracy, precision, recall, F1) constamment faibles sur entraînement et validation |
| Détection visuelle | — | Courbes d'apprentissage : erreurs d'entraînement et de validation restent élevées et proches, sans amélioration |
⚠ Piège d'examen
Overfitting = écart entre validation (bon) et test (mauvais) → le modèle a « mémorisé ». Underfitting = mauvais partout, dès l'entraînement.
AI-6.1.9K2
Le A/B testing
Compare les réponses de deux variantes (A et B) aux mêmes entrées pour déterminer laquelle est meilleure. Approche statistique : compare les résultats de plusieurs exécutions.
Caractéristiques : ne génère pas de cas de test ; ne donne aucune guidance sur la conception des tests ; utilise souvent des entrées opérationnelles ; adresse le problème de l'oracle (le système existant = oracle partiel).
Applications : tester les mises à jour (la nouvelle variante fait aussi bien ou mieux) ; du simple classifieur au système complexe (ex. routage de transport en ville intelligente) ; systèmes auto-apprenants (tests automatisés à chaque changement ; accepter si amélioré, revenir en arrière sinon).
Techniques statistiques courantes : test t, test z, test du chi-deux, test U de Mann-Whitney.
⚠ Piège d'examen
Différence clé A/B vs back-to-back : le A/B testing compare deux variantes via des métriques de performance ML et des techniques statistiques (laquelle est meilleure) ; le back-to-back testing sert à détecter des défauts (comparaison à un pseudo-oracle).
AI-6.1.10K2
Le back-to-back testing
Back-to-back testing : utilise une version alternative du système comme point de référence (pseudo-oracle) et compare ses sorties à celles du système sous test pour les mêmes entrées.
Pseudo-oracle : un système existant ou développé spécifiquement pour le test. Idéalement, il ne partage pas de composants logiciels communs avec le système sous test (risque : le même défaut dans les deux).
Bonnes pratiques : développé par une équipe différente, idéalement indépendante ; frameworks ML, algorithmes ou réglages différents ; un logiciel conventionnel peut servir de pseudo-oracle s'il résout le même problème.
Caractéristiques : ne nécessite de générer que des entrées de test (pas de résultats attendus) ; entrées issues de cas existants, de suites de régression, ou auto-générées depuis les données d'entraînement ; un pseudo-oracle fonctionnel n'a pas besoin de satisfaire les mêmes exigences non fonctionnelles.
Utile pour : migration d'un système ML vers de nouveaux environnements (dev → prod) ; comparaison de résultats entre environnements ; révélation de défauts subtils ; cas limites et entrées inhabituelles.
Hands-on non examinable : HO-6.1.6 (appliquer le test métamorphique : dériver des MR à résultats identiques ET différents, générer cas sources puis cas de suivi, exécuter).
7 — Test du développement ML
Durée syllabus : 30 min (le plus court) · 2 objectifs (tous K2) · 2 questions à l'examen
Mots-clés : test du développement ML (ML development testing), performance fonctionnelle ML, test fantôme (shadow testing)
Ce niveau se concentre sur les risques introduits par les outils de développement ML, les choix de configuration et les mécanismes de déploiement.
AI-7.1.1K2
Risques du développement ML et mitigations
| Risque potentiel | Mitigation possible |
| Usage incorrect des API du framework (TensorFlow, PyTorch) | Test d'API (7.1.2) |
| Sélection de framework sous-optimale | Revue d'adéquation du framework |
| Injustice systémique dans l'algorithme, le modèle ou le framework | Test du biais (5.1.2) |
| Installation ou build défectueux du framework | Smoke testing |
| Implémentation défectueuse de l'évaluation du framework | Revues du code d'évaluation ; contre-vérification avec benchmarks manuels |
| Mauvaise performance / mauvaise utilisabilité du framework | Test de performance / test d'utilisabilité |
| Défaut dans une bibliothèque ; implémentation d'algorithme défectueuse | Test de performance fonctionnelle ML (6.1.3) ; back-to-back (6.1.10) |
| Vulnérabilités de sécurité du framework | Test de sécurité |
| Sélection d'algorithme / d'hyperparamètres sous-optimale | Revue d'adéquation ; A/B testing (6.1.9) ; test de performance fonctionnelle ML (6.1.3) |
| Mauvaise allocation des données à entraînement/validation/test | Revue d'allocation des données |
| Défaut de déploiement (version modifiée pour la plateforme cible) | Smoke testing ; test de performance ML ; A/B testing |
| Modèle déployé incompatible avec l'environnement opérationnel | Smoke testing ; test de déploiement MLS (7.1.2) |
| Le modèle déployé n'améliore pas le modèle actuel | Shadow testing (7.1.2) |
⚠ Piège d'examen
Les risques de développement concernent le framework, l'algorithme, les hyperparamètres, le déploiement — pas le biais des données (chap. 5) ni l'overfitting du modèle (chap. 6). Une vulnérabilité du framework ML est un risque de développement type.
AI-7.1.2K2
Test de déploiement des systèmes ML
| Type de test | En clair |
| Test d'installabilité | Vérifie installation, configuration et désinstallation dans tous les environnements supportés ; inclut dépendances système (pilotes GPU), compatibilité framework, scripts d'installation |
| Test de rollback (retour arrière) | Vérifie la capacité à revenir à un état stable après un déploiement dégradé/échoué ; couvre le modèle ou le système complet ; doit être réalisé AVANT le déploiement pour confirmer que le rollback est prêt |
| Test canari (canary) | Valide un nouveau déploiement en le diffusant à un petit sous-ensemble du trafic de production (ex. 5 %) ; surveille les métriques temps réel (latence, accuracy, erreurs) avant le déploiement complet. Les vrais utilisateurs voient les résultats. |
| Test fantôme (shadow) | Exécute le nouveau modèle en parallèle du modèle de production en temps réel ; route les mêmes requêtes vers les deux sans affecter les réponses en direct ; compare les modèles sur données réelles ; révèle régressions et dérive avant le déploiement complet |
| Test de conversion du modèle | Vérifie que le modèle conserve une accuracy acceptable, un comportement cohérent et une efficacité opérationnelle après conversion du format d'entraînement vers le format de déploiement |
| Test multi-appareils (cross-device) | Vérifie que le système ML fonctionne correctement sur toutes les cibles prévues (mobile, edge, serveurs cloud) |
| Test d'API | Vérifie des interfaces bien définies et conformes aux standards ; valide la gestion des entrées/sorties, messages d'erreur, workflows d'intégration avec les systèmes externes |
⚠ Piège d'examen
Canari = une part des vrais utilisateurs reçoit le nouveau modèle (les réponses leur sont montrées). Shadow = le nouveau modèle reçoit les mêmes requêtes mais ses réponses ne sont PAS montrées aux utilisateurs. Le rollback se teste AVANT de déployer.