CT-AI Trainer — Certification ISTQB CT-AI v2.0

L'examen CT-AI v2.0

Syllabus ISTQB® Certified Tester AI Testing v2.0 — GA 17/04/2026

Format	40 questions QCM, 4 choix, une seule bonne réponse
Durée	60 minutes (75 minutes si l'examen n'est pas dans votre langue maternelle)
Barème	44 points au total — 36 questions à 1 point, 4 questions à 2 points (une dans chacun des chapitres 3, 4, 5 et 6)
Seuil de réussite	29 / 44 points (65 %)
Points négatifs	Aucun — répondez toujours à toutes les questions
Prérequis	Certificat ISTQB® CTFL obligatoire
Niveaux K	K1 (mémoriser), K2 (comprendre), K3 (appliquer) — pas de K4 à l'examen

Répartition officielle des questions

Chapitre	Questions	Points
1 — Introduction à l'IA	6	6
2 — Caractéristiques qualité (ISO/IEC 25059)	3	3
3 — Machine Learning	7	8 (1 question à 2 pts)
4 — Tester les systèmes à base d'IA	5	6 (1 question à 2 pts)
5 — Test des données d'entrée	8	9 (1 question à 2 pts)
6 — Test des modèles ML	9	10 (1 question à 2 pts)
7 — Test du développement ML	2	2

⚠ Piège récurrent Ne confondez pas CT-AI et CT-GenAI : le CT-AI porte sur le test des systèmes d'IA ; le CT-GenAI porte sur l'utilisation de l'IA pour tester. Le chapitre « tester avec l'IA » a été retiré du CT-AI v2.0.

Non examinable : l'introduction (chapitre 0), les objectifs hands-on (HO), les références et les annexes du syllabus.

Les niveaux K en pratique

Niveau	Signifie	Formulation type à l'examen
K1 Mémoriser	Se rappeler un terme ou un concept	« Lequel des termes suivants désigne… »
K2 Comprendre	Expliquer, comparer, classer, donner des exemples	« Lequel des énoncés suivants décrit le mieux… »
K3 Appliquer	Appliquer une procédure à un scénario donné	« Dans le scénario suivant, quelle technique / quel calcul… »

Les 4 objectifs K3 du syllabus (donc les 4 questions à 2 points probables) : AI-3.3.1 (calculer les métriques depuis une matrice de confusion), AI-4.2.2 (mettre en œuvre le red teaming), AI-5.1.5 (appliquer le dataset constraint testing), AI-6.1.5 (dériver des cas de test métamorphiques).

1 — Introduction à l'intelligence artificielle

Durée syllabus : 120 min · 8 objectifs (tous K2) · 6 questions à l'examen

Mots-clés : système à base d'IA (AI-based system), intelligence artificielle, IA générale (general AI), apprentissage automatique (machine learning), framework de développement ML, IA étroite (narrow AI), super IA (super AI)

AI-1.1.1K2

Systèmes à base d'IA et systèmes conventionnels

Un système conventionnel est programmé avec des instructions explicites (if-then-else, boucles). Son comportement est déterministe, prévisible et transparent : mêmes entrées → mêmes sorties.

Un système à base d'IA (surtout s'il repose sur le ML) ne suit pas de règles prédéfinies : il apprend des motifs (patterns) dans les données pour répondre à de nouvelles entrées.

Différence	En clair
Résolution de problème	L'IA s'appuie sur le raisonnement probabiliste, l'inférence statistique et la reconnaissance de motifs → les sorties ne sont pas toujours prévisibles
Explicabilité	Les architectures de deep learning peuvent contenir des milliards de paramètres : c'est le problème de la « boîte noire » (black box) — critique en santé, finance, défense, transport
Adaptabilité	Un système conventionnel est statique ; un système IA peut être auto-apprenant (self-learning) et continuer à évoluer avec de nouvelles données → surveillance continue obligatoire

⚠ Piège d'examen « Les systèmes IA sont toujours moins précis / les systèmes conventionnels sont plus flexibles » : les affirmations absolues (« toujours », « jamais ») sont presque toujours de mauvaises réponses. La bonne distinction : règles explicites vs apprentissage depuis les données.

AI-1.1.2K2

IA étroite, IA générale et super IA

Type	Autre nom	À retenir
IA étroite (narrow AI)	weak AI	Exécute des tâches spécifiques. Toute l'IA déployée aujourd'hui est de l'IA étroite ; elle ne généralise pas au-delà de ses fonctions apprises. La frontier AI (IA de pointe, dont la GenAI à grande échelle) en est la forme la plus avancée — mais reste de l'IA étroite.
IA générale (general AI)	strong AI	Égale les capacités cognitives humaines sur la plupart des tâches intellectuelles ; apprend sans réentraînement. N'existe pas encore.
Super IA (super AI)	superintelligence artificielle	S'améliore seule sans intervention humaine et dépasse l'intelligence humaine. Théorique. Le passage de l'IA générale à la super IA = « singularité technologique » (technological singularity).

⚠ Piège d'examen ChatGPT et les LLM de pointe restent de la narrow AI (frontier AI), pas de l'IA générale. La super IA est théorique, l'IA générale n'existe pas encore.

AI-1.1.3K2

Les différentes technologies d'IA

Hiérarchie à connaître : IA ⊃ ML ⊃ Deep Learning. L'IA est le domaine le plus large ; l'apprentissage automatique (ML) en est une branche centrale ; le deep learning (DL) est un sous-ensemble du ML utilisant des réseaux de neurones profonds.

Les 3 formes d'apprentissage automatique :

Apprentissage supervisé (supervised learning) — données étiquetées (labeled). Algorithmes : régression linéaire, arbres de décision. Tâches : prédiction, classification.
Apprentissage non supervisé (unsupervised learning) — données non étiquetées. Techniques : algorithmes de clustering. Tâches : clustering (regroupement), association.
Apprentissage par renforcement (reinforcement learning) — un agent apprend par essai-erreur avec récompenses/pénalités. Applications : robotique, véhicules autonomes, chatbots.

Technologies ML clés : réseaux de neurones, modèles bayésiens, machines à vecteurs de support (SVM), forêts aléatoires (random forests).

Deep learning (DL) — réseaux de neurones profonds :

CNN (réseaux convolutifs) — reconnaissance d'images, détection d'objets ;
RNN (réseaux récurrents) — données séquentielles (texte, séries temporelles) ;
Transformers — dépendances à longue portée ; au cœur des modèles de NLP et de vision.

Autres technologies d'IA spécialisées : NLP (analyse de sentiment, traduction automatique), vision par ordinateur, logique floue (fuzzy logic — raisonnement sous incertitude), algorithmes de recherche (navigation, décision stratégique), systèmes experts / à base de règles, et IA agentique (agentic AI) — agents autonomes qui planifient, raisonnent et agissent indépendamment.

⚠ Piège d'examen Mémorisez quelle forme d'apprentissage va avec quelle tâche : classification et régression → supervisé ; clustering et association → non supervisé ; récompenses/pénalités → renforcement.

AI-1.1.4K2

L'IA générative (GenAI)

La GenAI crée du contenu nouveau (texte, images, vidéo, musique, données complexes) ; beaucoup de systèmes GenAI font aussi de la classification et de la prédiction. Ils apprennent sur d'immenses volumes de données pour produire des sorties ressemblant aux données d'entraînement.

Technologie cœur	Principe
GAN (réseaux antagonistes génératifs)	Deux réseaux de neurones en compétition pour créer des données synthétiques réalistes
Modèles de diffusion	Ajout puis retrait progressif de bruit pour produire des sorties de haute qualité
Transformers	Mécanismes d'auto-attention (self-attention) ; base des LLM ; adaptés au multimodal

Préoccupations sociétales et éthiques : mésusage (deepfakes, désinformation, contenus frauduleux) ; impact sur l'emploi (automatisation de l'écriture, du design, du code, de la documentation juridique/médicale) ; durabilité (consommation d'énergie et empreinte carbone élevées).

Tendances actuelles : modèles de fondation (foundation models) affinés pour des applications spécifiques ; modèles multimodaux ; cadres réglementaires (EU AI Act).

AI-1.1.5K2

Le matériel pour les systèmes ML

Besoins du ML : grandes structures de données, traitement massivement parallèle, arithmétique en faible précision (quantization — p. ex. 4 bits au lieu de 32).

Matériel	Caractéristiques	Idéal pour
CPU	Peu de cœurs, haute précision, fréquence élevée	Usage général ; moins efficace pour le ML
GPU	Des milliers de cœurs, massivement parallèle	Charges ML petites à moyennes
ASIC / System-on-Chip	Conçu sur mesure, traitement en mémoire, multi-cœurs	Edge computing (modèle entraîné dans le cloud)
Processeurs neuromorphiques	Inspirés du cerveau, architecture non-von Neumann	Émergent ; imite les structures neuronales

Le matériel peut différer entre entraînement et inférence : un modèle de reconnaissance vocale tourne sur smartphone mais a été entraîné dans le cloud.

AI-1.1.6K2

Développement et hébergement des modèles d'IA

Options d'acquisition :

Tiers / AIaaS (AI as a Service) — modèles préentraînés, déploiement plus rapide, mise sur le marché accélérée ;
Privé (on-premises ou cloud sur mesure) — mieux adapté aux exigences ; demande des compétences spécialisées.

Hébergement	Avantages	Inconvénients
Local (PC / smartphone)	Confidentialité, pas de coûts de licence cloud	Matériel limité
Serveurs on-premises dédiés	Contrôle renforcé	Investissement initial élevé
Cloud public	Évolutif, paiement à l'usage, sans maintenance	Considérations de sécurité
Cloud privé	Sécurité renforcée, personnalisation	Coût plus élevé
Hybride	Équilibre efficacité / contrôle	Complexité

Le choix optimal dépend de : taille et complexité du modèle, exigences de performance, budget, sécurité/confidentialité, besoins de déploiement, exigences réglementaires.

AI-1.1.7K2

Les frameworks de développement ML

Fonctionnalités typiques d'un framework ML (p. ex. TensorFlow, PyTorch) :

Fonction	Contenu
Gestion des données (data handling)	Chargement, prétraitement, gestion des données d'entraînement et de test
Construction du modèle	Bibliothèques d'algorithmes ML ; conception d'architectures de réseaux de neurones (couches, connexions)
Entraînement et optimisation	Ajustement itératif des paramètres ; entraînement distribué ; fine-tuning
Évaluation	Accuracy, precision, recall pour la classification ; taux d'erreur pour la régression
Déploiement	Conversion du modèle pour web, mobile, edge, systèmes embarqués

Critères de sélection : domaine d'application, interface conviviale, configurabilité, expertise des utilisateurs, contraintes de déploiement, support de la communauté, maturité de l'écosystème.

AI-1.1.8K2

Réglementations et normes pour l'IA

Objectif : instaurer la confiance, promouvoir les bénéfices et atténuer les risques (usage sûr, équitable, transparent, durable, responsable et éthique).

Instrument	Type	Focus
Principes IA de l'OCDE	Droit souple (soft law)	IA centrée sur l'humain, considérations éthiques, coopération internationale
ONU « Governing AI for Humanity »	Droit souple	Gouvernance responsable de l'IA
EU AI Act	Droit contraignant (hard law)	Approche par les risques (minimal → inacceptable) ; exigences strictes pour les systèmes à haut risque ; sanctions financières importantes
ISO/IEC TR 29119-11	Norme technique	Test des systèmes à base d'IA
Série ISO/IEC 42119	Norme technique (en développement)	Différents aspects du test des systèmes IA

Beaucoup de pays hors UE préfèrent des réglementations plus légères pour encourager l'innovation. Des réglementations sectorielles émergent (santé, finance).

⚠ Piège d'examen Seul l'EU AI Act est du droit contraignant (« hard law ») dans cette liste ; OCDE et ONU = « soft law ». Retenez son approche par les risques : minimal → limité → élevé → inacceptable.

2 — Caractéristiques qualité des systèmes à base d'IA

Durée syllabus : 45 min · 3 objectifs (tous K2) · 3 questions à l'examen

Mots-clés : adaptabilité fonctionnelle (functional adaptability), exactitude fonctionnelle IA (AI functional correctness), capacité d'intervention (intervenability), robustesse IA (AI robustness), sécurité-innocuité (safety), mitigation des risques sociétaux et éthiques, transparence, contrôlabilité par l'utilisateur (user controllability)

AI-2.1.1K2

Les caractéristiques qualité spécifiques à l'IA (ISO/IEC 25059)

La norme ISO/IEC 25059 étend ISO/IEC 25010 pour couvrir les spécificités de l'IA. Elle évalue les systèmes selon deux perspectives : qualité produit (product quality) et qualité à l'usage (quality in use).

Caractéristique	Catégorie	En clair
Exactitude fonctionnelle IA (AI functional correctness)	Qualité produit	L'IA ne peut pas garantir une exactitude parfaite : on évalue les sorties correctes/incorrectes et on définit des seuils acceptables
Adaptabilité fonctionnelle (functional adaptability)	Qualité produit (sous-caract. de l'adéquation fonctionnelle)	Capacité à s'adapter de façon autonome aux changements de l'environnement opérationnel après déploiement
Contrôlabilité par l'utilisateur (user controllability)	Qualité produit (sous-caract. de la capacité d'interaction)	Un humain ou un agent externe peut intervenir à temps dans le fonctionnement du système
Transparence (transparency)	Qualité produit et qualité à l'usage	Degré de communication des informations appropriées sur le système IA aux parties prenantes
Robustesse IA (AI robustness)	Qualité produit (sous-caract. de la fiabilité)	Maintenir l'exactitude fonctionnelle malgré des entrées biaisées, adversariales ou invalides, des interférences externes, des conditions défavorables, un mésusage opérateur
Capacité d'intervention (intervenability)	Qualité produit (sous-caract. de la sécurité/security)	Un opérateur peut intervenir à temps pour prévenir un dommage ou un danger
Mitigation des risques sociétaux et éthiques	Qualité à l'usage (sous-caract. de l'absence de risque / freedom from risk)	Responsabilité (accountability), équité / non-discrimination, vie privée, sûreté, contrôle humain, durabilité environnementale, pratiques de travail…

⚠ Piège d'examen Sachez classer un comportement dans la bonne caractéristique : discrimination → mitigation des risques sociétaux et éthiques ; résistance aux entrées perturbées → robustesse IA ; opérateur qui reprend la main pour éviter un danger → intervenability (rattachée à la security) ; humain qui pilote le système → user controllability (interaction). Distinguez aussi les deux perspectives : seule la mitigation des risques sociétaux/éthiques est côté quality in use (la transparence est des deux côtés).

AI-2.1.2K2

IA et sécurité-innocuité (safety)

Les systèmes IA liés à la sécurité (safety-related) posent des défis supplémentaires par rapport aux systèmes de sécurité non-IA :

Défi	En clair
Spécifications	Les exigences IA partent souvent d'objectifs vagues, fournis implicitement via les données d'entraînement ; la traçabilité exigences → implémentation peut être insuffisante
Non-déterminisme	Même un modèle rigoureusement testé peut avoir un comportement inattendu (génération de nombres aléatoires, légères variations d'entrée)
Auto-apprentissage (self-learning)	Le comportement s'éloigne progressivement du comportement testé à l'origine, après déploiement
Explicabilité et transparence	Processus de décision souvent opaques ; des outils comme LIME donnent des aperçus partiels mais ne sont pas largement disponibles
Réglementations en évolution	L'IA n'est pas couverte par les normes de sécurité fonctionnelle matures ; certaines interdisent son usage ; l'EU AI Act classe les composants de sécurité IA (aviation, dispositifs médicaux, automobile) comme haut risque

⚠ Piège d'examen Distinguez safety (sécurité-innocuité : absence de dommage aux personnes/biens) et security (sécurité informatique : protection contre les attaques). Les deux mots se traduisent par « sécurité » en français — l'examen français précise généralement le contexte.

AI-2.2.1K2

Critères d'acceptation pour les systèmes à base d'IA

Pour les systèmes IA, les critères d'acceptation sont souvent statistiques, probabilistes ou à base de seuils plutôt que binaires (réussite/échec).

Caractéristique	Exemples de critères d'acceptation
Exactitude fonctionnelle IA	Accuracy ≥ 95 % pour la reconnaissance d'images ; recall ≥ 90 % pour la prédiction de défauts
Adaptabilité fonctionnelle	Le contrôle moteur s'adapte en 20 s après franchissement d'un seuil d'altitude ; le service de streaming ajuste la page d'accueil à ≥ 40 % de documentaires après 3 visionnages
Contrôlabilité par l'utilisateur	Le superviseur prend le contrôle du drone autonome en 0,5 s après un signal de détresse ; le système agricole notifie le fermier quand un capteur se dégrade de > 30 %
Transparence	Informations suffisantes sur le modèle ML tiers et la provenance des données d'entraînement ; l'API retourne l'identifiant de version du modèle déployé
Robustesse IA	Prédictions du système d'alerte en < 1 s quand la base est perturbée 30 s ; l'appareil edge passe en mode dégradé à > 85 °C pendant 10 s
Capacité d'intervention	Arrêt de la chaîne de production en 0,5 s en cas d'intrusion en zone de sécurité ; le réseau électrique laisse 30 s à l'ingénieur pour opposer un veto aux actions critiques proposées par l'IA
Mitigation des risques sociétaux et éthiques	Le système d'aide à la détermination des peines ne discrimine pas entre groupes ; le chatbot passe une évaluation de red teaming avec un score ≥ 95 %
Safety	Les composants non-IA sont conformes ISO 26262-6 niveau ASIL C ; 100 % des relations entrée/sortie ML cartographiables avec ≥ 99,9 % d'exactitude ; les signaux hors limites de > 10 % sont régulés en 0,15 s

⚠ Piège d'examen Un bon critère d'acceptation IA est quantifiable et lié à la qualité IA (seuil statistique + métrique). « Le système doit être testé par 3 testeurs » ou « développé avec les derniers frameworks » ne sont pas des critères d'acceptation.

3 — Machine Learning

Durée syllabus : 375 min (le plus long) · 8 objectifs examinables dont 1 K3 · 7 questions à l'examen (dont 1 à 2 pts)

Mots-clés : couverture des neurones par k-sections (k-multisection neuron coverage), critères de performance fonctionnelle ML, métrique de performance fonctionnelle ML, modèle ML, couverture des limites des neurones (neuron boundary coverage), couverture des neurones (neuron coverage), perceptron · association, classification, clustering, préparation des données, apprentissage automatique, algorithme ML, framework de développement ML, workflow ML, modèle préentraîné (pretrained model), régression ML, apprentissage par renforcement, apprentissage supervisé, apprentissage non supervisé

AI-3.1.1K2

Les différentes formes de ML

Apprentissage supervisé — données étiquetées ; le modèle apprend à associer entrées → sorties :

Classification — affecter les entrées à des classes prédéfinies (spam / non-spam, reconnaissance d'images) ;
Régression ML — prédire une valeur numérique continue (estimation d'âge, cours de bourse).

⚠ Piège d'examen « Régression ML » ≠ « test de régression » des autres syllabus ISTQB (défauts liés aux changements). Ici, la régression ML prédit une valeur numérique continue.

Apprentissage non supervisé — données non étiquetées ; déduction de motifs :

Clustering — regrouper les points de données par similarité (segmentation client) ;
Association — identifier des relations/dépendances (recommandation de produits selon les achats).

Apprentissage par renforcement — un agent apprend en interagissant avec l'environnement via récompenses/pénalités. Défis : mise en place de l'environnement, conception de la fonction de récompense (reward function), choix de la stratégie. Applications : robotique, véhicules autonomes, chatbots adaptatifs.

AI-3.1.2K2

Le workflow ML

Ordre à connaître par cœur :

Comprendre les objectifs → Choisir un framework → Choisir & construire l'algorithme → Préparer & tester les données → [Génération du modèle : Entraîner ⇄ Évaluer ⇄ Ajuster] → Tester le modèle → Déployer → Utiliser → Surveiller & ajuster (→ réentraîner)

Étape	En clair
Comprendre les objectifs	Définir la finalité ; aligner avec les priorités métier ; définir les critères d'acceptation et les métriques de performance fonctionnelle ML
Choisir un framework	Selon objectifs, critères d'acceptation, priorités métier
Choisir & construire l'algorithme	Selon objectifs, critères d'acceptation, données disponibles ; souvent depuis une bibliothèque logicielle
Préparer & tester les données	Acquisition, prétraitement, feature engineering ; EDA ; les données doivent être représentatives des données opérationnelles
Entraîner le modèle	L'algorithme ML utilise les données d'entraînement ; on configure les hyperparamètres du modèle (structure : couches, profondeur d'arbre) et les hyperparamètres de l'algorithme (contrôle de l'entraînement : itérations)
Évaluer le modèle	Comparaison aux métriques avec le dataset de validation ; comparaison de plusieurs modèles/algorithmes
Ajuster le modèle (tune)	Ajuster les hyperparamètres selon l'évaluation ; réentraîner
Tester le modèle	Avec le dataset de test indépendant ; vérifier les critères de performance fonctionnelle ML ; tests non fonctionnels aussi
Déployer le modèle	Réingénierie pour la plateforme cible (embarqué, API cloud/web) ; tester le modèle réingénié
Utiliser le modèle	Intégré dans un système IA plus large ; prédictions par lots ou en temps réel
Surveiller & ajuster	Évaluation régulière contre les critères d'acceptation ; détection et gestion de la dérive (drift) ; A/B testing pour les mises à jour

⚠ Piège d'examen La « génération du modèle » (model generation) = Entraîner + Évaluer + Ajuster — exactement ces trois activités, en boucle. « Tester le modèle » vient APRÈS, avec le dataset de test indépendant. L'évaluation utilise le dataset de validation, le test utilise le dataset de test.

Un modèle ML ne se déploie généralement pas isolément : son intégration avec des composants non-ML exige des tests de composants, système et acceptation.

AI-3.1.4K2

Modèles préentraînés, fine-tuning et RAG

Fine-tuning (affinage) :

Part d'un réseau de neurones préentraîné et l'adapte à une nouvelle tâche ;
Demande beaucoup moins de données qu'un entraînement complet ;
Peut s'appliquer au réseau entier, à certaines couches (proches de la sortie) ou à des couches ajoutées ;
Le succès dépend de la similarité entre la tâche d'origine et la nouvelle : adapter un classifieur de races de chats aux races de chiens → efficace ; l'adapter à des accents parlés → peu efficace.

RAG (retrieval-augmented generation, génération augmentée par récupération) :

Fournit au LLM des sources de données spécifiques à la tâche ;
Les sources sont transformées en format interrogeable et comparées au prompt ;
Les documents pertinents sont incorporés dans un prompt enrichi → réponses plus précises ;
Le modèle préentraîné n'est PAS modifié.

Un modèle préentraîné peut utiliser RAG, fine-tuning ou les deux. Les biais et vulnérabilités du modèle préentraîné sont hérités — il faut donc les tester.

⚠ Piège d'examen Fine-tuning = modifie les poids du modèle. RAG = enrichit le prompt, ne modifie PAS le modèle. C'est LA distinction attendue.

AI-3.2.1K2

Les activités de préparation des données

La préparation des données est l'une des activités les plus cruciales et les plus coûteuses en ressources du workflow ML. Elle est intrinsèquement liée au pipeline de données (data pipeline).

Activité	Contenu
1. Acquisition des données	Identifier les types de données pertinents (numériques, catégorielles, images, texte) ; collecter (bases de données, API, capteurs temps réel) ; étiqueter (labeling) pour l'apprentissage supervisé ; vérifier exactitude et cohérence
2. Prétraitement (preprocessing)	Nettoyage : suppression des défauts, doublons, valeurs aberrantes (outliers) ; imputation des valeurs manquantes (moyenne/médiane/mode) ; anonymisation des données personnelles · Transformation : mise à l'échelle, normalisation, conversion de format · Augmentation : accroître l'échantillon, exemples adversariaux pour la robustesse, données synthétiques · Échantillonnage (sampling) : sous-ensembles pour réduire temps et coût d'entraînement
3. Feature engineering	Sélection des features pertinentes selon leur contribution à la performance ; extraction de features informatives et non redondantes

En parallèle — l'analyse exploratoire des données (EDA) : découvrir tendances, motifs, anomalies ; visualiser les données (graphiques, diagrammes).

La préparation des données est itérative et souvent manuelle. Les données opérationnelles doivent correspondre aux caractéristiques des données d'entraînement.

AI-3.2.3K2

Datasets d'entraînement, de validation et de test

Dataset	Rôle
Entraînement (training)	Entraîner le modèle
Validation	Évaluer et ajuster (tuner) le modèle pendant la génération
Test (holdout)	Tester le modèle ajusté — indépendant, jamais utilisé pendant l'entraînement

Quand les données sont limitées : une division en trois risque le sous-apprentissage (underfitting). Stratégie : petit jeu de test (holdout) + validation croisée k-fold sur le reste (k = 5 ou 10 en général) :

Données divisées en k plis (folds) ; modèle entraîné sur k−1 plis, validé sur le pli restant ; répété k fois ;
Les métriques sont moyennées sur les k itérations → estimation fiable de la généralisation ;
Modèle final entraîné sur toutes les données sauf le holdout ; évalué une seule fois sur le holdout.

La quantité de données nécessaire dépend de : la complexité attendue du modèle, l'algorithme utilisé, les ressources disponibles (RAM, disque, calcul, réseau, temps), la confiance souhaitée dans le modèle.

⚠ Piège d'examen Validation = pour ajuster les hyperparamètres. Test = vérification finale indépendante. Si une option dit « le dataset de validation sert au test final », elle est fausse.

AI-3.3.1K3

Calculer les métriques de performance fonctionnelle ML (matrice de confusion)

La matrice de confusion résume les résultats d'un classifieur binaire :

	Réel positif	Réel négatif
Prédit positif	Vrai positif (TP)	Faux positif (FP)
Prédit négatif	Faux négatif (FN)	Vrai négatif (TN)

Métrique	Formule	Sens
Accuracy (exactitude)	(TP+TN)/(TP+TN+FP+FN)	% de toutes les classifications qui sont correctes
Precision (précision)	TP/(TP+FP)	Parmi les prédits positifs, combien le sont vraiment — confiance dans les prédictions positives
Recall (rappel, sensibilité)	TP/(TP+FN)	Parmi les réels positifs, combien sont détectés — confiance qu'aucun positif n'est manqué
F1-score	2×(P×R)/(P+R)	Moyenne harmonique précision/rappel ; proche de 100 = les deux sont élevés

Moyens mnémotechniques :

Precision : dénominateur = tout ce qui est Prédit positif (TP+FP). « P comme Prédit ».
Recall : dénominateur = tout ce qui est Réellement positif (TP+FN). « R comme Réel ».
Diagnostic médical : rater un malade = FN grave → on veut un recall élevé. Alerte spam : accuser à tort = FP gênant → on veut une precision élevée.

Exemple travaillé (type examen, 2 pts). TP=150, FP=30, FN=20, TN=800.
Precision = 150/(150+30) = 150/180 = 83,3 % · Recall = 150/(150+20) = 150/170 = 88,2 % · Accuracy = (150+800)/1000 = 95 % · F1 = 2×(0,833×0,882)/(0,833+0,882) ≈ 85,7 %.
⚠ Les options inversent souvent precision et recall : vérifiez l'ordre !

AI-3.4.1K2

Structure et fonctionnement d'un réseau de neurones profond

Perceptron (monocouche) : une couche, un neurone ; apprentissage supervisé pour des classifieurs binaires sur des problèmes linéairement séparables (ex. spam / non-spam).

Réseau de neurones profond (DNN) = perceptron multicouche : couche d'entrée → plusieurs couches cachées → couche de sortie.

Calcul effectué par chaque neurone :

Somme pondérée des valeurs d'activation des neurones connectés de la couche précédente ;
Ajout du biais (bias) propre au neurone ;
Passage dans une fonction d'activation non linéaire → produit la valeur d'activation.

Processus d'entraînement :

Poids et biais initialisés à de petites valeurs aléatoires ;
Les données d'entraînement traversent le réseau (passe avant / forward pass) → sortie générée ;
Sortie comparée au résultat correct connu → calcul de l'erreur (loss) ;
L'erreur est propagée en arrière (rétropropagation / backpropagation) → ajustement des poids et biais ;
Un passage complet sur les données d'entraînement = une epoch ;
On continue jusqu'à ce que la sortie soit suffisamment bonne.

⚠ Piège d'examen La backpropagation propage l'erreur en arrière pour ajuster poids et biais — elle n'initialise pas les poids, ne choisit pas les données, ne définit pas l'architecture.

AI-3.4.3K2

Les mesures de couverture pour les réseaux de neurones

Un réseau de neurones n'a pas de chemins codés explicitement (le comportement vient des poids, biais et activations appris) → il faut des mesures de couverture spécialisées :

Mesure	Définition
Neuron coverage (couverture des neurones)	Proportion de neurones dont la sortie dépasse un seuil spécifié pendant les tests
k-multisection neuron coverage (kMNC)	La plage de sortie de chaque neurone est divisée en k sections ; proportion de sections activées pendant les tests
Neuron boundary coverage (NBC)	Proportion de neurones dont la sortie dépasse le max ou passe sous le min atteints pendant l'entraînement

Limites : la couverture structurelle seule ne garantit pas la généralisation ; les réseaux peuvent apprendre des corrélations fallacieuses (spurious). À compléter par du test adversarial et du test métamorphique.

⚠ Piège d'examen kMNC = sections de la plage observée à l'entraînement ; NBC = au-delà des bornes observées à l'entraînement (zones extrêmes). Neuron coverage simple = dépassement d'un seuil fixé.

Hands-on non examinables : HO-3.1.3 (créer un modèle ML), HO-3.2.2 (préparation de données), HO-3.3.2 (évaluer un modèle), HO-3.3.3 (impact modèles × datasets), HO-3.4.2 (implémentation d'un perceptron).

4 — Tester les systèmes à base d'IA

Durée syllabus : 195 min · 7 objectifs examinables dont 1 K3 · 5 questions à l'examen (dont 1 à 2 pts)

Mots-clés : attaque (attack), test exploratoire, test basé sur les risques (risk-based testing), oracle de test · système IA adaptatif (adaptive AI-based system), système à base d'IA, IA générative, grand modèle de langage (LLM), système IA verrouillé (locked AI-based system)

AI-4.1.1K2

Systèmes IA verrouillés (locked) et adaptatifs (adaptive)

Type	Description	Exemples	Testabilité
Système verrouillé (locked)	Ne change pas de comportement après déploiement ; poids et biais figés après l'entraînement	DNN déployé pour la détection de voie, reconnaissance de panneaux	Plus facile — largement déterministe ; un système mis à jour = un nouveau système à retester
Système adaptatif (adaptive)	Adapte son comportement une fois déployé (fonction de récompense, nouvel environnement)	Apprentissage par renforcement, moteurs de recommandation e-commerce	Plus complexe — peut changer de comportement pendant les tests

Beaucoup de systèmes GenAI (chatbots LLM) sont déployés comme modèles verrouillés mais mis à jour périodiquement → entre les deux catégories.

⚠ Même un système verrouillé peut être non déterministe en pratique (précision en virgule flottante, calcul parallèle GPU).

Tester un système adaptatif : tests rigoureux avant déploiement (simulation des changements d'environnement, test des mécanismes d'apprentissage) ; les comportements nouveaux imprévisibles ne peuvent pas être testés à l'avance ; suite de tests automatisée pour les fonctions cœur, exécutée à chaque changement significatif ; surveillance continue de la dégradation des performances.

AI-4.1.2K2

Pourquoi une approche statistique est souvent nécessaire

Raison	En clair
Non-déterminisme	Les systèmes IA sont probabilistes : mêmes entrées ≠ toujours mêmes sorties. Un test isolé ne reflète pas l'exactitude globale ; il faut une suite de tests assez grande pour la signification statistique
Évaluation distributionnelle	Le modèle est entraîné sur des distributions qui peuvent différer de l'environnement opérationnel → échantillon statistiquement significatif de scénarios opérationnels
Incertitude et biais	Le test statistique quantifie exactitude, équité et robustesse : intervalles de confiance, tests d'hypothèses, analyse d'erreurs
Contexte réglementaire et safety	Les industries réglementées doivent démontrer les seuils de sécurité/équité avec une confiance élevée

AI-4.1.3K2

Oracles de test pour les systèmes IA

Le problème de l'oracle de test (test oracle problem) : déterminer si la sortie est correcte pour une entrée donnée.

Pourquoi c'est difficile avec l'IA :

Sorties probabilistes et non déterministes — un verdict strict exige des seuils / plages de tolérance ;
Développement exploratoire, spécifications incomplètes ou évolutives ;
Complexité des tâches — trop complexes pour une vérification humaine ;
Subjectivité — les attentes utilisateurs varient (assistants virtuels) ;
Systèmes auto-apprenants — le comportement « correct » change avec le temps ; les résultats attendus initiaux deviennent invalides.

Solution	En clair
Limites de sortie (output boundaries)	Plages acceptables convenues, distributions, limites spécifiées (ex. distance d'arrêt d'un véhicule autonome)
Limites environnementales	Spécifier les conditions de l'environnement de test (éclairage, température, latence réseau)
Consultation d'experts	Des experts du domaine définissent les résultats attendus (opinions divergentes ou faillibles possibles)
Tests spécialisés	A/B testing, back-to-back testing, test métamorphique — comparer des comportements sans résultats attendus explicites
Oracles de substitution (proxy oracles)	Systèmes/modèles secondaires (y compris d'autres IA) pour évaluer les sorties

AI-4.2.1K2

Tester l'IA générative

Le test de la GenAI évalue : exactitude, cohérence, créativité, originalité, exigences fonctionnelles et non fonctionnelles.

Approche courante : test boîte noire — soumettre des entrées variées (prompts, images, données partielles) et évaluer les sorties (clarté, originalité, respect des règles du domaine).

Le problème de l'explosion des entrées (input explosion problem) — les entrées sont très diverses et difficiles à contrôler :

System prompts optionnels + prompt utilisateur (données énormes et disparates) ;
Accès par API ;
Multiples paramètres (température, max tokens) ;
Fenêtre de contexte (context window) qui retient la conversation précédente.

Évaluation des sorties : revue manuelle avec critères qualitatifs ; ou un second système GenAI qui détermine automatiquement le verdict (à utiliser avec prudence — il peut reproduire des biais/erreurs similaires).

Tests non fonctionnels : utilisation des ressources (CPU/GPU, mémoire, bande passante, temps de réponse).

Suites de benchmark : cadres d'évaluation standardisés ; datasets et tâches organisés pour des comparaisons cohérentes (compréhension du langage, raisonnement, capacités de codage).

AI-4.2.2K3

Le red teaming (K3 — à savoir appliquer)

Le red teaming (RT) est une attaque de défauts systématique, souvent en boîte noire, qui sonde un système IA pour identifier ses capacités nuisibles, en particulier dans ses sorties. Origine : jeux de guerre militaires, « tiger teams » de la NASA.

But : provoquer délibérément des résultats nuisibles/indésirables — violations de vie privée, propos racistes, instructions d'attaques CBRN… Les sorties nuisibles identifiées servent à mettre à jour et renforcer le système.

Le processus RT en 5 étapes (à connaître par cœur — question K3 à 2 pts probable) :

Assembler une équipe diverse de testeurs ;
Fournir un accès dans un environnement de test sûr ;
Prompter pour identifier les vulnérabilités (questions ouvertes ou checklists) ;
Analyser les défaillances identifiées pour comprendre les menaces ;
Créer des datasets à partir de ces menaces pour soutenir les mitigations.

Stratégies de couverture : manuelle (génération de prompts par crowdsourcing) ; automatisée (un LLM génère les prompts d'attaque, un autre vérifie les sorties) ; hybride (créativité humaine + passage à l'échelle automatisé).

Quand : le plus efficace avant le déploiement, après les premières évaluations qualité. Activité cœur : prompting interactif (dialogues multi-tours de 15 à 20 échanges).

Blue teaming : surveillance défensive en temps réel et filtrage des entrées des systèmes IA opérationnels. Les enseignements du RT améliorent les filtres du blue teaming.

Le RT couvre safety et security, mais aussi fiabilité, vie privée, équité, biais et détection de désinformation. C'est de plus en plus une attente réglementaire (EU AI Act).

⚠ Piège d'examen Équipe diverse (pas un expert unique), environnement sûr, et la sortie du processus = des datasets construits depuis les menaces. Une option qui parle de tests de performance ou d'un seul expert avec accès illimité est fausse. Red = attaque avant déploiement ; Blue = défense en production.

AI-4.3.1K2

Les niveaux de test des systèmes ML

Deux niveaux de test spécifiques au ML :

Niveau spécifique ML	Périmètre
Test des données d'entrée (input data testing — chap. 5)	Données d'entraînement ET données de production utilisées pour générer les prédictions
Test du modèle ML (ML model testing — chap. 6)	Test des modèles ML (produit final du workflow ML)

Les niveaux de test conventionnels restent nécessaires :

Niveau	Contenu pour un système ML
Test de composants	Composants non-IA : UI, pipeline de données, composants de communication
Test d'intégration de composants	Pipeline de données → entrées/sorties du modèle ; test d'API des services AIaaS
Test système	Performance ML dans le système complet ; surtout si le modèle a été délibérément modifié (ex. compression du DNN) ; tests non fonctionnels
Test d'intégration système	Interfaces et échanges de données avec les systèmes/services externes
Test d'acceptation	Adéquation du service IA ; vérification des critères de performance fonctionnelle ML

AI-4.3.2K2

Test basé sur les risques des systèmes ML

La plupart des cadres réglementaires exigent une approche basée sur les risques. Les risques spécifiques au ML se catégorisent selon le workflow ML :

Domaine	Type de risque	Exemples
Développement	Risques projet	Choix d'algorithme sous-optimal, mauvaise approche d'évaluation, vulnérabilités de sécurité du framework
Données d'entrée	Risques produit	Données d'entraînement biaisées, défauts du pipeline de données, données non représentatives
Modèle	Risques produit	Performance fonctionnelle ML insuffisante, modèle suraappris (overfitted), sensibilité aux exemples adversariaux

Les risques peuvent aussi être catégorisés selon les caractéristiques qualité ISO/IEC 25059.

⚠ Piège d'examen Risques de développement = risques projet ; risques données et modèle = risques produit.

Hands-on non examinable : HO-4.2.3 (test exploratoire d'un LLM générant des cas de test par analyse des valeurs limites 2 et 3 valeurs).

5 — Test des données d'entrée pour les systèmes ML

Durée syllabus : 180 min · 6 objectifs examinables dont 1 K3 · 8 questions à l'examen (dont 1 à 2 pts)

Mots-clés : test du pipeline de données (data pipeline testing), test de représentativité des données (data representativeness testing), test des contraintes de dataset (dataset constraint testing), test des données d'entrée (input data testing), test d'exactitude des étiquettes (label correctness testing), revue, test du biais (testing for bias) · analyse d'impact disparate (disparate impact analysis), annotation multiple (multiple annotation)

Objectif du niveau de test : confirmer que les données utilisées pour l'entraînement, le test et la prédiction sont de qualité suffisante. Moyens : revues, techniques statistiques, EDA, test statique et dynamique du pipeline de données.

AI-5.1.1K2

Risques des données d'entrée et mitigations

Risque potentiel	Mitigations possibles
Défauts dans les données d'entraînement menant à un biais ; biais algorithmique	Test du biais (5.1.2)
Données d'entraînement de sources non fiables ; données mal gérées	Test de provenance des données (data provenance testing)
Données d'entraînement empoisonnées (poisoned)	A/B testing (6.1.9) ; test de provenance ; EDA (3.2.1) ; attaques de red teaming (4.2.2)
Dataset incohérent ; données hors plage ; mauvais types de données	Test des contraintes de dataset (5.1.5)
Sélection de features sous-optimale	Test des features (feature testing)
Dataset déséquilibré ; dataset faussé par l'augmentation ; données manquantes	Test de représentativité des données (5.1.4)
Directives d'étiquetage médiocres ; données ambiguës ; mauvaise annotation	Test d'exactitude des étiquettes (5.1.6)
Défaillances du pipeline de données ; défauts de qualité ; dégradation des performances ; failles de sécurité	Test du pipeline de données (5.1.3)

AI-5.1.2K2

Tester le biais

Biais = différences de traitement non aléatoires et injustes fondées sur des attributs sensibles (genre, âge, origine) — souvent illégal, rend le système discriminatoire.

Deux sources :

Biais des données (data bias) — données d'entraînement non représentatives, historiquement faussées, ou délibérément empoisonnées ;
Biais algorithmique (algorithmic bias) — défauts dans l'algorithme, le modèle ou le framework (ex. seuil de décision pour un score de crédit).

Approche de test	En clair
Revues du workflow ML	Revoir la préparation des données pour repérer l'introduction de biais
Revues de la documentation des datasets	Comment les données ont été collectées, annotées, quelles populations sont représentées
Analyse statique	Programmes de préparation de données et code du modèle ; anti-patterns, mauvaise gestion des attributs sensibles
EDA des données d'entraînement	Visualisation et clustering pour révéler données déséquilibrées, distributions faussées, regroupements anormaux
Test dynamique	Soumettre un dataset connu non biaisé ; analyser les prédictions pour des différences statistiquement significatives entre groupes sensibles
Test d'exactitude des étiquettes	Repérer les mauvais étiquetages créant des associations incorrectes avec les attributs sensibles
Analyse d'impact disparate (disparate impact analysis)	Voir encadré ci-dessous

L'analyse d'impact disparate en 4 étapes :

Identifier les attributs sensibles (ex. le genre) ;
Générer des contrefactuels (counterfactuals) — ex. changer le genre dans une demande de prêt, tout le reste inchangé ;
Générer la sortie du modèle pour l'original et le contrefactuel ;
Analyser les résultats : des différences statistiquement significatives signalent la présence d'un biais.

Peut s'appliquer à des combinaisons d'attributs sensibles. Les contrefactuels doivent rester réalistes.

AI-5.1.3K2

Le test du pipeline de données

Approche en couches :

Niveau	Focus
Revues de conception	Pendant la phase de conception
Test de composants	Ingestion de données, scripts de transformation, interfaces capteurs ; revues de code, analyse statique, tests matériels ; validation de la logique de transformation, des règles de validation, de la gestion d'erreurs, des vulnérabilités
Test d'intégration de composants	Flux de données fluide entre interfaces internes ; détection des interfaces incompatibles
Test système	Smoke testing (fonctions de base) ; test fonctionnel (transformations, routage) ; non fonctionnel (performance, scalabilité, sécurité) ; injection de fautes ; back-to-back testing (pipeline opérationnel vs pipeline d'entraînement)
Test d'intégration système	Interaction avec les systèmes externes (sources de données, stockage, monitoring, modèles ML)
Test en production	Back-to-back testing (performance constante/améliorée) ; A/B testing ; outils de surveillance continue
Revues de gestion de configuration	Bonnes versions du code pipeline, configurations et datasets entre entraînement / test / production

⚠ Piège d'examen Les pipelines d'entraînement (prototypes exploratoires) privilégient l'intégrité des données ; les pipelines opérationnels privilégient fiabilité, performance, maintenabilité.

AI-5.1.4K2

Tester la représentativité des données

Détermine à quel point les caractéristiques du dataset correspondent aux données réelles que le modèle rencontrera. Adresse : datasets faussés (skewed), données manquantes, distributions de features disproportionnées, couverture insuffisante des scénarios opérationnels, classes déséquilibrées.

Les 3 étapes :

Définir la population cible — comprendre les cas d'usage et le contexte opérationnel ; analyser les utilisateurs finaux et environnements ; identifier les distributions attendues et les cas limites critiques (experts du domaine, systèmes existants, datasets de référence NIST/industrie) ; appliquer un échantillonnage stratifié à des données de référence représentatives ;
Analyser les caractéristiques des données — EDA sur les datasets d'entraînement/test ET le dataset de référence ; visualiser les distributions (histogrammes, nuages de points) ; examiner relations et corrélations entre features ; identifier anomalies, lacunes, concentrations inhabituelles ;
Appliquer une évaluation statistique — tests statistiques formels (Chi-deux, Kolmogorov-Smirnov) pour comparer les distributions ; vérifier les déséquilibres (surtout en classification) ; vérifier la couverture des cas typiques ET des cas limites.

À réaliser avant l'entraînement du modèle. Après déploiement, surveiller en continu la dérive des données (data drift).

⚠ Piège d'examen Le dataset de référence (reference dataset) fournit une ligne de base représentant la distribution des données opérationnelles cibles — il ne remplace ni le dataset de validation ni le dataset de test.

AI-5.1.5K3

Le test des contraintes de dataset (K3 — à savoir appliquer)

Vérifie que les données respectent des règles ou contraintes prédéfinies — confirme intégrité et cohérence. Généralement automatisé dans le pipeline de données (gros volumes) ; rapports fournis aux data scientists (entraînement) ou aux équipes d'exploitation (production).

Famille	Contrainte	Vérifie que…
Valeur unique (par attribut, par instance)	Missing	Pas de valeurs manquantes ni d'attributs manquants
	Range	La valeur est dans une plage donnée
	Type	La valeur correspond au type spécifié (entier, pas chaîne/réel)
Multi-valeurs (sur plusieurs instances d'un même attribut)	Sum	La somme des valeurs égale / dépasse / ne dépasse pas une valeur donnée
	Count	Le nombre de valeurs non nulles égale / dépasse / ne dépasse pas une valeur donnée
	Duplicate	Valeurs/instances identiques ou quasi identiques sous une limite (souvent zéro)
	Useful	L'attribut contient des valeurs répétées (des valeurs uniques comme un ID ou un horodatage n'apportent aucun motif ML utile)
	Outlier	Identification des valeurs statistiquement aberrantes
Comparaison (entre attributs)	Greater Than	Un attribut est supérieur à un autre
Comparaison (entre attributs)	Correlate	Les valeurs d'un attribut corrèlent avec celles d'un autre

⚠ Piège d'examen (K3, souvent 2 pts) On vous donne un scénario et il faut choisir les bonnes contraintes. Réflexes : « revenu positif » → Range · « âge est un entier » → Type · « pas deux fois le même client » → Duplicate · « nombre de transactions par client sous un seuil » → Count · « un ID unique n'apprend rien au modèle » → Useful · « la date de fin après la date de début » → Greater Than · « les champs obligatoires remplis » → Missing.

AI-5.1.6K2

Le test d'exactitude des étiquettes (label correctness)

Des étiquettes inexactes ou incohérentes sapent directement la performance et la généralisation du modèle ML.

Approche	En clair
Revue par experts	Des experts du domaine / annotateurs formés revoient manuellement un échantillon de données étiquetées
Annotation multiple (multiple annotation)	Chaque donnée est étiquetée indépendamment par plusieurs annotateurs ; les désaccords sont investigués ; on mesure l'accord inter-annotateurs (IAA) — Kappa de Cohen, % d'accord ; IAA faible → directives défectueuses ou données ambiguës
Priorisation par les risques	Concentrer la revue sur les données probablement mal étiquetées (ambiguës, proches d'une frontière de classe) et à fort impact
Analyse de distribution	Comparer la distribution des étiquettes à des datasets similaires pour révéler des anomalies
Tests automatisés à base de règles	Règles prédéfinies sur les étiquettes (ex. les boîtes englobantes ne se chevauchent pas et ne dépassent pas les limites de l'image)
Analyse de la perte du modèle (model loss analysis)	Les points à perte élevée pendant l'entraînement → probablement mal étiquetés
Analyse des scores de confiance	Prédictions à faible confiance → mauvais étiquetage possible, ambiguïté, ou hors distribution

Meilleurs résultats en combinant : revues d'experts → scores IAA → approches basées modèle au fil du développement.

Hands-on non examinable : HO-5.1.7 (test des données d'entrée sur un dataset tabulaire : données manquantes, doublons, outliers).

6 — Test des modèles ML

Durée syllabus : 225 min · 9 objectifs examinables dont 1 K3 · 9 questions à l'examen (dont 1 à 2 pts) — le chapitre le plus pondéré

Mots-clés : A/B testing, test adversarial (adversarial testing), back-to-back testing, dérive conceptuelle (concept drift), dérive des données (data drift), test de dérive (drift testing), test métamorphique (metamorphic testing), performance fonctionnelle ML, test du modèle ML, revue · surapprentissage (overfitting), sous-apprentissage (underfitting)

AI-6.1.1K2

Risques des modèles ML et mitigations

Risque potentiel	Mitigation possible
Modèle biaisé ou injuste	Test du biais (5.1.2)
Modèle non éthique	Test éthique du système
Exemples adversariaux	Test adversarial (6.1.4)
Modèle suraappris (overfitted)	Test du surapprentissage (6.1.8)
Modèle sous-appris (underfitted)	Test du sous-apprentissage (6.1.8)
Dérive des données / conceptuelle inacceptable	Test de dérive (6.1.7)
Le modèle provoque des effets de bord	Test des effets de bord (side-effects testing)
Le modèle exploite sa récompense (reward hacking)	Test du reward hacking
Défaut d'API du modèle	Test d'API (7.1.2)
Performance fonctionnelle ML requise non atteinte	Test de performance fonctionnelle ML (6.1.3)
Incorrections fonctionnelles ; défauts non fonctionnels ; problème de l'oracle	Test métamorphique (6.1.5) ; back-to-back (6.1.10) ; A/B (6.1.9)
Manque de robustesse IA	Test adversarial (6.1.4) ; fuzz testing ; test exploratoire
Mises à jour du modèle introduisant des défauts / dégradant les performances	Back-to-back (6.1.10) / A/B (6.1.9)
Vulnérabilités sécurité/safety ; violations vie privée ; sorties nuisibles	Red teaming (4.2.2)

AI-6.1.2K2

Documentation et revue des modèles ML

La documentation est critique pour les systèmes IA — défis uniques : code généré par la machine difficile à comprendre, nature boîte noire, dépendance aux données, mises à jour fréquentes. Elle soutient : communication, décisions éclairées, vérification de la qualité/maintenabilité, conformité réglementaire (obligations de transparence de l'EU AI Act).

Cadre de documentation	Contenu
Model Cards	Aperçu concis des usages prévus, résultats d'évaluation, considérations éthiques
Datasheets for Datasets	Format standardisé : motivation, composition, processus de collecte, usages d'un dataset

Sections de la checklist de documentation : Général · Conception · Usage · Datasets · Test · Fonctionnel · Non-fonctionnel · Opérationnel.

Objectifs de la revue : repérer informations manquantes/inexactes/incohérentes ; améliorer clarté et lisibilité ; renforcer la maintenabilité ; fournir assez d'informations pour test et déploiement ; vérifier que toutes les exigences réglementaires sont satisfaites.

⚠ Piège d'examen Model Cards = documentation d'un modèle (usages, évaluation, éthique). Datasheets for Datasets = documentation d'un dataset. Ne pas confondre.

AI-6.1.3K2

Test de performance fonctionnelle ML des systèmes probabilistes

Évalue à quel point le modèle remplit ses fonctions en mesurant les métriques (accuracy, recall, precision, F1) contre les critères d'acceptation. Pour un système probabiliste, on va au-delà d'un simple réussite/échec vers une mesure statistique.

Précondition : critères d'acceptation exprimés en termes statistiques, spécifiant une métrique, une marge d'erreur (MoE) et un niveau de confiance (CL).
Exemple : « 98 % d'accuracy avec une MoE de ±4 % à un CL de 95 % » → nécessite 601 cas de test ; au moins 589 doivent réussir.
Lecture d'un critère « 95 % ±3 % à 95 % CL » : l'accuracy estimée sur l'échantillon doit se situer entre 92 % et 98 % avec 95 % de confiance.

Deux options quand le nombre de tests augmente : fixer le CL → la MoE diminue (résultat plus précis) ; ou fixer la MoE → le CL augmente (résultat plus certain).

Test séquentiel (sequential testing) : cadre statistique formel d'arrêt anticipé — on s'arrête dès que les preuves suffisent, sans épuiser tout l'échantillon.

Systèmes critiques (safety) : exigences plus strictes (ex. « 99 % de fiabilité avec 95 % de confiance » → 299 cas de test, tous doivent réussir).

Note du syllabus : les formules et calculs numériques sont illustratifs — vous n'aurez pas à les dériver ni les calculer à l'examen.

AI-6.1.4K2

Le test adversarial (adversarial testing)

Test adversarial : fournir délibérément au modèle des perturbations des données d'entrée, souvent imperceptibles à l'humain, conçues pour provoquer des prédictions incorrectes.

Exemples adversariaux (adversarial examples) : les entrées de test qui réussissent à causer une mauvaise classification (souvent des versions légèrement modifiées d'entrées légitimes).

But : identifier les vulnérabilités → ajouter des garde-fous → améliorer la robustesse du modèle.

Deux types : exemples adversariaux accidentels (naturels) · attaques adversariales (usage malveillant des exemples adversariaux).

Approche	En clair
Boîte noire	On se concentre sur entrées/sorties : créer un modèle équivalent aux internes connus → fabriquer des entrées adversariales → les appliquer à l'original (hypothèse de transférabilité) ; ou force brute avec un grand nombre de tests
Boîte blanche	Connaître les internes (architecture, paramètres, entraînement) facilite la fabrication d'exemples adversariaux
Manuelle	Fabriquer des exemples adversariaux spécifiques
Automatisée	Des algorithmes génèrent un grand nombre de variations

AI-6.1.5K3

Le test métamorphique (K3 — à savoir appliquer)

Test métamorphique (MT) : technique où de nouveaux cas de test (dits de suivi / follow-up) sont dérivés d'un cas de test source déjà réussi, au moyen d'une relation métamorphique (MR).

Relation métamorphique (MR) : fondée sur une propriété de la fonction requise ; décrit comment un changement des entrées se reflète dans les résultats attendus.

Quand utiliser le MT (préféré au test classique par oracle) : pas de sorties attendues fiables (opacité du modèle, échelle des données) ; système en boîte noire ; des propriétés relationnelles (et non des valeurs absolues) suffisent.

Les 3 types de MR :

Cohérence (consistency) — les sorties s'accordent entre entrées apparentées ;
Monotonie (monotonicity) — la sortie change dans une direction avec l'entrée (ex. plus de cigarettes fumées → âge de décès prédit plus bas) ;
Invariance (invariance) — la sortie reste stable sous certaines perturbations.

Applications : reconnaissance d'images, moteurs de recherche, optimisation d'itinéraire, reconnaissance vocale. Dériver les MR depuis la connaissance du domaine, les exigences ou des propriétés (lois physiques) ; les valider par revue d'experts, modèles de référence, couverture des cas limites.

Limites : des MR incorrectes/incomplètes → fausse confiance ; le MT détecte des défauts relationnels mais pas toutes les erreurs absolues ; à combiner avec d'autres techniques.

⚠ Piège d'examen (K3) Une bonne MR est plausible et fondée sur le domaine. Ex. pour une prédiction de durée de vie : « ↑ activité physique → ↑ durée de vie » (monotonie +) et « ↑ tabac → ↓ durée de vie » (monotonie −). Méfiez-vous des MR absurdes : « doubler les facteurs de risque divise la durée par deux » (relation numérique arbitraire non justifiée) ou « changer toutes les features doit changer la prédiction » (pas une propriété fiable).

AI-6.1.7K2

Le test de dérive (drift testing)

Type	Définition	Exemple
Dérive des données (data drift)	Les propriétés statistiques des données d'entrée changent avec le temps	Un filtre anti-spam rencontre de nouveaux types de phishing absents de l'entraînement
Dérive conceptuelle (concept drift)	La relation entrée → sortie correcte change avec le temps	Changement de réglementation financière : une transaction « faible risque » devient « haut risque »

Méthode	En clair
Test de dérive dynamique	S'appuie sur le retour des utilisateurs (ground truth actuelle) ; on compare la vérité terrain actuelle à la sortie du modèle ; l'écart est comparé à un seuil. Retour direct (l'utilisateur note une recommandation) ou indirect (films réellement regardés)
Test de dérive statique	Ne nécessite PAS la vérité terrain actuelle ; compare les propriétés statistiques des distributions d'entrée et de sortie prédite (ex. test de Kolmogorov-Smirnov) ; différence significative → indicateur de dérive

⚠ Piège d'examen Dynamique = a besoin de la vérité terrain actuelle (feedback). Statique = pas besoin de vérité terrain, compare des distributions. Fraudeurs qui changent de technique → concept drift (la définition du « frauduleux » a changé).

AI-6.1.8K2

Tester le surapprentissage et le sous-apprentissage

Trois résultats possibles : surapprentissage (overfitting), sous-apprentissage (underfitting), bon ajustement (right-fitting). À tester pendant l'entraînement, l'évaluation et l'ajustement.

	Surapprentissage (overfitting)	Sous-apprentissage (underfitting)
Cause	Le modèle apprend trop bien les données d'entraînement → capture le bruit plutôt que le motif sous-jacent	Modèle trop simple pour capturer la structure, OU données manquant de features reflétant les relations importantes
Symptôme	Mauvaise généralisation aux données nouvelles	Mauvaise performance sur l'entraînement ET la validation
Détection	Performance bien moins bonne sur le dataset de test que sur le dataset de validation	Métriques (accuracy, precision, recall, F1) constamment faibles sur entraînement et validation
Détection visuelle	—	Courbes d'apprentissage : erreurs d'entraînement et de validation restent élevées et proches, sans amélioration

⚠ Piège d'examen Overfitting = écart entre validation (bon) et test (mauvais) → le modèle a « mémorisé ». Underfitting = mauvais partout, dès l'entraînement.

AI-6.1.9K2

Le A/B testing

Compare les réponses de deux variantes (A et B) aux mêmes entrées pour déterminer laquelle est meilleure. Approche statistique : compare les résultats de plusieurs exécutions.

Caractéristiques : ne génère pas de cas de test ; ne donne aucune guidance sur la conception des tests ; utilise souvent des entrées opérationnelles ; adresse le problème de l'oracle (le système existant = oracle partiel).

Applications : tester les mises à jour (la nouvelle variante fait aussi bien ou mieux) ; du simple classifieur au système complexe (ex. routage de transport en ville intelligente) ; systèmes auto-apprenants (tests automatisés à chaque changement ; accepter si amélioré, revenir en arrière sinon).

Techniques statistiques courantes : test t, test z, test du chi-deux, test U de Mann-Whitney.

⚠ Piège d'examen Différence clé A/B vs back-to-back : le A/B testing compare deux variantes via des métriques de performance ML et des techniques statistiques (laquelle est meilleure) ; le back-to-back testing sert à détecter des défauts (comparaison à un pseudo-oracle).

AI-6.1.10K2

Le back-to-back testing

Back-to-back testing : utilise une version alternative du système comme point de référence (pseudo-oracle) et compare ses sorties à celles du système sous test pour les mêmes entrées.

Pseudo-oracle : un système existant ou développé spécifiquement pour le test. Idéalement, il ne partage pas de composants logiciels communs avec le système sous test (risque : le même défaut dans les deux).

Bonnes pratiques : développé par une équipe différente, idéalement indépendante ; frameworks ML, algorithmes ou réglages différents ; un logiciel conventionnel peut servir de pseudo-oracle s'il résout le même problème.

Caractéristiques : ne nécessite de générer que des entrées de test (pas de résultats attendus) ; entrées issues de cas existants, de suites de régression, ou auto-générées depuis les données d'entraînement ; un pseudo-oracle fonctionnel n'a pas besoin de satisfaire les mêmes exigences non fonctionnelles.

Utile pour : migration d'un système ML vers de nouveaux environnements (dev → prod) ; comparaison de résultats entre environnements ; révélation de défauts subtils ; cas limites et entrées inhabituelles.

Hands-on non examinable : HO-6.1.6 (appliquer le test métamorphique : dériver des MR à résultats identiques ET différents, générer cas sources puis cas de suivi, exécuter).

7 — Test du développement ML

Durée syllabus : 30 min (le plus court) · 2 objectifs (tous K2) · 2 questions à l'examen

Mots-clés : test du développement ML (ML development testing), performance fonctionnelle ML, test fantôme (shadow testing)

Ce niveau se concentre sur les risques introduits par les outils de développement ML, les choix de configuration et les mécanismes de déploiement.

AI-7.1.1K2

Risques du développement ML et mitigations

Risque potentiel	Mitigation possible
Usage incorrect des API du framework (TensorFlow, PyTorch)	Test d'API (7.1.2)
Sélection de framework sous-optimale	Revue d'adéquation du framework
Injustice systémique dans l'algorithme, le modèle ou le framework	Test du biais (5.1.2)
Installation ou build défectueux du framework	Smoke testing
Implémentation défectueuse de l'évaluation du framework	Revues du code d'évaluation ; contre-vérification avec benchmarks manuels
Mauvaise performance / mauvaise utilisabilité du framework	Test de performance / test d'utilisabilité
Défaut dans une bibliothèque ; implémentation d'algorithme défectueuse	Test de performance fonctionnelle ML (6.1.3) ; back-to-back (6.1.10)
Vulnérabilités de sécurité du framework	Test de sécurité
Sélection d'algorithme / d'hyperparamètres sous-optimale	Revue d'adéquation ; A/B testing (6.1.9) ; test de performance fonctionnelle ML (6.1.3)
Mauvaise allocation des données à entraînement/validation/test	Revue d'allocation des données
Défaut de déploiement (version modifiée pour la plateforme cible)	Smoke testing ; test de performance ML ; A/B testing
Modèle déployé incompatible avec l'environnement opérationnel	Smoke testing ; test de déploiement MLS (7.1.2)
Le modèle déployé n'améliore pas le modèle actuel	Shadow testing (7.1.2)

⚠ Piège d'examen Les risques de développement concernent le framework, l'algorithme, les hyperparamètres, le déploiement — pas le biais des données (chap. 5) ni l'overfitting du modèle (chap. 6). Une vulnérabilité du framework ML est un risque de développement type.

AI-7.1.2K2

Test de déploiement des systèmes ML

Type de test	En clair
Test d'installabilité	Vérifie installation, configuration et désinstallation dans tous les environnements supportés ; inclut dépendances système (pilotes GPU), compatibilité framework, scripts d'installation
Test de rollback (retour arrière)	Vérifie la capacité à revenir à un état stable après un déploiement dégradé/échoué ; couvre le modèle ou le système complet ; doit être réalisé AVANT le déploiement pour confirmer que le rollback est prêt
Test canari (canary)	Valide un nouveau déploiement en le diffusant à un petit sous-ensemble du trafic de production (ex. 5 %) ; surveille les métriques temps réel (latence, accuracy, erreurs) avant le déploiement complet. Les vrais utilisateurs voient les résultats.
Test fantôme (shadow)	Exécute le nouveau modèle en parallèle du modèle de production en temps réel ; route les mêmes requêtes vers les deux sans affecter les réponses en direct ; compare les modèles sur données réelles ; révèle régressions et dérive avant le déploiement complet
Test de conversion du modèle	Vérifie que le modèle conserve une accuracy acceptable, un comportement cohérent et une efficacité opérationnelle après conversion du format d'entraînement vers le format de déploiement
Test multi-appareils (cross-device)	Vérifie que le système ML fonctionne correctement sur toutes les cibles prévues (mobile, edge, serveurs cloud)
Test d'API	Vérifie des interfaces bien définies et conformes aux standards ; valide la gestion des entrées/sorties, messages d'erreur, workflows d'intégration avec les systèmes externes

⚠ Piège d'examen Canari = une part des vrais utilisateurs reçoit le nouveau modèle (les réponses leur sont montrées). Shadow = le nouveau modèle reçoit les mêmes requêtes mais ses réponses ne sont PAS montrées aux utilisateurs. Le rollback se teste AVANT de déployer.

Glossaire ISTQB (termes spécifiques IA)

Les 118 termes officiels du chapitre 9 du syllabus. Les questions K1 de l'examen portent sur ce vocabulaire — le terme anglais officiel est indiqué, l'examen français l'utilise entre parenthèses.

Rechercher un terme

Tests & entraînement

🎯 Quiz ciblé

Choisissez un chapitre, un niveau K et un nombre de questions. Correction immédiate après chaque réponse.

Chapitre

Niveau cognitif

Nombre de questions

🔁 Mode adaptatif

L'app sélectionne en priorité des questions sur vos objectifs les plus faibles (score de maîtrise le plus bas). Idéal pour réviser efficacement.

Nombre de questions

📝 Examen blanc officiel

Simulation conforme : 40 questions, 60 minutes, barème officiel (4 questions à 2 points, seuil 29/44). Les questions officielles ISTQB sont incluses. Verdict REÇU / RECALÉ et analyse par chapitre à la fin.

🎯 Points faibles

Maîtrise par chapitre

Objectifs à réviser en priorité

Classés du score le plus faible au plus élevé. Un objectif « non testé » n'a pas encore de données — faites un quiz pour l'évaluer.

📈 Progression dans le temps

Évolution de vos scores d'examen blanc

Chaque point = un examen blanc (score ramené sur 44). La ligne verte = seuil de réussite (29/44).

Historique des sessions

Date	Type	Score	Résultat

Votre progression est enregistrée automatiquement dans ce navigateur (localStorage). Utilisez l'export JSON pour sauvegarder ou transférer vos données entre votre PC et votre téléphone.