Glossaire
Voici le glossaire du Deep Learning avec des liens vers les définitions des termes techniques mentionnés :
📕 Glossaire du Deep Learning
Termes fondamentaux
| Terme | Définition | Exemple concret |
|---|---|---|
| Deep Learning | Sous-domaine du Machine Learning utilisant des réseaux de neurones à plusieurs couches pour modéliser des abstractions de haut niveau dans les données. | Reconnaissance d'objets dans des photos. |
| Réseau de neurones | Système inspiré du cerveau humain composé de nœuds (neurones) interconnectés qui traitent les informations. | Réseau capable de reconnaître des chiffres manuscrits. |
| Neurone artificiel | Unité de calcul de base dans un réseau de neurones qui reçoit des entrées, applique une transformation et produit une sortie. | Un neurone qui s'active quand il détecte un contour vertical. |
| Couche | Ensemble de neurones situés au même niveau dans le réseau. | Couche d'entrée, couche cachée, couche de sortie. |
| Poids | Valeurs numériques qui définissent l'importance relative de chaque connexion entre les neurones. | Un poids élevé (ex: 0.8) indique une forte influence. |
| Biais | Valeur ajoutée à la somme pondérée des entrées d'un neurone pour ajuster le seuil d'activation. | Permet à un neurone de s'activer même si toutes les entrées sont nulles. |
| Fonction d'activation | Fonction mathématique qui détermine la sortie d'un neurone en fonction de ses entrées. | ReLU, Sigmoid, Tanh. |
Architectures de réseaux
| Terme | Définition | Cas d'utilisation |
|---|---|---|
| Réseau dense | Réseau où chaque neurone est connecté à tous les neurones de la couche précédente. | Classification d'images simples, prédiction de valeurs. |
| Réseau convolutif (CNN) | Réseau spécialisé dans le traitement des données en grille comme les images, utilisant des filtres pour détecter des caractéristiques. | Reconnaissance d'objets, classification d'images. |
| Réseau récurrent (RNN) | Réseau avec des connexions formant des cycles, adapté aux données séquentielles. | Traduction automatique, génération de texte. |
| LSTM/GRU | Types de RNN capables de mémoriser l'information sur de longues séquences grâce à des mécanismes de mémoire. | Analyse de texte long, prédiction de séries temporelles. |
| Transformer | Architecture basée sur des mécanismes d'attention, sans récurrence, permettant de traiter les données en parallèle. | Modèles de langage avancés comme GPT, BERT, Mistral. |
| Autoencoder | Réseau qui apprend à encoder puis décoder les données pour réduire la dimensionnalité ou détecter des anomalies. | Réduction de dimensionnalité, détection d'anomalies. |
| GAN (Generative Adversarial Network) | Deux réseaux en compétition : un générateur crée des données et un discriminateur essaie de les distinguer des données réelles. | Création d'images réalistes, deepfakes. |
Apprentissage
| Terme | Définition | Exemple |
|---|---|---|
| Forward propagation | Passage des données d'entrée à travers le réseau pour produire une prédiction. | Calcul de la sortie d'un modèle pour une image d'entrée. |
| Loss (perte) | Mesure de l'écart entre les prédictions du modèle et les valeurs réelles. | Erreur quadratique moyenne, entropie croisée. |
| Backpropagation | Algorithme qui calcule le gradient de l'erreur par rapport aux poids du réseau pour les ajuster. | Calcul de la contribution de chaque poids à l'erreur totale. |
| Descente de gradient | Algorithme d'optimisation qui ajuste les poids du réseau pour minimiser l'erreur. | Modification itérative des poids dans la direction du gradient négatif. |
| Époque | Un passage complet à travers l'ensemble des données d'entraînement. | Entraîner un modèle pendant 10 époques. |
| Batch | Sous-ensemble des données traité avant une mise à jour des poids. | Traiter les données par lots de 32 exemples. |
| Optimiseur | Algorithme qui implémente la descente de gradient pour ajuster les poids du réseau. | Adam, SGD, RMSprop. |
| Learning rate | Taux qui contrôle l'ampleur des ajustements des poids lors de l'entraînement. | Trop élevé : divergence, trop faible : apprentissage lent. |
Techniques spécifiques
| Terme | Définition | Utilisation |
|---|---|---|
| Transfer learning | Réutilisation d'un modèle pré-entraîné sur une nouvelle tâche pour bénéficier de ses connaissances. | Adapter un modèle ImageNet pour reconnaître des maladies de plantes. |
| Fine-tuning | Ajustement d'un modèle pré-entraîné sur des données spécifiques pour améliorer ses performances sur une tâche particulière. | Réentraîner les dernières couches d'un modèle BERT pour la classification de texte. |
| Data augmentation | Génération de nouvelles données d'entraînement par transformation des données existantes pour augmenter la diversité. | Rotation, mise à l'échelle, distorsion d'images. |
| Dropout | Technique où des neurones sont aléatoirement désactivés pendant l'entraînement pour réduire l'overfitting. | Force le réseau à être redondant et robuste. |
| Batch normalization | Normalisation des activations d'une couche pour stabiliser et accélérer l'apprentissage. | Améliore la convergence et permet d'utiliser des taux d'apprentissage plus élevés. |
| Early stopping | Arrêt de l'entraînement quand les performances sur la validation cessent de s'améliorer pour éviter l'overfitting. | Empêche le surajustement aux données d'entraînement. |
| Embedding | Conversion de données catégorielles en vecteurs denses pour les représenter dans un espace continu. | Word embeddings dans le NLP (Word2Vec, GloVe). |
Convolutions et CNN
| Terme | Définition | Rôle |
|---|---|---|
| Filtre (kernel) | Matrice de poids appliquée à une région de l'image pour détecter des caractéristiques spécifiques. | Détecte des caractéristiques spécifiques (bords, textures). |
| Feature map | Sortie d'un filtre de convolution appliqué à une image, représentant les caractéristiques détectées. | Carte d'activation des caractéristiques détectées. |
| Pooling | Opération de sous-échantillonnage réduisant les dimensions de la feature map pour généraliser les caractéristiques. | Réduit la complexité computationnelle et contrôle l'overfitting. |
| Padding | Ajout de pixels (généralement zéros) aux bords d'une image pour conserver les dimensions après convolution. | Permet de conserver les dimensions de l'image après l'application des filtres. |
| Stride | Pas de déplacement du filtre sur l'image, contrôlant le chevauchement des champs réceptifs. | Contrôle la taille de la feature map et la quantité de chevauchement. |
Métriques d'évaluation
| Métrique | Définition | Cas d'usage |
|---|---|---|
| Accuracy | Proportion de prédictions correctes parmi toutes les prédictions. | Classification équilibrée. |
| Precision | Proportion des prédictions positives qui sont correctes. | Quand les faux positifs sont coûteux. |
| Recall | Proportion des cas positifs réels correctement identifiés. | Quand les faux négatifs sont coûteux. |
| F1-Score | Moyenne harmonique de la précision et du rappel, équilibrant les deux métriques. | Classification avec classes déséquilibrées. |
| ROC-AUC | Aire sous la courbe ROC, mesurant la qualité de la discrimination entre les classes. | Évaluation des modèles de classification. |
| MAE (Mean Absolute Error) | Moyenne des valeurs absolues des erreurs entre les prédictions et les valeurs réelles. | Régression, quand les écarts importants ne sont pas surpondérés. |
| RMSE (Root Mean Squared Error) | Racine carrée de la moyenne des carrés des erreurs entre les prédictions et les valeurs réelles. | Régression, pénalise davantage les grands écarts. |
Problèmes courants
| Terme | Définition | Solution possible |
|---|---|---|
| Overfitting | Le modèle apprend trop bien les données d'entraînement au détriment de la généralisation sur de nouvelles données. | Régularisation, dropout, plus de données. |
| Underfitting | Le modèle est trop simple pour capturer la complexité des données, résultant en de mauvaises performances. | Augmenter la complexité du modèle, entraîner plus longtemps. |
| Vanishing gradient | Problème où le gradient devient très petit, ralentissant l'apprentissage dans les couches profondes. | Utiliser ReLU, LSTM, initialisation des poids adaptée. |
| Exploding gradient | Problème où le gradient devient très grand, déstabilisant l'apprentissage. | Gradient clipping, normalisation des poids. |
| Imbalanced data | Jeu de données où certaines classes sont beaucoup plus fréquentes que d'autres, biaisant le modèle. | Rééchantillonnage, pondération des classes, techniques d'augmentation. |
Termes relatifs aux modèles de langage
| Terme | Définition | Exemple |
|---|---|---|
| Token | Unité de base du texte pour les modèles de langage, comme un mot, sous-mot ou caractère. | "Je suis prêt" → ["Je", "suis", "prêt"]. |
| Tokenization | Processus de découpage du texte en tokens pour les traiter dans un modèle de langage. | "Je suis prêt" → ["Je", "suis", "prêt"]. |
| Prompt | Texte initial fourni à un modèle de langage pour guider sa génération de texte. | "Rédige un poème sur le printemps:". |
| Context window | Nombre maximum de tokens qu'un modèle peut traiter en une fois, déterminant la quantité d'information contextuelle. | GPT-4 a une fenêtre contextuelle de 8k-32k tokens. |
| Attention | Mécanisme permettant au modèle de se concentrer sur différentes parties de l'entrée pour générer une sortie pertinente. | Self-attention dans les Transformers. |
| Fine-tuning | Adaptation d'un modèle pré-entraîné à une tâche spécifique en ajustant ses poids sur des données spécifiques. | Ajuster GPT pour une tâche de customer support. |
| Few-shot learning | Capacité d'un modèle à apprendre à partir de très peu d'exemples, souvent en fournissant quelques exemples dans le prompt. | Donner 2-3 exemples dans le prompt pour guider le modèle. |
Frameworks et outils
| Terme | Définition | Cas d'utilisation |
|---|---|---|
| TensorFlow | Framework de Machine Learning développé par Google, utilisé pour créer et entraîner des modèles de Deep Learning. | Déploiement en production, applications mobiles. |
| PyTorch | Framework de Machine Learning développé par Facebook, connu pour sa flexibilité et sa facilité d'utilisation. | Recherche, prototypage rapide. |
| Keras | API de haut niveau s'exécutant sur TensorFlow, facilitant le développement rapide de modèles de Deep Learning. | Développement rapide de prototypes. |
| Hugging Face | Bibliothèque pour les modèles de NLP pré-entraînés, facilitant leur utilisation et leur fine-tuning. | Utilisation de BERT, GPT et autres modèles de langage. |
| ONNX | Format d'échange pour modèles de Machine Learning, permettant l'interopérabilité entre différents frameworks. | Transfert de modèles entre TensorFlow, PyTorch, etc. |
| TensorBoard | Outil de visualisation pour TensorFlow, permettant de suivre les métriques d'entraînement et de visualiser les graphes de modèles. | Suivi des métriques d'entraînement. |
| MLflow | Plateforme pour gérer le cycle de vie des modèles de Machine Learning, incluant le suivi des expériences et la gestion des modèles. | Suivi des expériences, gestion des modèles. |
Applications du Deep Learning
| Application | Description | Architecture typique |
|---|---|---|
| Computer Vision | Domaine du Deep Learning dédié à l'analyse et la compréhension d'images et de vidéos. | CNN (ResNet, YOLO, EfficientNet). |
| Natural Language Processing (NLP) | Domaine du Deep Learning dédié au traitement et à la génération de texte. | Transformers (BERT, GPT, T5). |
| Speech Recognition | Conversion de la parole en texte à l'aide de modèles de Deep Learning. | RNN, Transformers (Wav2Vec). |
| Recommendation Systems | Systèmes qui suggèrent du contenu personnalisé en fonction des préférences de l'utilisateur. | Réseaux de neurones profonds, embeddings. |
| Generative AI | Création de contenu nouveau (images, texte, audio) à l'aide de modèles de Deep Learning. | GANs, Diffusion Models, Transformers. |
| Reinforcement Learning | Apprentissage par essai-erreur et récompense, où un agent apprend à prendre des décisions pour maximiser une récompense. | Deep Q-Networks, Policy Gradients. |
| Time Series Analysis | Prédiction de valeurs futures dans des séquences temporelles à l'aide de modèles de Deep Learning. | LSTM, Transformers temporels. |
Explications des termes techniques
Fonctions d'activation
- ReLU (Rectified Linear Unit) : Fonction d'activation qui retourne 0 si l'entrée est négative et l'entrée elle-même si elle est positive. Elle est couramment utilisée dans les réseaux de neurones pour introduire de la non-linéarité.
- Sigmoid : Fonction d'activation qui mappe les valeurs d'entrée à une plage de 0 à 1, souvent utilisée pour les problèmes de classification binaire.
- Tanh (Hyperbolic Tangent) : Fonction d'activation qui mappe les valeurs d'entrée à une plage de -1 à 1, souvent utilisée dans les réseaux récurrents.
Optimiseurs
- Adam (Adaptive Moment Estimation) : Algorithme d'optimisation qui combine les avantages de deux autres extensions de la descente de gradient stochastique, à savoir AdaGrad et RMSProp. Il est largement utilisé pour entraîner des réseaux de neurones.
- SGD (Stochastic Gradient Descent) : Algorithme d'optimisation qui met à jour les poids du réseau en utilisant une estimation stochastique du gradient de la fonction de perte.
- RMSprop : Algorithme d'optimisation qui adapte le taux d'apprentissage pour chaque paramètre, ce qui permet de stabiliser et d'accélérer l'entraînement.
Modèles de langage
- Word2Vec : Modèle de langage qui apprend des représentations vectorielles des mots (embeddings) en utilisant des réseaux de neurones. Il est utilisé pour capturer les relations sémantiques entre les mots.
- GloVe (Global Vectors for Word Representation) : Modèle de langage qui apprend des embeddings de mots en utilisant une matrice de co-occurrence des mots dans un corpus.
Modèles de reconnaissance vocale
- Wav2Vec : Modèle de reconnaissance vocale qui apprend des représentations vectorielles des segments audio en utilisant des réseaux de neurones. Il est utilisé pour convertir la parole en texte.
Architectures de réseaux
- ResNet (Residual Networks) : Architecture de réseau de neurones convolutifs qui utilise des connexions résiduelles pour permettre l'entraînement de réseaux très profonds sans dégradation des performances.
- YOLO (You Only Look Once) : Architecture de réseau de neurones convolutifs utilisée pour la détection d'objets en temps réel. Elle divise l'image en une grille et prédit des boîtes englobantes et des classes pour chaque cellule de la grille.
- EfficientNet : Architecture de réseau de neurones convolutifs qui utilise une approche de mise à l'échelle composée pour optimiser la précision et l'efficacité du modèle.
Modèles de langage avancés
- BERT (Bidirectional Encoder Representations from Transformers) : Modèle de langage basé sur les Transformers qui utilise des mécanismes d'attention bidirectionnelle pour capturer le contexte des mots dans une phrase. Il est largement utilisé pour des tâches de traitement du langage naturel.
- GPT (Generative Pre-trained Transformer) : Modèle de langage basé sur les Transformers qui est pré-entraîné sur un grand corpus de texte et peut être fine-tuné pour des tâches spécifiques. Il est utilisé pour la génération de texte et d'autres tâches de traitement du langage naturel.