Aller au contenu

Glossaire

Voici le glossaire du Deep Learning avec des liens vers les définitions des termes techniques mentionnés :

📕 Glossaire du Deep Learning

Termes fondamentaux

Terme Définition Exemple concret
Deep Learning Sous-domaine du Machine Learning utilisant des réseaux de neurones à plusieurs couches pour modéliser des abstractions de haut niveau dans les données. Reconnaissance d'objets dans des photos.
Réseau de neurones Système inspiré du cerveau humain composé de nœuds (neurones) interconnectés qui traitent les informations. Réseau capable de reconnaître des chiffres manuscrits.
Neurone artificiel Unité de calcul de base dans un réseau de neurones qui reçoit des entrées, applique une transformation et produit une sortie. Un neurone qui s'active quand il détecte un contour vertical.
Couche Ensemble de neurones situés au même niveau dans le réseau. Couche d'entrée, couche cachée, couche de sortie.
Poids Valeurs numériques qui définissent l'importance relative de chaque connexion entre les neurones. Un poids élevé (ex: 0.8) indique une forte influence.
Biais Valeur ajoutée à la somme pondérée des entrées d'un neurone pour ajuster le seuil d'activation. Permet à un neurone de s'activer même si toutes les entrées sont nulles.
Fonction d'activation Fonction mathématique qui détermine la sortie d'un neurone en fonction de ses entrées. ReLU, Sigmoid, Tanh.

Architectures de réseaux

Terme Définition Cas d'utilisation
Réseau dense Réseau où chaque neurone est connecté à tous les neurones de la couche précédente. Classification d'images simples, prédiction de valeurs.
Réseau convolutif (CNN) Réseau spécialisé dans le traitement des données en grille comme les images, utilisant des filtres pour détecter des caractéristiques. Reconnaissance d'objets, classification d'images.
Réseau récurrent (RNN) Réseau avec des connexions formant des cycles, adapté aux données séquentielles. Traduction automatique, génération de texte.
LSTM/GRU Types de RNN capables de mémoriser l'information sur de longues séquences grâce à des mécanismes de mémoire. Analyse de texte long, prédiction de séries temporelles.
Transformer Architecture basée sur des mécanismes d'attention, sans récurrence, permettant de traiter les données en parallèle. Modèles de langage avancés comme GPT, BERT, Mistral.
Autoencoder Réseau qui apprend à encoder puis décoder les données pour réduire la dimensionnalité ou détecter des anomalies. Réduction de dimensionnalité, détection d'anomalies.
GAN (Generative Adversarial Network) Deux réseaux en compétition : un générateur crée des données et un discriminateur essaie de les distinguer des données réelles. Création d'images réalistes, deepfakes.

Apprentissage

Terme Définition Exemple
Forward propagation Passage des données d'entrée à travers le réseau pour produire une prédiction. Calcul de la sortie d'un modèle pour une image d'entrée.
Loss (perte) Mesure de l'écart entre les prédictions du modèle et les valeurs réelles. Erreur quadratique moyenne, entropie croisée.
Backpropagation Algorithme qui calcule le gradient de l'erreur par rapport aux poids du réseau pour les ajuster. Calcul de la contribution de chaque poids à l'erreur totale.
Descente de gradient Algorithme d'optimisation qui ajuste les poids du réseau pour minimiser l'erreur. Modification itérative des poids dans la direction du gradient négatif.
Époque Un passage complet à travers l'ensemble des données d'entraînement. Entraîner un modèle pendant 10 époques.
Batch Sous-ensemble des données traité avant une mise à jour des poids. Traiter les données par lots de 32 exemples.
Optimiseur Algorithme qui implémente la descente de gradient pour ajuster les poids du réseau. Adam, SGD, RMSprop.
Learning rate Taux qui contrôle l'ampleur des ajustements des poids lors de l'entraînement. Trop élevé : divergence, trop faible : apprentissage lent.

Techniques spécifiques

Terme Définition Utilisation
Transfer learning Réutilisation d'un modèle pré-entraîné sur une nouvelle tâche pour bénéficier de ses connaissances. Adapter un modèle ImageNet pour reconnaître des maladies de plantes.
Fine-tuning Ajustement d'un modèle pré-entraîné sur des données spécifiques pour améliorer ses performances sur une tâche particulière. Réentraîner les dernières couches d'un modèle BERT pour la classification de texte.
Data augmentation Génération de nouvelles données d'entraînement par transformation des données existantes pour augmenter la diversité. Rotation, mise à l'échelle, distorsion d'images.
Dropout Technique où des neurones sont aléatoirement désactivés pendant l'entraînement pour réduire l'overfitting. Force le réseau à être redondant et robuste.
Batch normalization Normalisation des activations d'une couche pour stabiliser et accélérer l'apprentissage. Améliore la convergence et permet d'utiliser des taux d'apprentissage plus élevés.
Early stopping Arrêt de l'entraînement quand les performances sur la validation cessent de s'améliorer pour éviter l'overfitting. Empêche le surajustement aux données d'entraînement.
Embedding Conversion de données catégorielles en vecteurs denses pour les représenter dans un espace continu. Word embeddings dans le NLP (Word2Vec, GloVe).

Convolutions et CNN

Terme Définition Rôle
Filtre (kernel) Matrice de poids appliquée à une région de l'image pour détecter des caractéristiques spécifiques. Détecte des caractéristiques spécifiques (bords, textures).
Feature map Sortie d'un filtre de convolution appliqué à une image, représentant les caractéristiques détectées. Carte d'activation des caractéristiques détectées.
Pooling Opération de sous-échantillonnage réduisant les dimensions de la feature map pour généraliser les caractéristiques. Réduit la complexité computationnelle et contrôle l'overfitting.
Padding Ajout de pixels (généralement zéros) aux bords d'une image pour conserver les dimensions après convolution. Permet de conserver les dimensions de l'image après l'application des filtres.
Stride Pas de déplacement du filtre sur l'image, contrôlant le chevauchement des champs réceptifs. Contrôle la taille de la feature map et la quantité de chevauchement.

Métriques d'évaluation

Métrique Définition Cas d'usage
Accuracy Proportion de prédictions correctes parmi toutes les prédictions. Classification équilibrée.
Precision Proportion des prédictions positives qui sont correctes. Quand les faux positifs sont coûteux.
Recall Proportion des cas positifs réels correctement identifiés. Quand les faux négatifs sont coûteux.
F1-Score Moyenne harmonique de la précision et du rappel, équilibrant les deux métriques. Classification avec classes déséquilibrées.
ROC-AUC Aire sous la courbe ROC, mesurant la qualité de la discrimination entre les classes. Évaluation des modèles de classification.
MAE (Mean Absolute Error) Moyenne des valeurs absolues des erreurs entre les prédictions et les valeurs réelles. Régression, quand les écarts importants ne sont pas surpondérés.
RMSE (Root Mean Squared Error) Racine carrée de la moyenne des carrés des erreurs entre les prédictions et les valeurs réelles. Régression, pénalise davantage les grands écarts.

Problèmes courants

Terme Définition Solution possible
Overfitting Le modèle apprend trop bien les données d'entraînement au détriment de la généralisation sur de nouvelles données. Régularisation, dropout, plus de données.
Underfitting Le modèle est trop simple pour capturer la complexité des données, résultant en de mauvaises performances. Augmenter la complexité du modèle, entraîner plus longtemps.
Vanishing gradient Problème où le gradient devient très petit, ralentissant l'apprentissage dans les couches profondes. Utiliser ReLU, LSTM, initialisation des poids adaptée.
Exploding gradient Problème où le gradient devient très grand, déstabilisant l'apprentissage. Gradient clipping, normalisation des poids.
Imbalanced data Jeu de données où certaines classes sont beaucoup plus fréquentes que d'autres, biaisant le modèle. Rééchantillonnage, pondération des classes, techniques d'augmentation.

Termes relatifs aux modèles de langage

Terme Définition Exemple
Token Unité de base du texte pour les modèles de langage, comme un mot, sous-mot ou caractère. "Je suis prêt" → ["Je", "suis", "prêt"].
Tokenization Processus de découpage du texte en tokens pour les traiter dans un modèle de langage. "Je suis prêt" → ["Je", "suis", "prêt"].
Prompt Texte initial fourni à un modèle de langage pour guider sa génération de texte. "Rédige un poème sur le printemps:".
Context window Nombre maximum de tokens qu'un modèle peut traiter en une fois, déterminant la quantité d'information contextuelle. GPT-4 a une fenêtre contextuelle de 8k-32k tokens.
Attention Mécanisme permettant au modèle de se concentrer sur différentes parties de l'entrée pour générer une sortie pertinente. Self-attention dans les Transformers.
Fine-tuning Adaptation d'un modèle pré-entraîné à une tâche spécifique en ajustant ses poids sur des données spécifiques. Ajuster GPT pour une tâche de customer support.
Few-shot learning Capacité d'un modèle à apprendre à partir de très peu d'exemples, souvent en fournissant quelques exemples dans le prompt. Donner 2-3 exemples dans le prompt pour guider le modèle.

Frameworks et outils

Terme Définition Cas d'utilisation
TensorFlow Framework de Machine Learning développé par Google, utilisé pour créer et entraîner des modèles de Deep Learning. Déploiement en production, applications mobiles.
PyTorch Framework de Machine Learning développé par Facebook, connu pour sa flexibilité et sa facilité d'utilisation. Recherche, prototypage rapide.
Keras API de haut niveau s'exécutant sur TensorFlow, facilitant le développement rapide de modèles de Deep Learning. Développement rapide de prototypes.
Hugging Face Bibliothèque pour les modèles de NLP pré-entraînés, facilitant leur utilisation et leur fine-tuning. Utilisation de BERT, GPT et autres modèles de langage.
ONNX Format d'échange pour modèles de Machine Learning, permettant l'interopérabilité entre différents frameworks. Transfert de modèles entre TensorFlow, PyTorch, etc.
TensorBoard Outil de visualisation pour TensorFlow, permettant de suivre les métriques d'entraînement et de visualiser les graphes de modèles. Suivi des métriques d'entraînement.
MLflow Plateforme pour gérer le cycle de vie des modèles de Machine Learning, incluant le suivi des expériences et la gestion des modèles. Suivi des expériences, gestion des modèles.

Applications du Deep Learning

Application Description Architecture typique
Computer Vision Domaine du Deep Learning dédié à l'analyse et la compréhension d'images et de vidéos. CNN (ResNet, YOLO, EfficientNet).
Natural Language Processing (NLP) Domaine du Deep Learning dédié au traitement et à la génération de texte. Transformers (BERT, GPT, T5).
Speech Recognition Conversion de la parole en texte à l'aide de modèles de Deep Learning. RNN, Transformers (Wav2Vec).
Recommendation Systems Systèmes qui suggèrent du contenu personnalisé en fonction des préférences de l'utilisateur. Réseaux de neurones profonds, embeddings.
Generative AI Création de contenu nouveau (images, texte, audio) à l'aide de modèles de Deep Learning. GANs, Diffusion Models, Transformers.
Reinforcement Learning Apprentissage par essai-erreur et récompense, où un agent apprend à prendre des décisions pour maximiser une récompense. Deep Q-Networks, Policy Gradients.
Time Series Analysis Prédiction de valeurs futures dans des séquences temporelles à l'aide de modèles de Deep Learning. LSTM, Transformers temporels.

Explications des termes techniques

Fonctions d'activation

  • ReLU (Rectified Linear Unit) : Fonction d'activation qui retourne 0 si l'entrée est négative et l'entrée elle-même si elle est positive. Elle est couramment utilisée dans les réseaux de neurones pour introduire de la non-linéarité.
  • Sigmoid : Fonction d'activation qui mappe les valeurs d'entrée à une plage de 0 à 1, souvent utilisée pour les problèmes de classification binaire.
  • Tanh (Hyperbolic Tangent) : Fonction d'activation qui mappe les valeurs d'entrée à une plage de -1 à 1, souvent utilisée dans les réseaux récurrents.

Optimiseurs

  • Adam (Adaptive Moment Estimation) : Algorithme d'optimisation qui combine les avantages de deux autres extensions de la descente de gradient stochastique, à savoir AdaGrad et RMSProp. Il est largement utilisé pour entraîner des réseaux de neurones.
  • SGD (Stochastic Gradient Descent) : Algorithme d'optimisation qui met à jour les poids du réseau en utilisant une estimation stochastique du gradient de la fonction de perte.
  • RMSprop : Algorithme d'optimisation qui adapte le taux d'apprentissage pour chaque paramètre, ce qui permet de stabiliser et d'accélérer l'entraînement.

Modèles de langage

  • Word2Vec : Modèle de langage qui apprend des représentations vectorielles des mots (embeddings) en utilisant des réseaux de neurones. Il est utilisé pour capturer les relations sémantiques entre les mots.
  • GloVe (Global Vectors for Word Representation) : Modèle de langage qui apprend des embeddings de mots en utilisant une matrice de co-occurrence des mots dans un corpus.

Modèles de reconnaissance vocale

  • Wav2Vec : Modèle de reconnaissance vocale qui apprend des représentations vectorielles des segments audio en utilisant des réseaux de neurones. Il est utilisé pour convertir la parole en texte.

Architectures de réseaux

  • ResNet (Residual Networks) : Architecture de réseau de neurones convolutifs qui utilise des connexions résiduelles pour permettre l'entraînement de réseaux très profonds sans dégradation des performances.
  • YOLO (You Only Look Once) : Architecture de réseau de neurones convolutifs utilisée pour la détection d'objets en temps réel. Elle divise l'image en une grille et prédit des boîtes englobantes et des classes pour chaque cellule de la grille.
  • EfficientNet : Architecture de réseau de neurones convolutifs qui utilise une approche de mise à l'échelle composée pour optimiser la précision et l'efficacité du modèle.

Modèles de langage avancés

  • BERT (Bidirectional Encoder Representations from Transformers) : Modèle de langage basé sur les Transformers qui utilise des mécanismes d'attention bidirectionnelle pour capturer le contexte des mots dans une phrase. Il est largement utilisé pour des tâches de traitement du langage naturel.
  • GPT (Generative Pre-trained Transformer) : Modèle de langage basé sur les Transformers qui est pré-entraîné sur un grand corpus de texte et peut être fine-tuné pour des tâches spécifiques. Il est utilisé pour la génération de texte et d'autres tâches de traitement du langage naturel.