L’apprentissage (Final) PDF

Chapitre 5 : Apprentissage opérant : Renforcement Le chapitre 5 explore le concept de renforcement dans l’apprentissage opérant, en décrivant ses origines, ses types, les variables qui influencent son efficacité, et les théories qui expliquent son fonctionnement. Voici un résumé détaillé des principaux concepts abordés. 5.1 - Origines de l’apprentissage opérant L’apprentissage opérant, aussi appelé apprentissage instrumental, repose sur l’idée que le comportement est influencé par ses conséquences. E.L. Thorndike : À travers ses expériences avec des chats dans des boîtes à problèmes, Thorndike a formulé la loi de l’effet : Les comportements qui produisent des conséquences satisfaisantes sont renforcés. Les comportements qui produisent des conséquences désagréables sont affaiblis. B.F. Skinner a perfectionné ces concepts en développant la boîte de Skinner, où il a étudié comment les conséquences (comme la nourriture) influencent les comportements (comme appuyer sur un levier). 5.2 - Types de renforcement Skinner a identifié deux types principaux de renforcement : 1. Renforcement positif : Une conséquence agréable est ajoutée après un comportement, augmentant sa probabilité. Exemple : Recevoir une récompense pour avoir accompli une tâche. 2. Renforcement négatif : Une conséquence désagréable est supprimée, augmentant la probabilité d’un comportement. Exemple : Éteindre une alarme en appuyant sur un bouton. Ces deux formes de renforcement augmentent la force du comportement, bien que leurs mécanismes diffèrent. 5.3 - Types de renforçateurs Les renforçateurs peuvent être classés en plusieurs catégories : 1. Renforçateurs primaires : Inhérents, liés à des besoins biologiques (exemple : nourriture, eau). 2. Renforçateurs secondaires (ou conditionnés) : Appris par association avec des renforçateurs primaires (exemple : argent, éloges). 3. Renforçateurs naturels : Surviennent directement à la suite du comportement (exemple : manger un repas après l’avoir préparé). 4. Renforçateurs artificiels (ou contrived) : Intentionnellement mis en place pour modifier un comportement (exemple : donner une étoile dorée pour un bon comportement en classe). 5.4 - Variables influençant l’apprentissage opérant Plusieurs facteurs influencent l’efficacité du renforcement : 1. Contingence : Plus le lien entre un comportement et sa conséquence est fort, plus l’apprentissage est rapide. Exemple : Un chien apprendra plus rapidement à s’asseoir si la récompense suit immédiatement le comportement. 2. Contiguïté : Le délai entre le comportement et le renforcement affecte la force de l’apprentissage. Les renforcements immédiats sont plus efficaces que ceux retardés. 3. Caractéristiques du renforçateur : La taille, la qualité et la nature du renforçateur influencent son pouvoir. Exemple : Une récompense plus attrayante motive davantage. 4. Caractéristiques du comportement : Les comportements plus simples ou instinctifs sont plus faciles à renforcer. 5. Opérations de motivation : Des facteurs externes ou internes peuvent modifier l’efficacité d’un renforçateur (exemple : la faim augmente la valeur de la nourriture comme renforçateur). 5.5 - Neuromécanismes du renforcement Les renforcements sont associés à la libération de dopamine dans le cerveau, particulièrement dans le système de récompense. Les structures comme l’aire tegmentale ventrale et le noyau accumbens jouent un rôle crucial dans la sensation de récompense. Ces mécanismes expliquent pourquoi certains renforçateurs sont intrinsèquement motivants. 5.6 - Théories du renforcement positif Différentes théories tentent d’expliquer pourquoi et comment le renforcement positif fonctionne : 1. Théorie de la réduction des besoins (Hull) : Les renforçateurs réduisent un besoin biologique ou un “drive” (exemple : manger réduit la faim). Critique : Certains renforçateurs (comme les jeux ou la musique) n’ont pas de lien évident avec un besoin biologique. 2. Théorie de la valeur relative (Principe de Premack) : Une activité plus probable (ou préférée) peut renforcer une activité moins probable. Exemple : Autoriser un enfant à jouer à un jeu vidéo après avoir terminé ses devoirs. 3. Théorie de la privation de réponse (Timberlake et Allison) : Une activité devient renforçante lorsqu’un individu est privé de l’opportunité de l’accomplir à son rythme habituel. 5.7 - Théories de l’évitement L’apprentissage d’évitement se produit lorsque le comportement empêche une conséquence négative. Deux théories principales expliquent ce processus : 1. Théorie des deux processus : Combine le conditionnement pavlovien (associations de stimuli) et l’apprentissage opérant (comportements renforcés). 2. Théorie d’un seul processus : L’apprentissage opérant seul suffit à expliquer l’évitement. Comparaison entre conditionnement opérant et pavlovien 1. Conditionnement opérant : Le comportement modifie l’environnement pour produire une conséquence (exemple : appuyer sur un levier pour recevoir de la nourriture). 2. Conditionnement pavlovien : Une association est formée entre deux stimuli (exemple : un son prédit l’arrivée de nourriture). Bien que distincts, ces deux types d’apprentissage interagissent souvent. Conclusion Le chapitre 5 met en lumière le rôle crucial du renforcement dans l’apprentissage opérant, en expliquant comment différents types de renforçateurs, variables et mécanismes neurobiologiques influencent la force des comportements. Ces concepts ont des applications pratiques dans des domaines tels que l’éducation, la thérapie et le développement personnel. Voici une comparaison détaillée entre les formules du modèle de Mackintosh et de Pearce & Hall, en tenant compte des informations disponibles : 1. Modèle de Mackintosh (1975) Mackintosh met l’accent sur le rôle de l’attention dans le conditionnement, spécifiquement sur la capacité d’un stimulus neutre (SN) ou conditionné (SC) à prédire le stimulus inconditionné (SI). Formule de Mackintosh : : Variation dans la force de l’association entre le SC et le SI. : Niveau d’attention au SC. : Intensité maximale de l’association possible (déterminée par le SI). : Force actuelle de l’association SC-SI. Principe clé : L’attention au stimulus () augmente si le SC est un bon prédicteur du SI, et diminue si le SC n’apporte pas d’information utile. Ce modèle explique des phénomènes comme : Inhibition latente : Lorsqu’un SC est présenté sans conséquence, l’attention () diminue, ce qui ralentit le conditionnement ultérieur. Blocking de Kamin : Si un stimulus (A) est déjà un prédicteur fiable du SI, l’attention au nouveau stimulus (B) est faible, et B ne devient pas conditionné. Limite : Le modèle suppose que l’attention () dépend exclusivement de la prédictibilité, mais il ne prend pas en compte les aspects de surprise ou de nouveauté du stimulus. 2. Modèle de Pearce & Hall (1980) Pearce & Hall proposent une perspective différente : l’attention n’est pas attirée par les stimuli bien compris (utiles), mais par ceux qui sont nouveaux, surprenants ou encore non compris. Formule de Pearce & Hall : : Variation dans la force de l’association SC-SI. : Niveau d’attention au SC, dépendant de la surprise lors des essais précédents. : Intensité maximale de l’association (valeur déterminée par le SI). : Somme des forces des associations existantes avec le SI. Principe clé : Attention au SC () : Augmente si l’issue (SI) associée au SC est inattendue ou surprenante. Lorsque le SC est prévisible, l’attention au SC diminue, car il n’est plus nécessaire de gaspiller des ressources cognitives pour un stimulus bien compris. Explications fournies : Inhibition latente : Le SC, ayant été présenté sans conséquence (prévisible), devient moins surprenant. L’attention () diminue, ce qui ralentit le conditionnement. Transfert négatif : Un stimulus bien appris dans une première phase est moins surprenant dans une nouvelle tâche, ce qui réduit l’attention () et ralentit l’apprentissage. Expérience 1 : Transfert négatif (Hall & Pearce) Lorsqu’un SC est associé à un faible choc dans une première phase, puis à un choc plus intense dans une deuxième phase, le transfert d’apprentissage est négatif : l’attention au SC () diminue car il est perçu comme bien connu. Différences fondamentales entre Mackintosh et Pearce & Hall Résumé des phénomènes liés aux formules 1. Inhibition latente : Les deux modèles expliquent le phénomène comme une diminution de l’attention () envers un SC qui n’est pas surprenant ou utile. 2. Transfert négatif : Plus explicitement expliqué par Pearce & Hall : dans la phase 2, le SC n’attire plus l’attention, car il a déjà été bien appris dans la phase 1. 3. Blocking : Les deux modèles expliquent que le SC2 ne devient pas conditionné si le SC1 prédit déjà parfaitement le SI, mais leurs explications diffèrent : Mackintosh : Faible attention au SC2. Pearce & Hall : Absence de surprise associée au SI. En conclusion, Mackintosh se concentre sur la prédictibilité pour expliquer l’apprentissage, tandis que Pearce & Hall mettent l’accent sur la surprise et la nécessité d’économiser les ressources cognitives. Les deux modèles se complètent dans leur capacité à expliquer des phénomènes comme l’inhibition latente et le transfert négatif. L’apprentissage latent est un concept introduit par Edward C. Tolman, qui démontre que l’apprentissage peut se produire sans renforcement immédiat et sans être visible dans le comportement jusqu’à ce qu’une motivation ou un renforcement soit introduit. Voici une explication détaillée basée sur les informations des documents et diapositives, en incluant l’expérience de Crespi pour illustrer le phénomène. 1. Le concept d’apprentissage latent selon Tolman Tolman a remis en question l’idée béhavioriste classique selon laquelle le renforcement est indispensable pour apprendre. Il propose que : L’apprentissage peut se produire même en l’absence de renforcement visible, mais il reste latent, c’est-à-dire qu’il ne se manifeste pas dans le comportement immédiatement. Une motivation ou une récompense ultérieure suffit à révéler cet apprentissage. Idée clé : L’apprentissage ne se réduit pas à des associations stimulus-réponse renforcées, mais implique un traitement cognitif des informations. Tolman décrit cela comme la formation de “cartes cognitives”. 2. L’expérience de Crespi (1942) L’expérience de Crespi illustre les effets de la motivation et de la modification des récompenses sur un apprentissage latent. Méthodologie de l’expérience : 1. Phase 1 : Apprentissage initial Des rats sont entraînés à courir dans un labyrinthe pour obtenir des récompenses alimentaires. Trois groupes de rats reçoivent différentes quantités de nourriture : Groupe 1 (faible récompense) : 1 granule. Groupe 2 (moyenne récompense) : 16 granules. Groupe 3 (forte récompense) : 256 granules. 2. Phase 2 : Modification des récompenses Tous les groupes reçoivent désormais une récompense identique de 16 granules. Résultats observés : Les rats du groupe 3 (habitués à une grande récompense) montrent une diminution de leur vitesse dans la course vers la récompense (déception relative). Les rats du groupe 1 (habitués à une petite récompense) augmentent leur vitesse de manière significative (motivation due à une récompense perçue comme plus généreuse). Les rats du groupe 2 maintiennent leur performance, car leur récompense reste constante. Conclusion de Crespi : La performance des rats est influencée par la valeur relative de la récompense et non seulement par l’apprentissage des réponses précédentes. Les comportements peuvent être modifiés rapidement lorsque la motivation (quantité de récompense) change, montrant que l’apprentissage latent a été effectué dès la phase initiale, même s’il n’était pas immédiatement visible. 3. Apprentissage latent et expérience de Tolman (labyrinthe sans renforcement) Tolman a également démontré l’apprentissage latent dans une autre expérience célèbre. Méthodologie : 1. Des rats explorent un labyrinthe sans recevoir de récompense (groupe expérimental) ou avec une récompense (groupe témoin). 2. Après plusieurs jours, une récompense alimentaire est introduite pour le groupe expérimental. Résultats : Les rats du groupe expérimental trouvent rapidement le chemin vers la récompense dès son introduction. Cela montre qu’ils avaient déjà appris le plan du labyrinthe pendant la phase initiale, même sans récompense, mais cet apprentissage était resté latent. 4. Interprétation avec les concepts du manuel et des diapositives Lien avec la théorie de Tolman : L’expérience de Crespi et l’apprentissage latent soutiennent l’idée que les organismes apprennent constamment, même en l’absence de renforcement immédiat. La performance observée dépend de la motivation (par exemple, une récompense plus ou moins importante). Lien avec l’attention (Mackintosh et Pearce & Hall) : Selon le modèle de Pearce & Hall, l’attention est dirigée vers des stimuli surprenants ou non anticipés. Dans l’expérience de Crespi, le changement soudain de la quantité de nourriture agit comme un stimulus surprenant, modifiant la performance des rats. Le modèle de Mackintosh suggère que les rats avaient déjà prêté attention aux éléments prédictifs du labyrinthe (stimuli utiles), expliquant leur capacité à s’adapter lorsque la motivation change. Lien avec les notions de transfert négatif et inhibition latente : Les rats du groupe habitué à une forte récompense (256 granules) montrent un transfert négatif lorsqu’ils passent à une récompense plus faible (16 granules). La diminution de leur motivation peut être expliquée par une baisse de l’attention () au stimulus de la récompense. 5. Formules appliquées à l’apprentissage latent Rescorla-Wagner : L’apprentissage latent peut être décrit par la formule suivante : Lorsque la récompense est absente (phase initiale), , donc aucun renforcement visible n’est observé. Cependant, les stimuli (comme le labyrinthe) sont toujours associés à , ce qui permet un apprentissage latent. Mackintosh : Lorsque la récompense est introduite (phase 2), l’attention () est déjà bien développée pour les stimuli pertinents du labyrinthe, permettant un apprentissage rapide. Pearce & Hall : La surprise liée au changement de récompense () dans l’expérience de Crespi déclenche un ajustement rapide de la performance, particulièrement visible dans les groupes 1 (augmentation) et 3 (diminution). 6. Conclusion L’expérience de Crespi et les travaux de Tolman illustrent que l’apprentissage peut se produire indépendamment du renforcement immédiat, restant latent jusqu’à ce qu’une motivation révèle ce qui a été appris. Ces phénomènes mettent en lumière le rôle de la motivation, de la valeur relative de la récompense, et de l’attention dans le conditionnement opérant et latent, reliant ainsi les idées de Tolman, Crespi, Mackintosh, et Pearce & Hall. Chapitre 6 : Renforcement au-delà des habitudes Ce chapitre explore des concepts avancés dans le renforcement et son rôle dans le façonnement de comportements complexes, la résolution de problèmes, la créativité et les croyances superstitieuses. 6.1 - Le façonnement du comportement Le façonnement consiste à renforcer progressivement des approximations successives d’un comportement cible. Il s’agit d’une méthode puissante pour apprendre des comportements qui ne se produisent pas naturellement ou spontanément. 1. Définition et principe : Le façonnement repose sur l’idée que des comportements proches de l’objectif final sont renforcés, et que seuls les comportements qui s’approchent progressivement de cet objectif sont maintenus. Par exemple, pour entraîner un rat à appuyer sur un levier, on commence par renforcer son orientation vers le levier, puis son approche, puis le fait de toucher le levier, jusqu’à ce qu’il appuie dessus. 2. Les étapes clés du façonnement : Renforcer les approximations successives : On récompense chaque étape qui se rapproche du comportement cible. Éliminer les renforcements pour les comportements précédents : Cela garantit que l’animal ou l’individu progresse vers le comportement souhaité. Maintenir la progression constante : Le renforcement doit évoluer graduellement sans être trop difficile, pour éviter la frustration ou l’abandon. 3. Applications pratiques : Utilisé dans les thérapies comportementales pour enseigner des compétences sociales ou motrices. Appliqué dans l’entraînement animal pour des performances complexes (par ex., des tours exécutés par des dauphins ou des chiens). 6.2 - Enchaînement (chaining) L’enchaînement consiste à enseigner une séquence de comportements qui, une fois combinés, permettent d’atteindre un objectif global. Chaque étape de la chaîne agit comme un signal pour la suivante. 1. Les types d’enchaînement : Enchaînement progressif : On commence par le dernier comportement de la chaîne et on ajoute progressivement les étapes précédentes. Enchaînement direct : Les comportements sont enseignés dans leur ordre naturel, de la première à la dernière étape. 2. Exemple : En entraînant un rat à tirer sur une corde pour ouvrir une trappe et obtenir une récompense, chaque étape (approcher la corde, la saisir, tirer) est renforcée successivement. 3. Importance : Cette méthode est cruciale pour des tâches complexes impliquant plusieurs étapes, comme apprendre à cuisiner une recette ou suivre une procédure professionnelle. 6.3 - Résolution perspicace de problèmes La résolution de problèmes dite “perspicace” semble être le résultat d’une combinatoire d’expériences passées et de renforcement. 1. Exemple expérimental : Un chimpanzé, dans les expériences de Wolfgang Köhler, utilise un bâton pour atteindre une banane hors de portée. Ce comportement est parfois perçu comme de l’insight, mais il peut également être expliqué par des expériences précédentes où le chimpanzé a appris à manipuler des objets pour atteindre un objectif. 2. Rôle du renforcement : Les comportements perspicaces sont souvent le résultat de renforcements passés pour des comportements similaires ou de l’apprentissage par essais et erreurs. 3. Applications : Enseigner des stratégies de résolution de problèmes en mathématiques ou dans des contextes professionnels. 6.4 - La créativité et le renforcement La créativité peut être développée par le biais du renforcement des comportements innovants ou nouveaux. 1. Expériences avec des animaux : Dans une étude, des pigeons ont été renforcés pour produire des comportements jamais observés auparavant. Ils sont devenus de plus en plus créatifs, démontrant que l’innovation peut être renforcée. 2. Implications humaines : Encourager la créativité dans un contexte éducatif ou professionnel implique de récompenser les idées nouvelles, même si elles ne sont pas immédiatement applicables. 6.5 - Superstition Les comportements superstitieux se développent lorsqu’un renforcement (par exemple, de la nourriture) coïncide par hasard avec un comportement particulier, même s’il n’existe pas de lien causal. 1. Exemple classique : Un pigeon pourrait croire qu’il doit tourner en rond pour obtenir une récompense, simplement parce qu’une récompense a été donnée alors qu’il tournait. 2. Chez les humains : Des croyances superstitieuses peuvent apparaître dans des situations d’incertitude, comme croire qu’un rituel spécifique augmente les chances de réussite. 3. Critique : Ces comportements peuvent devenir persistants car ils sont renforcés de manière intermittente. 6.6 - L’impuissance apprise L’impuissance apprise se produit lorsqu’un individu ou un animal est exposé à des situations incontrôlables où il ne peut échapper à des stimuli négatifs. 1. Expérience de Seligman (1967) : Des chiens exposés à des chocs inévitables ne tentaient plus d’échapper aux chocs, même lorsqu’une issue leur était offerte. Cela démontre que l’exposition répétée à des échecs perçus conduit à une passivité généralisée. 2. Implications cliniques : Ce concept est utilisé pour expliquer des troubles comme la dépression, où les individus abandonnent face à des défis en raison d’expériences négatives passées. 3. Prévention : En introduisant des renforcements positifs et des opportunités de succès, on peut aider les individus à surmonter cette impuissance. Conclusion du chapitre 6 Le façonnement, l’enchaînement, la résolution de problèmes, la créativité et les superstitions illustrent comment le renforcement peut modeler des comportements complexes. Ces mécanismes sont essentiels dans de nombreux domaines, comme l’éducation, la thérapie et l’entraînement animal. L’impuissance apprise montre également les effets négatifs d’un environnement où le contrôle semble absent, soulignant l’importance des renforcements positifs. Chapitre 7 : Les programmes de renforcement Ce chapitre explore les différents types de programmes de renforcement, leurs caractéristiques, et leurs effets sur l’acquisition et la persistance des comportements. Il met en évidence l’importance des schémas de renforcement dans le maintien des comportements appris, leur extinction, et la manière dont ils influencent le choix comportemental. 7.1 - Introduction : Les bases des programmes de renforcement Un programme de renforcement est une règle qui détermine à quelle fréquence un comportement sera renforcé. Ces programmes influencent directement la vitesse d’apprentissage, la persistance du comportement et l’extinction. Skinner a montré que la relation entre un comportement et son renforcement peut être manipulée pour obtenir des résultats différents. 7.2 - Les programmes simples de renforcement Les programmes simples se divisent principalement en deux catégories : programmes de ratio (basés sur le nombre de réponses) et programmes d’intervalle (basés sur le temps écoulé). A. Renforcement continu (CRF) Chaque réponse correcte est renforcée. Utilité : Idéal pour enseigner un nouveau comportement, car le lien entre le comportement et le renforcement est clair et immédiat. Limitation : Les comportements appris sous CRF sont plus sensibles à l’extinction lorsqu’on arrête le renforcement. B. Programmes de ratio fixe (FR) Le renforcement est donné après un nombre fixe de réponses (exemple : FR 5 signifie un renforcement après 5 réponses). Effet : Produit des réponses rapides suivies d’une pause après chaque renforcement (effet de pause post-renforcement). Plus le ratio est élevé, plus la pause est longue (par ex., FR 50 entraîne une pause plus longue que FR 5). Exemple : Un ouvrier est payé pour chaque lot de 10 pièces assemblées. C. Programmes de ratio variable (VR) Le renforcement est donné après un nombre moyen de réponses, mais le nombre exact varie (exemple : VR 10 pourrait varier entre 8 et 12 réponses). Effet : Produit un taux de réponse rapide et constant, sans pause post-renforcement notable. Explique des comportements persistants comme ceux observés dans les jeux de hasard. Exemple : Les machines à sous, où les joueurs ne savent pas combien de tours sont nécessaires pour gagner. D. Programmes d’intervalle fixe (FI) Le renforcement est donné après une période de temps fixe, tant qu’une réponse est émise après cet intervalle (exemple : FI 10s signifie qu’une réponse est renforcée après 10 secondes). Effet : Comportement en “scallop” (courbe en forme de coquille) : faible taux de réponse juste après le renforcement, puis une augmentation rapide à l’approche de l’intervalle suivant. Exemple : Vérifier régulièrement une boîte mail pour de nouveaux messages. E. Programmes d’intervalle variable (VI) Le renforcement est donné après des intervalles de temps moyens, mais imprévisibles (exemple : VI 10s peut varier entre 5 et 15 secondes). Effet : Produit un comportement constant et modéré, car l’observateur ne peut prédire quand le renforcement arrivera. Exemple : Un pêcheur lançant sa ligne et recevant des prises à des intervalles variables. F. Extinction Lorsque le renforcement cesse, le comportement diminue progressivement (extinction). Facteurs influençant l’extinction : Les comportements renforcés de manière intermittente (partielle) persistent plus longtemps que ceux renforcés continuellement. 7.3 - Les programmes composés Les programmes composés combinent plusieurs programmes simples pour modeler des comportements complexes. A. Programmes multiples Chaque programme a un signal distinct (exemple : une lumière verte indique un programme de FR, et une lumière rouge indique un programme de FI). Effet : Permet de différencier les attentes en fonction des signaux présents. B. Programmes mixtes Similaires aux programmes multiples, mais sans signaux distincts. C. Programmes en chaîne Une série de comportements doit être complétée dans un ordre spécifique pour obtenir une récompense. Exemple : Entraîner un rat à tirer un levier, puis à appuyer sur un bouton, avant de recevoir une nourriture. D. Programmes conjoints Deux ou plusieurs programmes simples fonctionnent simultanément et indépendamment. 7.4 - L’effet du renforcement partiel (PRE : Partial Reinforcement Effect) Le PRE désigne la résistance accrue à l’extinction des comportements renforcés de manière partielle. Explications principales : 1. L’hypothèse de la frustration : Pendant un programme partiel, les périodes sans renforcement enseignent à tolérer la frustration, ce qui augmente la persistance. 2. L’hypothèse séquentielle : Les comportements renforcés après une séquence d’échecs (non-renforcements) deviennent plus robustes. 3. L’hypothèse de l’unité de réponse : Dans un programme de ratio, les individus perçoivent un ensemble d’essais comme une seule unité, augmentant leur persistance face à l’extinction. 7.5 - Le choix et la loi de correspondance (Matching Law) La Matching Law stipule que la proportion d’efforts alloués à une option est proportionnelle au renforcement associé à cette option. Exemple : Si un pigeon a deux leviers avec des taux de renforcement différents (70% pour A et 30% pour B), il répartira ses réponses dans une proportion similaire. Applications humaines : Cette loi explique comment les individus répartissent leurs efforts entre plusieurs tâches ou options, comme travailler sur deux projets avec des récompenses différentes. Conclusion du chapitre 7 Les programmes de renforcement influencent profondément le comportement en modelant les réponses, leur fréquence et leur persistance. Les programmes simples et composés permettent de manipuler les comportements de manière flexible. Les concepts tels que l’effet du renforcement partiel et la loi de correspondance sont essentiels pour comprendre pourquoi certains comportements persistent dans des contextes variés, comme les jeux de hasard, les habitudes professionnelles ou les choix personnels. Ces programmes sont des outils puissants en psychologie appliquée, en éducation, en gestion et en thérapie comportementale. Chapitre 8 : Apprentissage opérant - La punition Ce chapitre traite du rôle de la punition dans l’apprentissage opérant, en explorant ses types, les variables influençant son efficacité, les théories qui la sous-tendent, ses limites et des alternatives efficaces. 8.1 - Débuts et concept de punition Thorndike et Skinner : Thorndike a d’abord supposé que les conséquences négatives (punition) affaiblissaient un comportement aussi efficacement que les conséquences positives (renforcement) le renforçaient. Cependant, ses recherches ultérieures ont montré que la punition a souvent moins d’impact sur la réduction des comportements que le renforcement sur leur augmentation. Skinner a démontré que bien que la punition puisse réduire temporairement un comportement (par exemple, un rat cessant de presser un levier après avoir reçu un choc), cet effet est souvent temporaire et le comportement peut revenir après l’arrêt de la punition. 8.2 - Types de punition 1. Punition positive : Introduction d’un stimulus aversif après un comportement pour en diminuer la fréquence. Exemples : Réprimandes, chocs électriques, punitions physiques. 2. Punition négative : Retrait d’un stimulus agréable pour diminuer la fréquence d’un comportement. Exemples : Perte de privilèges, amendes financières, suppression de temps de jeu. Temps mort : Une forme populaire de punition négative où l’accès aux renforçateurs est temporairement interrompu. 8.3 - Variables influençant l’efficacité de la punition 1. Contingence : Plus la relation entre le comportement et la punition est claire et constante, plus la punition est efficace. Par exemple, un rat qui reçoit un choc chaque fois qu’il presse un levier apprend rapidement à éviter ce comportement. 2. Contiguïté : La rapidité avec laquelle la punition suit le comportement est cruciale. Des retards diminuent considérablement son efficacité. 3. Intensité du punisseur : Des punisseurs plus intenses sont généralement plus efficaces, mais ils peuvent entraîner des effets secondaires négatifs, comme la peur ou l’agressivité. 4. Niveau initial du punisseur : Il est préférable de commencer avec une intensité de punition suffisante. Une introduction graduelle de la punition peut entraîner une tolérance, rendant la punition moins efficace. 5. Renforcement du comportement puni : Si le comportement puni est également renforcé par d’autres moyens, la punition sera moins efficace. Par exemple, un enfant qui reçoit de l’attention en faisant une bêtise peut continuer ce comportement malgré les punitions. 6. Alternatives au renforcement : La punition est plus efficace si une alternative acceptable au comportement puni est disponible et renforcée. 7. Opérations de motivation : Des facteurs comme la privation ou la saturation influencent l’efficacité de la punition. Par exemple, un individu “affamé” pour un certain type de récompense peut être moins dissuadé par une punition. 8.4 - Théories de la punition 1. Théorie des deux processus : Combine le conditionnement pavlovien (association du comportement avec un stimulus aversif) et le conditionnement opérant (réduction du comportement par punition). Exemple : Un rat associe un levier (stimulus conditionné) à un choc (stimulus aversif) et évite donc le levier. Critiques : La théorie ne tient pas compte de certains cas où le comportement puni est réduit sans association pavlovienne claire. 2. Théorie du processus unique : La punition affaiblit les comportements de la même manière que le renforcement les renforce, sans nécessiter de conditionnement pavlovien. Exemple : Les comportements à faible probabilité peuvent punir des comportements à haute probabilité, comme courir pour un rat affamé diminue son comportement alimentaire. 8.5 - Problèmes liés à la punition 1. Évasion et évitement : Les sujets apprennent souvent à éviter ou fuir la situation punitive plutôt qu’à modifier leur comportement. Exemple : Un étudiant qui sèche les cours pour éviter d’être réprimandé. 2. Agressivité : La punition peut engendrer des comportements agressifs, dirigés contre la source de punition ou des tiers. 3. Apathie : Une punition excessive peut entraîner un désengagement général, où l’individu cesse non seulement les comportements punis, mais aussi d’autres comportements adaptatifs. 4. Abus potentiel : Les punitions physiques, en particulier, risquent de devenir excessives et de se transformer en abus. 5. Imitation : Les sujets punis peuvent apprendre à utiliser la punition sur autrui, perpétuant des cycles de comportement punitif (par exemple, des parents punissant excessivement leurs enfants, qui imitent ensuite ces comportements). 8.6 - Alternatives à la punition 1. Prévention des réponses : Modifier l’environnement pour empêcher le comportement indésirable. Exemple : Installer des verrous sur les armoires pour éviter que les enfants n’atteignent des objets dangereux. 2. Extinction : Supprimer tous les renforcements qui maintiennent le comportement indésirable. Limite : L’extinction peut entraîner une “explosion d’extinction” où le comportement augmente temporairement avant de disparaître. 3. Renforcement différentiel : Combiner l’extinction des comportements indésirables avec le renforcement de comportements alternatifs ou incompatibles : DRA (Renforcement différentiel d’un comportement alternatif) : Renforcer un comportement différent mais acceptable. DRI (Renforcement différentiel d’un comportement incompatible) : Renforcer un comportement incompatible avec le comportement indésirable. DRL (Renforcement différentiel de faibles taux de comportement) : Renforcer un comportement indésirable seulement lorsqu’il se produit à une fréquence réduite. Conclusion La punition peut être un outil puissant mais problématique dans la modification du comportement. Bien qu’elle réduise efficacement les comportements indésirables, ses effets secondaires et ses limites pratiques la rendent moins souhaitable que des alternatives comme le renforcement différentiel et la prévention des réponses. Conclusion Le chapitre 12 offre une vue d’ensemble des structures et processus sous-jacents à la mémoire et à l’oubli. Il examine des modèles classiques (Atkinson & Shiffrin, Collins & Quillian) et des approches modernes (Baddeley, activation distribuée) qui soulignent la complexité et la dynamique des systèmes mnésiques. Les critiques des modèles rigides ouvrent la voie à des représentations plus flexibles et réalistes, adaptées aux besoins de l’apprentissage humain. Chapitre 10 intégrant les concepts de la théorie sociale cognitive, de la psychologie de la Gestalt (Max Wertheimer), de la linguistique, de l’informatique, des sciences de la communication, de la psychologie cognitive (traitement de l’information, méthodes expérimentales), de la théorie de la soustraction de Donders, ainsi que des notions de temps de réaction et des étapes de traitement comportemental. L’apprentissage par observation et la théorie sociale cognitive La théorie sociale cognitive d’Albert Bandura est au cœur du chapitre 10. L’apprentissage par observation repose sur quatre étapes principales : 1. Attention : L’observateur doit se concentrer sur des aspects spécifiques du comportement du modèle, influencés par la saillance de l’action et les capacités cognitives de l’observateur. 2. Rétention : Les comportements observés sont codés en mémoire (visuellement ou verbalement) pour être reproduits plus tard. 3. Reproduction motrice : La capacité à reproduire le comportement dépend des aptitudes physiques et de la pratique. 4. Motivation : L’observateur imite le comportement lorsqu’il anticipe des récompenses ou souhaite éviter des punitions (renforcement ou punition par procuration). Les expériences emblématiques de Bandura avec la poupée Bobo montrent que les enfants reproduisent des comportements agressifs lorsqu’ils voient un modèle récompensé pour ce comportement, soulignant le rôle clé des conséquences observées. La Gestalt et l’apprentissage par observation Les principes de la Gestalt, développés par Max Wertheimer, apportent un éclairage essentiel à l’apprentissage par observation, notamment par le concept d’apprentissage par insight. Plutôt que d’apprendre de manière incrémentale, les observateurs perçoivent souvent la “totalité” d’un comportement et ses relations avec les résultats. Par exemple, dans des tâches complexes, les apprenants discernent des stratégies globales en observant des modèles compétents, reflétant le focus de la Gestalt sur la compréhension des patterns et du contexte. Linguistique et apprentissage par observation L’apprentissage par observation joue un rôle central dans l’acquisition du langage, notamment pour : Le développement de la syntaxe et du vocabulaire : Les enfants imitent les phonèmes et structures grammaticales des adultes. Par exemple, un enfant voyant un parent dire “Regarde l’oiseau !” va tenter de reproduire la phrase. Les comportements sociaux de communication : Des compétences comme l’alternance des tours de parole sont souvent apprises en observant les interactions adultes. Ce processus s’aligne sur la compétence linguistique de Noam Chomsky, où l’observation permet à l’enfant de construire implicitement des règles grammaticales et syntaxiques. Informatique, sciences de la communication et influence des médias L’apprentissage par observation est également lié à l’informatique et aux sciences de la communication, notamment dans : Le rôle des médias : Les modèles médiatiques influencent les comportements, attitudes et normes sociales. Les études de Bandura montrent que l’exposition à des comportements violents dans les médias renforce leur imitation, surtout chez les enfants. L’apprentissage via la technologie : Les tutoriels vidéo en ligne (par ex. YouTube) illustrent un apprentissage asocial où les apprenants reproduisent des compétences (par ex. cuisiner ou coder) démontrées par des modèles virtuels. Ces exemples reflètent les modèles de traitement de l’information, où des stimuli externes sont codés, stockés et rappelés pour guider les actions. Psychologie cognitive et méthodes expérimentales Les recherches en apprentissage par observation s’appuient sur des méthodologies issues de la psychologie cognitive, en particulier : Le traitement de l’information : L’apprentissage par observation implique le codage d’entrées sensorielles (comportements du modèle), leur stockage en mémoire et leur récupération pour guider les actions. Les temps de réaction : Ils mesurent la rapidité avec laquelle un comportement observé est reproduit. Par exemple, les temps de réaction diminuent lorsqu’un comportement clairement modélisé est reproduit. Théorie de la soustraction de Donders La méthode de soustraction de Donders éclaire les différentes étapes du traitement de l’information lors de l’apprentissage par observation : 1. Identification du stimulus : L’observateur traite le comportement du modèle. 2. Prise de décision : L’observateur évalue s’il doit reproduire ou non le comportement. 3. Exécution de la réponse : L’observateur reproduit physiquement l’action. Les temps de réaction sont plus longs pour des comportements complexes ou des résultats ambigus, nécessitant un traitement cognitif plus important. Étapes de traitement comportemental dans l’apprentissage Les étapes de traitement dans l’apprentissage par observation, qui reflètent le traitement de l’information, incluent : 1. Observation : L’exposition initiale au comportement ou à l’événement. 2. Analyse : Compréhension des conséquences du comportement observé. 3. Prise de décision : L’évaluation des bénéfices ou des punitions potentielles. 4. Réplication : Le comportement est reproduit et affiné grâce au feedback. Ces étapes se reflètent dans le cadre théorique de Bandura et sont étudiées en laboratoire, souvent à l’aide des temps de réaction et de l’analyse des performances. Temps de réaction et apprentissage par observation Les temps de réaction sont essentiels pour comprendre l’efficacité de l’apprentissage par observation : Temps courts : Observés lorsque les comportements sont clairement démontrés et que l’observateur est motivé (par ex., renforcement par procuration). Temps longs : Observés dans des contextes ambigus ou avec des résultats conflictuels, demandant un traitement cognitif supplémentaire. Les expériences sur les neurones miroirs montrent que l’activité cérébrale est activée aussi bien lors de l’observation que lors de l’exécution d’une action, établissant un lien entre psychologie cognitive et bases neurologiques. Conclusion Le chapitre 10 intègre les concepts de théorie sociale cognitive, de Gestalt, de linguistique, de psychologie cognitive et de méthodologies expérimentales. Il souligne le rôle des temps de réaction, du traitement de l’information, et des théories comme celle de Donders pour expliquer comment les comportements sont observés, traités, puis reproduits. Les influences des médias, de la communication et des technologies renforcent les applications réelles de l’apprentissage par observation, que ce soit en éducation, en thérapie ou dans le changement social. Chapitre 12 : L’Oubli Le chapitre 12 explore les mécanismes de la mémoire et de l’oubli, en examinant des modèles théoriques majeurs et leurs implications pour comprendre le fonctionnement de la mémoire humaine. Il couvre les concepts de mémoire sensorielle, mémoire de travail, mémoire à long terme, ainsi que les modèles formels et dynamiques de représentation des connaissances. 1. L’oubli et ses définitions L’oubli est défini comme une perte d’accès à des informations précédemment stockées. Ce phénomène peut être temporaire (difficulté d’accès) ou permanent (perte complète). Mesures de l’oubli : On évalue l’oubli à travers diverses techniques, comme le rappel libre, le rappel indicé, ou la reconnaissance. Causes de l’oubli : Incluent l’interférence proactive (souvenirs anciens perturbant les nouveaux) et l’interférence rétroactive (souvenirs récents perturbant les anciens). 2. Modèle d’Atkinson & Shiffrin (1968) Ce modèle explique la mémoire en trois étapes : 1. Mémoire sensorielle : Un stockage à très court terme des stimuli sensoriels. Par exemple, une image persiste brièvement après avoir fermé les yeux. 2. Mémoire à court terme (MCT) : D’une capacité limitée (~7 items), cette mémoire nécessite de l’attention et de la répétition pour éviter l’oubli rapide (15-30 secondes). 3. Mémoire à long terme (MLT) : Le stockage permanent d’informations, dépendant de la consolidation via la répétition et le traitement profond. Critique : Ce modèle est linéaire et ne prend pas en compte les interactions entre les différentes mémoires. 3. Modèle de la mémoire de travail (Baddeley & Hitch, 1974) Baddeley et Hitch ont élargi le concept de la mémoire à court terme en introduisant le modèle de la mémoire de travail, qui comprend : L’administrateur central : Contrôle l’attention et coordonne les sous-systèmes. La boucle phonologique : Gère les informations verbales et auditives, comme retenir un numéro de téléphone. Le calepin visuospatial : Traite les informations visuelles et spatiales, utile pour s’orienter dans l’espace. Le buffer épisodique (ajouté en 2000) : Intègre et stocke temporairement des informations issues de différentes sources (mémoire à long terme, boucle phonologique, etc.). Ce modèle explique comment nous accomplissons des tâches complexes (raisonnement, lecture), tout en retenant temporairement des informations pertinentes. 4. La mémoire à long terme : concept et catégories La mémoire à long terme (MLT) est un système complexe avec plusieurs sous-systèmes : Mémoire déclarative (explicite) : Mémoire épisodique : Souvenirs des événements personnels (ex. : votre dernier anniversaire). Mémoire sémantique : Connaissances générales (ex. : savoir que la Tour Eiffel est à Paris). Mémoire non déclarative (implicite) : Mémoire procédurale : Habiletés motrices et cognitives (ex. : savoir faire du vélo). Conditionnements et réflexes : Réponses automatiques apprises. Ces catégories, proposées par Tulving, permettent de comprendre comment des types d’informations différents sont stockés et récupérés. 5. Modèles formels de représentation des connaissances La mémoire à long terme est organisée en réseaux conceptuels permettant la récupération des informations. a. Modèle hiérarchique de Collins & Quillian (1969) Ce modèle représente les connaissances sous forme d’un réseau hiérarchique où chaque concept est relié à d’autres par des liens. Par exemple : “Un canari est un oiseau” est situé sous le nœud “oiseau”, qui est lui-même sous le nœud “animal”. Effet de niveau hiérarchique : Le temps de récupération dépend de la distance entre les concepts dans la hiérarchie (plus le lien est distant, plus le temps de réponse est long). b. Critiques du modèle hiérarchique Il ne prend pas en compte la fréquence d’usage : des concepts fréquents sont parfois récupérés plus rapidement, même s’ils sont plus éloignés dans la hiérarchie. Les relations ne sont pas toujours aussi rigides qu’indiquées dans le modèle. c. Modèle d’activation distribuée Ce modèle abandonne les structures hiérarchiques rigides au profit d’un système plus dynamique : Les concepts sont représentés par un réseau d’unités interconnectées. Lorsqu’un concept est activé, l’activation se propage aux concepts liés (par exemple, penser à “oiseau” peut activer “canari” ou “voler”). Ce modèle explique la récupération rapide d’associations fréquentes et permet d’interpréter des souvenirs imprécis ou erronés. 6. Mémoire sémantique et modèles de réseaux formels La mémoire sémantique, étudiée dans le cadre des réseaux conceptuels, se concentre sur la structure et le contenu des connaissances générales. Principes des réseaux formels : La récupération des informations sémantiques repose sur des structures organisées. La mémoire sémantique est flexible et dépend de l’intensité des liens entre concepts (fréquence, contexte, etc.). 7. Applications des modèles et implications pratiques Les modèles hiérarchiques et distribués aident à comprendre les processus d’apprentissage et les difficultés de récupération des connaissances. Les études sur l’oubli et l’interférence ont des applications dans des domaines comme l’éducation, la conception des manuels, et les techniques d’apprentissage renforcé.

L’apprentissage (Final) PDF

Document Details

Tags

Related

Summary

Full Transcript