PSY1007-01-02 H24 Conditionnement Opérant 2024 PDF
Document Details
Uploaded by danny
UQTR
2024
Lyne Thomassin
Tags
Summary
These are lecture notes on Operant Conditioning, a prominent theory in behavioral psychology and learning theory. The notes cover various aspects of operant conditioning, including its key principles, types of reinforcement, and schedules of reinforcement. The notes are designed for use in a college-level psychology course.
Full Transcript
PSY1007-01-02 H24 Lyne Thomassin UQTR 2024 1 Renforçateurs : primaires, secondaires Renforcement Punition Types d’entraînement Contingence Façonnement Stimulus discriminatif Effet de contraste Acquisition et extinction Récupération spontanée Impuissance acquise Programmes de...
PSY1007-01-02 H24 Lyne Thomassin UQTR 2024 1 Renforçateurs : primaires, secondaires Renforcement Punition Types d’entraînement Contingence Façonnement Stimulus discriminatif Effet de contraste Acquisition et extinction Récupération spontanée Impuissance acquise Programmes de renforcement et de punition 2024 2 Le conditionnement opérant (CO) ou instrumental vise à contrôler le comportement (la réponse à un stimulus ou des silumi) par ses conséquences, c’est-à-dire par ce qui suit le comportement (la réponse) dans le temps. S-R-C ( conséquence ) Des exemples? 2024 3 Boite de Thorndike : http://www.youtube.com/watch?v=fanm-WyQJo&feature=related Superstition : https://www.youtube.com/watch?v=xsPnVpuC1wo Pigeons : https://www.youtube.com/watch?v=ap0lXN-U4co renforçateur: est la conséquence 2024 4 Le comportement est suivi d’une conséquence de façon à en modifier son niveau opérant, soit augmenter ou diminuer sa fréquence d’apparition. Il est possible de modifier le comportement d’un organisme en utilisant des conséquences plaisantes (appétitives) ou déplaisantes (aversives). 2024 5 L’apprentissage instrumental est une modification de la probabilité de réapparition d’une réponse, modification entraînée par l’apparition ou le retrait d’un événement particulier, le renforçateur, de façon contingente à la réponse. On dit de l’apprentissage qu’il est instrumental, parce que l’effet est obtenu à partir du comportement, soit l’instrument. 2024 6 Même chez les pigeons Les superstitions résultent d'un renforcement ou d'une punition qui peut découler d'une simple coïncidence 2024 7 La cage de Thorndike La boîte à Skinner 2024 8 Enfermer un chat affamé dans une cage (boîte à problème) Placer de la nourriture à proximité Observer les comportements du chat et le temps qu’il utilise pour trouver la solution et sortir de la cage Ces observations permettent de comprendre comment s’opère l’apprentissage 2024 9 1. Apprentissage par essais et erreurs 2. La solution est trouvée par hasard 3. D’un essai à l’autre, diminution progressive des réactions inutiles 4. En fin d’apprentissage, le chat ouvre immédiatement le loquet Le temps utilisé pour trouver la solution diminue d’un essai à l’autre Il obtient le même résultat (la même courbe d’apprentissage) d’un animal à l’autre 2024 10 2024 11 ! 2024 12 Un comportement qui produit une conséquence agréable ou qui élimine ou prévient une conséquence désagréable aura tendance à se répéter. Un comportement qui produit une conséquence désagréable ou qui prévient (élimine) une conséquence agréable aura tendance à disparaître. 2024 13 Éléments de base: S : R C (conséquence) Les comportements sont acquis en fonction de leur effet dans l’environnement 2024 14 Pour Thorndike, l’apprentissage est un processus associatif caractérisé par la formation de connexions entre deux éléments en contiguïté spatiale : et contigüité temporelle Ces connexions sont fixées, renforcées par la répétition (ou affaiblies si les essais sont supprimés) Ces connexions sont renforcées ou affaiblies par l’effet des conséquences (positive ou négative) 2024 15 2024 16 Un renforçateur (la conséquence) est un événement consécutif à une action et qui a pour effet de modifier, à la hausse ou à la baisse, la probabilité de réapparition de cette action. Le renforçateur peut être de nature appétitive ou aversive. La relation de nécessité entre la réponse et la conséquence est appelée contingence. Le renforcement est un type particulier de contingence. 2024 17 Renvoie à la relation séquentielle de dépendance entre deux événements. Dans le cas du CO, la contingence spécifie les conditions sous lesquelles un comportement entraîne une conséquence donnée. Association en contingence d’un comportement et d’un stimulus qui entraîne une modification du comportement. Un comportement est suivi d’un événement. 4 types déterminées par la nature du stimulus-conséquence (appétitif ou aversif) et par l'effet du comportement sur le stimulus-conséquence (apparition ou disparition du stimulusconséquence) 2024 18 Récompense (Renforcement positif) Ajouter effet positif Échappement / Évitement (Renforcement négatif) Retirer effet négatif Punition (Punition positive) Ajouter effet négatif Omission (Punition négative) Retirer effet positif renforecement augmente la réponse pugnition réduit le comportement 2024 19 Vous souhaitez que votre conjoint.e fasse plus souvent la cuisine (comportement désirable). À chaque fois qu’il.elle se met aux chaudrons, vous lui promettez un massage d’épaules en soirée (ajout d’un stimulus agréable). Tout le monde est heureux, vous avez votre souper et lui son massage !! https://www.youtube.com/watch?v=NLMzn9HQVKk https://www.youtube.com/watch?v=qbv8WuLpAww 2024 20 Vous souhaitez que votre conjoint.e fasse plus souvent la cuisine (comportement désirable). À chaque fois qu’il.elle fait la cuisine, vous offrez de laver la voiture à sa place (suppression d’un stimulus désagréable). http://www.youtube.com/watch?v=nHhcidCoGAE&feature=rela ted 2024 21 Opération qui consiste à ajouter ou retrancher un stimulus comme conséquence à un comportement, tout en visant à diminuer la probabilité que ce comportement apparaisse à nouveau en des circonstances similaires. Punition positive vs punition négative 2024 22 À chaque fois que vous débuter la préparation du repas, il.elle trouve une urgence à exécuter sur la tablette (comportement indésirable). Alors, si vous devez faire seul.e le souper, vous exigez de sa part qu’il.elle sorte les poubelles (ajout d’un stimulus désagréable). Maintenant il.elle fait la cuisine beaucoup plus souvent!!! et utilise moin la tablette 2024 23 À chaque fois que vous débuter la préparation du repas, il.elle trouve une urgence à exécuter sur la tablette (comportement indésirable). Alors, si vous devez faire seul.e le souper, vous le.la priver de sa manette de télévision pour la soirée. (suppression d’un stimulus agréable) http://www.youtube.com/watch?v=6Z7fNRZX8M0 2024 24 Augmentation de la probabilité de réapparition du comportement Diminution de la probabilité de réapparition du comportement Ajout d’un élément Enlèvement d’un élément Renforcement positif Renforcement négatif Punition positive Punition négative 2024 25 Le renforcement vise à augmenter ou à maintenir élevée la probabilité qu'un comportement apparaisse de nouveau en des circonstances similaires. Le renforcement positif : le comportement est suivi de l'apparition addition) d'un stimulus appétitif Le renforcement négatif : le comportement est suivi de la disparition (soustraction) d'un stimulus aversif. 2024 26 La punition vise à diminuer ou à maintenir basse la probabilité qu'un comportement apparaisse de nouveau en des circonstances similaires. La punition positive : le comportement est suivi de l’apparition d'un stimulus aversif. La punition négative : le comportement est suivi de la disparition (soustraction) d'un stimulus appétitif. http://www.youtube.com/watch?v=rMEajvSREmc 2024 27 Conditionnement opérant Renforcement Punition Positif Négatif Positif Négatif Présentation de stimulus Retrait de stimulus Présentation de stimulus Retrait de stimulus Fréquence du comportement Donne quelque chose queEnlève quelque chose que la personne aime la personne n’aime pas Fréquence du comportement Donne quelque chose que la personne n’aime pas 2024 Enlève quelque chose que la personne aime 28 28 Renforcement positif: Un chien reçoit une caresse pour avoir rapporté un bâton Renforcement négatif: Un rat nage jusqu’à une plate-forme pour être au sec et échapper à l’eau Un rat évite un choc électrique en pressant sur un levier toutes les 3 minutes Punition positive: Un rat reçoit un choc lorsqu’il descend d’une plate-forme Punition négative: Un rat sera nourri que s’il s’abstient de sentir le plafond de la cage 2024 29 Renforcement positif : Un enfant félicité pour avoir ramassé ses jouets Renforcement négatif : Éviter une contravention Échapper aux réactions allergiques Punition positive : Remontrances pour avoir tiré les poils de Fido Punition négative : Aucune attention ou réaction suite à l’utilisation d’un langage grossier 2024 30 Les quatre types d’apprentissage peuvent être analysés selon 3 points de vue : Les types d’entraînement La nature de la contingence Les effets comportementaux 2024 31 Types d’entraînement Récompense Échappement/évitement Punition Omission Nature de la contingence Renforcement positif Renforcement négatif Punition positive Punition négative Effets comportementaux Augmentation Augmentation Diminution Diminution 2024 32 Quel est le comportement cible? Quel est l’effet attendu sur la probabilité de réapparition de la réponse? La réponse provoque-t-elle la présence ou l’absence de l’événement conséquence? L’événement conséquence est-il aversif ou appétitif? 2024 33 Classique : la relation s’établit entre un SN et un SI. Le comportement du sujet n’a aucun effet sur l’apparition des stimuli. Opérant : la relation s’établit entre une réponse et sa conséquence. Le comportement détermine une conséquence, c’est-à-dire l’apparition ou la disparition du renforçateur. 2024 34 Situations à essais discrets : Labyrinthes, boîtes d’évitement, etc. Le début et la fin des essais sont faciles à identifier. On peut les compter. Ce qui se passe entre les essais n’a pas d’importance. Situations à essais continus : Situations opérantes libres (boîte de Skinner) Le début et la fin des essais ne sont pas clairement identifiés. - essaie et erreurs 2024 35 Cette procédure consiste à renforcer des approximations successives du comportement. À la toute fin, seul le comportement désiré sera renforcé. (Ex.: Enfant : entraînement à la continence). Le façonnement est généralement utilisé lorsque des réponses complexes doivent être apprises ou lorsque les réponses ne font pas partie du répertoire comportemental de l’organisme https://www.youtube.com/watch?v=glvbydFXdZg fait progressivement: chien avance vers la boite (renforce) ensuite met une patte (renforce), puis 2 pattes (renforce) 2024 36 L'acquisition de nouveaux comportements Le façonnement par approximations successives est une méthode pour acquérir un comportement absent ou peu fréquent d'un organisme. Le façonnement consiste à renforcer, de façon différentielle et successive, les comportements se rapprochant de plus en plus du comportement désiré. 2024 37 La technique du façonnement vise à programmer une série d’étapes entre le comportement de base, tel qu’il existe avant tout apprentissage, et la réponse terminale qu’on cherche à faire émettre par l’organisme Il suffit alors de renforcer progressivement et systématiquement chacune de ces séquences d’action, jusqu’à amener l’organisme à adopter le comportement désiré Ainsi, l’organisme va peu à peu fournir la réponse souhaitée, grâce à une « récompense », associée à chaque acte allant dans le sens de cette réponse terminale 2024 38 2024 39 La plupart des comportements humains se façonneraient de cette manière, selon Skinner et les béhavioristes Le façonnement intervient en effet aussi bien dans l’éducation de l’enfant que dans les relations de couple ou dans les divers aspects de la vie en société Chaque fois qu’un individu ou qu’une institution veut obtenir l’apparition d’un comportement de la part d’un partenaire ou d’un groupe de citoyens, il est possible d’imaginer et de mettre en place les renforçateurs qui augmentent les chances de les voir se produire 40 2024 Dans une situation d’apprentissage instrumental, il peut y avoir d’autres stimuli que le stimulus renforçateur. Le stimulus discriminatif signale à l’animal une occasion de répondre. La réponse est déclenchée en présence d’un stimulus particulier. Le sujet discrimine, ou fait la différence, entre un stimulus et un autre. ex: skinner ajoute lumière dans la cage du pigeon ( pas de lumière : pas de récompense) 2024 41 Ex.: Lorsqu’une lumière est allumée, un pigeon sera renforcé par de la nourriture lorsqu’il picore sur un disque. En circulation, les panneaux indicateurs sont des stimuli discriminatifs. 2024 42 Renforçateurs primaires : Ne nécessite aucun entraînement préalable : Les renforçateurs biologiquement importants : nourriture, eau, sexe, attention, approbation, choc électrique Les renforçateurs sensoriels ont une valeur renforçante uniquement à cause de la simple stimulation des organes sensoriels L’autostimulation cérébrale 2024 43 Renforçateurs secondaires : Stimulus qui entraîne une satisfaction n’ayant pas de valeur biologique intrinsèque Les renforçateurs secondaires acquièrent des propriétés renforçantes à la suite de pairages successifs avec un renforçateur primaire: argent, biens matériels, économie de jetons. Caractéristiques de renforçateurs secondaires ou conditionnés La prévisibilité 2024 44 Principe de Premack : Une réponse à forte probabilité naturelle d’apparition peut renforcer une réponse dont la probabilité d’apparition est plus faible. Exemple: Faire ses devoirs pour aller jouer avec ses amis Réponse cible « faire ses devoirs » = faible probabilité d’apparition naturelle Le renforçateur « jouer avec ses amis », est par contre un comportement dont la probabilité naturelle est très élevée En rendant ce second comportement contingent au premier, parents visent à augmenter la probabilité de la première réponse 2024 45 La valeur du renforçateur (appétitif ou aversif), et par conséquent la force du conditionnement, sont reliées à la quantité et à la qualité du renforçateur. Plus grande est la récompense plus fort sera le renforcement Exemple : Les animaux courent plus vite dans un labyrinthe lorsque chaque course leur donne plus de nourriture Les humains achètent plus de billets de loterie pour des prix d’un million de dollars que pour les prix moins alléchants 2024 46 La valeur d’un renforçateur n’est pas absolue. L’effet renforçant devient plus prononcé lorsque le renforçateur peut être comparé avec une autre quantité du renforçateur. Le comportement peut être amplifié ou diminué suite à une telle comparaison. Contraste positif 300 250 (Flaherty et Largen, 1975) 200 Contraste négatif 150 Gr 1 : 4% Gr 2 : 32% Gr 3 : 4% et 32 % en alternance 100 50 0 Gr 3 Gr 2 32(4) 32 Gr 1 4 Gr 3 4(32) Concentration de sucrose 2024 47 ex: vendeur montre maison de 200 000$ et ensuite maison de 150 000$ ex: nouveau partenaire amoureux versus l'ancien La contiguïté temporelle : Le délai de renforcement/punition : Un délai court permet généralement un meilleur apprentissage parce qu'il diminue la probabilité qu'il y ait interférence entre d'autres réponses et le renforçateur La contingence réponse-conséquence : La contingence est aussi importante qu’en conditionnement classique. Tout le conditionnement instrumental repose sur la corrélation entre la réponse et la conséquence. Si aucune relation n’existe, il n’y aura aucun apprentissage. L'absence de relation de contingence entre le comportement et ses conséquences produit le phénomène de résignation acquise (impuissance acquise). 2024 48 L’acquisition peut mener à une modification du comportement à la hausse ou à la baisse, mais il s’agit d’apprendre une nouvelle contingence qui n’était pas en fonction auparavant. L’extinction consiste à cesser de renforcer une réponse. Il faut donc qu’il y ait eu établissement d’une contingence auparavant pour qu’il puisse y avoir extinction. Ex. : épicerie R : pleurnicher R : pleurnicher Sr : bonbons -- : aucun bonbon Apprentissage : arrêter de pleurnicher 2024 49 L’extinction est susceptible d’être suivie d’une récupération spontanée. Récupération spontanée : réapparition d’une réponse éteinte, à la suite d’une période de repos consécutive à l’extinction. Ex. : épicerie après extinction R : pleurnicher un peu-- : aucun bonbon mais de moins en moins fort Demande plusieurs visites à l’épicerie sans bonbons pour faire éteindre complètement le comportement. 2024 50 Expérience avec les chiens et les rats donnant naissance à la théorie de l’impuissance acquise Chocs électriques occasionnels sur le plancher de la cage Apprentissage de l’animal de presser un levier pour empêcher les chocs ou de changer de compartiment où il peut circuler librement L’animal demeure donc fonctionnel 2024 51 2024 52 Expérience exécutée avec un 2e chien, une donnée est modifiée : le passage entre les planchers est bloqué où il n’y a pas de levier Lorsqu’aucune des actions n’est efficace, le chien devient : Impuissant, amorphe, apathique ; Abandonne ses actions ; Manifeste des symptômes de dépression Retour des comportements normaux après quelques semaines L’expérience est répétée lorsque les deux chiens sont adultes Cette fois, la cage du second chien n’est pas modifiée et l’accès pour changer de compartiment est accessible Dès que les chocs électriques débutent, le premier chien saute spontanément de l’autre côté de la cage Le second chien, malgré l’ouverture pour la fuite, ne le fait pas; il demeure passivement sur place et présente les mêmes symptômes dépressifs que lors de la première expérience2024 53 Renforcement continu Chaque fois que le comportement est adopté. Chaque réponse est renforcée ou punie. Plus rapide. Renforcement partiel ou intermittent Le comportement n’est pas renforcé à chaque fois qu’il apparaît. Seulement un certain nombre de réponses sont renforcées ou punies. Plus « efficace » et plus résistant à l’extinction. 2024 54 4 façons de renforcer partiellement le comportement. Les 4 programmes de base produisent une forme comportementale particulière. 2024 55 Programmes à intervalles fixes Le renforcement survient après la première réponse émise après un intervalle de temps fixe Ex : Préparation d’un plat au four, le manger dans une heure achat de billet en ligne ( le billet est disponible a une heur fixe ) Programmes à intervalles variables Le renforcement survient après la première réponse émise après un intervalle de temps moyen Ex. : Contraventions aux automobilistes 2024 56 Programmes à rapport fixe Le renforcement survient après un nombre fixe de réponses Ex. : Le 5e changement d’huile est gratuit ex: acheter 10 café et en avoir un gratuit Programmes à rapport variable Le renforcement survient après un nombre variable de réponses Ex : Jouer dans les machines à sous, la personne peut gagner un prix après seulement quelques essais alors que d’autres fois, elle peut jouer de très nombreux tours sans gagner. Le rapport est aléatoire 2024 57 Programme à durée : Programme à durée fixe (DF) : renforcement si comportement exécuté en continu durant une période « X » prévisible et fixe Ex. : pouvoir écouter la TV 1 h si 2 h d’études (DF2) Programme à durée variable (DV) : renforcement si comportement exécuté en continu durant une période imprévisible et variable Ex. : donner un biscuit à des moments variés (pour une moyenne d’un biscuit aux 30 minutes) (DV30) à un jeune qui doit étudier 2024 58 vitesse d'exécution Programme de débit de réponse : Renforcement différentiel du débit rapide (RDDR) : renforcement est fonction d’un certain nb de réponses en une certaine période de temps Ex. : participant récompensé si 20 hot-dogs / 1 minute Renforcement différentiel du débit lent (RDDL) : période de temps minimale nécessaire (débit lent) Ex. : se brosser lentement les dents Renforcement différentiel de réponses rythmées (RDRR) : débit préétabli (ni trop vite ni trop lent) Ex. : course à pied : renforcer un rythme moyen. 2024 59 Programmes non contingents : présence du renforçateur même si aucune réponse Programme à temps fixe (TF) : renforçateur après une période « X » prévisible et fixe Ex. : cadeau à Noël pour tous, peu importe si gentil (TF1) Programme à temps variable (TV) : renforçateur après une période « X » imprévisible et variable, peu importe le comportement du sujet Ex. : rencontrer par hasard un ami d’enfance aux 3 mois 2024 60 Combinaison d’au moins deux programmes simples Programmes conjonctifs : exigences d’au moins deux programmes simples avant la présentation d’un renforçateur. Ex. : reçoit un salaire si nb h/sem. travail + réalisation tâches Programmes ajustables : la réponse change en fonction de la performance du sujet. Ex. : exigences plus grandes pour bon élève (avant renforcement si 80 %, maintenant renforcement si 85 %) Programmes en chaîne : 2 programmes simples ayant un ordre de présentation. Chacun a son Sd et le dernier produit un renforçateur terminal. Ex. : Pré-requis > 49 % pour un 2e cours pour obtenir diplôme 2024 61 La punition n'implique pas nécessairement une douleur physique. Pour être efficace, une punition doit être intense, immédiate (contiguë) et contingente (survenir à chaque réponse). Une punition intense sensibilise les individus aux punitions subséquentes. Des avertissements et des punitions peu sévères habituent les organismes aux punitions subséquentes. La punition devient plus efficace utilisée conjointement avec le renforcement positif des autres comportements désirés. 2024 62