Hoofdstuk 4: Leren, leren en nog eens leren
In dit hoofdstuk:
- Conditionering verklaard
- Een oude hond nieuwe trucjes aanleren
- In conditie blijven
- Gedrag versterken
- Uitdoving te lijf gaan
Meer dan honderd jaar geleden probeerden Engelse filosofen denkprocessen te analyseren. Ze beschouwden het denken als een opeenvolging van verwante ideeën die op grond van ervaring met elkaar in verband stonden. In hun denkwijze worden twee willekeurige sensorische ervaringen die samen optreden, met elkaar geassocieerd (oftewel aan elkaar gekoppeld). Zodra de ene gebeurtenis of ervaring optreedt, volgt de andere automatisch. De Engelse filosofen noemden dit proces associatief leren, aangezien gebeurtenissen aan elkaar worden gekoppeld, louter en alleen omdat ze zich tegelijkertijd hebben voorgedaan. Steeds wanneer ik de snelweg op ga, zie ik verkeer. Snelweg ® verkeer. Ze zijn aan elkaar gekoppeld!

Om associaties te vormen moet er aan twee belangrijke regels worden voldaan:
- Contiguïteit. Associaties worden alleen gevormd als gebeurtenissen tezamen optreden. Ik voel me bijvoorbeeld depressief wanneer ik ’s maandagsmorgens opsta en aan mijn werk denk. Voor mij zijn werk en wakker worden dus aan elkaar gekoppeld.
- Frequentie. Hoe vaker twee (of meer) gebeurtenissen tezamen voorkomen, des te sterker de koppeling zal worden.
De honden van Pavlov
Rare titel voor een paragraaf? Hoe zou je het vinden als we ons eens verdiepten in het hoe en waarom honden kwijlen? Zelf ga ik dan nog liever naar de tandarts. Maar goed, zo ben ik. Er was ooit een moedig man, de Russische fysioloog Ivan Pavlov, die een dergelijk onderzoek deed. In feite was Pavlov bezig de spijsvertering van honden te bestuderen toen hij geïnteresseerd raakte in de vraag waarom de presentatie van voedsel alleen al de speekselreactie van honden op gang bracht. Hij ontdekte dat de speekselvorming automatisch optrad.

Probeer het zelf eens. Denk aan iets echt smakelijks (of aan een citroen) en ga na of het water je al automatisch in de mond komt. Lukt dat? Dat komt omdat speekselvorming een reflexmatige reactie op voedsel is. Het lichaam bereidt zich op de ontvangst van voedsel voor. Speeksel helpt om voedsel tot verteerbare brokken af te breken.
Op dat punt aangekomen was Pavlov waarschijnlijk al tevreden over zijn onderzoeksopzet, maar op zekere dag ontdekte hij iets merkwaardigs. Soms kwijlden de honden zelfs wanneer er geen voedsel werd aangeboden. Wat was hier aan de hand? Werd de speekselvorming door iets anders uitgelokt? Pavlov probeerde de situatie met behulp van associatie te verklaren. De honden hadden geleerd om andere stimuli met het voedsel te associëren. Maar wat dan wel? Pavlov deed vervolgens een reeks experimenten om uit te zoeken hoe de honden hadden geleerd om andere stimuli zodanig met voedsel te associëren dat de speekselvorming op gang werd gebracht. Een doorsnee-experiment verliep als volgt:
1. Pavlov zette zijn honden in hun kooien met speekselbuisjes bevestigd aan hun speekselklieren.
2. Hij liet een bel rinkelen en keek of zijn honden al dan niet kwijlden. Nee, dat deden ze niet.
3. Vervolgens liet hij de bel gaan en gaf hij de honden na een paar seconden hun voer. De honden kwijlden.
4. Hij bleef het geluid van de bel plus de presentatie van het voer diverse malen herhalen. Deze gepaarde presentaties noemde hij trials.
5. Nadat Pavlov tevreden was over het aantal trials, liet hij alleen de bel rinkelen, zonder de beesten voer te geven.
6. Hij zag nu dat het geluid van de bel alleen al voldoende was om de honden te laten kwijlen.
Geconditioneerde responsen en stimuli

Pavlovs ontdekking werd bekend onder de naam klassieke conditionering. Nadat hij zijn experimenten had uitgevoerd, beschreef Pavlov de volgende aspecten die voor een klassieke conditioneringsprocedure noodzakelijk waren:
- Ongeconditioneerde reacties (UR). De honden van Pavlov begonnen automatisch (reflexmatig) te kwijlen wanneer ze voedsel zagen. Ze hoefden niet te leren (oftewel geconditioneerd te worden) om te kwijlen als ze voedsel zagen.
- Ongeconditioneerde stimuli (US). Het voer dat Pavlov aan zijn honden gaf, noemde hij de ongeconditioneerde stimulus. De US is datgene wat de ongeconditioneerde reactie teweegbrengt. Voer → speeksel. Zo simpel ligt het!
- Geconditioneerde stimuli (CS). De bel die Pavlov in een doorsnee-experiment liet rinkelen, noemde hij een geconditioneerde stimulus. Deze stimulus werd via een aantal gepaarde trials aan het voer gekoppeld. De gedachte hierachter is dat de geconditioneerde stimulus na een voldoende aantal trials op zichzelf al de gewenste reactie zal veroorzaken.
- Geconditioneerde reacties (CR). Zodra de CS op zichzelf de UR al veroorzaakt, wordt de gewenste reactie de geconditioneerde reactie genoemd.
Extinctie
De kracht van klassieke conditionering is ronduit indrukwekkend. Denk er maar eens over na. Als je twee stimuli gecombineerd aanbiedt, kan de CS op een gegeven moment het karwei alleen aan. Maar wanneer met de combinatie wordt gestopt en de CS zelf de reactie op gang moet brengen, neemt de kracht van de CS geleidelijk af. Als je een CS maar vaak genoeg zonder US aanbiedt, zal de CS uiteindelijk geen CR meer uitlokken. Dit verschijnsel staat bekend onder de naam extinctie (uitdoving) en het is een manier om het klassieke conditioneringsproces om te keren. Zo leerden de honden van Pavlov om na het geluid van een bel te kwijlen. Werd de bel echter herhaaldelijk aangeboden zonder dat er voer op volgde, dan stopten de honden uiteindelijk hun gekwijl bij het geluid van de bel.
Maar wacht even, dat is nog niet alles! Er gebeurt iets dat mogelijk nog interessanter is en wel op het moment dat de US een tijdje na de uitdoving opnieuw wordt gepresenteerd: spontaan herstel. Het vermogen van de CS om de reactie uit te lokken, keert weer terug. Opnieuw is de CS in staat om de CR teweeg te brengen. Je kunt klassieke conditionering dus gebruiken om een oude hond nieuwe trucjes te leren, terwijl je het trucje via uitdoving weer afleert.
Generaliseren en discrimineren
Goed, denk je misschien, we kunnen honden leren om na het geluid van een bel te kwijlen, maar wat dan nog? Nou, klassieke conditionering is in de praktijk een uiterst belangrijk verschijnsel in termen van menselijke overleving. Het helpt ons om dingen moeiteloos te leren, louter door ze aan elkaar te koppelen en dit kan ons van pas komen. Nadat we een CS dermate sterk aan een US hebben gekoppeld dat de CS op zichzelf de CR al gaat produceren, kunnen we dat leerproces automatisch uitbreiden via een procedure die generalisatie wordt genoemd.
Van generalisatie is sprake wanneer we reageren met een CR (die ik CR-2 zal noemen) op iets dat op de CS lijkt, ook al hebben we de CR-2 nooit met de oorspronkelijke US leren associëren. Als je bijvoorbeeld smalende of boze blikken met geweld leert associëren, zullen die gezichtsuitdrukkingen (CS) angst (CR) produceren, terwijl jouw angst (CR) in het verleden alleen door een geheven vuist of een verbale bedreiging (US) werd teweeggebracht. Vervolgens generaliseer je bijvoorbeeld vanuit de CS-frons en word je al angstig als iemand je dreigend aankijkt (CS-2). Deze generalisatie kan je hachje helpen redden. Generalisatie helpt ons bij onze aanpassing aan de wereld, aangezien we wat we geleerd hebben op nieuwe situaties toepassen.
Generalisatie kan echter ook zijn schaduwzijde hebben. Als ik bijvoorbeeld ooit door een zwarte pitbull ben aangevallen, kan ik al bang worden bij het zien van een zwarte hond van een willekeurig ras, al is het een chihuahua.
Wanneer we beginnen te generaliseren wat we hebben geleerd, is dat tegengesteld aan discrimineren (onderscheid maken). We moeten weten hoe we moeten discrimineren (het verschil tussen stimuli aangeven) tussen een geweerschot en de knal van een rotje. Discriminatie wordt aangeleerd door een CS-2 (of CS-3 of CS-4 enzovoort) een voldoende aantal keren aan te bieden zonder een reactie uit te lokken. We leren dan dat uitsluitend de CS (en niet de CS-2) de CR produceert.
Een bot om op te kluiven: waarom werkt dit?
Klassieke conditionering is bruikbaar. We kunnen dingen leren over onze omgeving op een manier die ons adaptiever en capabeler maakt. Maar waarom werkt klassieke conditionering eigenlijk? Waarom zijn we in staat om stimuli die nog niet met elkaar in verband stonden, met elkaar te associëren?
Pavlov was van mening dat de gelijktijdige activering van twee hersengebieden associaties tussen een CS en US tot stand brengt. Deze activering zou resulteren in de vorming van een nieuw ‘pad’ tussen de nieuwe centra, vergelijkbaar met een telefoonkabel die tussen twee voorheen niet met elkaar verbonden huizen wordt aangelegd. Wanneer de CS wordt geactiveerd, krijgt de US een ‘telefoontje’ dat door de nieuwe verbinding mogelijk is gemaakt.
Nog meer leren: een beloning leidt tot goed gedrag
Atleten behoren tot de bijgelovigste mensen die er op aardbodem rondlopen en worden alleen nog door gokkers overtroffen. Zelf was ik ook niet helemaal van bijgelovigheid gespeend. Bij runs in het veld trapte ik nooit op de witte kalklijn. De andere spelers deden nooit spottend over mijn rituelen, want iedereen had wel zijn eigen merkwaardige gewoonten. Toen ik met mijn psychologiestudie begon, vroeg ik me af waar dit soort dingen op berustte. Waar had ik eigenlijk geleerd dat ik slecht zou spelen als ik op de kalklijn trapte? Er is kennelijk een moment geweest dat ik op de kalklijn stapte en slecht speelde. Ik zag kennelijk een verband tussen wat ik deed (stappen op de lijn) en wat me overkwam (slecht spelen). Ik vormde een koppeling tussen mijn gedrag en een gevolg daarvan, in dit geval een negatief gevolg. Psychologen noemen dit een geval van bijgelovig leren.
Wanneer er daadwerkelijk verband bestaat tussen wat we doen en een bepaald gevolg ervan, hetzij positief hetzij negatief, vindt er een specifieke vorm van leren plaats. We hebben geleerd dat wanneer we A doen, de handeling door B wordt gevolgd. Gedragspsychologen en leerpsychologen beschouwen al het leren als een conditioneringsproces, een type leren waarin een associatie tussen gebeurtenissen wordt gevormd.
Operante conditionering vindt overal om ons heen plaats, zowel thuis als op het werk. Ouders maken van beloningen, oftewel van operante conditionering, gebruik om hun kinderen ertoe te brengen hun huiswerk te maken. In de volgende paragrafen zullen we van naderbij zien hoe operante conditionering werkt.
Thorndike’s kittige katten
In de vorige paragraaf heb ik laten zien dat er iets gebeurt als ik iets doe. Wat is het gevolg daarvan? Ik blijf elke maand naar mijn werk gaan, dus moet die overschrijving van de bank een effect op me hebben. In 1911 stelde Edward Thorndike een theorie op die als de wet van het effect bekend staat. Het idee dat een gevolg gedrag kan beïnvloeden, werd door hem experimenteel getest.
Thorndike ging aan de slag met katten. Hij maakte een houten krat met kieren en een deurtje dat via een speciaal mechanisme kon worden geopend. Hij plaatste een hongerige kat in het krat en sloot het deurtje. Vervolgens plaatste hij wat kattenvoer op een schoteltje naast het krat en wel zodanig dat de kat het schoteltje door de kieren wel kon zien, maar niet kon bereiken. Dit klinkt wat wreed, vind je niet? De kat probeerde door de kieren bij het voer te komen, maar het voer bevond zich zoals gezegd buiten haar bereik. De enige manier waarop de kat bij het voer kon komen was via het deurtje. Dat moest de kat (of Thorndike) openen.
De kat liep rond in het krat, stak een klauwtje uit, miauwde, sprong tegen de wand op en reageerde op allerlei manieren in het krat. Maar opeens gebeurde er iets opmerkelijks. De kat raakte per ongeluk de grendel die het deurtje gesloten hield, waarna het deurtje als bij toverslag openging. Hoera! De kat kon eten en iedereen leefde nog lang en gelukkig.
Wat leerde Thorndike uit dit experimentje? Niets, want hij was nog niet klaar. Hij pakte het katje op en zette het arme beest weer in het krat. Thorndike bleef dit experiment steeds opnieuw herhalen en deed een opmerkelijke observatie. De tijd die het katje nodig had erachter te komen dat de grendel de sleutel was, werd korter en korter. Waarom werd het katje sneller? Thorndike nam aan dat het voer de kat de associatie tussen het raken van grendel en de ontsnapping hielp aan te leren.

Zijn wet van het effect zegt het volgende. Van alle reacties op eenzelfde situatie, zullen die reacties die gepaard gaan met (of snel gevolgd worden door) bevrediging van het dier, ceteris paribus, hechter aan de situatie worden gekoppeld.
Dat verdient een beloning!

Wanneer een gevolg van een handeling of gebeurtenis de waarschijnlijkheid vergroot dat de gebeurtenis of handeling weer zal plaatsvinden, noemen we dat gevolg een bekrachtiger. Het is een soort beloning, en we weten dat we datgene waarvoor we worden beloond, vaak weer zullen doen. Alle dingen die de waarschijnlijkheid van een gedraging kunnen doen toenemen, ongeacht of dat voedsel, geld, ontspanning of het vooruitzicht op vakantie is, kunnen als beloning of gedragsbekrachtiging worden gebruikt.
Soorten bekrachtigers
Er zijn twee elementaire typen bekrachtigers:
- Positieve bekrachtiging. Elke bekrachtiger die de kans op een bepaald gedrag vergroot.
- Negatieve bekrachtiging. Wanneer het wegnemen van een schadelijke stimulus er eveneens toe leidt dat de kans op een bepaald gedrag wordt vergroot.
Zoals gezegd is de basisgedachte achter operante conditionering dat de waarschijnlijkheid van (positief of negatief) bekrachtigd gedrag toeneemt. Nadat we hebben uitgezocht wat iemand als bekrachtiger ervaart, kunnen we het gedrag van die persoon beïnvloeden door hem te belonen als hij de juiste reacties uitvoert. Neem bijvoorbeeld een kantoorchef die moeite heeft om zijn werknemers na de lunch weer op tijd aan het werk te krijgen. Eerst zoekt deze chef uit wat de bekrachtiger voor de groep of elk individu kan zijn. Vervolgens begint hij iedereen te belonen die het gewenste gedrag vertoont door op tijd na de lunch te beginnen. Hij kan ze bijvoorbeeld met een glimlach, een schouderklopje of een compliment belonen.
Laten we nog even naar negatieve bekrachtigers terugkeren. Veel mensen vinden de term ‘negatieve bekrachtiging’ verwarrend. Hoe kan de waarschijnlijkheid van een gedraging toenemen als ik iets afpak of een schadelijke stimulus wegneem? Heb je ooit een nieuw jong hondje in huis gehad dat niet wilde ophouden met janken terwijl jij de slaap probeerde te vatten? In zo’n geval stond je waarschijnlijk op en ging je naar het hondje toe en stopte het met janken. Maar zodra jij weer in je bed was gestapt, werd je tien minuten later weer door het gejank wakker.
Het probleem is dat jouw gedrag hier onder de invloed van een negatieve bekrachtiger staat. Het gejank van het hondje is een hinderlijke stimulus. Wanneer jij naar het hondje toegaat, stopt het gejank, waardoor de waarschijnlijkheid toeneemt dat jij naar het hondje zult blijven gaan, steeds wanneer het hondje jankt. Je wordt negatief bekrachtigd voor het feit dat je het hondje opzoekt, om maar te zwijgen van de positieve bekrachtiging die het hondje ontvangt door te janken! Wie controleert hier de situatie: jij of het hondje?
Timing van de bekrachtiging
Wat gebeurt er als de chef tot de oudejaarsborrel wacht met het belonen van de werknemers die stipt op tijd van hun lunch terugkeren? De kans is groot dat ze dan de hele kwestie al lang en breed zijn vergeten en dat ze de beloning in ontvangst nemen zonder de heilzame effecten ervan te ervaren.

Onderzoek van Grice en Spence heeft aangetoond dat bekrachtiging onmiddellijk (of zo snel mogelijk) na de gewenste reactie moet worden gegeven. Als je te lang wacht, gaat de koppeling tussen de reactie en het belonende gevolg verloren.
Foei, dat is stout!
Zowel positieve als negatieve bekrachtigers zijn gevolgen die de waarschijnlijk van gedrag doen toenemen. Maar hoe zit het met straf: kan straf ook als bekrachtiger van gedrag effectief zijn? Straf kan worden omschreven als elk gevolg dat de waarschijnlijkheid van een reactie doet afnemen. Er zijn twee soorten straffen. Bij het ene type wordt een schadelijke stimulus toegediend, terwijl bij het andere straftype, negatieve straf, een bekrachtiger (bijvoorbeeld een speelgoedje van een kind) wordt weggenomen.

Straf kan feitelijk een uiterst krachtig en effectief middel zijn om gedrag te onderdrukken, maar houd daarbij wel de volgende aspecten in het oog:
- Straf moet de minst intense vorm zijn om de gewenste reactie te produceren. Anderzijds moet een straf ook weer niet te mild zijn, omdat de ontvanger mogelijk aan elke toename gewend raakt als je een straf geleidelijk verzwaart.
- Om effectief te zijn moet de straf zo snel mogelijk na de ongewenste reactie worden toegediend.
- Straf moet beslist en consistent worden toegediend en moet vergezeld gaan van een duidelijke uitleg waarom de straf wordt gegeven.
Stoppen met belonen
Wat gebeurt er als ik de beloning plotseling stopzet nadat ik de waarschijnlijkheid van een bepaald gedrag met succes heb vergroot? Dan houdt dat gedrag uiteindelijk op, afhankelijk van hoe vaak ik het tevoren heb beloond. Ik geef je op een briefje dat mijn werkgedrag zou ophouden als ik er niet meer voor zou worden betaald, en dat ik daarmee waarschijnlijk niet erg lang zou wachten. Dit verschijnsel wordt extinctie (uitdoving) genoemd en heeft betrekking op het ophouden van gedrag na het uitblijven van bekrachtiging. Net als straf wordt extinctie gebruikt als een manier om te voorkomen dat een bepaald gedrag weer optreedt.