Eine häufige Kritik gegenüber dem Training mit positiver Verstärkung ist, dass Training nur mit positiver Verstärkung nicht möglich sei, da das Training immer auch einen Anteil negativer Strafe enthalten würde. Ganz so einfach ist es allerdings nicht! Zumal die Alternative hierzu das Training mit negativer Verstärkung ist, dass zu einem nicht unerheblichen Teil auch positive Strafe enthält. Was ist also dran, an diesem Kritikpunkt? Um diese Frage zu klären, müssen wir ein bisschen ausholen und bei den Basics von Lehren und Lernen anfangen.

Operante Konditionierung

Das gezielte Erlernen von Verhaltensweisen findet zu einem großen Teil mittels operanter Konditionierung statt, welche auch als Lernen durch Konsequenzen bekannt ist. Manchmal wird dies auch als „Trial-and-Error“ bzw. „Versuch und Irrtum“ bezeichnet, da das Tier hierbei durch Ausprobieren lernt, welches Verhalten sich am meisten lohnt. Das Pferd lernt hierbei durch ein Verhalten eine Konsequenz herbeizuführen und erhält dadurch eine gewisse Kontrolle über seine Umgebung. Es „operiert“ also mit seiner Umwelt, woher auch die Bezeichnung operante Konditionierung stammt. 

In diesem System existieren 4 Konsequenzen, die als Quadranten der operanten Konditionierung bezeichnet werden: Positive und Negative Verstärkung, sowie positive und negative Strafe. Führt eine Konsequenz dazu, dass ein Verhalten häufiger gezeigt wird, spricht man von einer Verstärkung. Eine Konsequenz, die dazu führt, dass ein Verhalten weniger häufig auftritt, nennt man Strafe. Bei der Beschreibung von positiv und negativ geht es, anders als häufig angenommen, also im eigentlichen darum, ob als Konsequenz etwas hinzugefügt oder entfernt wird. Bei einer positiven Verstärkung wird also etwas hinzugefügt, bei einer negativen Verstärkung etwas entfernt – in beiden Fällen wird das Verhalten verstärkt und wird zukünftig häufiger auftreten. Dass es sich hierbei um etwas Angenehmes handelt, dass hinzugefügt wird und um etwas Unangenehmes, dass entfernt wird, damit das ein Verhalten in Zukunft häufiger auftritt, liegt in der Natur der Dinge. Für die Bezeichnung selber ist dies jedoch nicht relevant. Unterm Strich muss sich dadurch für das Tier ein erstrebenswerter Vorteil ergeben.

Eine Strafe bezeichnet man im lerntheoretischen Kontext dann als Strafe, wenn Sie dazu führt, dass ein Verhalten in Zukunft weniger häufig auftritt. Wie auch bei der Verstärkung, gibt es hier positive Strafe, wenn wir etwas hinzufügen und negative Strafe, wenn wir etwas entfernen, damit ein Verhalten zukünftig weniger häufig auftritt. Auch hier liegt es in der Natur der Dinge, dass bei der positiven Strafe etwas Unangenehmes hinzugefügt und bei der negativen Strafe etwas Angenehmes entfernt wird, damit sich das Verhalten für das Tier weniger lohnt und es dieses in Zukunft vermeidet. 

Eine Sonderstellung nimmt hierzu die sogenannte Löschung ein, die häufig als „5. Quadrant“ genannt, meistens aber dem Begriff der „negativen Strafe“ zugeordnet wird. Genau genommen ist sie jedoch das Ausbleiben einer Konsequenz auf ein bereits gelerntes Verhalten, um dieses sinngemäß „auszulöschen“.

Signale funktionieren durch Konsequenzen

Die Abhängigkeit von positiver Verstärkung und negativer Strafe

Beim Lernvorgang mit operanter Konditionierung geht es dem Pferd also darum, sich einen Vorteil zu verschaffen. Im Training mit positiver Verstärkung, verstärken wir das erwünschte Verhalten also dadurch, dass wir das Pferd mit etwas Belohnen, dass ein Bedürfnis stillt – in den meisten Fällen ist dies im Trainingskontext Futter. Das Verhalten tritt also häufiger auf, wenn es sich für das Pferd gelohnt hat. In der Praxis bedeutet das in den meisten Fällen jedoch auch, dass nur die richtigen Versuche des Tieres auch verstärkt werden und bei allen anderen Verhalten der Verstärker ausbleibt. Möchte ich beispielsweise, dass das Pferd rückwärtsgeht, das Pferd bleibt jedoch stattdessen stehen oder bewegt sich anderweitig, wird es nicht belohnt. 

Zwar ist das Ausbleiben der Belohnung für das Pferd nicht erstrebenswert und kann sogar sehr unangenehme Emotionen beim Pferd auslösen, der Fokus liegt aber ganz klar darauf, erwünschtes Verhalten zu vermehren. Training, in dem das Pferd gestresst und frustriert ist, zeugt also immer von mangelnden Trainerfähigkeiten oder schlechten Rahmenbedingungen und sollte nicht als Maßstab gesehen werden. Vergleiche funktionieren nur dann sinnvoll, wenn beides auf ähnlich hohem Niveau betrachtet wird.

Ein guter Trainer kann das Training so gestalten, dass das Pferd nahezu fehlerfrei lernt und es somit fast ausschließlich erwünschtes Verhalten zeigt. Er schafft es außerdem auf die wenigen „Fehler“ des Tieres so zu reagieren, dass das Tier im Training bestenfalls gar nichts davon merkt – Fehler sind nur für den Menschen wichtig und geben darüber Auskunft, wie der nächste Trainingsschritt zu gestalten ist. Denn zwischen Belohnen und Nicht-Belohnen liegen unter Umständen Welten.

Neben dem Ausbleiben der Belohnung, gibt es noch eine ganze Reihe von Möglichkeiten: Man kann zum Beispiel durch den Ort der Futterübergabe das Zielverhalten wahrscheinlicher machen, die Wertigkeit des Verstärkers variieren oder durch zusätzlichen Aufwand beim Abholen der Belohnung dessen Wert schwächen. Und man kann so kleinschrittig trainieren, dass ein Fehler überhaupt nicht ins Gewicht fällt, weil er von den 99 % richtigen Versuchen und dem Fortschritt „überdeckt“ wird.

Auch die Möglichkeiten, wie man überhaupt ein Verhalten aus dem Nichts aufbaut, gehen weit über Warten und Hoffen hinaus, was die Vorstellungskraft vieler Menschen ohne Erfahrung im Training mit positiver Verstärkung übersteigt. Dies würde jedoch an dieser Stelle den Rahmen sprengen, kann aber gerne im kostenlosen Videokurs Trainingssysteme im Clickertraining recherchiert werden.

In der Praxis kann es dennoch vorkommen, dass im Training auch bewusst negative Strafe, also das Entfernen von etwas Angenehmen, angewandt wird. Das ist vor allen Dingen dann der Fall, wenn dadurch verhindert werden soll, dass ein Verhalten unbeabsichtigt verstärkt wird. Steigt das Pferd zum Beispiel auf das Podest und trommelt wie wild mit seinen Hufen darauf herum, belohnt man das Pferd sinnvollerweise in einem solchen Moment nicht. Hat das Pferd jedoch durch positive Verstärkung gelernt, dass das auf dem Podest stehen etwas Angenehmes ist, wodurch schon das Stehen auf dem Podest ein Verstärker ist oder empfindet das Pferd das Scharren und Klopfen als selbstbelohnend, ist es eine schlaue Entscheidung, das Pferd vom Podest herunterzuführen. Da man dem Pferd hier das Podest „wegnimmt“ und damit auch die Möglichkeit, sich einen Verstärker zu verdienen, stellt dies eine negative Strafe dar. Würde man das Pferd einfach weitermachen lassen, würde sich dieses Verhalten wahrscheinlich weiterhin lohnen und dadurch häufiger auftreten. Um nun zukünftig zu verhindern, dass das Pferd auf dem Podest „herumkaspert“, wird man sich nun überlegen, wie man ein ruhiges Stehen bekommt, statt das Pferd immer wieder zu bestrafen, indem man es in den Fehler hereinrennen lässt. Eine Möglichkeit wäre zum Beispiel früher oder häufiger zu belohnen, solange das Pferd stillsteht, sodass das Pferd gar nicht erst scharrt oder klopft oder das Pferd nicht so lange auf dem Podest stehen lassen. Wir stützen uns also auch hier wieder auf die positive Verstärkung, um Verhalten zu vermehren, statt unerwünschtes Verhalten durch Strafen zu verringern. 

Auch der Mensch, der den Trainingsbereich verlässt, kann eine negative Strafe sein, wenn die Anwesenheit des Menschen für das Pferd etwas Erstrebenswertes ist. Ebenso eine verordnete „Zwangspause“, weil der Mensch gerade anderweitig beschäftigt ist. Häufig geschieht diese Form der Strafe eher unbewusst, weil der Mensch sich darüber nicht im Klaren ist und es aus dem konventionellen Training gewohnt ist, dass das Ende oder die Unterbrechung des Trainings für das Pferd etwas „Positives“ ist. (Artikeltipp: Mach mal wieder Pause!) Doch auch Pausen und das Ende einer Einheit kann man so gestalten, dass das Pferd weder gestresst, noch frustriert reagiert – wenn man dies entsprechend langfristig anlegt und nicht erwartet, dass dieser „Nebeneffekt“ sofort verschwindet. Bestenfalls kommt es durch gut angelegtes Training gar nicht erst dazu.

Dennoch kann man eine Abhängigkeit von positiver Verstärkung und negativer Strafe nicht ganz von der Hand weisen, denn fehlerfreies Training benötigt viele Jahre Erfahrung auf dem noch verhältnismäßig jungen Gebiet der positiven Verstärkung. 

Signale funktionieren durch Konsequenzen

Die Präsenz von positiver Strafe im Training mit negativer Verstärkung

Die zuvor genannte „Abhängigkeit“ zweier Quadranten ist im Training mit negativer Verstärkung noch um einiges präsenter. Denn anders als im Training mit positiver Verstärkung, bei der wir Verhalten durchaus vermehren können, ohne die Präsenz von Strafe, ist positive Strafe die Voraussetzung dafür, überhaupt erst negativ verstärken zu können. Das möchte man freilich nicht hören, weshalb dieser Umstand immer wieder zu unschönen Diskussionen und sogar verbalen Entgleisungen führt. Das kommt sicherlich auch ein Stück weit daher, dass man viele bei dem Wort „Strafe“ die Vorstellung einer heftigen Auseinandersetzung mit dem Tier haben und den Begriff eher umgangssprachlich als im „wissenschaftlichen Kontext“ sehen. Doch genau dies ist notwendig, um zu verstehen, wie und warum das eigene Training funktioniert. Beruft sich ein Trainer also darauf, in seiner Ausbildung auf Strafe zu verzichten, nutzt aber negative Verstärkung, kann man davon ausgehen, dass er sich nicht mit der Lerntheorie auseinandergesetzt hat – was allein schon viel über seine Qualifikation aussagt. Ein guter Trainer, egal mit welcher Methode er arbeitet, sollte sich sachlich und nicht emotional erklären können und die Grundlagen des Lernens beherrschen. 

In der Praxis im Training mit negativer Verstärkung, setzen wir zunächst einen Anreiz, um ein Verhalten auszulösen. Das kann ein Blick sein oder eine Berührung, in jedem Fall muss dieser Reiz zu Beginn des Lernens jedoch so viel „Macht“ haben, dass das Pferd ihn „abstellen“ möchte. Es ist dabei unerheblich, ob dieser Reiz wirkt, weil das Pferd ihn selbst als unangenehm empfindet, oder ob das Pferd gelernt hat, dass bei Nicht-Reaktion eine unangenehme Konsequenz folgt. In beiden Fällen versucht das Pferd eine unangenehme Konsequenz zu beenden oder vermeiden, indem es sein jetziges Verhalten ändert. 

Soll das Pferd rückwärtsgehen und ich übe Druck an der Brust aus, bis das Pferd rückwärtsgeht, habe ich zuerst das Stillstehen bestraft und durch das Entfernen des Reizes das Rückwärts gehen negativ verstärkt. Zukünftig wird das Pferd in diesem Kontext – der Mensch steht vor dem Pferd und übt Druck an der Pferdebrust aus – weniger Stillstehen und mehr Rückwärtsgehen zeigen. Daran ändert sich auch nichts, wenn unsere Signale oder die Reize so subtil sind, dass sie für Außenstehende nicht mehr sichtbar sind. Auch im späteren Verlauf wird das Verhalten weiterhin mit negativer Verstärkung aufrechterhalten, schließlich beinhaltet jedes Kommando auch eine – im besten Falle – minimale Androhung von unangenehmen Konsequenzen und bei der richtigen Reaktion des Pferdes wird zunächst erstmal etwas entfernt. Veranlasst also zukünftig bereits ein Blick auf die Hinterhand oder ein Mehr an Körperspannung das Pferd dazu, ein Verhalten zu zeigen, so wird der Mensch diese Reize entfernen, wenn das Pferd wie gewünscht reagiert – selbst, wenn er danach oder dabei überschwänglich belohnt. 

Auch hier darf man nicht schlechtes Training mit negativer Verstärkung mit gutem Training mit positiver Verstärkung vergleichen. Gutes Training mit negativer Verstärkung kann so gestaltet werden, dass das Pferd hierbei nur wenig gestresst ist und sich entsprechend wenig bedroht fühlt. Auch hier kann der Mensch seine Strategie anpassen, wenn er merkt, dass das Pferd „auf dem falschen Dampfer“ ist, indem er z. B. kleinschrittiger oder anders vorgeht oder den Druck nicht erhöht und stattdessen abwartet. 

Trotzdem sind die positive Strafe und die Androhung von unangenehmen Konsequenzen hier stets präsent und erfordern vom Menschen eine gewisse Konsequenz in der Einhaltung: zeigt das Pferd nicht das erwünschte Verhalten, obwohl das Signal und Verhalten bereits bekannt sind, müssen die angedrohten unangenehmen Konsequenzen auch folgen – ansonsten wird das Signal geschwächt und das Pferd wird häufiger versuchen, das Zielverhalten nicht oder schlechter zu zeigen. In der Praxis spricht der Pferdetrainer dann gerne davon, dass das Pferd „testet“ oder „nachfragt“, dabei ist es in der Regel ein menschengemachtes Problem. 

Signale funktionieren durch Konsequenzen

Negative Verstärkung und positive Strafe im positiven Training

Natürlich können wir in der Ausbildung nicht immer alle Ereignisse voraussehen und sorgfältig planen, sodass selbstverständlich auch Pferde positiv arbeitender Trainer in ihrem Alltag ab und an negative Verstärkung und positive Strafe anwenden. Bleibt das Pferd zum Beispiel überraschend stehen, während der Mensch weiterläuft, kann ein unangenehmer und unbeabsichtigter Ruck am Seil durchaus so unangenehm sein, dass das Pferd zukünftig vermeidet, stehenzubleiben – aber es war eben nicht der Plan! Durch umsichtiges und vorausschauendes Handeln kann man dies jedoch auf ein Minimum reduzieren. Strafe und negative Verstärkung  „passiert” also durchaus und auch Stress ist Teil des Alltags, den man nicht immer ausschließen kann. (Artikeltipp: „Warum man unerwünschtes Verhalten nicht ignorieren kann“)

Das bewusste Anwenden positiver Strafe ist bei der Ausbildung mit positiver Verstärkung im Regelfall nicht notwendig. Der Umstand, dass wir durch erstrebenswerte Konsequenzen und damit verbundene positive Emotionen Verhalten „vermehren“, führt dazu, dass die Pferde gerne mitarbeiten und keinen Grund haben zu hinterfragen, ob etwas wirklich sein muss, schließlich lohnt es sich ja. Ein mit positiver Verstärkung trainiertes Pferd ist also auf der ständigen Suche nach Signalen, die eine angenehme Konsequenz bedeuten und liest somit seinem Menschen buchstäblich die Wünsche von den Augen ab – vorausgesetzt natürlich, dass das Training entsprechend gut ist. Auch Abwehr- oder Fluchtversuche und Aggressionspotential werden deutlich verringert, da man sich gründlich überlegt, ob das Pferd einer Aufgabe gewachsen ist oder man es einer bestimmten Situation aussetzt. Im Falle einer Überforderung oder Verweigerung gilt es der Ursache auf den Grund zu gehen statt mit einem „Mach es trotzdem!“ zu reagieren. Das Pferd hat keinen Vorteil davon, ein Verhalten nicht zu zeigen, da dies auch das Ausbleiben einer Verstärkung bedeutet, daher stellt selbst ein solcher Übungsabbruch kein Problem für das weitere Training dar.

Im Falle einer lebensbedrohlichen Situation kann es allerdings durchaus sein, dass auch ein positiv verstärkt arbeitender Trainer bewusst positiv bestraft, weil er keine andere Möglichkeit sieht, um Schlimmeres zu verhindern – hier geht es zunächst um Deeskalation und darum, das Verhalten zu beenden statt, durch die Strafe einen Lerneffekt zu erzielen. Glücklicherweise muss ein Lebewesen nicht lernen, auf einen aversiven Reiz zu reagieren,  denn diese Fähigkeit ist angeboren und funktioniert auch ohne vorangegangene Erklärung (Artikeltipp: Druck muss man nicht üben). Danach muss man jedoch überlegen, wie es zu dieser Situation gekommen ist um eventuelle Trainingsdefizite – positiv verstärkt – ausgleichen zu können. 

Ein Trainer, der sich in seiner Ausbildung auf positive Verstärkung beruft, meint also in der Regel, dass er auf die bewusste Anwendung von negativer Verstärkung und positiver Strafe aus Trainingszwecken verzichtet und überwiegend positive Verstärkung nutzt, um Verhalten zu trainieren und nicht, dass er sich in seinem Training exklusiv dem Quadranten „positive Verstärkung“ bedient.

Signale funktionieren durch Konsequenzen

Warum positive Verstärkung für mich (trotzdem) die bessere Alternative ist

Stellen wir also fest, dass man zu einem Anteil auch mit (negativer) Strafe und unangenehmen Emotionen des Tieres arbeitet, ergibt sich daraus zwangsweise, dass ein Training ausschließlich mit dem Quadranten der positiven Verstärkung nur schwer möglich ist. Trotzdem ist es als Ziel absolut erstrebenswert, der positiven Verstärkung in nahezu allen Belangen den Vorzug zu geben, denn als Alternative zur positiven Verstärkung bleibt am Ende nur das Training mit negativer Verstärkung

Während ich im Training mit positiver Verstärkung den Lerner dadurch motiviere, dass er etwas für seine Leistung erhält, motiviere ich diesen im Training mit negativer Verstärkung dadurch, dass er einer unangenehmen Konsequenz entgehen kann. Die positiven Emotionen, die das Tier im Training mit positiver Verstärkung zeigt, werden durch das Belohnungssystem verursacht, weil wir die Bedürfnisse des Pferdes nach Belohnung befriedigen, während die „Belohnung“ im Training mit negativer Verstärkung sich durch Erleichterung zeigt. Ich stelle nicht infrage, dass auch Training mit negativer Verstärkung freudvoll für Pferd und Mensch sein kann und eine gute Beziehung möglich ist, aber ich behaupte durchaus, dass die zugrunde liegenden Emotionen und Werte hier anders gelagert sind – eine Grundsatzfrage, die jeder für sich selbst beantworten muss.

Möchtest Du auch Botschafter der positiven Verstärkung sein? Dann freue ich mich, wenn du Du diesen Artikel mit Deinen Freunden teilst!