Calendriers de renforcement : quand récompenser votre chien ?
Entraîner votre chien avec des récompenses est un excellent moyen d’enseigner et de maintenir son comportement. Mais à quelle fréquence devriez-vous donner ces récompenses ? Vous pouvez donner une friandise à votre chien à chaque fois qu'il adopte un comportement correct, ou vous pouvez lui lancer une friandise de temps en temps. Ce qui est mieux? Comprendre ce que l'on appelle les « programmes de renforcement » et la science qui les sous-tend peut vous aider à récompenser votre chien le plus efficacement possible lors de l'entraînement.
Qu'est-ce qu'un « calendrier de renforcement » ?
Le dressage de chiens par renforcement positif utilise des récompenses pour renforcer ou encourager le comportement que vous souhaitez que votre chien adopte. Le renforcement positif s’applique également aux personnes. La plupart des gens sont plus susceptibles de se présenter au travail parce qu’ils sont rémunérés d’une manière ou d’une autre. Si les paiements s’arrêtaient, la plupart des gens ne continueraient pas à faire leur travail. Mais un salaire est-il le meilleur facteur de motivation ? Ou est-ce que les bonus stimulent les efforts ? Certaines personnes préféreront peut-être être payées à la tâche plutôt qu’à la semaine.
De la même manière, les chiens sont plus susceptibles de répéter un comportement récompensé. Une récompense pourrait être un traitement d'entraînement ou le lancer d'un balle qui grince– tout ce que votre chien trouve excitant. Il existe de nombreuses façons d’offrir des récompenses, connues sous le nom de programmes de renforcement. Il s'agit d'une manière technique de décrire différentes règles régissant la manière dont les paiements ou les récompenses sont distribués. Examinons les différents horaires et comment ils s'appliquent à votre chien.
Calendrier continu de renforcement
Un programme continu de renforcement (CR) récompense chaque instance d'un comportement. Par exemple, vous pourriez donner un dessert à votre enfant chaque fois qu'il mange son brocoli. Avec votre chien, vous pourriez lui offrir un biscuit chaque fois qu'ils s'assoient. C’est le moyen idéal pour enseigner de nouveaux comportements, car cela rend très claire l’association entre le comportement et la récompense. Si vous ne le récompensez pas à chaque fois qu'il s'assoit, votre chien pourrait avoir du mal à comprendre ce que vous attendez et quand il fonctionne correctement.
Pensez à vos robinets d'eau : ils fournissent du CR. Lorsque vous les allumez, de l'eau rafraîchissante sort. Cependant, si vous ouvrez votre robinet et que rien ne se passe, vous ne continuerez pas à essayer de l'ouvrir. Au lieu de cela, vous abandonnerez et appellerez le plombier. Ce n’est cependant pas le programme le plus pratique. Vous n’avez peut-être pas toujours une friandise sous la main et manger trop de friandises n’est pas sain pour votre animal.
Une fois que votre chien comprend ce que vous voulez, il est temps d'arrêter la RC. Sinon, ils pourraient ne travailler pour vous que s’ils voient une friandise dans votre main. La CR est également utile lorsqu'un chien adopte des comportements complexes, comme effectuer un tour (comme laisser tomber une balle dans un cerceau).
Dans ce cas, CR contribue à maintenir l’intégralité du «chaîne de comportement.» Une chaîne de comportements est une combinaison de deux comportements ou plus exécutés dans une séquence, où chaque comportement sert d'indice pour le suivant et le renforcement vient après la dernière étape de la chaîne. Par exemple, récupérer un haltère consiste à ramasser l'haltère, à le rapporter, puis à le placer dans la main du manieur. Ou bien, exécuter un mouvement de danse libre peut impliquer de marcher à reculons, puis de tourner en cercle avant de sauter dans les bras du manieur. Chaque comportement est initialement enseigné et renforcé individuellement avant d’être enchaîné dans une chaîne.
Extinction, ou pas de calendrier de renforcement
Nous vous déconseillons d'arrêter de récompenser votre chien lorsqu'il a appris un comportement. Souvenez-vous d'un robinet d'eau qui ne distribue rien lorsque vous l'ouvrez. Votre comportement de rotation des robinets s'est arrêté lorsque la récompense a cessé de couler. C'est ce qu'on appelle l'extinction. Et lorsque votre chien ne reçoit plus de récompenses, ses réponses finissent par se tarir également. Cela peut être utile face à des comportements problématiques comme sauter ou mendier. Mais lorsque votre objectif est de renforcer et d’encourager certains comportements, vous voulez vous assurer que votre chien reste engagé et disposé à répondre. C'est là que les récompenses intermittentes entrent en jeu.
Programmes intermittents de renforcement
Si vous ne récompensez pas votre chien pour chaque réponse que vous recevez, vous utilisez un programme de renforcement intermittent ou partiel. Les chiens apprennent plus lentement avec ce type de système de récompense, mais une fois qu'ils auront appris un comportement donné, celui-ci sera moins susceptible de disparaître. Il existe quatre catégories de renforcement intermittent.
Ratio fixe
Un programme à ratio fixe (FR) offre une récompense après un nombre fixe de réponses. Pensez à une ligne de production. Les travailleurs pourraient être payés pour 20 gadgets qu’ils construisent. Terminer l'assemblage des 19 premiers gadgets ne leur rapporte rien, mais le numéro 20 rapporte un salaire. Avec votre chien, vous pouvez jouer au tir à la corde tous les cinq sièges et ne rien faire pendant les sièges un à quatre.
FR est facile à mettre en œuvre, mais votre chien apprendra rapidement la routine. Ils réagiront mieux juste avant l’échéance de la récompense, tandis que leurs performances diminueront juste après. Le FR n’est donc peut-être pas le meilleur moyen d’améliorer le comportement de votre chien. Considérez cette chaîne de production. Les ouvriers travailleront rapidement pour construire ces gadgets, mais dans leur précipitation, ils ne feront peut-être pas un travail de la meilleure qualité possible.
Rapport variable
Un programme à ratio variable (VR) fournit une récompense après un nombre imprévisible de réponses. C’est sur cela que repose le jeu (et pourquoi il crée une telle dépendance). Lorsque vous utilisez une machine à sous, vous ne savez jamais quel tour sera payant. Alors, vous continuez à jouer, convaincu que votre argent est peut-être au coin de la rue. Vous pouvez utiliser un VR pour apprendre à votre chien à marcher au pied de manière fiable à vos côtés lors des promenades. Vous pouvez donner une friandise tous les 10 pas en moyenne, mais parfois ce sera après deux pas et parfois après 15.
Mais utiliser la VR peut s’avérer délicat. Le cerveau humain aime les schémas, vous pourriez donc vous retrouver à utiliser un FR (distribuant des récompenses après un nombre fixe de réponses) alors que vous pensiez utiliser un VR (distribuant des récompenses après un nombre variable de réponses). Il peut être utile d'utiliser un ordinateur pour produire un calendrier de récompenses aléatoire pour vous. Ou incluez des récompenses de la vie, comme une chance de renifler lors d'une promenade. Parfois, votre chien recevra une friandise, parfois un jouet lancé et parfois rien du tout. Parce que votre chien ne sait pas ce qui arrive ni quand, il travaillera constamment dur et régulièrement pour vous.
Intervalle fixe
Avec un programme à intervalles fixes (FI), vous n'offrez une récompense que si la réponse se produit après un laps de temps fixe. C'est similaire à l'allocation hebdomadaire d'un enfant. L'enfant ne reçoit son argent le dimanche soir que s'il a accompli toutes ses tâches de la semaine. Les heures d'alimentation régulières sont une situation FI. Si vous apprenez à votre chien à s'asseoir près de sa gamelle de nourriture avant de l'abaisser au sol, s'asseoir près de la gamelle de nourriture ne sera récompensé qu'une fois l'intervalle entre les repas écoulé.
FI est prévisible, donc comme FR, votre chien peut apprendre la routine. Ils travailleront dur juste avant l'échéance de la récompense, mais leurs performances diminueront au début de l'intervalle suivant, tout comme un enfant qui attend pour faire ses tâches jusqu'au dimanche après-midi.
Intervalle variable
Un programme à intervalles variables (VR) fournit une récompense uniquement si une réponse se produit après une période de temps imprévisible, semblable aux quiz pop à l'école. Obtenir un A à un quiz peut signifier une étoile d'or de la part de l'enseignant, mais les élèves ne sauront jamais combien de temps s'écoule entre les quiz. Ils sont plus susceptibles de rester maîtres de leurs devoirs, juste au cas où. La réalité virtuelle peut être utile lorsque vous entraînez votre chien à aller chercher votre main. Vous pouvez varier le temps que vous attendez avant de demander à le déposer, de sorte que votre chien ne sache jamais quand la récompense arrivera et conservera l'objet jusqu'à ce que vous le demandiez.
Rapport
(Le chien doit répondre un certain nombre de fois avant d'être renforcé) |
Intervalle
(Le chien n'est renforcé qu'après un certain temps) |
|
Fixé
(Le nombre de réponses ou le temps entre les réponses est le même) |
Résultat : le chien se comporte bien juste avant la récompense, mais le taux de réponse diminue juste après | Résultat : Chien renforcé seulement après un certain temps |
Variable
(Le nombre de réponses ou le temps entre les réponses n'est pas toujours le même) |
Résultat : le chien se comporte bien juste avant la récompense, mais le taux de réponse chute juste après | Résultat : les performances du chien sont stables, sans aucune pause, mais des intervalles plus longs ont des taux de réponse plus faibles. |
Mettre en pratique les programmes de renforcement
La RC est idéale pour enseigner de nouveaux comportements, mais pour maintenir un comportement, des horaires intermittents peuvent être plus efficaces. Les horaires imprévisibles de la VR et de l’IR peuvent conduire à une réponse plus stable. Si vous le pouvez, soyez aléatoire. Si votre chien ne sait jamais quand sa machine à sous humaine portera ses fruits, il répondra avec enthousiasme chaque fois que vous lui demanderez ce comportement.
Même si les horaires d'intervalle s'appliquent à certains comportements spécifiques, la plupart du temps, vous souhaitez que votre chien conserve un comportement, comme un séjour, pendant une durée donnée. Ainsi, même s'il ne s'agit pas techniquement de programmes de renforcement, ajoutez également des programmes de durée à votre boîte à outils de formation. Cela implique de varier la durée pendant laquelle votre chien maintient un comportement avant de lui offrir une récompense. Vous pouvez utiliser un horaire à durée fixe ou variable, mais la variable sera plus efficace.
Il est également utile de pratiquer le renforcement différentiel, ce qui signifie récompenser uniquement certaines réponses en fonction d'un critère défini. Par exemple, cela signifie récompenser uniquement les talons les plus serrés ou les descentes les plus rapides. C’est un excellent moyen d’améliorer les performances et ajoutera également de la variabilité à vos récompenses. Avant d’ajouter un renforcement différentiel, introduisez d’abord le renforcement intermittent progressivement et délibérément. Cela renforcera la confiance de votre chien et le maintiendra intéressé à travailler pour vous. Ensuite, lorsque vous commencerez à être pointilleux sur ce qui mérite une récompense, votre chien comprendra déjà que les friandises n'arrivent pas à chaque fois.
Enfin, connaissez votre chien. Vous ne voulez pas qu'ils soient frustrés ou abandonnent (extinction) à cause de récompenses peu fréquentes, mais vous voulez également éviter l'ennui. Alors que certaines races ou certains chiens peuvent volontiers adopter le même comportement 20 fois avant de recevoir une friandise, d'autres chiots ou races peuvent s'éloigner si vous ne les payez pas fréquemment pour leurs efforts. Des taux de renforcement élevés maintiennent les chiens engagés.