El Reforzamiento en detalle

La conexión entre estímulo y respuesta se fortalece si va seguida de una consecuencia placentera y se debilita si va seguida de una consecuencia desagradable.

Por tanto, los actos que tienen consecuencias satisfactorias tenderán a repetirse, lo que constituye el principio fundamental del aprendizaje que sostiene la teoría del condicionamiento operante que desarrolló Skinner (llamado condicionamiento operante).

 

Para Skinner la conducta puede explicarse mediante las conexiones entre estímulos y respuestas, sin necesidad de considerar los procesos mentales. Entiende que existe una conducta respondiente, provocada por estímulos conocidos, que puede comprenderse mediante el condicionamiento clásico, pero que la mayor parte de la conducta humana es operante, es decir, que es emitida espontáneamente por el organismo sin necesidad de recurrir a estímulos conocidos.

Skinner denominó refuerzo o reforzador a todo estímulo que sigue a una respuesta y que incrementa la probabilidad de que ésta se repita. Los estímulos que actúan como reforzadores pueden ser de dos tipos:

  • Reforzadores positivos: cuando la consecuencia que fortalece la conducta es la aparición de un estímulo (normalmente placentero).

  • Reforzadores negativos: cuando lo que fortalece la conducta es la supresión de un estímulo (normalmente aversivo o desagradable).

 

Por ejemplo, se tiene un reforzamiento positivo cuando una mujer recibe piropos al estrenar un vestido o un alumno chistoso recibe halagos por sus gracias (véase que las conductas reforzadas no tienen por que ser “positivas” en el sentido de beneficiosas).

Por el contrario, un reforzamiento negativo puede ser el molesto pitido del cinturón de seguridad del coche que no se desactiva hasta que nos lo abrochamos (la desaparición del sonido refuerza nuestra conducta).

Es importante no confundir el reforzamiento negativo con el castigo, ya que el reforzamiento, sea positivo o negativo, siempre implica el fortalecimiento de la conducta, mientras que el castigo supone la disminución o supresión de un determinado comportamiento. La misma distinción que se hace para los reforzadores se puede aplicar a los castigos:

  • Castigos positivos (o por presentación): cuando la consecuencia que debilita la conducta es la aparición de un estímulo (en este caso, aversivo). 

  • Castigos negativos (o por remoción): cuando lo que fortalece la conducta es la supresión de un estímulo (en este caso, placentero). Muchas madres nos darías buenos ejemplos de ellos: ¡castigado sin tele!, ¡castigado sin propina! o ¡castigado sin móvil!

 

En resumen:

Por otro lado se llama "Programas de reforzamiento"

El uso de reforzadores permite fortalecer o fomentar una conducta, es decir, aumentar la probabilidad de que se produzca una determinada respuesta. La efectividad de este condicionamiento depende, sobre todo, del modo de efectuar ese reforzamiento.

La manera más sencilla es el reforzamiento continuo, que consiste en aplicar el reforzador cada vez que se produce la respuesta deseada; con él se consigue un rápido aprendizaje. Ahora bien, una vez que la respuesta operante ha sido condicionada éstas se mantienen mejor cuando el reforzador no se aplica de forma continua sino de forma intermitente. Según Skinner, hay dos programas básicos de reforzamiento intermitente: los programas de intervalo y los programas de razón.

Los programas de intervalo tienen como base el tiempo, es decir, el reforzador se aplica después de un determinado periodo de tiempo, que puede ser fijo o variable:

  • Los programas de intervalo fijo consisten en administrar el reforzador tras un periodo o intervalo constante de tiempo, independientemente de las respuestas que emita el sujeto. Con ellos, la frecuencia de respuestas aumenta según se aproxima el momento del reforzamiento y luego disminuye. Tienen poca persistencia y la frecuencia de respuestas decae rápidamente si cesa el reforzamiento.

  • En los programas de intervalo variable el periodo de tiempo entre un reforzador y otro varía aleatoriamente. Consigue una frecuencia de respuestas lenta y estable y una mayor persistencia que el anterior.

 

Los programas de razón se basan en la respuesta del sujeto, esto es, el reforzador se aplica después de que el sujeto emite un determinado número de respuestas, que también puede ser fijo o variable:

  • En los programas de razón fija el reforzador se administra tras la realización de un número establecido de respuestas. Consigue una frecuencia de respuestas rápida pero poco persistente cuando cesa el reforzador. Producen, según Skinner, una frecuencia muy alta de respuestas siempre que la razón no sea demasiado alta.

  • En los programas de razón variable el número de respuestas entre un reforzador y otro varía aleatoriamente, de manera que el sujeto nunca sabe si su respuesta será reforzada. Ofrece una frecuencia de respuestas muy alta y mayor persistencia que el anterior.

 

Tanto el reforzamiento continuo como los dos programas fijos de reforzamiento intermitente son bastante predecibles, por lo que su persistencia es menor: los programas variables son los más apropiados para el mantenimiento de las respuestas.

Además, la velocidad de respuestas depende del control que se tenga sobre el reforzamiento. En los programas de razón el individuo ofrece más rápidamente las respuestas con el fin de conseguir el reforzamiento.

Al igual que ocurre en el condicionamiento clásico, la supresión del reforzamiento conduce a la extinción, aunque el proceso puede tardar cierto tiempo.