Reinforcement Learning (deutsch bestärkendes Lernen, Abk. RL) ist ein Teilgebiet des Maschinellen Lernens, bei dem ein Agent selbstständig lernt, indem er in einer Umgebung (engl. environment) so agiert, dass er ein Belohnungssystem maximiert.

Im Endeffekt lernt der Agent durch trial-and-error. Er führt eine Aktion in der Umgebung durch und „sieht“ das Resultat. Nach und nach entwickelt der Agent eine Strategie, um die Belohnung zu maximieren bzw. die Bestrafung zu minimieren.

Reinforcement Learning ist ziemlich populär, da die Ergebnisse so anschaulich sind. Viele Beispiele sind das Lernen von Computer- oder auch realen Spielen mittels Neuronaler Netze. Die Umgebung kann theoretisch auch die Realität sein, um einem Roboter gewisse Fähigkeiten wie das Greifen beizubringen. Da aber eine große Anzahl an Versuchen notwendig sind, verwendet man stattdesssen eine Simulation des Roboters und der Realität, welche den physikalischen Gesetzen gehorcht, um das Training massiv zu beschleunigen.

AlphaGo und AlphaGo Zero

Das bekannteste Beispiel ist wohl AlphaGo, welches 2016 im Spiel Go den 18-maligen Weltmeister Lee Sedol besiegt hat. Nachdem AlphaGo wie Schachprogramme mit einer großen Anzahl Zügen und Go-Wissen gefüttert wurde, hat es viele Male gegen sich selbst (und andere Versionen von sich selbst) gespielt und sich so jedes Mal verbessert. Die nächste Version AlphaGo Zero kam schon ohne das Vorwissen aus und hat es nur durch das Spiel gegen sich selbst zur Go-Meisterschaft gebracht.

Computerspiele mit künstlicher Intelligenz