Mathematik  |  Informatik

 

Dimetri Chau, 2004 | Riehen, BS

 

Künstliche neuronale Netze erhalten mit jeder Publikation immer mehr Aufmerksamkeit von der Öffentlichkeit. Ursprünglich wurden in neuronalen Netzen die Verknüpfungen anhand von bereits klassifizierten Beispielen erlernt. Demgegenüber beschäftigt sich das Gebiet des Bestärkenden Lernens damit, wie ein System nur anhand eines skalaren Belohnungswertes, ohne vollständige Beispieldaten, von einer Umwelt lernen und in ihr agieren kann. Anders als bei klassischen Kontrollsystemen ist es im Bestärkenden Lernen mit neuronalen Netzwerken möglich, komplexe Verhaltensmuster zu generieren. Allerdings litten frühe Versuche, Netzwerke als Funktionsapproximatoren zu verwenden, an Instabilitäten. Die vorliegende Arbeit beschäftigt sich mit dem Deep Q-Learning, einem führenden Algorithmus für Bestärkendes Lernen, und Varianten, die die Stabilität verbessern sollen. Die Arbeit zeigt, wie diese Varianten unkompliziert kombiniert werden können, um nicht nur ein stabiles Training, sondern auch höhere maximale Punktzahlen als die unveränderte Version von Deep Q-Learning zu erreichen.

Fragestellung

Das Deep Q-Netzwerk (DQN) in seiner Ursprungsform übertraf in einigen Atari-Spielen die Leistung menschlicher Spieler in den Atari Spielen. Die Fragestellung der vorliegenden Arbeit ist: Wie kann man den DQN-Algorithmus weiter verbessern, so dass die Höchstpunktzahlen und die Dateneffizienz gesteigert werden und DQN die menschliche Leistung in weiteren Spielen übertreffen kann?
Insbesondere die Frage nach der Dateneffizienz ist für das Bestärkte Lernen interessant. Bisherige Algorithmen benötigten eine große Rechenkapazität und viel Zeit, um bedeutende Resultate zu erhalten.

Methodik

Aufbauend auf der bisherigen Forschung zum DQN werden in der Arbeit drei Modifikationen des ursprünglichen DQN-Algorithmus angewendet und ihre Kombination erforscht: Double DQN, Dueling DQN und die priorisierte Erfahrungswiederholung. Diese Verbesserungen wurden so gewählt, dass ihre Implementation zukünftige Verbesserungen und Erweiterungen mit DQN nicht beeinträchtigt. Die Leistung der kombinierten Verbesserungen wurde anhand der Atari Klassiker Breakout und Space Invaders gemessen. Die Implementation verlief mit Python 3, Tensorflow, Rllib. Die rechenintensiven Experimente werden mit einem HPC cluster skaliert, welches von der Forschungsgruppe für HPCs von der Universität Basel zur Verfügung gestellt wird.

Ergebnisse

In allen vier getesteten Atari Umgebungen weist das kombinierte DQN verbesserte Leistung gegenüber dem ursprünglichen Algorithmus auf. In Q*Bert und Space Invaders konnte der modifizierte Algorithmus menschliche Punktzahlen erreichen. In Beam Rider blieb die Leistung immer noch unterhalb des Menschen. Übertroffen wurde der Mensch in Breakout, wo man die menschliche Punktezahl um das 15-Fache übertraf.

Diskussion

Wir konnten zeigen, dass einfache Eingriffe in den DQN-Algorithmus die Leistung weiter steigern können. Konkret erreichten wir die Leistungssteigerung durch eine Kombination der Double DQN, Dueling DQN und priorisierten Erfahrungswiederholung Methoden. Limitiert waren die Experimente jedoch durch die begrenzte Zahl der getesteten Spiele. So wurden nur vier von 57 Atari Spiele getestet. Um diese Limitierung zu minimieren, wählten wir die Spiele so, dass sie sehr unterschiedliche Herausforderungen bieten. Auch wurde der Algorithmus nur bis 12 Millionen Zeitschritte pro Spiel evaluiert, was einer Echtzeit von 222 Stunden entspricht. Erst ab 100 Millionen Zeitschritten könnte man auch die Dateneffizienz und wirkliche Höchstpunktzahl feststellen.

Schlussfolgerungen

Es ist möglich, den ursprünglichen DQN-Algorithmus weiter zu verbessern, um bessere Höchstpunktzahlen zu erreichen. Mit mehr Rechenleistung und Zeit könnte man die wirklichen Limitationen des kombinierten DQN ermitteln. Dadurch, dass die Grundstruktur des ursprünglichen DQN beibehalten wurde, ist es möglich, weitere Verbesserungen im kombinierten DQN anzuwenden und somit noch höhere Leistungen zu erhalten. Dies wäre z.B. mit Distributional DQN möglich, dessen Auswirkungen auf das kombinierte DQN eine vielversprechende Forschungsrichtung darstellt.

 

 

Würdigung durch den Experten

Dr. Matthias Minderer

Die Arbeit befasst sich mit dem komplexen Thema des Reinforcement Learning im Kontext des Maschinellen Lernens. Der Fokus liegt auf der Implementierung und dem Vergleich verschiedener Varianten des Deep Q-Learning, einem Algorithmus für Reinforcement Learning. Die Arbeit bietet eine umfassende Einleitung zum Thema und evaluiert die Methoden Double DQN, Dueling DQN und Priorisierte Erfahrungswiederholung anhand mehrerer Atari-Spiele. Die Implementierung dieser Methoden ist technisch anspruchsvoll und wurde mit grossem Einsatz und Sachverständnis umgesetzt.

Prädikat:

gut

 

 

 

Gymnasium Bäumlihof, Basel
Lehrer: Bernhard Pfammatter