Mathematik | Informatik
Robin Steiner, 2004 | Hirschthal, AG
Ian Wasser, 2003 | Hunzenschwil, AG
ReSketch ist eine künstliche Intelligenz, die Strichbilder nachzeichnet. Strichbilder sind beispielsweise Ziffern oder Buchstaben. Die künstliche Intelligenz kann sich beim Zeichnen so bewegen, wie es mit einem echten Stift möglich wäre. ReSketch benutzt Deep Q-Learning, ein Reinforcement Learning Modell. Die Leistung von dem Modell wird durch vordefinierte Kriterien evaluiert, was das Resultat dieser Arbeit ausmacht. ReSketch erreicht dabei eine Übereinstimmung von 90% zwischen der Vorlage und dem nachgezeichneten Bild. Eine zweite künstliche Intelligenz, die auf der
nachzeichnenden KI basiert, entfernt sich von der ursprünglichen Aufgabe. Diese zweite KI erlernt das selbstständige Zeichnen von einem ausgewählten Motiv, ohne eine Vorlage davon zu erhalten.
Zu diesem Zweck werden die generierten Zeichnungen der KI mit einem Klassifizierungsmodell bewertet. Mit einem spezifischen Training dieser generativen KI können verschiedene Handschriften emuliert werden.
Fragestellung
(I) Diese Arbeit untersucht, ob eine KI Vorlagen von Strichbildern wie Zahlen, Buchstaben und andere einfache Zeichnungen so nachzeichnen kann, dass ein zeichnender Roboter prinzipiell durch die KI bedienbar wäre. (II) Eine weiterführende Frage untersucht die Möglichkeiten einer generativen künstlichen Intelligenz, die selbstständig, ohne eine Vorlage, Strichbilder zeichnen kann.
Methodik
Um die Fragestellungen zu beantworten, wurden die entsprechenden künstlichen Intelligenzen unter der Verwendung von Deep Q-Learning und einem Convolutional Neural Network (CNN) in Python mit der Keras API entwickelt. Die nachzeichnende KI lernt in einer Umgebung, wo sie sich wie ein virtueller Stift auf einer Zeichenfläche bewegt und Bilder von handgeschriebenen Ziffern aus dem MNIST Datenset nachzeichnet. Dabei lernt die KI aus Bewertungen ihrer Stiftbewegungen. Die Bewertungen basieren auf quantitativen Kriterien. Zu den Kriterien gehören unter anderem die Übereinstimmung und die Erkennbarkeit der Zeichnungen, sowie die Geschwindigkeit. Die Werte in diesen Kriterien machen das Ergebnis dieser Arbeit aus. Es werden sechs verschiedene Versionen der nachzeichnenden KI getestet. Die meisten Versionen verändern hauptsächlich den Trainingsprozess und nicht die eigentliche Architektur der KI. Die generative KI erlernt zu Beginn des Trainings mit entsprechenden Vorlagen das Nachzeichnen des gewünschten Strichbildes. Erst im späteren Verlauf des Trainings wird der KI immer seltener eine Vorlage gezeigt, bis diese vollkommen selbstständig zeichnet. Wenn die KI ohne eine Vorlage zeichnet, erfährt diese durch die Einschätzung eines klassifizierenden Machine Learning Modells, ob die eigene Zeichnung erkennbar ist.
Ergebnisse
Die nachzeichnende KI erreicht je nach Version eine Übereinstimmung von 90% zwischen der Vorlage und dem nachgezeichneten Bild und stellt die Zeichnungen mit durchschnittlich 21 Bewegungen fertig. Dabei erzielt die KI eine vergleichbare Leistung für verschiedene Typen von Strichbildern, obwohl diese nur auf das Nachzeichnen von Zahlen trainiert ist. Die generative KI zeichnet das gewünschte Strichbild in 90 bis 100 Prozent der Fälle so nach, dass die Zeichnung für eine passende klassifizierende KI erkennbar ist.
Diskussion
Die Ergebnisse sprechen dafür, dass die nachzeichnende KI erlernt, Strichbilder nach den vordefinierten Kriterien nachzuzeichnen. Die Strichbilder müssen allerdings von einem bestimmten Format sein. Obwohl die Bewegungen der KI simuliert sind und z. B. keine Reibung berücksichtigen, ist ein zeichnender Roboter durch die KI bedienbar. Die Ergebnisse der generativen KI zeigen, dass eine künstliche Intelligenz auch selbständig zeichnen kann, sofern sie im Training Beispiele des gewünschten Motivs gesehen hat. Die Leistung der generativen KI ist allerdings direkt abhängig von der Zuverlässigkeit der klassifizierenden KI. Falsche Einschätzungen der Zeichnungen beeinflussen die generative KI negativ, selbst wenn diese selten vorkommen.
Schlussfolgerungen
Die nachzeichnende KI, die in dieser Arbeit beschrieben wird, kann beliebige Strichbilder nachzeichnen. Diese Strichbilder sind allerdings klein, schwarzweiss und begrenzt detailliert. Mit einem vielseitigeren Format könnte die KI für verschiedene nachzeichnende Anwendungen verwendet werden. Dazu gehört unter anderem die Umwandlung von Rastergrafiken in Vektorgrafiken. Die generative KI zeichnet aus eigenem Antrieb. Mit dem Training auf Schriftstücke einer ausgewählten Person wäre diese KI durchaus dazu in der Lage, die Handschrift dieser Person nachzuahmen.
Würdigung durch den Experten
Dr. Michael Tschannen
Dieses Projekt untersucht das Lernen eines Maschinelles Lernen (ML) Modells, welches Ziffern, Buchstaben und kleine Zeichnungen wie ein Mensch mit einem Stift nachzeichnen kann. Darüber hinaus wird das freie Zeichnen ohne Vorlage erforscht. Das Projekt zeichnet sich durch einen kreativen, aber auch sehr strukturierten und methodologisch genauen Ansatz aus. Verschiedene Kostenfunktionen und Parameter des ML Algorithmus werden sorgfältig evaluiert, was zu leistungsfähigen Modellen führt – mit und ohne Vorlage. Dies ist besonders bemerkenswert, da das verwendete Deep Reinforcement Learning (RL) schwer zu implementieren und optimieren ist.
Prädikat:
sehr gut
Neue Kantonsschule Aarau
Lehrer: Dr. Nicolas Ruh