Microsoft Research hat mit dem generativen KI-Modell „Muse“ einen neuen Ansatz zur Unterstützung der Spielideenentwicklung vorgestellt. Die Ergebnisse der Forschungsarbeit, die in der Fachzeitschrift Nature publiziert wurden, demonstrieren, dass Muse in der Lage ist, auf Basis von Mensch-Gameplay-Daten Spielbilder und Controller-Aktionen zu generieren.
Das Modell basiert auf dem ersten World and Human Action Model (WHAM) und wurde in Zusammenarbeit mit den Teams von Microsoft Research Game Intelligence, Teachable AI Experiences sowie Xbox Game Studios’ Ninja Theory entwickelt. Muse wurde mithilfe von über einer Milliarde Bildern und Controller-Aktionen trainiert, die aus sieben Jahren kontinuierlichen Spielens des Xbox-Titels Bleeding Edge stammen. Die Trainingsdaten bildeten dabei die Grundlage für die Erzeugung komplexer Gameplay-Sequenzen, die in einem „world model mode“ auf Basis eines initialen Eingabeprompts vorausberechnet werden.
Im Rahmen der Forschungsarbeit wurden Herausforderungen beim Skalieren des Trainingsprozesses auf GPU-Clustern, beginnend mit V100 bis hin zu H100, erfolgreich gemeistert. Erste Demonstrationen zeigten, wie Muse im Verlauf von 10.000 bis zu 1 Million Trainingseinheiten zunehmend konsistente und detailgetreue Visualisierungen erstellte. Die Evaluierung erfolgte anhand der Kriterien Konsistenz, Diversität und Persistenz: Konsistenz bezieht sich auf die Übereinstimmung der generierten Sequenzen mit den physikalischen und spielinternen Dynamiken, Diversität auf die Bandbreite der möglichen Weiterentwicklungen und Persistenz auf die Fähigkeit, benutzerdefinierte Modifikationen in den Sequenzen zu berücksichtigen.
Ergänzt wird das Modell durch den WHAM Demonstrator, einen Prototyp, der als visuelle Schnittstelle den direkten Umgang mit Muse ermöglicht. In einem internen Hackathon wurden Anwendungsfälle und Interaktionsparadigmen erprobt, die den kreativen Einsatz generativer KI im Bereich der Spielentwicklung fördern sollen. Die im Demonstrator dargestellten Szenarien veranschaulichen unter anderem, wie Muse auf Veränderungen im initialen Gameplay-Input reagiert und neue Spielvarianten generiert.
Die Forschungsarbeit stellt damit einen wichtigen Schritt in der Weiterentwicklung generativer KI-Modelle für interaktive Medien dar. Zu finden sind die Open-Source-Gewichte, Beispieldaten sowie der WHAM Demonstrator über die Azure AI Foundry, um weiteren Forschern und Entwicklern den Zugang zu den Erkenntnissen und Technologien zu ermöglichen.