Echtzeitoptimierung mit Bandit Algorithmen


Bandits in der Wildbahn - Vortrag auf der data2day 2017

Bandit-Algorithmen sind quasi das “Hello World” des Reinforcement Learnings, und zeigen sich in der Praxis als äußerst nützliche Helferlein bei der Echtzeit-Optimierung von Webseiten, bspw. im E-Commerce oder bei Content Aggregatoren.

Wer gerade nur Bahnhof versteht, kann sich eine kleine Einführung in das Thema durchlesen, wer schon über den Einsatz der Technologie nachdenkt, kann sich hier Anregungen einholen.

Vom Lehrbuch mit einfachen Banditen unter idealen Bedingungen hin zu produktionsstabilen Algorithmen mit verzögertem und schwankendem Reward-Level ist aber mitunter ein weiterer Weg, als sonst in der Blogospähre suggeriert wurde (und wird).

Daher zeigen ein Kollege und meinereiner heute auf der data2day in Heidelberg, wie sich Bandit-Algorithmen noch besser auf realistische Szenarien mit schwankenden Nutzerfeedbacks trimmen lassen. Hierzu gibt es auch ein interaktives Jupyter Notebook, unser Banditenlabor.

Das Banditenlabor lädt zum Experimentieren ein, und nichts ist besser als die Durchdringung der Technik durch ein kleines selbstimplementiertes Stückchen Code. Wer möchte, kann also gleich loslegen und das Banditen-Interface implementieren und eigene Versuche starten! Pull-Requests sind auch gerne gesehen ;-).