Intrinsically Motivated RL

From PRLT
Jump to: navigation, search

Contents

Outline

Student: Matteo Lazzarotto

Agenda

Novembre

--letoatreides 09:12, 26 October 2006 (CEST)

  • Implementazione del calcolo di funzione di interesse con approccio "LEAP". Breve descrizione: calcolare n funzioni di interesse, con n il numero delle variabili che descrivono lo spazio di stato. Tra queste estrarre il macrostato con piu' alto interesse e generare la option che porta in tale macrostato. Ripetere la procedura di calcolo. Se (secondo un criterio ancora da individuare) la rappresentazione così fattorizzata non consente di individuare più alcunchè di interessante si passa ad una risoluzione più fine operando il join tra le funzioni di interesse a 2 a 2. Da questo momento quindi si calcolerà la funzione di interesse ad un livello di risoluzione maggiore. E così via.
  • Studiare la possibilità di fare un'analisi multiscale della matrice di transizione

Ottobre

24/10/06 Cose di cui discutere (fatto con Alessandro)

  • Modelli e funzione di interese (TODO confront tutto-intra vs graph modeler + IntraOptionRandomWalk)
  • Utilizzo della funzione di interesse come funzione di rinforzo: scelta traiettoie preferenziali, come influisce beta? utilizzarli per decidere quante options calcolare
  • Studio dell'influenza della probabilità di terminazione beta: in che modo sfuma la funzione di interesse?
  • Utilizzo del modello e della funzione di interesse (per inizializzare)/(come punto di partenza) per l'algoritmo di learning, es usarle per decidere risoluzione di tilings o dei LE dell'algoritmo di apprendimento.

Settembre 2006

  • testing dei modelli

Estate 2006

rediefinizione degli script

primavera 2006

riscrittura dell'option container, intraoption qlearning smdpquearning

--letoatreides 10:17, 7 September 2006 (CEST)

  • Implementazione dei modelli