Transfer Learning

From PRLT
Jump to: navigation, search

Contents

Outline

Student: Eliseo Ferrante

Agenda

Settembre 2007

  • Inseriti risultati sperimentali sotto forma di dati. I file sono divisi in directory e hanno la sintassi oggetto_dominio_explorationfactor dove:
    • oggetto è il tipo di risultato, e può essere:
      • exactValueFunction - la value function esatta
      • LSPIpolicyn - l´n-sima politica trovata da LSPI, dove n è il numero di iterazione
      • performance - le performance di apprendimento
      • PVFs - le proto-value functions
      • taskPerformancek - le performance di learning del task k (solo caso 1-n)
    • dominio identifica il dominio: se nella stringa è presente ¨goal¨ è un esperimento di goal transfer ¨1-1¨, se è presente ¨badTask¨ è un esperimento di goal transfer ¨1-n¨, se è presente grid_generic è un esperimento di domain transfer
    • explorationFactor è appunto l´exploration factor.
    • scarica esperimenti
  • Eseguiti due set di esperimenti di domain transfer. Nel primo le PVF sono estratte dal dominio classico pendente verso destra e sono trasferite al dominio normale. Il numero di PVF usate e` solamente 3. I risultati sono leggermenti migliori con le policy PVF. Nel secondo il dominio source e` pendente verso sinistra, quindi contro il goal, mentre il target domain e` il solito. I risultati sono decisamente migliori con le policy PVF.
  • Eseguiti esperimenti di domain transfer: da source task classico a target task con dominio pendente a destra e aumentata stocasticita`.
  • Identificati i due task con peggiori performance (domain 8 e 10). Eseguiti esperimenti con policy-PVF su questi due task. Ci sono impercettibili miglioramenti dell'apprendimento.
  • Eseguiti esperimenti di domain transfer con LSPI, state action graph e policy di dominio (vedi giugno 2007 per la descrizione).
  • Scrittura capitolo 4 "Towards a Formal Definition"
  • Revisione/correzione tesi

Agosto 2007

  • (Ri)Scrittura tesi

Luglio 2007

  • Eseguito esperimento di goal transfer su task multipli (perturbazioni del task "goal 2") usando policy-PVF. I risultati migliorano sensibilmente.
  • Eseguito esperimento di goal transfer su task multipli (perturbazioni del task "goal 2") usando PVF di dominio. I risultati sono, come ci aspettavamo, scarsi.
  • Identificato un task (goal 2) che va particolarmente male. Eseguiti esperimenti con policy-PVF su quello stesso task. L'apprendimento migliora sensibilmente.
  • Eseguiti esperimenti di goal transfer con LSPI, state action graph con PVF di dominio. Per la descrizione vedi giugno 2007.
  • Rieseguiti esperimenti con LSPI, state action graph e policy utilizzando una metrica di valutazione delle performance conforme a quella usata in Q-learning.
  • Eseguiti esperimenti con LSPI, state action graph, con e senza policy-PVF.

Giugno 2007

  • Eseguiti esperimenti preliminari con policy dependent PVF. É in corso un'ulteriore analisi al variare del numero di PVF per ogni caso.
  • Aggiornati esperimenti di domain transfer. Corretti esperimenti 2, 8, 9 e 10. Aggiunto il confronto con le performance del learning usando Q-learning tabulare per il target task.
  • Eseguiti esperimenti di domain transfer con learning. Da fare: performance di riferimento per domain transfer, correggere l'errore nell'esperimento 8 e 10.
  • Eseguito nuovo esperimento di un caso che potenzialmente dovrebbe causare problemi alle PVF (due goal presenti, uno da un lato di un muro uno accanto però dall'altro lato del muro)
  • Aggiornati gli esperimenti di goal transfer. Aggiunti in fondo all'html tre immagini, che nell'ordine sono le performance del learning nel target task usando Q-learning tabulare, la value function ottenuta con Q-learning tabulare e la value function esatta ottenibile con DP.
  • Eseguiti esperimenti di transfer. Gli esperimenti sono divisi in tre gruppi: esperimento senza transfer, esperimenti di goal transfer e esperimenti di domain transfer. Il primo è usato solo come riferimento ed è un esperimento dove il source e il target task coincidono e consistono nel classico gridworld a tre stanze con goal nell'angolo in alto a destra. Nel secondo e nel terzo gruppo gli esperimenti sono numerati da 1 a 10. Gli esperimenti da 1 a 3 sono esperimenti in cui il goal o il dominio cambiano solo localmente. Gli esperimenti da 4 a 6 sono esperimenti in cui goal o il dominio viene modificato in modo da preservare le simmetrie esistenti nel source task. Negli esperimenti da 7 a 10 il goal o il dominio vengono modificati in modo tale da causare potenziali problemi al learning. Negli esperimenti di domain transfer siamo per ora interessati solo alla proto-value functions: la fase di learning è temporaneamente disattivata. Di seguito vi è la descrizione dettagliata di ciascun esperimento.
    • Esperimento senza transfer
    • Esperimenti di goal transfer (ambiente a tre stanze fisso)
      1. Cambiamento locale - Il goal si sposta dall'angolo in alto a destra fino a destra al centro
      2. Cambiamento locale - Il goal si sposta dall'angolo in alto a destra di tre caselle in basso e a sinistra
      3. Cambiamento locale - Il goal si sposta dal centro ad un lato centrale
      4. Preservamento simmetria - Il goal si sposta dall'angolo in alto a destra a quello in basso a destra
      5. Preservamento simmetria - Il goal si sposta dall'angolo in alto a destra a quello in alto a sinistra
      6. Preservamento simmetria - Il goal si sposta dall'angolo in basso a destra a quello in alto a sinistra
      7. Cambiamento problematico - Il goal si sposta da un lato del primo muro all'altro lato dello stesso muro
      8. Cambiamento problematico - Il goal si sposta da un lato del secondo muro all'altro lato dello stesso muro
      9. Cambiamento problematico - Il goal si sposta da un lato del primo muro allo stesso lato del secondo muro
      10. Cambiamento problematico - Il goal si sposta da un lato del primo muro all'altro lato del secondo muro
    • Esperimenti di domain transfer (goal nell'angolo in alto a destra fisso)
      1. Cambiamento locale - I muri si restringono di due caselle
      2. Cambiamento locale - La metà di due muri viene spostata a destra di alcune caselle
      3. Cambiamento locale - I muri vengono bucherellati
      4. Preservamento simmetria - Le porte diventano da molto larghe a molto strette
      5. Preservamento simmetria - Nel source task i muri sono tali da rendere le due stanze laterali più piccole, mentre nel target tornano normali
      6. Preservamento simmetria - Casi 4 e 5 combinati insieme
      7. Cambiamento problematico - Due stanze diventano tre
      8. Cambiamento problematico - Da dominio standard a dominio in cui il goal viene isolato in una mini-stanzetta con una piccola porta
      9. Cambiamento problematico - Da dominio standard a dominio in cui i muri sono lunghi e le porte sono in basso
      10. Cambiamento problematico - Casi 7, 8 e 9 combinati insieme
  • Nei mesi di aprile e maggio si è continuato a lavorare sulle policy-dependent proto-value functions, in particolare si sono studiati altri metodi di costruzione del grafo tra cui gli state-action graph. È stata anche scritta e si è discussa la tesi a Chicago.

Marzo 2007

  • Eseguiti esperimenti con valutazione di performance (rinforzo medio per trial, mediato su 1000 episodi):
  1. Esperimento senza learning
  2. Esperimento con Q-Learning tabulare
  3. 15 esperimenti con Q-Learning e PVF eseguiti nelle seguenti condizioni:
    • L'exploration rate viene settato a 1.0 , 0.75, 0.50, 0.25 e 0.1
    • Viene fissato manualmente un numero di PVF da estrarre <math> P </math>, e per ogni valore dell'exploration rate vengono estratte <math>P-1</math>, <math>P</math> e <math>P+1</math> PVF
    • Vengono eseguiti 5 run per ogni esperimento. Il valore delle prestazioni, oltre a essere mediato su 1000 episodi, è anche mediato sui 5 run
    • scarica esperimenti

Febbraio 2007

  • Modificato e migliorato Q-Learning e rieseguiti esperimenti:
  1. 75 esperimenti eseguiti nelle seguenti condizioni:
    • L'exploration rate viene settato a 1.0 , 0.75, 0.50, 0.25 e 0.1
    • Per ogni valore di exploration rate vengono estratte <math> P-2</math>, <math>P-1</math>, <math>P</math>, <math>P+1</math>, <math>P+2</math> PVF, dove <math> P </math> viene inizializzato a 24 e fatto decrementare di 2 unità ogni volta che varia l'exploration rate
    • Per ognuna delle combinazioni dei parametri precedenti vengono eseguiti 3 run
    • scarica esperimenti
  • Esecuzione di vari esperimenti su gridworld a tre stanze. Di seguito è possibile scaricare:
  1. 125 esperimenti eseguiti nelle seguenti condizioni:
    • L'exploration rate viene settato a 1.0 , 0.75, 0.50, 0.25 e 0.01
    • Per ogni valore di exploration rate vengono estratte <math> P-2</math>, <math>P-1</math>, <math>P</math>, <math>P+1</math>, <math>P+2</math> PVF, dove <math> P </math> viene inizializzato a 18 e fatto decrementare di 3 unità ogni volta che varia l'exploration rate (l'assunzione di fondo è che man mano che si utilizza maggiormente la politica ottima rispetto al random walk per costruire il grafo l'informazione necessaria per l'approssimazione si va a concentrare maggiormente nelle prime PVF)
    • Per ognuna delle combinazioni dei parametri precedenti vengono eseguiti 5 run
    • scarica esperimenti
  2. 125 esperimenti eseguiti nelle stesse condizioni del punto 1 in cui però si ignora la prima PVF (corrispondente ad un autovalore nullo).
  3. 125 esperimenti eseguiti nelle stesso condizioni del punto 1 in cui però <math>P</math> viene inizializzato a 21 anzichè a 18 e fatto decrementare di 2 unità ogni volta.
  4. 125 esperimetni eseguiti nelle stesse condizioni del punto 1 in cui però <math>P</math> viene inizializzato a 24 e SARSA viene utilizzata come regola di aggiornamento dei pesi,
  • Implementazione di una variante di RPI in cui:
    • Viene usato Q-Learning o SARSA con function approximation al posto di LSPI (Least Squares Policy Iteration): il vettore dei pesi è dipendente dalla coppia stato-azione invece che dal solo stato.
    • Il grafo viene costruito tenendo anche conto della policy ottima dello specifico task

Gennaio 2007

  • Implementazione algoritmo RPI (caso stati discreti) di Mahadevan e Maggioni e di due domini: chain e gridworld a tre stanze.

Dicembre 2006

  • Studio della letteratura su machine learning e multi task learning per cercare spunto per una formalizzazione del problema del Transfer (allegare bibliografia)
  • Studio della letteratura su tecniche di Dimension Reduction (allegare bibliografia)

Novembre 2006

  • (...continua) Studio preliminare della letteratura su Transfer Learning con particolare attenzione alle sue possibili traduzioni RL
  • Tabella riassuntiva degli articoli letti (versione preliminare) e bibliografia .bib
  • scarica bibliografia
  • scarica tabella

Ottobre 2006

--letoatreides 09:30, 26 October 2006 (CEST)

  • Studio preliminare della letteratura su Transfer Learning con particolare attenzione alle sue possibili traduzioni RL (continua ...)