Negotiations and Cooperative Game Theory

From PRLT
Jump to: navigation, search

Contents

Outline

Student: Nicola Parolini and Giorgio Pandolfi

Results

Algorithm Parameters Experiment* Graph
LB nome_xml HC/SP and RR/IR File:Nome graph
LB TradingAgents_Test1.xml HC and IR
LvsHC Test1 W10.png
LvsHC Test1 step W10.png
LB TradingAgents_Test1_rr.xml HC and RR
LvsHC Test1 rr percentage W10.png
LB TradingAgents_Test2.xml HC and IR
LvsHC Test2 W10.png
LvsHC Test2 step W10.png
LB TradingAgents_Test2_rr.xml HC and RR
LvsHC Test2 rr percentage W10.png
LB TradingAgents_Test1_Self.xml SP and IR
LvsL Test1 W10.png
LvsL Test1 step W10.png
LB TradingAgents_Test1_Self_rr.xml SP and RR
LvsL Test1 rr percentage W10.png
CoLF-LB3 TradingAgents_Test1_CoLF.xml HC and IR
CoLFvsHC Test1 W10.png
CoLFvsHC Test1 step W10.png
CoLF-LB3 TradingAgents_Test1_CoLF_rr.xml HC and RR
CoLFvsHC Test1 rr percentage W10.png
CoLF-LB3 TradingAgents_Test2_CoLF.xml HC and IR
CoLFvsHC Test2 W10.png
CoLFvsHC Test2 step W10.png
CoLF-LB3 TradingAgents_Test2_CoLF_rr.xml HC and RR
CoLFvsHC Test2 rr percentage W10.png
CoLF-LB3 TradingAgents_Test1_CoLF_Self.xml SP and IR
CoLFvsCoLF Test1 W10.png
CoLFvsCoLF Test1 step W10.png
CoLF-LB3 TradingAgents_Test1_CoLF_Self_rr.xml SP and RR
CoLFvsCoLF Test1 rr percentage W10.png
CoLF-LB3 Test (alpha=0 se R<P-R) TradingAgents_Test1_CoLF.xml HC and IR
CoLFvsHC LB3 Test1 W10.png
CoLFvsHC LB3 Test1 step W10.png
CoLF-LB3 Test (alpha=0 se R<P-R) TradingAgents_Test1_CoLF_rr.xml HC and RR
CoLFvsHC LB3 Test1 rr percentage W10.png
CoLF-LB3 Test (alpha=0 se R<P-R) TradingAgents_Test2_CoLF.xml HC and IR
CoLFvsHC LB3 Test2 W10.png
CoLFvsHC LB3 Test2 step W10.png
CoLF-LB3 Test (alpha=0 se R<P-R) TradingAgents_Test2_CoLF_rr.xml HC and RR
CoLFvsHC LB3 Test2 rr percentage W10.png
CoLF-LB3 Test (alpha=0 se R<P-R) TradingAgents_Test1_CoLF_Self.xml SP and IR
CoLFvsCoLF LB3 Test1 W10.png
CoLFvsCoLF LB3 Test1 step W10.png
CoLF-LB3 Test (alpha=0 se R<P-R) TradingAgents_Test1_CoLF_Self_rr.xml SP and RR
CoLFvsCoLF LB3 Test1 rr percentage W10.png
CoLF-LB3 Test (lambda=0.1 DevStd=10) TradingAgents_Test1_CoLF_DevStd10.xml HC and IR
CoLFvsHC LB3 DevStd10 Test1 W10.png
CoLFvsHC LB3 DevStd10 Test1 step W10.png
CoLF-LB3 Test (lambda=0.1 DevStd=10) TradingAgents_Test1_CoLF_DevStd10_rr.xml HC and RR
CoLFvsHC LB3 DevStd10 Test1 rr percentage W10.png
CoLF-LB3 Test (lambda=0.1 DevStd=10) TradingAgents_Test2_CoLF_DevStd10.xml HC and IR
CoLFvsHC LB3 DevStd10 Test2 W10.png
CoLFvsHC LB3 DevStd10 Test2 step W10.png
CoLF-LB3 Test (lambda=0.1 DevStd=10) TradingAgents_Test2_CoLF_DevStd10_rr.xml HC and RR
CoLFvsHC LB3 DevStd10 Test2 rr percentage W10.png
CoLF-LB3 Test (lambda=0.1 DevStd=10) TradingAgents_Test1_CoLF_DevStd10_Self.xml SP and IR
CoLFvsCoLF LB3 DevStd10 Test1 W10.png
CoLFvsCoLF LB3 DevStd10 Test1 step W10.png
CoLF-LB3 Test (lambda=0.1 DevStd=10) TradingAgents_Test1_CoLF_DevStd10_Self_rr.xml SP and RR
CoLFvsCoLF LB3 DevStd10 Test1 rr percentage W10.png
CoLF-LB3 Target (used alpha to update StdDev) TradingAgents_Test1_CoLF_LB3_Target_Self.xml SP and IR
CoLFTargetvsCoLFTarget LB3 Test1 alpha W10.png
CoLF-LB3 Target (used alpha to update StdDev) TradingAgents_Test1_CoLF_LB3_Target_Self_rr.xml SP and RR
CoLFTargetvsCoLFTarget LB3 Test1 alpha rr percentage W10.png
CoLF-LB3 Target (used lambda to update StdDev) TradingAgents_Test1_CoLF_LB3_Target_Self.xml SP and IR
CoLFTargetvsCoLFTarget LB3 Test1 lambda W10.png
CoLF-LB3 Target (used lambda to update StdDev) TradingAgents_Test1_CoLF_LB3_Target_Self_rr.xml SP and RR
CoLFTargetvsCoLFTarget LB3 Test1 lambda rr percentage W10.png
CoLF-LB3 Target (used lambda to update StdDev, 3sigma, StdDev=10) TradingAgents_Test1_CoLF_Target_Self_alpha0_StdDev10.xml SP and IR
CoLFTargetvsCoLFTarget Test1 alpha0 lambda 3sigma DevStd10 correct.png
CoLF-LB3 Target (used lambda to update StdDev, 3sigma, StdDev=10) TradingAgents_Test1_CoLF_Target_Self_alpha0_StdDev10_rr.xml SP and RR
CoLFTargetvsCoLFTarget Test1 alpha0 lambda 3sigma DevStd10 correct rr.png
CoLF-LB3 Target (used lambda to update StdDev, 3sigma, StdDev=1 and 0.2) TradingAgents_Test1_CoLF_Target_Self_alpha0_StdDev1-0.2.xml SP and IR
CoLFTargetvsCoLFTarget Test1 alpha0 lambda 3sigma DevStd1 correct.png
CoLF-LB3 Target (used lambda to update StdDev, 3sigma, StdDev=1 and 0.2) TradingAgents_Test1_CoLF_Target_Self_alpha0_StdDev1-0.2_rr.xml SP and RR
CoLFTargetvsCoLFTarget Test1 alpha0 lambda 3sigma DevStd1 correct rr.png

* HC = contro Handcoded, SP = Self-Play, RR = random restart, IR = senza random restart

Riassunto esperimenti

Agenda

Novembre 2006

--letoatreides 09:34, 26 October 2006 (CEST)

  • Implementazione dello strategic delay
  • Implementazione dell'approccio gerarchico per preparare le azioni continue
  • Implementazione della soluzione scelta per le azioni continue

Ottobre 2006

--letoatreides 09:34, 26 October 2006 (CEST)

  • Lettura dello stato dell'arte su azioni continue in RL (allegare file bib con la bibliografia)

--Panda & Nico 09:42, 10 October 2006 (CEST)

  • Lancio esperimenti per verifica subgame perfection e altri esperimenti con CoLF_LB, HC e QLearning
  • Correzione generale del codice
  • Correzione codice Random restart per calcolo subgame perfection
  • Lancio experimenti con CoLF_LB in diverse versioni, con <math>\alpha</math> ed exploration diverse (EXP0)

Settembre 2006

  • Implementazione CoLF
  • Inserita EXIT come opzione di scelta
  • Correzione generale Bargaining Reward Manager ed Environment
  • Introduzione di due learning rate differenti tipo CoLF
  • Introduzione versione con lower bound
  • Correzione del processo di negoziazione con attribuzione di rinforzi negativi oltrepassata la deadline
  • Reimplemenentare il processo di negoziazione con scorrere del tempo condiviso e accumulo dei rinforzi
  • Verificare la politica ad ogni step (subgame perfection)fatto con RandomRestart
  • Apprendimento parametrico su <math>\delta</math> e T
  • Esperimenti con deadline diverse e con agenti con <math>\delta</math> diversi
  • Strategic delay (un giocatore può fare l'azione "attesa (WAIT)")
  • Azioni discretizzate

Estate 2006

--letoatreides 10:17, 7 September 2006 (CEST)

  • Esperimenti con un solo agente contro agente hand-coded
  • Esperimenti in self-play
  • Esperimenti in self-play con apprendimento alternato (a turni)
  • Esperimenti in self-play con lower bound

--letoatreides 10:17, 7 September 2006 (CEST)

  • Lettura stato dell'arte
  • Lettura paper Crandall link
  • Inizio implementazione algoritmo Crandall
  • Implementazione ambiente per negoziazioni