datamllab
diff --git a/Diff for: ‎docs/toy-examples.md
+350-113 b/Diff for: ‎docs/toy-examples.md
+350-113
diff --git a/Diff for: ‎examples/evaluate.py
+47-8 b/Diff for: ‎examples/evaluate.py
+47-8
diff --git a/Diff for: ‎examples/human/blackjack_human.py
+10-2 b/Diff for: ‎examples/human/blackjack_human.py
+10-2
diff --git a/Diff for: ‎examples/human/gin_rummy_human.py
+4-1 b/Diff for: ‎examples/human/gin_rummy_human.py
+4-1
diff --git a/Diff for: ‎examples/human/leduc_holdem_human.py
+4-1 b/Diff for: ‎examples/human/leduc_holdem_human.py
+4-1
diff --git a/Diff for: ‎examples/human/limit_holdem_human.py
+4-1 b/Diff for: ‎examples/human/limit_holdem_human.py
+4-1
diff --git a/Diff for: ‎examples/human/uno_human.py
+4-1 b/Diff for: ‎examples/human/uno_human.py
+4-1
diff --git a/Diff for: ‎examples/pettingzoo/run_dmc.py
+77-30 b/Diff for: ‎examples/pettingzoo/run_dmc.py
+77-30
diff --git a/Diff for: ‎examples/pettingzoo/run_rl.py
+60-11 b/Diff for: ‎examples/pettingzoo/run_rl.py
+60-11
@@ -4,8 +4,15 @@
 import argparse
 
 import rlcard
-from rlcard.agents import DQNAgent, RandomAgent
-from rlcard.utils import get_device, set_seed, tournament
+from rlcard.agents import (
+    DQNAgent,
+    RandomAgent,
+)
+from rlcard.utils import (
+    get_device,
+    set_seed,
+    tournament,
+)
 
 def load_model(model_path, env=None, position=None, device=None):
     if os.path.isfile(model_path):  # Torch model
@@ -49,12 +56,44 @@ def evaluate(args):
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser("Evaluation example in RLCard")
-    parser.add_argument('--env', type=str, default='leduc-holdem',
-            choices=['blackjack', 'leduc-holdem', 'limit-holdem', 'doudizhu', 'mahjong', 'no-limit-holdem', 'uno', 'gin-rummy'])
-    parser.add_argument('--models', nargs='*', default=['experiments/leduc_holdem_dqn_result/model.pth', 'random'])
-    parser.add_argument('--cuda', type=str, default='')
-    parser.add_argument('--seed', type=int, default=42)
-    parser.add_argument('--num_games', type=int, default=10000)
+    parser.add_argument(
+        '--env',
+        type=str,
+        default='leduc-holdem',
+        choices=[
+            'blackjack',
+            'leduc-holdem',
+            'limit-holdem',
+            'doudizhu',
+            'mahjong',
+            'no-limit-holdem',
+            'uno',
+            'gin-rummy',
+        ],
+    )
+    parser.add_argument(
+        '--models',
+        nargs='*',
+        default=[
+            'experiments/leduc_holdem_dqn_result/model.pth',
+            'random',
+        ],
+    )
+    parser.add_argument(
+        '--cuda',
+        type=str,
+        default='',
+    )
+    parser.add_argument(
+        '--seed',
+        type=int,
+        default=42,
+    )
+    parser.add_argument(
+        '--num_games',
+        type=int,
+        default=10000,
+    )
 
     args = parser.parse_args()
 
 
@@ -8,10 +8,18 @@
 
 # Make environment
 num_players = 2
-env = rlcard.make('blackjack', config={'game_num_players': num_players})
+env = rlcard.make(
+    'blackjack',
+    config={
+        'game_num_players': num_players,
+    },
+)
 human_agent = HumanAgent(env.num_actions)
 random_agent = RandomAgent(env.num_actions)
-env.set_agents([human_agent, random_agent])
+env.set_agents([
+    human_agent,
+    random_agent,
+])
 
 print(">> Blackjack human agent")
 
 
@@ -42,7 +42,10 @@ def make_gin_rummy_env() -> 'GinRummyEnv':
     # north_agent = RandomAgent(num_actions=gin_rummy_env.num_actions)
     north_agent = GinRummyNoviceRuleAgent()
     south_agent = HumanAgent(gin_rummy_env.num_actions)
-    gin_rummy_env.set_agents([north_agent, south_agent])
+    gin_rummy_env.set_agents([
+        north_agent,
+        south_agent
+    ])
     gin_rummy_env.game.judge.scorer = scorers.GinRummyScorer(get_payoff=scorers.get_payoff_gin_rummy_v0)
     return gin_rummy_env
 
 
@@ -10,7 +10,10 @@
 env = rlcard.make('leduc-holdem')
 human_agent = HumanAgent(env.num_actions)
 cfr_agent = models.load('leduc-holdem-cfr').agents[0]
-env.set_agents([human_agent, cfr_agent])
+env.set_agents([
+    human_agent,
+    cfr_agent,
+])
 
 print(">> Leduc Hold'em pre-trained model")
 
 
@@ -10,7 +10,10 @@
 env = rlcard.make('limit-holdem')
 human_agent = HumanAgent(env.num_actions)
 agent_0 = RandomAgent(num_actions=env.num_actions)
-env.set_agents([human_agent, agent_0])
+env.set_agents([
+    human_agent,
+    agent_0,
+])
 
 print(">> Limit Hold'em random agent")
 
 
@@ -9,7 +9,10 @@
 env = rlcard.make('uno')
 human_agent = HumanAgent(env.num_actions)
 cfr_agent = models.load('uno-rule-v1').agents[0]
-env.set_agents([human_agent, cfr_agent])
+env.set_agents([
+    human_agent,
+    cfr_agent,
+])
 
 print(">> UNO rule model V1")
 
 
@@ -35,42 +35,89 @@ def train(args):
     env.reset()
 
     # Initialize the DMC trainer
-    trainer = DMCTrainer(env,
-                         is_pettingzoo_env=True,
-                         load_model=args.load_model,
-                         xpid=args.xpid,
-                         savedir=args.savedir,
-                         save_interval=args.save_interval,
-                         num_actor_devices=args.num_actor_devices,
-                         num_actors=args.num_actors,
-                         training_device=args.training_device,
-                         total_frames=args.total_frames,
-                         )
+    trainer = DMCTrainer(
+        env,
+        is_pettingzoo_env=True,
+        load_model=args.load_model,
+        xpid=args.xpid,
+        savedir=args.savedir,
+        save_interval=args.save_interval,
+        num_actor_devices=args.num_actor_devices,
+        num_actors=args.num_actors,
+        training_device=args.training_device,
+        total_frames=args.total_frames,
+    )
 
     # Train DMC Agents
     trainer.start()
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser("DMC example in RLCard")
-    parser.add_argument('--env', type=str, default='leduc-holdem',
-            choices=['blackjack', 'leduc-holdem', 'limit-holdem', 'doudizhu', 'mahjong', 'no-limit-holdem', 'uno', 'gin-rummy'])
-    parser.add_argument('--cuda', type=str, default='1')
-    parser.add_argument('--load_model', action='store_true',
-                    help='Load an existing model')
-    parser.add_argument('--xpid', default='doudizhu',
-                        help='Experiment id (default: doudizhu)')
-    parser.add_argument('--savedir', default='experiments/dmc_result',
-                        help='Root dir where experiment data will be saved')
-    parser.add_argument('--save_interval', default=30, type=int,
-                        help='Time interval (in minutes) at which to save the model')
-    parser.add_argument('--num_actor_devices', default=1, type=int,
-                        help='The number of devices used for simulation')
-    parser.add_argument('--num_actors', default=5, type=int,
-                        help='The number of actors for each simulation device')
-    parser.add_argument('--total_frames', default=1e11, type=int,
-                        help='The total number of frames to train for')
-    parser.add_argument('--training_device', default=0, type=int,
-                        help='The index of the GPU used for training models')
+    parser.add_argument(
+        '--env',
+        type=str,
+        default='leduc-holdem',
+        choices=[
+            'blackjack',
+            'leduc-holdem',
+            'limit-holdem',
+            'doudizhu',
+            'mahjong',
+            'no-limit-holdem',
+            'uno', 
+            'gin-rummy',
+        ]
+    )
+    parser.add_argument(
+        '--cuda',
+        type=str,
+        default='',
+    )
+    parser.add_argument(
+        '--load_model',
+        action='store_true',
+        help='Load an existing model',
+    )
+    parser.add_argument(
+        '--xpid',
+        default='leduc_holdem',
+        help='Experiment id (default: leduc_holdem)',
+    )
+    parser.add_argument(
+        '--savedir',
+        default='experiments/dmc_result',
+        help='Root dir where experiment data will be saved',
+    )
+    parser.add_argument(
+        '--save_interval',
+        default=30,
+        type=int,
+        help='Time interval (in minutes) at which to save the model',
+    )
+    parser.add_argument(
+        '--num_actor_devices',
+        default=1,
+        type=int,
+        help='The number of devices used for simulation',
+    )
+    parser.add_argument(
+        '--num_actors',
+        default=5,
+        type=int,
+        help='The number of actors for each simulation device',
+    )
+    parser.add_argument(
+        '--total_frames',
+        default=1e11,
+        type=int,
+        help='The total number of frames to train for',
+    )
+    parser.add_argument(
+        '--training_device',
+        default=0,
+        type=int,
+        help='The index of the GPU used for training models',
+    )
 
     args = parser.parse_args()
 
 
@@ -17,8 +17,13 @@
 )
 from rlcard.agents.pettingzoo_agents import RandomAgentPettingZoo
 from rlcard.utils import (
-    get_device, set_seed, Logger, plot_curve, 
-    run_game_pettingzoo, reorganize_pettingzoo, tournament_pettingzoo
+    get_device,
+    set_seed,
+    Logger,
+    plot_curve, 
+    run_game_pettingzoo,
+    reorganize_pettingzoo,
+    tournament_pettingzoo,
 )
 
 env_name_to_env_func = {
@@ -104,15 +109,59 @@ def train(args):
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser("DQN/NFSP example in RLCard")
-    parser.add_argument('--env', type=str, default='leduc-holdem',
-            choices=['leduc-holdem', 'limit-holdem', 'doudizhu', 'mahjong', 'no-limit-holdem', 'uno', 'gin-rummy'])
-    parser.add_argument('--algorithm', type=str, default='dqn', choices=['dqn', 'nfsp'])
-    parser.add_argument('--cuda', type=str, default='')
-    parser.add_argument('--seed', type=int, default=42)
-    parser.add_argument('--num_episodes', type=int, default=5000)
-    parser.add_argument('--num_eval_games', type=int, default=2000)
-    parser.add_argument('--evaluate_every', type=int, default=100)
-    parser.add_argument('--log_dir', type=str, default='experiments/leduc_holdem_dqn_result/')
+    parser.add_argument(
+        '--env',
+        type=str,
+        default='leduc-holdem',
+        choices=[
+            'leduc-holdem',
+            'limit-holdem',
+            'doudizhu',
+            'mahjong',
+            'no-limit-holdem',
+            'uno',
+            'gin-rummy',
+        ],
+    )
+    parser.add_argument(
+        '--algorithm',
+        type=str,
+        default='dqn',
+        choices=[
+            'dqn',
+            'nfsp',
+        ],
+    )
+    parser.add_argument(
+        '--cuda',
+        type=str,
+        default='',
+    )
+    parser.add_argument(
+        '--seed',
+        type=int,
+        default=42,
+    )
+    parser.add_argument(
+        '--num_episodes',
+        type=int,
+        default=5000,
+    )
+    parser.add_argument(
+        '--num_eval_games',
+        type=int,
+        default=2000,
+    )
+    parser.add_argument(
+        '--evaluate_every',
+        type=int,
+        default=100,
+    )
+    parser.add_argument(
+        '--log_dir',
+        type=str,
+        default='experiments/leduc_holdem_dqn_result/',
+    )
 
     args = parser.parse_args()