From e132775278851a9eed8a8095a0ea30280722cf4f Mon Sep 17 00:00:00 2001
From: arampacha <aruthart@gmail.com>
Date: Thu, 15 Jul 2021 11:10:39 +0000
Subject: [PATCH 1/4] updates run_clm_streaming_flax.py

---
 run_clm_streaming_flax.py       | 400 ++++++----------
 run_clm_streaming_flax_clean.py | 777 --------------------------------
 run_clm_streaming_wikitext.sh   |   6 +-
 3 files changed, 149 insertions(+), 1034 deletions(-)
 delete mode 100755 run_clm_streaming_flax_clean.py

diff --git a/run_clm_streaming_flax.py b/run_clm_streaming_flax.py
index d3d9adf..0ef3bb1 100755
--- a/run_clm_streaming_flax.py
+++ b/run_clm_streaming_flax.py
@@ -32,13 +32,10 @@
 from typing import Callable, Optional
 import json
 import shutil
-from collections import defaultdict
+from flax import training
 import numpy as np
-# from queue import Queue
-# import threading
-from multiprocessing import Process, Queue
 import datasets
-from datasets import Dataset, load_dataset
+from datasets import load_dataset
 from tqdm import tqdm
 
 import jax
@@ -46,10 +43,12 @@
 import jax.numpy as jnp
 import optax
 import transformers
+import flax
 from flax import jax_utils, traverse_util
 from flax.jax_utils import unreplicate
 from flax.training import train_state
 from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
+from flax.training.checkpoints import save_checkpoint, restore_checkpoint
 from flax.serialization import to_bytes, from_bytes
 from transformers import (
     CONFIG_MAPPING,
@@ -64,6 +63,7 @@
 from transformers.testing_utils import CaptureLogger
 
 from importlib.util import find_spec
+from utils import PrefetchDataloader, make_batch
 
 logger = logging.getLogger(__name__)
 
@@ -107,7 +107,19 @@ class ModelArguments:
             "help": "Floating-point format in which the model weights should be initialized and trained. Choose one of `[float32, float16, bfloat16]`."
         },
     )
-
+    save_optimizer: Optional[bool] = field(
+        default=True,
+        metadata={"help": "Whether to store full train state including optimizer."},
+    )
+    repo_path_or_name: Optional[str] = field(
+        default=None,
+        metadata={"help": "Path to the modelhub repo directory"},
+    )
+    repo_url: Optional[str] = field(
+        default=None,
+        metadata={"help": "URL of the modelhub repo"},
+    )
+    decay_steps: int = field(default=None, metadata={"help":"Number of steps from peak to final learning rate"})
 
 @dataclass
 class DataTrainingArguments:
@@ -195,168 +207,6 @@ def replicate(self):
         return jax_utils.replicate(self).replace(dropout_rng=shard_prng_key(self.dropout_rng))
 
 
-def generate_batch_splits(samples_idx: jnp.ndarray, batch_size: int) -> jnp.ndarray:
-    num_samples = len(samples_idx)
-    samples_to_remove = num_samples % batch_size
-
-    if samples_to_remove != 0:
-        samples_idx = samples_idx[:-samples_to_remove]
-    sections_split = num_samples // batch_size
-    batch_idx = np.split(samples_idx, sections_split)
-    return batch_idx
-
-
-def advance_iter_and_group_samples(train_iterator, num_samples, max_seq_length):
-    """
-    The training iterator is advanced so that after groupifying the samples,
-    `num_samples` of length `max_seq_length` are returned.
-    """
-    num_total_tokens = max_seq_length * num_samples
-    samples = defaultdict(list)
-
-    i = 0
-    while i < num_total_tokens:
-        tokenized_samples = next(train_iterator)
-        i += len(tokenized_samples["input_ids"])
-
-        # concatenate tokenized samples to list
-        samples = {k: samples[k] + tokenized_samples[k] for k in tokenized_samples.keys()}
-
-    # Concatenated tokens are split to lists of length `max_seq_length`.
-    # Note that remainedr of % max_seq_length are thrown away.
-    def group_texts(examples):
-        result = {
-            k: [t[i : i + max_seq_length] for i in range(0, num_total_tokens, max_seq_length)]
-            for k, t in examples.items()
-        }
-        return result
-
-    grouped_samples = group_texts(samples)
-    return grouped_samples
-
-def make_batch(samples):
-    batch = {k:jnp.array(v) for k,v in samples.items()}
-    batch['labels'] = batch['input_ids'].copy()
-    return batch
-
-# class PrefetchDataloader(threading.Thread):
-#     "Prefetch dataloader for IterableDataset"
-#     def __init__(self, dataset, batch_size, sequence_length, prefetch_buffer=1, shuffle=True, shuffle_buffer=1000, seed=0):
-#         super().__init__(daemon=True)
-#         self.bs = batch_size
-#         self.seq_len = sequence_length
-#         self.max_length = batch_size * sequence_length
-#         self.prefetch_buffer = prefetch_buffer
-#         self.shuffle = shuffle
-#         self.shuffle_buffer = shuffle_buffer
-#         self.seed = seed
-#         self.dataset = dataset
-#         if shuffle:
-#             shuffled_dataset = dataset.shuffle(shuffle_buffer, seed=self.seed)
-#             self.seed += 1
-#             self.ds_iter = iter(shuffled_dataset)
-#         else:
-#             self.ds_iter = iter(dataset)
-#         self.queue = Queue(prefetch_buffer)
-#         self.rem = defaultdict(list)
-#         self.start()
-        
-#     def __next__(self):
-#         batch = self.queue.get()
-#         return batch
-        
-#     def run(self):
-#         while True:
-#             # prepair next batch
-#             sample = self.rem.copy()
-#             l = len(sample["input_ids"])
-#             max_length = self.max_length
-#             while l < max_length:
-#                 next_sample = next(self.ds_iter)
-#                 l += len(next_sample["input_ids"])
-#                 sample = {k:sample[k]+next_sample[k] for k in next_sample.keys()}
-            
-#             self.rem = {k:v[max_length:] for k,v in sample.items()}
-#             sample = {k:v[:max_length] for k,v in sample.items()}
-#             # regroup to shape [bs x seq_len]
-#             samples = {k:np.array([v[i*self.seq_len:(i+1)*self.seq_len] for i in range(self.bs)]) for k,v in sample.items()}
-            
-#             self.queue.put(make_batch(samples))
-    
-#     def __iter__(self):
-#         return self
-
-
-class PrefetchDataloader(Process):
-    "Prefetch dataloader for IterableDataset"
-    def __init__(self, dataset, batch_size, sequence_length, prefetch_buffer=1, shuffle=True, shuffle_buffer=1000, seed=0):
-        super().__init__(daemon=True)
-        self.bs = batch_size
-        self.seq_len = sequence_length
-        self.max_length = batch_size * sequence_length
-        self.prefetch_buffer = prefetch_buffer
-        self.shuffle = shuffle
-        self.shuffle_buffer = shuffle_buffer
-        self.seed = seed
-        self.dataset = dataset
-        if shuffle:
-            shuffled_dataset = dataset.shuffle(shuffle_buffer, seed=self.seed)
-            self.seed += 1
-            self.ds_iter = iter(shuffled_dataset)
-        else:
-            self.ds_iter = iter(dataset)
-        self.queue = Queue(prefetch_buffer)
-        self.rem = defaultdict(list)
-        self.start()
-               
-    def __next__(self):
-        return make_batch(self.queue.get())
-        
-    def run(self):
-        while True:
-            # prepair next batch
-            sample = self.rem.copy()
-            l = len(sample["input_ids"])
-            max_length = self.max_length
-            while l < max_length:
-                next_sample = next(self.ds_iter)
-                l += len(next_sample["input_ids"])
-                sample = {k:sample[k]+next_sample[k] for k in next_sample.keys()}
-            
-            self.rem = {k:v[max_length:] for k,v in sample.items()}
-            sample = {k:v[:max_length] for k,v in sample.items()}
-            # regroup to shape [bs x seq_len]
-            samples = {k:np.array([v[i*self.seq_len:(i+1)*self.seq_len] for i in range(self.bs)]) for k,v in sample.items()}
-            
-            self.queue.put(samples)
-    
-    def __iter__(self):
-        return self
-
-def data_loader(rng: jax.random.PRNGKey, dataset: Dataset, batch_size: int, shuffle: bool = False):
-    """
-    Returns batches of size `batch_size` from truncated `dataset`, sharded over all local devices.
-    Shuffle batches if `shuffle` is `True`.
-    """
-    steps_per_epoch = len(dataset) // batch_size
-
-    if shuffle:
-        batch_idx = jax.random.permutation(rng, len(dataset))
-    else:
-        batch_idx = jnp.arange(len(dataset))
-
-    batch_idx = batch_idx[: steps_per_epoch * batch_size]  # Skip incomplete batch.
-    batch_idx = batch_idx.reshape((steps_per_epoch, batch_size))
-
-    for idx in batch_idx:
-        batch = dataset[idx]
-        batch = {k: jnp.array(v) for k, v in batch.items()}
-
-        batch = shard(batch)
-
-        yield batch
-
-
 def write_train_metric(summary_writer, train_metrics, train_time, step):
     summary_writer.scalar("train_time", train_time, step)
 
@@ -366,6 +216,7 @@ def write_train_metric(summary_writer, train_metrics, train_time, step):
         for i, val in enumerate(vals):
             summary_writer.scalar(tag, val, step - len(vals) + i + 1)
 
+
 def write_eval_metric(summary_writer, eval_metrics, step):
     for metric_name, value in eval_metrics.items():
         summary_writer.scalar(f"eval_{metric_name}", value, step)
@@ -381,16 +232,32 @@ def create_learning_rate_fn(
     )
     schedule_fn = optax.join_schedules(schedules=[warmup_fn, decay_fn], boundaries=[num_warmup_steps])
     return schedule_fn
+def gpt3_schedule(warmup_steps,
+                  total_steps,
+                  peak_lr,
+                  end_lr):
+    def sch(step):
+        warmup_pct = jnp.clip(step, 0, warmup_steps) / warmup_steps
+        anneal_pct = jnp.clip(step - warmup_steps, 0, total_steps) / total_steps
+
+        return warmup_pct * peak_lr - (peak_lr - end_lr) * (1 - jnp.cos(jnp.pi * anneal_pct)) / 2
+
+    return sch
 
 # utils
 def mb_item(x):
     return x.item() if hasattr(x, "item") else x
 
+
 #checkpoint functions
-def save_checkpoint(model, save_dir, state, with_opt:bool=True, push_to_hub:bool=False):
+def save_model_checkpoint(model, save_dir, state, with_opt:bool=True, push_to_hub:bool=False):
+    """
+    If `push_to_hub` is True, will save to `save_dir`. Otherwise will save to `save_dir/ckpt-{step}`.
+    """
     state = jax_utils.unreplicate(state)
     logger.info(f"SAVING CHECKPOINT IN {save_dir}...")
-    save_dir = f"{save_dir}/ckpt-{mb_item(state.step)-1}"
+    if not push_to_hub:
+        save_dir = f"{save_dir}/ckpt-{mb_item(state.step)-1}"
     model.save_pretrained(
         save_dir,
         params=state.params,
@@ -403,8 +270,34 @@ def save_checkpoint(model, save_dir, state, with_opt:bool=True, push_to_hub:bool
         with open(os.path.join(save_dir, "training_state.json"), "w") as f:
             json.dump({"step": state.step.item()}, f)
     logger.info("checkpoint saved")
-        
-def restore_checkpoint(save_dir, state):
+
+# this is added to make resuming from checkpoint to work with adafactor
+# to be removed when issue is fixed
+# notice that adafactor state is perturbed by fake_update
+def _zeros_tree_like(inp_tree):
+    return jax.tree_map(jnp.zeros_like, inp_tree)
+
+def fake_update(state):
+    fake_updates = _zeros_tree_like(state.params)
+    _, new_inner_opt_state = state.tx.inner_opt.update(fake_updates, state.opt_state.inner_opt_state, state.params)
+    opt_state = state.opt_state
+    new_opt_state = optax.MultiStepsState(mini_step=opt_state.mini_step, 
+                                        gradient_step=opt_state.gradient_step, 
+                                        inner_opt_state=new_inner_opt_state,
+                                        acc_grads=opt_state.acc_grads)
+    return state.replace(opt_state=new_opt_state)
+
+def reinstantiate_states(opt_state):
+    new_state = []
+    for state in opt_state:
+        if isinstance(state, list):
+            new_state.append(reinstantiate_states(state))
+        else:
+            cls = getattr(optax, type(state).__name__)
+            new_state.append(cls(**{k:getattr(state, k) for k in state._fields}))
+    return new_state
+
+def restore_model_checkpoint(save_dir, state):
     logger.info(f"RESTORING CHECKPOINT FROM {save_dir}...")
     with open(os.path.join(save_dir, "flax_model.msgpack"), "rb") as f:
         params = from_bytes(state.params, f.read())
@@ -417,7 +310,15 @@ def restore_checkpoint(save_dir, state):
     step = training_state["step"]
 
     logger.info("checkpoint restored")
-    return state.replace(step=step, params=params, opt_state=opt_state), step
+    # reinstantiate inner opt state to avoid type conflict
+    if hasattr(opt_state, "inner_opt_state"):
+        print("restoring state ofmultisteps optimizer")
+        inner_opt_state = reinstantiate_states(opt_state.inner_opt_state)
+        ms_state_dict = {k:getattr(state.opt_state, k) for k in state.opt_state._fields}
+        ms_state_dict["inner_opt_state"] = inner_opt_state
+        opt_state = optax.MultiStepsState(**ms_state_dict)
+
+    return state.replace(step=step, params=params, opt_state=opt_state)
 
 def rotate_checkpoints(ckpt_dir:str, save_total_limit:int):
     "Removes older checkpoints so that `save_total_limit` checkpoints are kept"
@@ -485,6 +386,7 @@ def main():
         # Downloading and loading a dataset from the hub.
         train_dataset = load_dataset(
             data_args.dataset_name,
+            data_args.dataset_config_name,
             data_dir=data_args.data_dir,
             cache_dir=model_args.cache_dir, 
             streaming=True,
@@ -492,8 +394,10 @@ def main():
         )
         eval_dataset = load_dataset(
             data_args.dataset_name,
+            data_args.dataset_config_name,
             data_dir=data_args.data_dir,
             cache_dir=model_args.cache_dir, 
+            streaming=True,
             split="validation"
         )
         
@@ -538,8 +442,8 @@ def main():
 
     # Preprocessing the datasets.
     # First we tokenize all the texts.
-    column_names = eval_dataset.column_names
-    text_column_name = data_args.text_column_name if data_args.text_column_name in column_names else column_names[0]
+    # column_names = eval_dataset.column_names
+    text_column_name = data_args.text_column_name # if data_args.text_column_name in column_names else column_names[0]
 
     # since this will be pickled to avoid _LazyModule error in Hasher force logger loading before tokenize_function
     tok_logger = transformers.utils.logging.get_logger("transformers.tokenization_utils_base")
@@ -561,9 +465,9 @@ def tokenize_function(examples):
     tokenized_eval_dataset = eval_dataset.map(
         tokenize_function,
         batched=True,
-        remove_columns=column_names,
-        num_proc=data_args.preprocessing_num_workers,
-        load_from_cache_file=not data_args.overwrite_cache,
+        # remove_columns=column_names,
+        # num_proc=data_args.preprocessing_num_workers,
+        # load_from_cache_file=not data_args.overwrite_cache,
     )
 
     if data_args.block_size is None:
@@ -582,64 +486,31 @@ def tokenize_function(examples):
             )
         block_size = min(data_args.block_size, tokenizer.model_max_length)
 
-    # # Main data processing function that will concatenate all texts from our dataset and generate chunks of block_size.
-    def group_texts(examples):
-        # Concatenate all texts.
-        concatenated_examples = {k: sum(examples[k], []) for k in examples.keys()}
-        total_length = len(concatenated_examples[list(examples.keys())[0]])
-        # We drop the small remainder, we could add padding if the model supported it instead of this drop, you can
-        # customize this part to your needs.
-        total_length = (total_length // block_size) * block_size
-        # Split by chunks of max_len.
-        result = {
-            k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
-            for k, t in concatenated_examples.items()
-        }
-        result["labels"] = result["input_ids"].copy()
-        return result
-
     # Note that with `batched=True`, this map processes 1,000 texts together, so group_texts throws away a remainder
     # for each of those groups of 1,000 texts. You can adjust that batch_size here but a higher value might be slower
     # to preprocess.
     #
     # To speed up this part, we use multiprocessing. See the documentation of the map method for more information:
     # https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasets.Dataset.map
-
-    shuffle_seed = training_args.seed
-    # if training_args.do_train:
-    #     if "train" not in tokenized_dataset:
-    #         raise ValueError("--do_train requires a train dataset")
-    #     train_dataset = tokenized_dataset
-    #     if data_args.max_train_samples is not None:
-    #         train_dataset = train_dataset.take(range(data_args.max_train_samples))
-    #     train_dataset = train_dataset.shuffle(buffer_size=data_args.shuffle_buffer_size, seed=shuffle_seed)
-    #     train_iter = iter(train_dataset)
-
     
-    # Store some constant
-    num_epochs = int(training_args.num_train_epochs)
-    train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count() * training_args.gradient_accumulation_steps
-    eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
-    # steps_per_epoch = len(train_dataset) // train_batch_size
-    total_train_steps = training_args.max_steps
-    
-    train_dl = PrefetchDataloader(
+    train_loader = PrefetchDataloader(
         tokenized_dataset, 
+        training_args.max_steps * training_args.gradient_accumulation_steps, 
         int(training_args.per_device_train_batch_size) * jax.device_count(),
         block_size,
         prefetch_buffer=data_args.prefetch_buffer,
-        seed=shuffle_seed
+        seed=training_args.seed
     )
     # evaluation data is not in streaming mode
-    if training_args.do_eval:
-        eval_dataset = tokenized_eval_dataset.map(
-            group_texts,
-            batched=True,
-            num_proc=data_args.preprocessing_num_workers,
-            load_from_cache_file=not data_args.overwrite_cache,
-        )
-        if data_args.max_eval_samples is not None:
-            eval_dataset = eval_dataset.select(range(data_args.max_eval_samples))
+    # if training_args.do_eval:
+    #     eval_dataset = tokenized_eval_dataset.map(
+    #         group_texts,
+    #         batched=True,
+    #         num_proc=data_args.preprocessing_num_workers,
+    #         load_from_cache_file=not data_args.overwrite_cache,
+    #     )
+    #     if data_args.max_eval_samples is not None:
+    #         eval_dataset = eval_dataset.select(range(data_args.max_eval_samples))
     
     # Enable tensorboard only on the master node
     has_tensorboard = is_tensorboard_available()
@@ -665,6 +536,7 @@ def group_texts(examples):
         try:
             import wandb
             wandb.init(
+                name=training_args.run_name,
                 entity="wandb", 
                 project="hf-flax-gpt-neo-copilot",
                 sync_tensorboard=True
@@ -682,18 +554,16 @@ def group_texts(examples):
     rng, dropout_rng = jax.random.split(rng)
 
     # Store some constant
-    num_epochs = int(training_args.num_train_epochs)
     train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count() * training_args.gradient_accumulation_steps
     eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
-    # steps_per_epoch = len(train_dataset) // train_batch_size
-    total_train_steps = training_args.max_steps
+    total_train_steps = training_args.max_steps * training_args.gradient_accumulation_steps
 
     # Create learning rate schedule
-    linear_decay_lr_schedule_fn = create_learning_rate_fn(
-        total_train_steps,
-        train_batch_size,
+    gpt3_schedule_fn = gpt3_schedule(
         training_args.warmup_steps,
+        model_args.decay_steps,
         training_args.learning_rate,
+        training_args.learning_rate / 10.
     )
 
     # We use Optax's "masking" functionality to not apply weight decay
@@ -716,17 +586,21 @@ def decay_mask_fn(params):
         # We use the default parameters here to initialize adafactor,
         # For more details about the parameters please check https://github.com/deepmind/optax/blob/ed02befef9bf81cbbf236be3d2b0e032e9ed4a40/optax/_src/alias.py#L74
         optimizer = optax.adafactor(
-            learning_rate=linear_decay_lr_schedule_fn,
+            learning_rate=gpt3_schedule_fn,
         )
     else:
         optimizer = optax.adamw(
-            learning_rate=linear_decay_lr_schedule_fn,
+            learning_rate=gpt3_schedule_fn,
             b1=training_args.adam_beta1,
             b2=training_args.adam_beta2,
             eps=training_args.adam_epsilon,
             weight_decay=training_args.weight_decay,
             mask=decay_mask_fn,
         )
+        optimizer = optax.chain(
+            optax.clip_by_global_norm(1),
+            optimizer
+        )
     if training_args.gradient_accumulation_steps > 1:
         optimizer = optax.MultiSteps(optimizer, training_args.gradient_accumulation_steps)
     grad_accum_steps = training_args.gradient_accumulation_steps
@@ -735,7 +609,10 @@ def decay_mask_fn(params):
     state = TrainState.create(apply_fn=model.__call__, params=model.params, tx=optimizer, dropout_rng=dropout_rng)
     
     if training_args.resume_from_checkpoint:
-        state, resume_step = restore_checkpoint(training_args.resume_from_checkpoint, state)
+        state = restore_model_checkpoint(training_args.resume_from_checkpoint, state)
+        resume_step = mb_item(state.step)
+        if training_args.adafactor:
+            state = fake_update(state)
     else:
         resume_step = 0
 
@@ -761,7 +638,7 @@ def compute_loss(params):
 
         new_state = state.apply_gradients(grads=grad, dropout_rng=new_dropout_rng)
 
-        metrics = {"loss": loss, "learning_rate": linear_decay_lr_schedule_fn(state.step // grad_accum_steps)}
+        metrics = {"loss": loss, "learning_rate": gpt3_schedule_fn(state.step // grad_accum_steps)}
         metrics = jax.lax.pmean(metrics, axis_name="batch")
 
         return new_state, metrics
@@ -785,11 +662,9 @@ def eval_step(params, batch):
     state = state.replicate()
 
     logger.info("***** Running training *****")
-    # logger.info(f"  Num examples = {len(train_dataset)}")
-    logger.info(f"  Num Epochs = {num_epochs}")
     logger.info(f"  Instantaneous batch size per device = {training_args.per_device_train_batch_size}")
     logger.info(f"  Total train batch size (w. parallel, distributed and grad_accum) = {train_batch_size}")
-    logger.info(f"  Total optimization steps = {total_train_steps}")
+    logger.info(f"  Total optimization steps = {training_args.max_steps}")
 
     if not training_args.skip_memory_metrics:
         server = jax.profiler.start_server(9999)
@@ -797,7 +672,7 @@ def eval_step(params, batch):
     train_time = 0
     train_metrics = []
     # TODO: figure out training duration
-    steps = tqdm(range(total_train_steps*grad_accum_steps), desc=f"Step ... (1/{total_train_steps})", position=0, initial=resume_step)
+    steps = tqdm(range(training_args.max_steps), position=0, initial=resume_step)
     for step in range(total_train_steps):
         # ======================== Training ================================
         train_start = time.time()
@@ -808,9 +683,10 @@ def eval_step(params, batch):
         if cur_step < resume_step:
             continue
         
+        # using advance_iter_and_group_samples seem to make training slower
         # samples = advance_iter_and_group_samples(iter(tokenized_dataset), int(training_args.per_device_train_batch_size) * jax.device_count(), block_size)
         # batch = shard(make_batch(samples))
-        batch = shard(next(train_dl))
+        batch = shard(next(train_loader))
         # logger.info(f"{batch['input_ids'].shape}")
         state, train_metric = p_train_step(state, batch)
         train_metrics.append(train_metric)
@@ -822,14 +698,14 @@ def eval_step(params, batch):
             train_metric = unreplicate(train_metric)
             train_time += time.time() - train_start
             if has_tensorboard and jax.process_index() == 0:
-                write_train_metric(summary_writer, train_metrics, train_time, cur_step)
+                write_train_metric(summary_writer, train_metrics, train_time, cur_step//grad_accum_steps)
             if has_wandb and jax.process_index() == 0 and ("wandb" in training_args.report_to):
                 # TODO: add accumulation of metrics
                 _metrics = {k if k=="learning_rate" else f"train_{k}":mb_item(v.mean()) for k, v in train_metric.items()}
-                wandb.log({"training_step":cur_step, **_metrics}, commit=True)
+                wandb.log({"training_step":cur_step//grad_accum_steps, **_metrics}, commit=True)
 
             steps.write(
-                f"Step... ({cur_step} | Loss: {train_metric['loss'].mean()}, Learning Rate: {train_metric['learning_rate'].mean()})"
+                f"Step... ({cur_step // grad_accum_steps} | Loss: {train_metric['loss'].mean()}, Learning Rate: {train_metric['learning_rate'].mean()})"
             )
 
             train_metrics = []
@@ -837,11 +713,20 @@ def eval_step(params, batch):
         if cur_step % (training_args.eval_steps * grad_accum_steps) == 0 and cur_step > 0 and training_args.do_eval:
             # ======================== Evaluating ==============================
             eval_metrics = []
-            eval_loader = data_loader(input_rng, eval_dataset, eval_batch_size)
-            eval_steps = len(eval_dataset) // eval_batch_size
-            for _ in tqdm(range(eval_steps), desc="Evaluating...", position=2, leave=False):
+            eval_steps = data_args.max_eval_samples # len(eval_dataset) // eval_batch_size
+            # eval_loader = data_loader(input_rng, eval_dataset, eval_batch_size)
+            eval_loader = PrefetchDataloader(
+                tokenized_eval_dataset, 
+                eval_steps,
+                eval_batch_size,
+                block_size,
+                prefetch_buffer=data_args.prefetch_buffer,
+                shuffle=False,
+            )
+            eval_pbar = tqdm(range(eval_steps), desc="Evaluating...", position=2, leave=False)
+            for _ in eval_pbar:
                 # Model forward
-                batch = next(eval_loader)
+                batch = shard(next(eval_loader))
                 metrics = p_eval_step(state.params, batch)
                 eval_metrics.append(metrics)
 
@@ -853,31 +738,38 @@ def eval_step(params, batch):
                 eval_metrics["perplexity"] = math.exp(eval_metrics["loss"])
             except OverflowError:
                 eval_metrics["perplexity"] = float("inf")
-
+            # TODO: this needs to be closed properly
+            eval_loader.terminate()
             # Print metrics and update progress bar
-            desc = f"Step... ({cur_step} | Eval Loss: {eval_metrics['loss']} | Eval Perplexity: {eval_metrics['perplexity']})"
-            steps.write(desc)
-            steps.desc = desc
+            desc = f"Step... ({cur_step//grad_accum_steps} | Eval Loss: {eval_metrics['loss']} | Eval Perplexity: {eval_metrics['perplexity']})"
+            eval_pbar.write(desc)
+            eval_pbar.desc = desc
 
             # Save metrics
             if has_tensorboard and jax.process_index() == 0:
                 # cur_step = epoch * (len(train_dataset) // train_batch_size)
-                write_eval_metric(summary_writer, eval_metrics, cur_step)
+                write_eval_metric(summary_writer, eval_metrics, cur_step//grad_accum_steps)
             if has_wandb and jax.process_index() == 0 and ("wandb" in training_args.report_to):
                 _metrics = {f"eval_{k}":mb_item(v) for k, v in eval_metrics.items()}
-                wandb.log({"eval_step":cur_step, **_metrics})
+                wandb.log({"eval_step":cur_step//grad_accum_steps, **_metrics})
 
         if cur_step % (training_args.save_steps * grad_accum_steps) == 0 and cur_step > 0:
             # save checkpoint after each epoch and push checkpoint to the hub
             if jax.process_index() == 0:
-                save_checkpoint(model, training_args.output_dir, state, push_to_hub=training_args.push_to_hub)
+                save_model_checkpoint(model, training_args.output_dir, state, with_opt=model_args.save_optimizer,
+                                      push_to_hub=training_args.push_to_hub)
+                # if model_args.save_optimizer:
+                    # this saves full state including optimizer
+                    # save_checkpoint(training_args.output_dir, jax_utils.unreplicate(state), cur_step, keep=training_args.save_total_limit, overwrite=True)
                 if training_args.save_total_limit is not None:
                     rotate_checkpoints(training_args.output_dir, training_args.save_total_limit)
     
+    train_loader.terminate()
     # save model after training is over
-    save_checkpoint(model, training_args.output_dir, state, with_opt=False, push_to_hub=training_args.push_to_hub)
-
+    save_model_checkpoint(model, training_args.output_dir, state, with_opt=False,
+                          push_to_hub=training_args.push_to_hub)
 
+    logger.info("***Training comleted")
 
 
 if __name__ == "__main__":
diff --git a/run_clm_streaming_flax_clean.py b/run_clm_streaming_flax_clean.py
deleted file mode 100755
index 0ef3bb1..0000000
--- a/run_clm_streaming_flax_clean.py
+++ /dev/null
@@ -1,777 +0,0 @@
-#!/usr/bin/env python
-# coding=utf-8
-# Copyright 2021 The HuggingFace Team All rights reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""
-Pre-training/Fine-tuning the library models for causal language modeling (GPT, GPT-2, CTRL, ...) on a text file or a dataset.
-
-Here is the full list of checkpoints on the hub that can be fine-tuned by this script:
-https://huggingface.co/models?filter=causal-lm
-"""
-# You can also adapt this script on your own causal language modeling task. Pointers for this are left as comments.
-
-from ast import Str
-import logging
-import math
-import os
-import sys
-import time
-from dataclasses import dataclass, field
-from pathlib import Path
-from typing import Callable, Optional
-import json
-import shutil
-from flax import training
-import numpy as np
-import datasets
-from datasets import load_dataset
-from tqdm import tqdm
-
-import jax
-import jax.profiler
-import jax.numpy as jnp
-import optax
-import transformers
-import flax
-from flax import jax_utils, traverse_util
-from flax.jax_utils import unreplicate
-from flax.training import train_state
-from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
-from flax.training.checkpoints import save_checkpoint, restore_checkpoint
-from flax.serialization import to_bytes, from_bytes
-from transformers import (
-    CONFIG_MAPPING,
-    FLAX_MODEL_FOR_CAUSAL_LM_MAPPING,
-    AutoConfig,
-    AutoTokenizer,
-    FlaxAutoModelForCausalLM,
-    HfArgumentParser,
-    TrainingArguments,
-    is_tensorboard_available,
-)
-from transformers.testing_utils import CaptureLogger
-
-from importlib.util import find_spec
-from utils import PrefetchDataloader, make_batch
-
-logger = logging.getLogger(__name__)
-
-MODEL_CONFIG_CLASSES = list(FLAX_MODEL_FOR_CAUSAL_LM_MAPPING.keys())
-MODEL_TYPES = tuple(conf.model_type for conf in MODEL_CONFIG_CLASSES)
-
-
-@dataclass
-class ModelArguments:
-    """
-    Arguments pertaining to which model/config/tokenizer we are going to fine-tune, or train from scratch.
-    """
-
-    model_name_or_path: Optional[str] = field(
-        default=None,
-        metadata={
-            "help": "The model checkpoint for weights initialization."
-            "Don't set if you want to train a model from scratch."
-        },
-    )
-    model_type: Optional[str] = field(
-        default=None,
-        metadata={"help": "If training from scratch, pass a model type from the list: " + ", ".join(MODEL_TYPES)},
-    )
-    config_name: Optional[str] = field(
-        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
-    )
-    tokenizer_name: Optional[str] = field(
-        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
-    )
-    cache_dir: Optional[str] = field(
-        default=None, metadata={"help": "Where do you want to store the pretrained models downloaded from s3"}
-    )
-    use_fast_tokenizer: bool = field(
-        default=True,
-        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
-    )
-    dtype: Optional[str] = field(
-        default="float32",
-        metadata={
-            "help": "Floating-point format in which the model weights should be initialized and trained. Choose one of `[float32, float16, bfloat16]`."
-        },
-    )
-    save_optimizer: Optional[bool] = field(
-        default=True,
-        metadata={"help": "Whether to store full train state including optimizer."},
-    )
-    repo_path_or_name: Optional[str] = field(
-        default=None,
-        metadata={"help": "Path to the modelhub repo directory"},
-    )
-    repo_url: Optional[str] = field(
-        default=None,
-        metadata={"help": "URL of the modelhub repo"},
-    )
-    decay_steps: int = field(default=None, metadata={"help":"Number of steps from peak to final learning rate"})
-
-@dataclass
-class DataTrainingArguments:
-    """
-    Arguments pertaining to what data we are going to input our model for training and eval.
-    """
-
-    dataset_name: Optional[str] = field(
-        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
-    )
-    dataset_config_name: Optional[str] = field(
-        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
-    )
-    train_file: Optional[str] = field(default=None, metadata={"help": "The input training data file (a text file)."})
-    validation_file: Optional[str] = field(
-        default=None,
-        metadata={"help": "An optional input evaluation data file to evaluate the perplexity on (a text file)."},
-    )
-    data_dir: Optional[str] = field(default=None, metadata={"help": "Path to data directory."})
-    max_train_samples: Optional[int] = field(
-        default=None,
-        metadata={
-            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
-            "value if set."
-        },
-    )
-    max_eval_samples: Optional[int] = field(
-        default=None,
-        metadata={
-            "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
-            "value if set."
-        },
-    )
-    overwrite_cache: bool = field(
-        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
-    )
-    validation_split_percentage: Optional[int] = field(
-        default=5,
-        metadata={
-            "help": "The percentage of the train set used as validation set in case there's no validation split"
-        },
-    )
-    block_size: Optional[int] = field(
-        default=None,
-        metadata={
-            "help": "Optional input sequence length after tokenization. "
-            "The training dataset will be truncated in block of this size for training. "
-            "Default to the model max input length for single sentence inputs (take into account special tokens)."
-        },
-    )
-    overwrite_cache: bool = field(
-        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
-    )
-    preprocessing_num_workers: Optional[int] = field(
-        default=None,
-        metadata={"help": "The number of processes to use for the preprocessing."},
-    )
-    text_column_name: Optional[str] = field(
-            default='text',
-            metadata={"help": "Column containing main text data."},
-        )
-    shuffle_buffer_size: int = field(
-        default=10000, metadata={"help": "The number of examples to pre-load for shuffling."}
-    )
-    num_train_steps: int = field(default=50000, metadata={"help": "The number of training steps."})
-    num_eval_samples: int = field(default=50000, metadata={"help": "The number of samples to be used for evaluation"})
-    prefetch_buffer: int = field(default=8, metadata={"help": "The number of batches to prefetch for loading"})
-
-    def __post_init__(self):
-        if self.dataset_name is None and self.train_file is None and self.validation_file is None:
-            raise ValueError("Need either a dataset name or a training/validation file.")
-        else:
-            if self.train_file is not None:
-                extension = self.train_file.split(".")[-1]
-                assert extension in ["csv", "json", "txt"], "`train_file` should be a csv, a json or a txt file."
-            if self.validation_file is not None:
-                extension = self.validation_file.split(".")[-1]
-                assert extension in ["csv", "json", "txt"], "`validation_file` should be a csv, a json or a txt file."
-
-
-class TrainState(train_state.TrainState):
-    dropout_rng: jnp.ndarray
-
-    def replicate(self):
-        return jax_utils.replicate(self).replace(dropout_rng=shard_prng_key(self.dropout_rng))
-
-
-def write_train_metric(summary_writer, train_metrics, train_time, step):
-    summary_writer.scalar("train_time", train_time, step)
-
-    train_metrics = get_metrics(train_metrics)
-    for key, vals in train_metrics.items():
-        tag = f"train_{key}"
-        for i, val in enumerate(vals):
-            summary_writer.scalar(tag, val, step - len(vals) + i + 1)
-
-
-def write_eval_metric(summary_writer, eval_metrics, step):
-    for metric_name, value in eval_metrics.items():
-        summary_writer.scalar(f"eval_{metric_name}", value, step)
-
-
-def create_learning_rate_fn(
-    num_train_steps: int, train_batch_size: int, num_warmup_steps: int, learning_rate: float
-) -> Callable[[int], jnp.array]:
-    """Returns a linear warmup, linear_decay learning rate function."""
-    warmup_fn = optax.linear_schedule(init_value=0.0, end_value=learning_rate, transition_steps=num_warmup_steps)
-    decay_fn = optax.linear_schedule(
-        init_value=learning_rate, end_value=0, transition_steps=num_train_steps - num_warmup_steps
-    )
-    schedule_fn = optax.join_schedules(schedules=[warmup_fn, decay_fn], boundaries=[num_warmup_steps])
-    return schedule_fn
-def gpt3_schedule(warmup_steps,
-                  total_steps,
-                  peak_lr,
-                  end_lr):
-    def sch(step):
-        warmup_pct = jnp.clip(step, 0, warmup_steps) / warmup_steps
-        anneal_pct = jnp.clip(step - warmup_steps, 0, total_steps) / total_steps
-
-        return warmup_pct * peak_lr - (peak_lr - end_lr) * (1 - jnp.cos(jnp.pi * anneal_pct)) / 2
-
-    return sch
-
-# utils
-def mb_item(x):
-    return x.item() if hasattr(x, "item") else x
-
-
-#checkpoint functions
-def save_model_checkpoint(model, save_dir, state, with_opt:bool=True, push_to_hub:bool=False):
-    """
-    If `push_to_hub` is True, will save to `save_dir`. Otherwise will save to `save_dir/ckpt-{step}`.
-    """
-    state = jax_utils.unreplicate(state)
-    logger.info(f"SAVING CHECKPOINT IN {save_dir}...")
-    if not push_to_hub:
-        save_dir = f"{save_dir}/ckpt-{mb_item(state.step)-1}"
-    model.save_pretrained(
-        save_dir,
-        params=state.params,
-        push_to_hub=push_to_hub,
-        commit_message=f"Saving weights and logs at step {mb_item(state.step)-1}",
-    )
-    if with_opt:
-        with open(os.path.join(save_dir, "opt_state.msgpack"), "wb") as f:
-            f.write(to_bytes(state.opt_state))
-        with open(os.path.join(save_dir, "training_state.json"), "w") as f:
-            json.dump({"step": state.step.item()}, f)
-    logger.info("checkpoint saved")
-
-# this is added to make resuming from checkpoint to work with adafactor
-# to be removed when issue is fixed
-# notice that adafactor state is perturbed by fake_update
-def _zeros_tree_like(inp_tree):
-    return jax.tree_map(jnp.zeros_like, inp_tree)
-
-def fake_update(state):
-    fake_updates = _zeros_tree_like(state.params)
-    _, new_inner_opt_state = state.tx.inner_opt.update(fake_updates, state.opt_state.inner_opt_state, state.params)
-    opt_state = state.opt_state
-    new_opt_state = optax.MultiStepsState(mini_step=opt_state.mini_step, 
-                                        gradient_step=opt_state.gradient_step, 
-                                        inner_opt_state=new_inner_opt_state,
-                                        acc_grads=opt_state.acc_grads)
-    return state.replace(opt_state=new_opt_state)
-
-def reinstantiate_states(opt_state):
-    new_state = []
-    for state in opt_state:
-        if isinstance(state, list):
-            new_state.append(reinstantiate_states(state))
-        else:
-            cls = getattr(optax, type(state).__name__)
-            new_state.append(cls(**{k:getattr(state, k) for k in state._fields}))
-    return new_state
-
-def restore_model_checkpoint(save_dir, state):
-    logger.info(f"RESTORING CHECKPOINT FROM {save_dir}...")
-    with open(os.path.join(save_dir, "flax_model.msgpack"), "rb") as f:
-        params = from_bytes(state.params, f.read())
-
-    with open(os.path.join(save_dir, "opt_state.msgpack"), "rb") as f:
-        opt_state = from_bytes(state.opt_state, f.read())
-
-    with open(os.path.join(save_dir, "training_state.json"), "r") as f:
-        training_state = json.load(f)
-    step = training_state["step"]
-
-    logger.info("checkpoint restored")
-    # reinstantiate inner opt state to avoid type conflict
-    if hasattr(opt_state, "inner_opt_state"):
-        print("restoring state ofmultisteps optimizer")
-        inner_opt_state = reinstantiate_states(opt_state.inner_opt_state)
-        ms_state_dict = {k:getattr(state.opt_state, k) for k in state.opt_state._fields}
-        ms_state_dict["inner_opt_state"] = inner_opt_state
-        opt_state = optax.MultiStepsState(**ms_state_dict)
-
-    return state.replace(step=step, params=params, opt_state=opt_state)
-
-def rotate_checkpoints(ckpt_dir:str, save_total_limit:int):
-    "Removes older checkpoints so that `save_total_limit` checkpoints are kept"
-    # TODO: what to remove is decided using step number only, we might want to improve that
-    ckpts = [str(x) for x in Path(ckpt_dir).glob("ckpt-*")]
-    # sort checkpoints by step
-    ckpts_sorted = sorted(ckpts, key=lambda x: int(x.split('-')[-1]))
-    ckpts_to_delete = ckpts_sorted[:-save_total_limit]
-    for ckpt in ckpts_to_delete:
-        logger.info(f"Deleting older checkpoint [{ckpt}] due to save_total_limit ({save_total_limit})")
-        shutil.rmtree(ckpt)
-
-def main():
-    # See all possible arguments in src/transformers/training_args.py
-    # or by passing the --help flag to this script.
-    # We now keep distinct sets of args, for a cleaner separation of concerns.
-
-    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, TrainingArguments))
-    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
-        # If we pass only one argument to the script and it's the path to a json file,
-        # let's parse it to get our arguments.
-        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
-    else:
-        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
-
-    if (
-        os.path.exists(training_args.output_dir)
-        and os.listdir(training_args.output_dir)
-        and training_args.do_train
-        and not training_args.overwrite_output_dir
-    ):
-        raise ValueError(
-            f"Output directory ({training_args.output_dir}) already exists and is not empty."
-            "Use --overwrite_output_dir to overcome."
-        )
-
-    # Make one log on every process with the configuration for debugging.
-    logging.basicConfig(
-        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
-        datefmt="%m/%d/%Y %H:%M:%S",
-        level=logging.INFO,
-    )
-    # Setup logging, we only want one process per machine to log things on the screen.
-    logger.setLevel(logging.INFO if jax.process_index() == 0 else logging.ERROR)
-    if jax.process_index() == 0:
-        datasets.utils.logging.set_verbosity_warning()
-        transformers.utils.logging.set_verbosity_info()
-    else:
-        datasets.utils.logging.set_verbosity_error()
-        transformers.utils.logging.set_verbosity_error()
-
-    # Set the verbosity to info of the Transformers logger (on main process only):
-    logger.info(f"Training/evaluation parameters {training_args}")
-
-    #  Get the datasets: you can either provide your own CSV/JSON/TXT training and evaluation files (see below)
-    # or just provide the name of one of the public datasets available on the hub at https://huggingface.co/datasets/
-    # (the dataset will be downloaded automatically from the datasets Hub).
-    #
-    # For CSV/JSON files, this script will use the column called 'text' or the first column if no column called
-    # 'text' is found. You can easily tweak this behavior (see below).
-    #
-    # In distributed training, the load_dataset function guarantees that only one local process can concurrently
-    # download the dataset.
-    if data_args.dataset_name is not None:
-        # Downloading and loading a dataset from the hub.
-        train_dataset = load_dataset(
-            data_args.dataset_name,
-            data_args.dataset_config_name,
-            data_dir=data_args.data_dir,
-            cache_dir=model_args.cache_dir, 
-            streaming=True,
-            split="train"
-        )
-        eval_dataset = load_dataset(
-            data_args.dataset_name,
-            data_args.dataset_config_name,
-            data_dir=data_args.data_dir,
-            cache_dir=model_args.cache_dir, 
-            streaming=True,
-            split="validation"
-        )
-        
-    # See more about loading any type of standard or custom dataset (from files, python dict, pandas DataFrame, etc) at
-    # https://huggingface.co/docs/datasets/loading_datasets.html.
-
-    # Load pretrained model and tokenizer
-
-    # Distributed training:
-    # The .from_pretrained methods guarantee that only one local process can concurrently
-    # download model & vocab.
-    if model_args.config_name:
-        config = AutoConfig.from_pretrained(model_args.config_name, cache_dir=model_args.cache_dir)
-    elif model_args.model_name_or_path:
-        config = AutoConfig.from_pretrained(model_args.model_name_or_path, cache_dir=model_args.cache_dir)
-    else:
-        config = CONFIG_MAPPING[model_args.model_type]()
-        logger.warning("You are instantiating a new config instance from scratch.")
-
-    if model_args.tokenizer_name:
-        tokenizer = AutoTokenizer.from_pretrained(
-            model_args.tokenizer_name, cache_dir=model_args.cache_dir, use_fast=model_args.use_fast_tokenizer
-        )
-    elif model_args.model_name_or_path:
-        tokenizer = AutoTokenizer.from_pretrained(
-            model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=model_args.use_fast_tokenizer
-        )
-    else:
-        raise ValueError(
-            "You are instantiating a new tokenizer from scratch. This is not supported by this script."
-            "You can do it from another script, save it, and load it from here, using --tokenizer_name."
-        )
-
-    if model_args.model_name_or_path:
-        model = FlaxAutoModelForCausalLM.from_pretrained(
-            model_args.model_name_or_path, config=config, seed=training_args.seed, dtype=getattr(jnp, model_args.dtype)
-        )
-    else:
-        model = FlaxAutoModelForCausalLM.from_config(
-            config, seed=training_args.seed, dtype=getattr(jnp, model_args.dtype)
-        )
-
-    # Preprocessing the datasets.
-    # First we tokenize all the texts.
-    # column_names = eval_dataset.column_names
-    text_column_name = data_args.text_column_name # if data_args.text_column_name in column_names else column_names[0]
-
-    # since this will be pickled to avoid _LazyModule error in Hasher force logger loading before tokenize_function
-    tok_logger = transformers.utils.logging.get_logger("transformers.tokenization_utils_base")
-
-    def tokenize_function(examples):
-        with CaptureLogger(tok_logger) as cl:
-            output = tokenizer(examples[text_column_name])
-        # clm input could be much much longer than block_size
-        if "Token indices sequence length is longer than the" in cl.out:
-            tok_logger.warning(
-                "^^^^^^^^^^^^^^^^ Please ignore the warning above - this long input will be chunked into smaller bits before being passed to the model."
-            )
-        return output
-
-    tokenized_dataset = train_dataset.map(
-        tokenize_function,
-        batched=True,
-    )
-    tokenized_eval_dataset = eval_dataset.map(
-        tokenize_function,
-        batched=True,
-        # remove_columns=column_names,
-        # num_proc=data_args.preprocessing_num_workers,
-        # load_from_cache_file=not data_args.overwrite_cache,
-    )
-
-    if data_args.block_size is None:
-        block_size = tokenizer.model_max_length
-        if block_size > config.max_position_embeddings:
-            logger.warning(
-                f"The tokenizer picked seems to have a very large `model_max_length` ({tokenizer.model_max_length}). "
-                "Picking 1024 instead. You can change that default value by passing --block_size xxx."
-            )
-            block_size = 1024
-    else:
-        if data_args.block_size > tokenizer.model_max_length:
-            logger.warning(
-                f"The block_size passed ({data_args.block_size}) is larger than the maximum length for the model"
-                f"({tokenizer.model_max_length}). Using block_size={tokenizer.model_max_length}."
-            )
-        block_size = min(data_args.block_size, tokenizer.model_max_length)
-
-    # Note that with `batched=True`, this map processes 1,000 texts together, so group_texts throws away a remainder
-    # for each of those groups of 1,000 texts. You can adjust that batch_size here but a higher value might be slower
-    # to preprocess.
-    #
-    # To speed up this part, we use multiprocessing. See the documentation of the map method for more information:
-    # https://huggingface.co/docs/datasets/package_reference/main_classes.html#datasets.Dataset.map
-    
-    train_loader = PrefetchDataloader(
-        tokenized_dataset, 
-        training_args.max_steps * training_args.gradient_accumulation_steps, 
-        int(training_args.per_device_train_batch_size) * jax.device_count(),
-        block_size,
-        prefetch_buffer=data_args.prefetch_buffer,
-        seed=training_args.seed
-    )
-    # evaluation data is not in streaming mode
-    # if training_args.do_eval:
-    #     eval_dataset = tokenized_eval_dataset.map(
-    #         group_texts,
-    #         batched=True,
-    #         num_proc=data_args.preprocessing_num_workers,
-    #         load_from_cache_file=not data_args.overwrite_cache,
-    #     )
-    #     if data_args.max_eval_samples is not None:
-    #         eval_dataset = eval_dataset.select(range(data_args.max_eval_samples))
-    
-    # Enable tensorboard only on the master node
-    has_tensorboard = is_tensorboard_available()
-    if has_tensorboard and jax.process_index() == 0:
-        try:
-            from flax.metrics.tensorboard import SummaryWriter
-
-            summary_writer = SummaryWriter(log_dir=Path(training_args.output_dir))
-        except ImportError as ie:
-            has_tensorboard = False
-            logger.warning(
-                f"Unable to display metrics through TensorBoard because some package are not installed: {ie}"
-            )
-    else:
-        logger.warning(
-            "Unable to display metrics through TensorBoard because the package is not installed: "
-            "Please run pip install tensorboard to enable."
-        )
-    
-    # enable wandb tracking
-    has_wandb = find_spec("wandb") is not None 
-    if jax.process_index() == 0 and has_wandb and ("wandb" in training_args.report_to):
-        try:
-            import wandb
-            wandb.init(
-                name=training_args.run_name,
-                entity="wandb", 
-                project="hf-flax-gpt-neo-copilot",
-                sync_tensorboard=True
-            )
-            wandb.config.update(training_args)
-            wandb.config.update(model_args)
-            wandb.config.update(data_args)
-        except ImportError as e:
-            print(e)
-            has_wandb = False
-    
-
-    # Initialize our training
-    rng = jax.random.PRNGKey(training_args.seed)
-    rng, dropout_rng = jax.random.split(rng)
-
-    # Store some constant
-    train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count() * training_args.gradient_accumulation_steps
-    eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
-    total_train_steps = training_args.max_steps * training_args.gradient_accumulation_steps
-
-    # Create learning rate schedule
-    gpt3_schedule_fn = gpt3_schedule(
-        training_args.warmup_steps,
-        model_args.decay_steps,
-        training_args.learning_rate,
-        training_args.learning_rate / 10.
-    )
-
-    # We use Optax's "masking" functionality to not apply weight decay
-    # to bias and LayerNorm scale parameters. decay_mask_fn returns a
-    # mask boolean with the same structure as the parameters.
-    # The mask is True for parameters that should be decayed.
-    # Note that this mask is specifically adapted for FlaxGPT2.
-    # For other models, one should correct the layer norm parameter naming
-    # accordingly.
-    def decay_mask_fn(params):
-        flat_params = traverse_util.flatten_dict(params)
-        flat_mask = {
-            path: (path[-1] != "bias" and path[-2:] not in [("ln_1", "scale"), ("ln_2", "scale"), ("ln_f", "scale")])
-            for path in flat_params
-        }
-        return traverse_util.unflatten_dict(flat_mask)
-
-    # create optimizer
-    if training_args.adafactor:
-        # We use the default parameters here to initialize adafactor,
-        # For more details about the parameters please check https://github.com/deepmind/optax/blob/ed02befef9bf81cbbf236be3d2b0e032e9ed4a40/optax/_src/alias.py#L74
-        optimizer = optax.adafactor(
-            learning_rate=gpt3_schedule_fn,
-        )
-    else:
-        optimizer = optax.adamw(
-            learning_rate=gpt3_schedule_fn,
-            b1=training_args.adam_beta1,
-            b2=training_args.adam_beta2,
-            eps=training_args.adam_epsilon,
-            weight_decay=training_args.weight_decay,
-            mask=decay_mask_fn,
-        )
-        optimizer = optax.chain(
-            optax.clip_by_global_norm(1),
-            optimizer
-        )
-    if training_args.gradient_accumulation_steps > 1:
-        optimizer = optax.MultiSteps(optimizer, training_args.gradient_accumulation_steps)
-    grad_accum_steps = training_args.gradient_accumulation_steps
-
-    # Setup train state
-    state = TrainState.create(apply_fn=model.__call__, params=model.params, tx=optimizer, dropout_rng=dropout_rng)
-    
-    if training_args.resume_from_checkpoint:
-        state = restore_model_checkpoint(training_args.resume_from_checkpoint, state)
-        resume_step = mb_item(state.step)
-        if training_args.adafactor:
-            state = fake_update(state)
-    else:
-        resume_step = 0
-
-    def loss_fn(logits, labels):
-        shift_logits = logits[..., :-1, :]
-        shift_labels = labels[..., 1:]
-        loss = optax.softmax_cross_entropy(shift_logits, onehot(shift_labels, shift_logits.shape[-1]))
-        return loss.mean()
-
-    # Define gradient update step fn
-    def train_step(state, batch):
-        dropout_rng, new_dropout_rng = jax.random.split(state.dropout_rng)
-
-        def compute_loss(params):
-            labels = batch.pop("labels")
-            logits = state.apply_fn(**batch, params=params, dropout_rng=dropout_rng, train=True)[0]
-            loss = loss_fn(logits, labels)
-            return loss
-
-        grad_fn = jax.value_and_grad(compute_loss)
-        loss, grad = grad_fn(state.params)
-        grad = jax.lax.pmean(grad, "batch")
-
-        new_state = state.apply_gradients(grads=grad, dropout_rng=new_dropout_rng)
-
-        metrics = {"loss": loss, "learning_rate": gpt3_schedule_fn(state.step // grad_accum_steps)}
-        metrics = jax.lax.pmean(metrics, axis_name="batch")
-
-        return new_state, metrics
-
-    # Define eval fn
-    def eval_step(params, batch):
-        labels = batch.pop("labels")
-        logits = model(**batch, params=params, train=False)[0]
-        loss = loss_fn(logits, labels)
-
-        # summarize metrics
-        metrics = {"loss": loss}
-        metrics = jax.lax.pmean(metrics, axis_name="batch")
-        return metrics
-
-    # Create parallel version of the train and eval step
-    p_train_step = jax.pmap(train_step, "batch", donate_argnums=(0,))
-    p_eval_step = jax.pmap(eval_step, "batch")
-
-    # Replicate the train state on each device
-    state = state.replicate()
-
-    logger.info("***** Running training *****")
-    logger.info(f"  Instantaneous batch size per device = {training_args.per_device_train_batch_size}")
-    logger.info(f"  Total train batch size (w. parallel, distributed and grad_accum) = {train_batch_size}")
-    logger.info(f"  Total optimization steps = {training_args.max_steps}")
-
-    if not training_args.skip_memory_metrics:
-        server = jax.profiler.start_server(9999)
-
-    train_time = 0
-    train_metrics = []
-    # TODO: figure out training duration
-    steps = tqdm(range(training_args.max_steps), position=0, initial=resume_step)
-    for step in range(total_train_steps):
-        # ======================== Training ================================
-        train_start = time.time()
-        rng, input_rng = jax.random.split(rng)
-        
-        cur_step = step
-        # skip to the step from which we are resuming
-        if cur_step < resume_step:
-            continue
-        
-        # using advance_iter_and_group_samples seem to make training slower
-        # samples = advance_iter_and_group_samples(iter(tokenized_dataset), int(training_args.per_device_train_batch_size) * jax.device_count(), block_size)
-        # batch = shard(make_batch(samples))
-        batch = shard(next(train_loader))
-        # logger.info(f"{batch['input_ids'].shape}")
-        state, train_metric = p_train_step(state, batch)
-        train_metrics.append(train_metric)
-        if step % grad_accum_steps == 0:
-            steps.update(1)
-
-        if cur_step % (training_args.logging_steps * grad_accum_steps)== 0 and cur_step > 0:
-            # Save metrics
-            train_metric = unreplicate(train_metric)
-            train_time += time.time() - train_start
-            if has_tensorboard and jax.process_index() == 0:
-                write_train_metric(summary_writer, train_metrics, train_time, cur_step//grad_accum_steps)
-            if has_wandb and jax.process_index() == 0 and ("wandb" in training_args.report_to):
-                # TODO: add accumulation of metrics
-                _metrics = {k if k=="learning_rate" else f"train_{k}":mb_item(v.mean()) for k, v in train_metric.items()}
-                wandb.log({"training_step":cur_step//grad_accum_steps, **_metrics}, commit=True)
-
-            steps.write(
-                f"Step... ({cur_step // grad_accum_steps} | Loss: {train_metric['loss'].mean()}, Learning Rate: {train_metric['learning_rate'].mean()})"
-            )
-
-            train_metrics = []
-
-        if cur_step % (training_args.eval_steps * grad_accum_steps) == 0 and cur_step > 0 and training_args.do_eval:
-            # ======================== Evaluating ==============================
-            eval_metrics = []
-            eval_steps = data_args.max_eval_samples # len(eval_dataset) // eval_batch_size
-            # eval_loader = data_loader(input_rng, eval_dataset, eval_batch_size)
-            eval_loader = PrefetchDataloader(
-                tokenized_eval_dataset, 
-                eval_steps,
-                eval_batch_size,
-                block_size,
-                prefetch_buffer=data_args.prefetch_buffer,
-                shuffle=False,
-            )
-            eval_pbar = tqdm(range(eval_steps), desc="Evaluating...", position=2, leave=False)
-            for _ in eval_pbar:
-                # Model forward
-                batch = shard(next(eval_loader))
-                metrics = p_eval_step(state.params, batch)
-                eval_metrics.append(metrics)
-
-            # normalize eval metrics
-            eval_metrics = get_metrics(eval_metrics)
-            eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
-
-            try:
-                eval_metrics["perplexity"] = math.exp(eval_metrics["loss"])
-            except OverflowError:
-                eval_metrics["perplexity"] = float("inf")
-            # TODO: this needs to be closed properly
-            eval_loader.terminate()
-            # Print metrics and update progress bar
-            desc = f"Step... ({cur_step//grad_accum_steps} | Eval Loss: {eval_metrics['loss']} | Eval Perplexity: {eval_metrics['perplexity']})"
-            eval_pbar.write(desc)
-            eval_pbar.desc = desc
-
-            # Save metrics
-            if has_tensorboard and jax.process_index() == 0:
-                # cur_step = epoch * (len(train_dataset) // train_batch_size)
-                write_eval_metric(summary_writer, eval_metrics, cur_step//grad_accum_steps)
-            if has_wandb and jax.process_index() == 0 and ("wandb" in training_args.report_to):
-                _metrics = {f"eval_{k}":mb_item(v) for k, v in eval_metrics.items()}
-                wandb.log({"eval_step":cur_step//grad_accum_steps, **_metrics})
-
-        if cur_step % (training_args.save_steps * grad_accum_steps) == 0 and cur_step > 0:
-            # save checkpoint after each epoch and push checkpoint to the hub
-            if jax.process_index() == 0:
-                save_model_checkpoint(model, training_args.output_dir, state, with_opt=model_args.save_optimizer,
-                                      push_to_hub=training_args.push_to_hub)
-                # if model_args.save_optimizer:
-                    # this saves full state including optimizer
-                    # save_checkpoint(training_args.output_dir, jax_utils.unreplicate(state), cur_step, keep=training_args.save_total_limit, overwrite=True)
-                if training_args.save_total_limit is not None:
-                    rotate_checkpoints(training_args.output_dir, training_args.save_total_limit)
-    
-    train_loader.terminate()
-    # save model after training is over
-    save_model_checkpoint(model, training_args.output_dir, state, with_opt=False,
-                          push_to_hub=training_args.push_to_hub)
-
-    logger.info("***Training comleted")
-
-
-if __name__ == "__main__":
-    main()
-
diff --git a/run_clm_streaming_wikitext.sh b/run_clm_streaming_wikitext.sh
index be0aaba..f9fbb1d 100644
--- a/run_clm_streaming_wikitext.sh
+++ b/run_clm_streaming_wikitext.sh
@@ -1,6 +1,6 @@
 #! /bin/bash
 ./run_clm_streaming_flax_clean.py \
-    --output_dir $HOME/gpt-neo-125M-test \
+    --output_dir $HOME/tmp/gpt-neo-125M-test \
     --model_name_or_path="EleutherAI/gpt-neo-125M" \
     --dataset_name="wikitext" \
     --dataset_config_name="wikitext-103-raw-v1" \
@@ -16,7 +16,7 @@
     --decay_steps 250 \
     --adam_beta1="0.9" \
     --adam_beta2="0.95" \
-    --weight_decay="0.01" \
+    --weight_decay="0.1" \
     --overwrite_output_dir \
     --logging_steps="10" \
     --eval_steps="50" \
@@ -27,7 +27,7 @@
     --save_steps="50" \
     --save_total_limit 2 \
     --gradient_accumulation_steps 8 \
-    --report_to="wandb" \
+    --report_to="none" \
     --run_name="testing-mini" \
     --max_eval_samples 100 \
     --save_optimizer true \

From 2f1ca2f2c446b9cb2cb545a5da9e46c94afd3c7d Mon Sep 17 00:00:00 2001
From: arampacha <aruthart@gmail.com>
Date: Thu, 15 Jul 2021 11:11:34 +0000
Subject: [PATCH 2/4] adds apps dataset loading and reindent scripts

---
 apps.py     | 267 ++++++++++++++++++++++++++++++++++++++++++++++++++++
 reindent.py | 194 ++++++++++++++++++++++++++++++++++++++
 2 files changed, 461 insertions(+)
 create mode 100644 apps.py
 create mode 100644 reindent.py

diff --git a/apps.py b/apps.py
new file mode 100644
index 0000000..6cece5f
--- /dev/null
+++ b/apps.py
@@ -0,0 +1,267 @@
+# coding=utf-8
+# Copyright 2020 The HuggingFace Datasets Authors and the CodeClippy team
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+APPS dataset.
+"""
+
+import os
+import io
+from typing import List
+import json
+from pathlib import Path
+
+import datasets
+
+
+# TODO: Add BibTeX citation
+# Find for instance the citation on arxiv or on the dataset repo/website
+_CITATION = """\
+@article{hendrycksapps2021,
+  title={Measuring Coding Challenge Competence With APPS},
+  author={Dan Hendrycks and Steven Basart and Saurav Kadavath and Mantas Mazeika and Akul Arora and Ethan Guo and Collin Burns and Samir Puranik and Horace He and Dawn Song and Jacob Steinhardt},
+  journal={arXiv preprint arXiv:2105.09938},
+  year={2021}
+}
+"""
+
+_DESCRIPTION = """
+APPs dataset
+"""
+
+# TODO: Add a link to an official homepage for the dataset here
+_HOMEPAGE = "https://github.com/hendrycks/apps"
+
+# TODO: Add the licence for the dataset here if you can find it
+_LICENSE = "MIT License"
+
+# TODO: Add link to the official dataset URLs here (once we have those)
+# The HuggingFace dataset library don't host the datasets but only point to the original files
+# This can be an arbitrary nested dict/list of URLs (see below in `_split_generators` method)
+_URLs = [
+    "https://people.eecs.berkeley.edu/~hendrycks/APPS.tar.gz",
+]
+
+class APPS(datasets.GeneratorBasedBuilder):
+    """APPS dataset"""
+
+    VERSION = datasets.Version("0.1.0")
+
+    # This is an example of a dataset with multiple configurations.
+    # If you don't want/need to define several sub-sets in your dataset,
+    # just remove the BUILDER_CONFIG_CLASS and the BUILDER_CONFIGS attributes.
+
+    # If you need to make complex sub-parts in the datasets with configurable options
+    # You can create your own builder configuration class to store attribute, inheriting from datasets.BuilderConfig
+    # BUILDER_CONFIG_CLASS = MyBuilderConfig
+
+    # You will be able to load one or the other configurations in the following list with
+    # data = datasets.load_dataset('my_dataset', 'first_domain')
+    # data = datasets.load_dataset('my_dataset', 'second_domain')
+    # BUILDER_CONFIGS = [
+    #     datasets.BuilderConfig(name="first_domain", version=VERSION, description="This part of my dataset covers a first domain"),
+    #     datasets.BuilderConfig(name="second_domain", version=VERSION, description="This part of my dataset covers a second domain"),
+    # ]
+
+    # DEFAULT_CONFIG_NAME = "first_domain"
+
+    def _info(self):
+        features = datasets.Features(
+                {
+                    "id": datasets.Value("int64"),
+                    "question": datasets.Value("string"),
+                    "answer": datasets.Value("string"),
+                    "starter_code": datasets.Value("string"),
+                    "answer_type": datasets.Value("string"),
+                }
+                )
+        return datasets.DatasetInfo(
+            description=_DESCRIPTION,
+            features=features,
+            homepage= _HOMEPAGE,
+            license=_LICENSE
+        )
+
+    def _split_generators(self, dl_manager):
+        """Returns SplitGenerators."""
+        # dl_manager is a datasets.download.DownloadManager that can be used to download and extract URLs
+        # It can accept any type or nested list/dict and will give back the same structure with the url replaced with path to local files.
+        # By default the archives will be extracted and a path to a cached folder where they are extracted is returned instead of the archive
+        
+        data_dir = dl_manager.download_and_extract(_URLs[0])
+        return [
+            datasets.SplitGenerator(
+                name=datasets.Split.TRAIN,
+                gen_kwargs={"problem_dirs": sorted([p_dir[0] for p_dir in os.walk(f"{data_dir}/APPS/train")])}
+            ),
+            datasets.SplitGenerator(
+                name=datasets.Split.TEST,
+                gen_kwargs={"problem_dirs": sorted([p_dir[0] for p_dir in os.walk(f"{data_dir}/APPS/test")])}
+            ),
+        ]
+
+    def _generate_examples(self, problem_dirs:List):
+        """ Yields examples as (key, example) tuples. """
+        id_ = 0
+        skipped_problems = []
+        for problem in problem_dirs:
+            question_fname = os.path.join(problem, "question.txt")
+            sols_fname = os.path.join(problem, "solutions.json")
+            starter_code = os.path.join(problem, "starter_code.py")
+
+            # print(question_fname)
+
+            if os.path.exists(starter_code):
+                answer_type = "\nUse Call-Based format\n"
+            else:
+                answer_type = "\nUse Standard Input format\n"
+
+            if (not os.path.isfile(question_fname)) or (not os.path.isfile(sols_fname)):
+                skipped_problems.append(problem)
+                continue
+
+            if (os.path.isfile(starter_code)):
+                with open(starter_code, 'r') as f:
+                    starter_code = f.read()
+            else:
+                starter_code = ""
+
+            # Read the question description
+            with open(question_fname, 'r') as f:
+                question_str = f.read()
+
+            # Read all the solutions
+            with open(sols_fname, 'r') as f:
+                sols_str_list = json.load(f)
+                for sol_str in sols_str_list:
+                    sol_str = reindent_code(sol_str)
+
+                    yield id_, {
+                        "id":id_, 
+                        "question":question_str, 
+                        "starter_code":starter_code, 
+                        "answer_type":answer_type,
+                        "answer":sol_str
+                    }
+                    id_ += 1
+
+
+
+def reindent_code(codestr):
+    """
+    Given code string, reindent it in the same way that the
+    Github dataset was indented
+    (from https://github.com/hendrycks/apps/blob/main/train/dataset_apps/APPSBaseDataset.py)
+    """
+    codestr = io.StringIO(codestr)
+    ret = io.StringIO()
+
+    run_reindent(
+        codestr, 
+        ret, 
+        config = {
+            "dry-run": False,
+            "help": False,
+            "to": 4,
+            "from": -1,
+            "tabs": True,
+            "encoding": "utf-8",
+            "is-tabs": False,
+            "tabsize": 4,
+            "all-tabs": False
+        }
+    )
+
+    return ret.getvalue()
+
+# This code come from https://github.com/hendrycks/apps/blob/main/train/dataset_lm/reindent.py
+def _find_indentation(line, config):
+    if len(line) and line[0] in (" ", "\t") and not line.isspace():
+        if line[0] == "\t":
+            config['is-tabs'] = True
+        # Find indentation
+        i = 0
+        for char in list(line):
+            if char not in (" ", "\t"):
+                break
+            i += 1
+        config["from"] = i
+
+
+def find_indentation(line, config):
+    # Find indentation level used in file
+    if config['from'] < 0:
+        _find_indentation(line, config)
+
+    if config['from'] >= 0:
+        # Set old indent
+        indent = " " if not config['is-tabs'] else "\t"
+        indent = indent * config['from']
+
+        # Set new indent
+        newindent = " " if not config['tabs'] else "\t"
+        if not config['tabs']:
+            newindent = newindent * config['to']
+
+        return indent, newindent
+
+    # Continue to the next line, indentation not found
+    return False
+
+
+def replace_inline_tabs(content, config):
+    newcontent = ""
+    imagined_i = 0
+    for i in range(0, len(content)):
+        char = content[i]
+        if char == '\t':
+            spaces = config['tabsize']-(imagined_i % config['tabsize'])
+            newcontent += " " * spaces
+            imagined_i += spaces
+        else:
+            newcontent += char
+            imagined_i += 1
+    return newcontent
+
+
+def run_reindent(fd_in, fd_out, config):
+    while True:
+        line = fd_in.readline()
+        if not line:
+            break
+        line = line.rstrip('\r\n')
+
+        # Find indentation style used in file if not set
+        if config['from'] < 0:
+            indent = find_indentation(line, config)
+            if not indent:
+                print(line, file=fd_out)
+                continue
+            indent, newindent = indent
+
+        # Find current indentation level
+        level = 0
+        while True:
+            whitespace = line[:len(indent) * (level + 1)]
+            if whitespace == indent * (level + 1):
+                level += 1
+            else:
+                break
+
+        content = line[len(indent) * level:]
+        if config['all-tabs']:
+            content = replace_inline_tabs(content, config)
+
+        line = (newindent * level) + content
+        print(line, file=fd_out)
\ No newline at end of file
diff --git a/reindent.py b/reindent.py
new file mode 100644
index 0000000..3284c41
--- /dev/null
+++ b/reindent.py
@@ -0,0 +1,194 @@
+"""
+Reindent files.
+(from https://github.com/hendrycks/apps/blob/main/train/dataset_lm/reindent.py)
+"""
+
+from __future__ import print_function
+import sys
+import getopt
+import codecs
+import tempfile
+import shutil
+import os
+
+
+def _find_indentation(line, config):
+    if len(line) and line[0] in (" ", "\t") and not line.isspace():
+        if line[0] == "\t":
+            config['is-tabs'] = True
+        # Find indentation
+        i = 0
+        for char in list(line):
+            if char not in (" ", "\t"):
+                break
+            i += 1
+        config["from"] = i
+
+
+def find_indentation(line, config):
+    # Find indentation level used in file
+    if config['from'] < 0:
+        _find_indentation(line, config)
+
+    if config['from'] >= 0:
+        # Set old indent
+        indent = " " if not config['is-tabs'] else "\t"
+        indent = indent * config['from']
+
+        # Set new indent
+        newindent = " " if not config['tabs'] else "\t"
+        if not config['tabs']:
+            newindent = newindent * config['to']
+
+        return indent, newindent
+
+    # Continue to the next line, indentation not found
+    return False
+
+
+def replace_inline_tabs(content, config):
+    newcontent = ""
+    imagined_i = 0
+    for i in range(0, len(content)):
+        char = content[i]
+        if char == '\t':
+            spaces = config['tabsize']-(imagined_i % config['tabsize'])
+            newcontent += " " * spaces
+            imagined_i += spaces
+        else:
+            newcontent += char
+            imagined_i += 1
+    return newcontent
+
+
+def run(fd_in, fd_out, config):
+    while True:
+        line = fd_in.readline()
+        if not line:
+            break
+        line = line.rstrip('\r\n')
+
+        # Find indentation style used in file if not set
+        if config['from'] < 0:
+            indent = find_indentation(line, config)
+            if not indent:
+                print(line, file=fd_out)
+                continue
+            indent, newindent = indent
+
+        # Find current indentation level
+        level = 0
+        while True:
+            whitespace = line[:len(indent) * (level + 1)]
+            if whitespace == indent * (level + 1):
+                level += 1
+            else:
+                break
+
+        content = line[len(indent) * level:]
+        if config['all-tabs']:
+            content = replace_inline_tabs(content, config)
+
+        line = (newindent * level) + content
+        print(line, file=fd_out)
+
+
+def run_files(filenames, config):
+    for filename in filenames:
+        with codecs.open(filename, encoding=config['encoding']) as fd_in:
+            if config['dry-run']:
+                print("Filename: %s" % filename)
+                fd_out = sys.stdout
+            else:
+                fd_out = tempfile.NamedTemporaryFile(mode='wb', delete=False)
+                fd_out.close()
+                fd_out = codecs.open(fd_out.name, "wb", encoding=config['encoding'])
+
+            run(fd_in, fd_out, config)
+
+            if not config["dry-run"]:
+                fd_out.close()
+                shutil.copy(fd_out.name, filename)
+                os.remove(fd_out.name)
+
+
+def main(args):
+    config = {
+        "dry-run": False,
+        "help": False,
+        "to": 4,
+        "from": -1,
+        "tabs": False,
+        "encoding": "utf-8",
+        "is-tabs": False,
+        "tabsize": 4,
+        "all-tabs": False
+    }
+    possible_args = {
+        "d":  "dry-run",
+        "h":  "help",
+        "t:": "to=",
+        "f:": "from=",
+        "n":  "tabs",
+        "e:": "encoding=",
+        "s:": "tabsize=",
+        "a":  "all-tabs",
+    }
+    optlist, filenames = getopt.getopt(
+        args[1:],
+        "".join(possible_args.keys()),
+        possible_args.values()
+    )
+
+    shortargs, longargs = [], []
+    for shortarg in possible_args:
+        shortargs.append(shortarg.rstrip(":"))
+        longargs.append(possible_args[shortarg].rstrip("="))
+
+    for opt, val in optlist:
+        opt = opt.lstrip("-")
+        if opt in shortargs:
+            opt = longargs[shortargs.index(opt)]
+        if isinstance(config[opt], bool):
+            config[opt] = True
+        elif isinstance(config[opt], int):
+            config[opt] = int(val)
+        else:
+            config[opt] = val
+
+    if config['help']:
+        help = """
+        Usage: %s [options] filename(s)
+        Options:
+            -h, --help              Show this message
+            -d, --dry-run           Don't save anything, just print
+                                    the result
+            -t <n>, --to <n>        Convert to this number of spaces
+                                    (default: 4)
+            -f <n>, --from <n>      Convert from this number of spaces
+                                    (default: auto-detect, will also
+                                    detect tabs)
+            -n, --tabs              Don't convert indentation to spaces,
+                                    convert to tabs instead. -t and
+                                    --to will have no effect.
+            -a, --all-tabs          Also convert tabs used for alignment
+                                    in the code (Warning: will replace
+                                    all tabs in the file, even if inside
+                                    a string)
+            -s <n>, --tabsize <n>   Set how many spaces one tab is
+                                    (only has an effect on -a, default: 4)
+            -e <s>, --encoding <s>  Open files with specified encoding
+                                    (default: utf-8)
+        """ % args[0]
+
+        # Also removes 8 leading spaces to remove our indentation
+        print("\n".join([x[8:] for x in help[1:].split("\n")]))
+        sys.exit(0)
+
+    if filenames:
+        run_files(filenames, config)
+    else:
+        run(sys.stdin, sys.stdout, config)
+
+if __name__ == "__main__":
+    main(sys.argv)
\ No newline at end of file

From c40a0a9061919afb5e19a3e609d16ffaad638658 Mon Sep 17 00:00:00 2001
From: arampacha <aruthart@gmail.com>
Date: Thu, 15 Jul 2021 23:50:59 +0000
Subject: [PATCH 3/4] checkpoint

---
 finetune_apps.sh     |  31 ++
 partitions.py        |  85 +++++
 run_clm_apps.py      | 786 +++++++++++++++++++++++++++++++++++++++++++
 run_clm_mp_apps.py   | 636 ++++++++++++++++++++++++++++++++++
 run_clm_streaming.sh |  18 +-
 5 files changed, 1547 insertions(+), 9 deletions(-)
 create mode 100644 finetune_apps.sh
 create mode 100644 partitions.py
 create mode 100755 run_clm_apps.py
 create mode 100755 run_clm_mp_apps.py

diff --git a/finetune_apps.sh b/finetune_apps.sh
new file mode 100644
index 0000000..bd0d454
--- /dev/null
+++ b/finetune_apps.sh
@@ -0,0 +1,31 @@
+#! /bin/bash
+./run_clm_apps.py \
+    --output_dir $HOME/gpt-code-clippy-apps-2 \
+    --model_name_or_path EleutherAI/gpt-neo-1.3B \
+    --dataset_name ./apps.py \
+    --do_train --do_eval \
+    --block_size="1024" \
+    --per_device_train_batch_size="2" \
+    --per_device_eval_batch_size="2" \
+    --preprocessing_num_workers="16" \
+    --learning_rate="2e-5" \
+    --warmup_steps="5000" \
+    --adam_beta1="0.9" \
+    --adam_beta2="0.98" \
+    --weight_decay="0.1" \
+    --overwrite_output_dir \
+    --num_train_epochs="5" \
+    --logging_steps="20" \
+    --eval_steps="1000" \
+    --push_to_hub="False" \
+    --report_to="wandb" \
+    --dtype="bfloat16" \
+    --skip_memory_metrics="False" \
+    --save_steps="1000" \
+    --save_strategy epoch \
+    --save_total_limit 2 \
+    --gradient_accumulation_steps 2 \
+    --adafactor \
+    # --resume_from_checkpoint $HOME/gpt-neo-125M-code-clippy/ckpt_201 \
+    # --max_train_samples="10000" \
+    # --max_eval_samples="1000"
diff --git a/partitions.py b/partitions.py
new file mode 100644
index 0000000..e32ec97
--- /dev/null
+++ b/partitions.py
@@ -0,0 +1,85 @@
+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2021 The Google Research Authors and The HuggingFace Team All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""Utilities for constructing PyTrees of PartitionSpecs."""
+
+# utils adapted from https://github.com/google-research/google-research/blob/master/flax_models/t5x/partitions.py
+
+import re
+
+from flax.core.frozen_dict import freeze
+from flax.traverse_util import flatten_dict, unflatten_dict
+from jax.experimental import PartitionSpec as P
+
+
+# Sentinels
+_unmatched = object()
+
+# For specifying empty leaf dict `{}`
+empty_dict = object()
+
+
+def _match(qs, ks):
+    """Return True if regexes in qs match any window of strings in tuple ks."""
+    # compile regexes and force complete match
+    qts = tuple(map(lambda x: re.compile(x + "$"), qs))
+    for i in range(len(ks) - len(qs) + 1):
+        matches = [x.match(y) for x, y in zip(qts, ks[i:])]
+        if matches and all(matches):
+            return True
+    return False
+
+
+def _replacement_rules(rules):
+    def replace(key, val):
+        for rule, replacement in rules:
+            if _match(rule, key):
+                return replacement
+        return val
+
+    return replace
+
+
+# PartitionSpec for GPTNeo
+# replicate the hidden dim and shard feed-forward and head dim
+def _get_partition_rules():
+    return [
+        # embeddings
+        (("transformer", "wpe", "embedding"), P("mp", None)),
+        (("transformer", "wte", "embedding"), P("mp", None)),
+        # atention
+        (("attention", "(q_proj|k_proj|v_proj)", "kernel"), P(None, "mp")),
+        (("attention", "out_proj", "kernel"), P("mp", None)),
+        (("attention", "out_proj", "bias"), None),
+        # mlp
+        (("mlp", "c_fc", "kernel"), P(None, "mp")),
+        (("mlp", "c_fc", "bias"), P("mp")),
+        (("mlp", "c_proj", "kernel"), P("mp", None)),
+        (("mlp", "c_proj", "bias"), None),
+        # layer norms
+        ((r"ln_\d+", "bias"), None),
+        ((r"\d+", r"ln_\d+", "scale"), None),
+        (("ln_f", "bias"), None),
+        (("ln_f", "scale"), None),
+    ]
+
+
+def set_partitions(in_dict):
+    rules = _get_partition_rules()
+    replace = _replacement_rules(rules)
+    initd = {k: _unmatched for k in flatten_dict(in_dict)}
+    result = {k: replace(k, v) for k, v in initd.items()}
+    assert _unmatched not in result.values(), "Incomplete partition spec."
+    return freeze(unflatten_dict(result))
diff --git a/run_clm_apps.py b/run_clm_apps.py
new file mode 100755
index 0000000..76b4fc5
--- /dev/null
+++ b/run_clm_apps.py
@@ -0,0 +1,786 @@
+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2021 The HuggingFace Team All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Pre-training/Fine-tuning the library models for causal language modeling (GPT, GPT-2, CTRL, ...) on a text file or a dataset.
+
+Here is the full list of checkpoints on the hub that can be fine-tuned by this script:
+https://huggingface.co/models?filter=causal-lm
+"""
+# You can also adapt this script on your own causal language modeling task. Pointers for this are left as comments.
+
+import logging
+import math
+import os
+import sys
+import time
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Callable, Optional
+import json
+import shutil
+
+import datasets
+from datasets import Dataset, load_dataset
+from tqdm import tqdm
+
+import jax
+import jax.profiler
+import jax.numpy as jnp
+import optax
+import transformers
+from flax import jax_utils, traverse_util
+from flax.jax_utils import unreplicate
+from flax.training import train_state
+from flax.training.checkpoints import save_checkpoint, restore_checkpoint
+from flax.training.common_utils import get_metrics, onehot, shard, shard_prng_key
+from flax.serialization import to_bytes, from_bytes
+from transformers import (
+    CONFIG_MAPPING,
+    FLAX_MODEL_FOR_CAUSAL_LM_MAPPING,
+    AutoConfig,
+    AutoTokenizer,
+    FlaxAutoModelForCausalLM,
+    HfArgumentParser,
+    TrainingArguments,
+    is_tensorboard_available,
+    IntervalStrategy
+)
+from transformers.testing_utils import CaptureLogger
+
+from importlib.util import find_spec
+
+logger = logging.getLogger(__name__)
+
+MODEL_CONFIG_CLASSES = list(FLAX_MODEL_FOR_CAUSAL_LM_MAPPING.keys())
+MODEL_TYPES = tuple(conf.model_type for conf in MODEL_CONFIG_CLASSES)
+
+
+@dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune, or train from scratch.
+    """
+    model_name_or_path: Optional[str] = field(
+        default=None,
+        metadata={
+            "help": "The model checkpoint for weights initialization."
+            "Don't set if you want to train a model from scratch."
+        },
+    )
+    model_type: Optional[str] = field(
+        default=None,
+        metadata={"help": "If training from scratch, pass a model type from the list: " + ", ".join(MODEL_TYPES)},
+    )
+    config_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
+    )
+    tokenizer_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
+    )
+    cache_dir: Optional[str] = field(
+        default=None, metadata={"help": "Where do you want to store the pretrained models downloaded from s3"}
+    )
+    use_fast_tokenizer: bool = field(
+        default=True,
+        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
+    )
+    dtype: Optional[str] = field(
+        default="float32",
+        metadata={
+            "help": "Floating-point format in which the model weights should be initialized and trained. Choose one of `[float32, float16, bfloat16]`."
+        },
+    )
+    save_optimizer: Optional[bool] = field(
+        default=True,
+        metadata={"help": "Whether to store full train state including optimizer."},
+    )
+
+
+@dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    """
+
+    dataset_name: Optional[str] = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    train_file: Optional[str] = field(default=None, metadata={"help": "The input training data file (a text file)."})
+    validation_file: Optional[str] = field(
+        default=None,
+        metadata={"help": "An optional input evaluation data file to evaluate the perplexity on (a text file)."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+            "value if set."
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+            "value if set."
+        },
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    validation_split_percentage: Optional[int] = field(
+        default=5,
+        metadata={
+            "help": "The percentage of the train set used as validation set in case there's no validation split"
+        },
+    )
+    block_size: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "Optional input sequence length after tokenization. "
+            "The training dataset will be truncated in block of this size for training. "
+            "Default to the model max input length for single sentence inputs (take into account special tokens)."
+        },
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    preprocessing_num_workers: Optional[int] = field(
+        default=None,
+        metadata={"help": "The number of processes to use for the preprocessing."},
+    )
+    text_column_name: Optional[str] = field(
+            default='text',
+            metadata={"help": "Column containing main text data."},
+        )
+
+    def __post_init__(self):
+        if self.dataset_name is None and self.train_file is None and self.validation_file is None:
+            raise ValueError("Need either a dataset name or a training/validation file.")
+        else:
+            if self.train_file is not None:
+                extension = self.train_file.split(".")[-1]
+                assert extension in ["csv", "json", "txt"], "`train_file` should be a csv, a json or a txt file."
+            if self.validation_file is not None:
+                extension = self.validation_file.split(".")[-1]
+                assert extension in ["csv", "json", "txt"], "`validation_file` should be a csv, a json or a txt file."
+
+
+class TrainState(train_state.TrainState):
+    dropout_rng: jnp.ndarray
+
+    def replicate(self):
+        return jax_utils.replicate(self).replace(dropout_rng=shard_prng_key(self.dropout_rng))
+
+
+def data_loader(rng: jax.random.PRNGKey, dataset: Dataset, batch_size: int, shuffle: bool = False):
+    """
+    Returns batches of size `batch_size` from truncated `dataset`, sharded over all local devices.
+    Shuffle batches if `shuffle` is `True`.
+    """
+    steps_per_epoch = len(dataset) // batch_size
+
+    if shuffle:
+        batch_idx = jax.random.permutation(rng, len(dataset))
+    else:
+        batch_idx = jnp.arange(len(dataset))
+
+    batch_idx = batch_idx[: steps_per_epoch * batch_size]  # Skip incomplete batch.
+    batch_idx = batch_idx.reshape((steps_per_epoch, batch_size))
+
+    for idx in batch_idx:
+        batch = dataset[idx]
+        batch = {k: jnp.array(v) for k, v in batch.items()}
+
+        batch = shard(batch)
+
+        yield batch
+
+
+def write_train_metric(summary_writer, train_metrics, train_time, step):
+    summary_writer.scalar("train_time", train_time, step)
+
+    train_metrics = get_metrics(train_metrics)
+    for key, vals in train_metrics.items():
+        tag = f"train_{key}"
+        for i, val in enumerate(vals):
+            summary_writer.scalar(tag, val, step - len(vals) + i + 1)
+
+
+def write_eval_metric(summary_writer, eval_metrics, step):
+    for metric_name, value in eval_metrics.items():
+        summary_writer.scalar(f"eval_{metric_name}", value, step)
+
+
+def create_learning_rate_fn(
+    train_ds_size: int, train_batch_size: int, num_train_epochs: int, num_warmup_steps: int, learning_rate: float
+) -> Callable[[int], jnp.array]:
+    """Returns a linear warmup, linear_decay learning rate function."""
+    steps_per_epoch = train_ds_size // train_batch_size
+    num_train_steps = steps_per_epoch * num_train_epochs
+    warmup_fn = optax.linear_schedule(init_value=0.0, end_value=learning_rate, transition_steps=num_warmup_steps)
+    decay_fn = optax.linear_schedule(
+        init_value=learning_rate, end_value=0, transition_steps=num_train_steps - num_warmup_steps
+    )
+    schedule_fn = optax.join_schedules(schedules=[warmup_fn, decay_fn], boundaries=[num_warmup_steps])
+    return schedule_fn
+
+# utils
+def mb_item(x):
+    return x.item() if hasattr(x, "item") else x
+
+#checkpoint functions
+def save_model_checkpoint(model, save_dir, state, with_opt:bool=True, push_to_hub:bool=False):
+    """
+    If `push_to_hub` is True, will save to `save_dir`. Otherwise will save to `save_dir/ckpt-{step}`.
+    """
+    state = jax_utils.unreplicate(state)
+    logger.info(f"SAVING CHECKPOINT IN {save_dir}...")
+    if not push_to_hub:
+        save_dir = f"{save_dir}/ckpt-{mb_item(state.step)-1}"
+    model.save_pretrained(
+        save_dir,
+        params=state.params,
+        push_to_hub=push_to_hub,
+        commit_message=f"Saving weights and logs at step {mb_item(state.step)-1}",
+    )
+    if with_opt:
+        with open(os.path.join(save_dir, "opt_state.msgpack"), "wb") as f:
+            f.write(to_bytes(state.opt_state))
+        with open(os.path.join(save_dir, "training_state.json"), "w") as f:
+            json.dump({"step": state.step.item()}, f)
+    logger.info("checkpoint saved")
+
+# this is added to make resuming from checkpoint to work with adafactor
+# to be removed when issue is fixed
+# notice that adafactor state is perturbed by fake_update
+def _zeros_tree_like(inp_tree):
+    return jax.tree_map(jnp.zeros_like, inp_tree)
+
+def fake_update(state):
+    fake_updates = _zeros_tree_like(state.params)
+    _, new_inner_opt_state = state.tx.inner_opt.update(fake_updates, state.opt_state.inner_opt_state, state.params)
+    opt_state = state.opt_state
+    new_opt_state = optax.MultiStepsState(mini_step=opt_state.mini_step, 
+                                        gradient_step=opt_state.gradient_step, 
+                                        inner_opt_state=new_inner_opt_state,
+                                        acc_grads=opt_state.acc_grads)
+    return state.replace(opt_state=new_opt_state)
+
+def reinstantiate_states(opt_state):
+    new_state = []
+    for state in opt_state:
+        if isinstance(state, list):
+            new_state.append(reinstantiate_states(state))
+        else:
+            cls = getattr(optax, type(state).__name__)
+            new_state.append(cls(**{k:getattr(state, k) for k in state._fields}))
+    return new_state
+
+def restore_model_checkpoint(save_dir, state):
+    logger.info(f"RESTORING CHECKPOINT FROM {save_dir}...")
+    with open(os.path.join(save_dir, "flax_model.msgpack"), "rb") as f:
+        params = from_bytes(state.params, f.read())
+
+    with open(os.path.join(save_dir, "opt_state.msgpack"), "rb") as f:
+        opt_state = from_bytes(state.opt_state, f.read())
+
+    with open(os.path.join(save_dir, "training_state.json"), "r") as f:
+        training_state = json.load(f)
+    step = training_state["step"]
+
+    logger.info("checkpoint restored")
+    # reinstantiate inner opt state to avoid type conflict
+    if hasattr(opt_state, "inner_opt_state"):
+        print("restoring state of multisteps optimizer")
+        inner_opt_state = reinstantiate_states(opt_state.inner_opt_state)
+        ms_state_dict = {k:getattr(state.opt_state, k) for k in state.opt_state._fields}
+        ms_state_dict["inner_opt_state"] = inner_opt_state
+        opt_state = optax.MultiStepsState(**ms_state_dict)
+
+    return state.replace(step=step, params=params, opt_state=opt_state)
+
+def rotate_checkpoints(ckpt_dir:str, save_total_limit:int):
+    "Removes older checkpoints so that `save_total_limit` checkpoints are kept"
+    # TODO: what to remove is decided using step number only, we might want to improve that
+    ckpts = [str(x) for x in Path(ckpt_dir).glob("ckpt-*")]
+    # sort checkpoints by step
+    ckpts_sorted = sorted(ckpts, key=lambda x: int(x.split('-')[-1]))
+    ckpts_to_delete = ckpts_sorted[:-save_total_limit]
+    for ckpt in ckpts_to_delete:
+        logger.info(f"Deleting older checkpoint [{ckpt}] due to save_total_limit ({save_total_limit})")
+        shutil.rmtree(ckpt)
+
+
+
+def main():
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, TrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+
+    if (
+        os.path.exists(training_args.output_dir)
+        and os.listdir(training_args.output_dir)
+        and training_args.do_train
+        and not training_args.overwrite_output_dir
+    ):
+        raise ValueError(
+            f"Output directory ({training_args.output_dir}) already exists and is not empty."
+            "Use --overwrite_output_dir to overcome."
+        )
+
+    # Make one log on every process with the configuration for debugging.
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        level=logging.INFO,
+    )
+    # Setup logging, we only want one process per machine to log things on the screen.
+    logger.setLevel(logging.INFO if jax.process_index() == 0 else logging.ERROR)
+    if jax.process_index() == 0:
+        datasets.utils.logging.set_verbosity_warning()
+        transformers.utils.logging.set_verbosity_info()
+    else:
+        datasets.utils.logging.set_verbosity_error()
+        transformers.utils.logging.set_verbosity_error()
+
+    # Set the verbosity to info of the Transformers logger (on main process only):
+    logger.info(f"Training/evaluation parameters {training_args}")
+
+    #  Get the datasets: you can either provide your own CSV/JSON/TXT training and evaluation files (see below)
+    # or just provide the name of one of the public datasets available on the hub at https://huggingface.co/datasets/
+    # (the dataset will be downloaded automatically from the datasets Hub).
+    #
+    # For CSV/JSON files, this script will use the column called 'text' or the first column if no column called
+    # 'text' is found. You can easily tweak this behavior (see below).
+    #
+    # In distributed training, the load_dataset function guarantees that only one local process can concurrently
+    # download the dataset.
+    if data_args.dataset_name is not None:
+        # Downloading and loading a dataset from the hub.
+        dataset = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, cache_dir=model_args.cache_dir, keep_in_memory=False
+        )
+
+        if "validation" not in dataset.keys():
+            dataset["validation"] = load_dataset(
+                data_args.dataset_name,
+                data_args.dataset_config_name,
+                split=f"train[:{data_args.validation_split_percentage}%]",
+                cache_dir=model_args.cache_dir,
+            )
+            dataset["train"] = load_dataset(
+                data_args.dataset_name,
+                data_args.dataset_config_name,
+                split=f"train[{data_args.validation_split_percentage}%:]",
+                cache_dir=model_args.cache_dir,
+            )
+    else:
+        data_files = {}
+        if data_args.train_file is not None:
+            data_files["train"] = data_args.train_file
+        if data_args.validation_file is not None:
+            data_files["validation"] = data_args.validation_file
+        extension = data_args.train_file.split(".")[-1]
+        if extension == "txt":
+            extension = "text"
+        dataset = load_dataset(extension, data_files=data_files, cache_dir=model_args.cache_dir)
+    # See more about loading any type of standard or custom dataset (from files, python dict, pandas DataFrame, etc) at
+    # https://huggingface.co/docs/datasets/loading_datasets.html.
+
+    # Load pretrained model and tokenizer
+
+    # Distributed training:
+    # The .from_pretrained methods guarantee that only one local process can concurrently
+    # download model & vocab.
+    if model_args.config_name:
+        config = AutoConfig.from_pretrained(model_args.config_name, cache_dir=model_args.cache_dir)
+    elif model_args.model_name_or_path:
+        config = AutoConfig.from_pretrained(model_args.model_name_or_path, cache_dir=model_args.cache_dir)
+    else:
+        config = CONFIG_MAPPING[model_args.model_type]()
+        logger.warning("You are instantiating a new config instance from scratch.")
+
+    if model_args.tokenizer_name:
+        tokenizer = AutoTokenizer.from_pretrained(
+            model_args.tokenizer_name, cache_dir=model_args.cache_dir, use_fast=model_args.use_fast_tokenizer
+        )
+    elif model_args.model_name_or_path:
+        tokenizer = AutoTokenizer.from_pretrained(
+            model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=model_args.use_fast_tokenizer
+        )
+    else:
+        raise ValueError(
+            "You are instantiating a new tokenizer from scratch. This is not supported by this script."
+            "You can do it from another script, save it, and load it from here, using --tokenizer_name."
+        )
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    if model_args.model_name_or_path:
+        model = FlaxAutoModelForCausalLM.from_pretrained(
+            model_args.model_name_or_path, config=config, seed=training_args.seed, dtype=getattr(jnp, model_args.dtype)
+        )
+    else:
+        model = FlaxAutoModelForCausalLM.from_config(
+            config, seed=training_args.seed, dtype=getattr(jnp, model_args.dtype)
+        )
+
+    # Preprocessing the datasets.
+    # First we tokenize all the texts.
+    if training_args.do_train:
+        column_names = dataset["train"].column_names
+    else:
+        column_names = dataset["validation"].column_names
+    text_column_name = data_args.text_column_name if data_args.text_column_name in column_names else column_names[0]
+
+    if data_args.block_size is None:
+        block_size = tokenizer.model_max_length
+        if block_size > config.max_position_embeddings:
+            logger.warning(
+                f"The tokenizer picked seems to have a very large `model_max_length` ({tokenizer.model_max_length}). "
+                "Picking 1024 instead. You can change that default value by passing --block_size xxx."
+            )
+            block_size = 1024
+    else:
+        if data_args.block_size > tokenizer.model_max_length:
+            logger.warning(
+                f"The block_size passed ({data_args.block_size}) is larger than the maximum length for the model"
+                f"({tokenizer.model_max_length}). Using block_size={tokenizer.model_max_length}."
+            )
+        block_size = min(data_args.block_size, tokenizer.model_max_length)
+
+    def tokenize_function(examples):
+        toks = tokenizer(examples["question"],
+                         examples["answer"], 
+                         max_length=block_size,
+                         padding="max_length",
+                         truncation=True, 
+                         return_token_type_ids=True,
+                        #  return_tensors="np",
+                         )
+        labels = toks["input_ids"].copy()
+        toks["labels"] = labels
+        return toks
+
+    lm_datasets = dataset.map(
+        tokenize_function,
+        batched=True,
+        num_proc=data_args.preprocessing_num_workers,
+        remove_columns=column_names,
+        load_from_cache_file=not data_args.overwrite_cache,
+    )
+
+    if training_args.do_train:
+        if "train" not in lm_datasets:
+            raise ValueError("--do_train requires a train dataset")
+        train_dataset = lm_datasets["train"]
+        if data_args.max_train_samples is not None:
+            train_dataset = train_dataset.select(range(data_args.max_train_samples))
+
+    if training_args.do_eval:
+        if "validation" not in lm_datasets:
+            raise ValueError("--do_eval requires a validation dataset")
+        eval_dataset = lm_datasets["validation"]
+        if data_args.max_eval_samples is not None:
+            eval_dataset = eval_dataset.select(range(data_args.max_eval_samples))
+
+    # Enable tensorboard only on the master node
+    has_tensorboard = is_tensorboard_available()
+    if has_tensorboard and jax.process_index() == 0:
+        try:
+            from flax.metrics.tensorboard import SummaryWriter
+
+            summary_writer = SummaryWriter(log_dir=Path(training_args.output_dir))
+        except ImportError as ie:
+            has_tensorboard = False
+            logger.warning(
+                f"Unable to display metrics through TensorBoard because some package are not installed: {ie}"
+            )
+    else:
+        logger.warning(
+            "Unable to display metrics through TensorBoard because the package is not installed: "
+            "Please run pip install tensorboard to enable."
+        )
+    
+    # enable wandb tracking
+    has_wandb = find_spec("wandb") is not None 
+    if jax.process_index() == 0 and has_wandb and ("wandb" in training_args.report_to):
+        try:
+            import wandb
+            wandb.init(
+                name=training_args.run_name,
+                entity="wandb", 
+                project="hf-flax-gpt-neo-copilot",
+                sync_tensorboard=True
+            )
+            wandb.config.update(training_args)
+            wandb.config.update(model_args)
+            wandb.config.update(data_args)
+        except ImportError as e:
+            print(e)
+            has_wandb = False
+    
+
+    # Initialize our training
+    rng = jax.random.PRNGKey(training_args.seed)
+    rng, dropout_rng = jax.random.split(rng)
+
+    # Store some constant
+    num_epochs = int(training_args.num_train_epochs)
+    train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count() * training_args.gradient_accumulation_steps
+    eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
+    steps_per_epoch = len(train_dataset) // train_batch_size
+    total_train_steps = steps_per_epoch * num_epochs
+
+    # Create learning rate schedule
+    linear_decay_lr_schedule_fn = create_learning_rate_fn(
+        len(train_dataset),
+        train_batch_size,
+        training_args.num_train_epochs,
+        training_args.warmup_steps,
+        training_args.learning_rate,
+    )
+
+    # We use Optax's "masking" functionality to not apply weight decay
+    # to bias and LayerNorm scale parameters. decay_mask_fn returns a
+    # mask boolean with the same structure as the parameters.
+    # The mask is True for parameters that should be decayed.
+    # Note that this mask is specifically adapted for FlaxGPT2.
+    # For other models, one should correct the layer norm parameter naming
+    # accordingly.
+    def decay_mask_fn(params):
+        flat_params = traverse_util.flatten_dict(params)
+        flat_mask = {
+            path: (path[-1] != "bias" and path[-2:] not in [("ln_1", "scale"), ("ln_2", "scale"), ("ln_f", "scale")])
+            for path in flat_params
+        }
+        return traverse_util.unflatten_dict(flat_mask)
+
+    # create optimizer
+    if training_args.adafactor:
+        # We use the default parameters here to initialize adafactor,
+        # For more details about the parameters please check https://github.com/deepmind/optax/blob/ed02befef9bf81cbbf236be3d2b0e032e9ed4a40/optax/_src/alias.py#L74
+        optimizer = optax.adafactor(
+            learning_rate=linear_decay_lr_schedule_fn,
+        )
+    else:
+        optimizer = optax.adamw(
+            learning_rate=linear_decay_lr_schedule_fn,
+            b1=training_args.adam_beta1,
+            b2=training_args.adam_beta2,
+            eps=training_args.adam_epsilon,
+            weight_decay=training_args.weight_decay,
+            mask=decay_mask_fn,
+        )
+        optimizer = optax.chain(
+            optax.clip_by_global_norm(1.),
+            optimizer
+        )
+    if training_args.gradient_accumulation_steps > 1:
+        optimizer = optax.MultiSteps(optimizer, training_args.gradient_accumulation_steps)
+    grad_accum_steps = training_args.gradient_accumulation_steps
+
+    # Setup train state
+    state = TrainState.create(apply_fn=model.__call__, params=model.params, tx=optimizer, dropout_rng=dropout_rng)
+    
+    if training_args.resume_from_checkpoint:
+        state = restore_model_checkpoint(training_args.resume_from_checkpoint, state)
+        resume_step = mb_item(state.step)
+        if training_args.adafactor:
+            state = fake_update(state)
+    else:
+        resume_step = 0
+
+    def loss_fn(logits, labels, labels_mask):
+        shift_logits = logits[..., :-1, :]
+        shift_labels = labels[..., 1:]
+        loss = optax.softmax_cross_entropy(shift_logits, onehot(shift_labels, shift_logits.shape[-1])) * labels_mask[..., 1:]
+        return loss.mean()
+
+    # Define gradient update step fn
+    def train_step(state, batch):
+        dropout_rng, new_dropout_rng = jax.random.split(state.dropout_rng)
+
+        def compute_loss(params):
+            labels = batch.pop("labels")
+            token_type_ids = batch.pop("token_type_ids")
+            labels_mask = batch["attention_mask"] - token_type_ids
+            del token_type_ids
+            logits = state.apply_fn(**batch, params=params, dropout_rng=dropout_rng, train=True)[0]
+            loss = loss_fn(logits, labels, labels_mask)
+            return loss
+
+        grad_fn = jax.value_and_grad(compute_loss)
+        loss, grad = grad_fn(state.params)
+        grad = jax.lax.pmean(grad, "batch")
+
+        new_state = state.apply_gradients(grads=grad, dropout_rng=new_dropout_rng)
+
+        metrics = {"loss": loss, "learning_rate": linear_decay_lr_schedule_fn(state.step // grad_accum_steps)}
+        metrics = jax.lax.pmean(metrics, axis_name="batch")
+
+        return new_state, metrics
+
+    # Define eval fn
+    def eval_step(params, batch):
+        labels = batch.pop("labels")
+        token_type_ids = batch.pop("token_type_ids")
+        labels_mask = batch["attention_mask"] - token_type_ids
+        del token_type_ids
+        logits = model(**batch, params=params, train=False)[0]
+        loss = loss_fn(logits, labels, labels_mask)
+
+        # summarize metrics
+        metrics = {"loss": loss}
+        metrics = jax.lax.pmean(metrics, axis_name="batch")
+        return metrics
+
+    # Create parallel version of the train and eval step
+    p_train_step = jax.pmap(train_step, "batch", donate_argnums=(0,))
+    p_eval_step = jax.pmap(eval_step, "batch")
+
+    # Replicate the train state on each device
+    state = state.replicate()
+
+    logger.info("***** Running training *****")
+    logger.info(f"  Num examples = {len(train_dataset)}")
+    logger.info(f"  Num Epochs = {num_epochs}")
+    logger.info(f"  Instantaneous batch size per device = {training_args.per_device_train_batch_size}")
+    logger.info(f"  Total train batch size (w. parallel, distributed and grad_accum) = {train_batch_size}")
+    logger.info(f"  Total optimization steps = {total_train_steps}")
+
+    if not training_args.skip_memory_metrics:
+        server = jax.profiler.start_server(9999)
+
+    train_time = 0
+    train_metrics = []
+    resume_epoch = resume_step // (steps_per_epoch * grad_accum_steps)
+    epochs = tqdm(range(num_epochs), desc=f"Epoch ... ({resume_epoch+1}/{num_epochs})", position=0)
+    if resume_step != 0:
+        logger.info(f"Skipping to epoch {resume_epoch} step {resume_step // grad_accum_steps}")
+    for epoch in epochs:
+        # ======================== Training ================================
+        if epoch <  resume_epoch:
+            continue
+        
+        train_start = time.time()
+
+        # Create sampling rng
+        rng, input_rng = jax.random.split(rng)
+
+        # Generate an epoch by shuffling sampling indices from the train dataset
+        train_loader = data_loader(input_rng, train_dataset, train_batch_size // grad_accum_steps, shuffle=True)
+        # train
+        steps_trained_progress_bar = tqdm(range(steps_per_epoch), desc="Training...", position=1,
+                                          leave=False, initial=(resume_step // grad_accum_steps))
+        for step in range(steps_per_epoch * grad_accum_steps):
+            cur_step = epoch * (steps_per_epoch*grad_accum_steps) + step
+            # skip to the step from which we are resuming
+            if cur_step < resume_step:
+                continue
+
+            batch = next(train_loader)
+            state, train_metric = p_train_step(state, batch)
+            train_metrics.append(train_metric)
+            if step % grad_accum_steps == 0:
+                steps_trained_progress_bar.update(1)
+
+            if cur_step % (training_args.logging_steps * grad_accum_steps)== 0 and cur_step > 0:
+                # Save metrics
+                train_metric = unreplicate(train_metric)
+                train_time += time.time() - train_start
+                if has_tensorboard and jax.process_index() == 0:
+                    write_train_metric(summary_writer, train_metrics, train_time, cur_step)
+                if has_wandb and jax.process_index() == 0 and ("wandb" in training_args.report_to):
+                    # TODO: add accumulation of metrics
+                    _metrics = {k if k=="learning_rate" else f"train_{k}":mb_item(v.mean()) for k, v in train_metric.items()}
+                    wandb.log({"training_step":cur_step, **_metrics}, commit=True)
+
+                epochs.write(
+                    f"Step... ({cur_step} | Loss: {train_metric['loss'].mean()}, Learning Rate: {train_metric['learning_rate'].mean()})"
+                )
+
+                train_metrics = []
+
+            if cur_step % (training_args.eval_steps * grad_accum_steps) == 0 and cur_step > 0:
+                # ======================== Evaluating ==============================
+                eval_metrics = []
+                eval_loader = data_loader(input_rng, eval_dataset, eval_batch_size)
+                eval_steps = len(eval_dataset) // eval_batch_size
+                for _ in tqdm(range(eval_steps), desc="Evaluating...", position=2, leave=False):
+                    # Model forward
+                    batch = next(eval_loader)
+                    metrics = p_eval_step(state.params, batch)
+                    eval_metrics.append(metrics)
+
+                # normalize eval metrics
+                eval_metrics = get_metrics(eval_metrics)
+                eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+
+                try:
+                    eval_metrics["perplexity"] = math.exp(eval_metrics["loss"])
+                except OverflowError:
+                    eval_metrics["perplexity"] = float("inf")
+
+                # Print metrics and update progress bar
+                desc = f"Step... ({cur_step} | Eval Loss: {eval_metrics['loss']} | Eval Perplexity: {eval_metrics['perplexity']})"
+                epochs.write(desc)
+                epochs.desc = desc
+
+                # Save metrics
+                if has_tensorboard and jax.process_index() == 0:
+                    # cur_step = epoch * (len(train_dataset) // train_batch_size)
+                    write_eval_metric(summary_writer, eval_metrics, cur_step)
+                if has_wandb and jax.process_index() == 0 and ("wandb" in training_args.report_to):
+                    _metrics = {f"eval_{k}":mb_item(v) for k, v in eval_metrics.items()}
+                    wandb.log({"eval_step":cur_step, **_metrics})
+
+            if (cur_step % (training_args.save_steps * grad_accum_steps) == 0 and 
+                training_args.save_strategy == IntervalStrategy.STEPS and 
+                cur_step > 0):
+                # save checkpoint after each epoch and push checkpoint to the hub
+                if jax.process_index() == 0:
+                    save_model_checkpoint(model, training_args.output_dir, state, with_opt=model_args.save_optimizer,
+                                          push_to_hub=training_args.push_to_hub)
+                    if training_args.save_total_limit is not None:
+                        rotate_checkpoints(training_args.output_dir, training_args.save_total_limit)
+        
+        if training_args.save_strategy == IntervalStrategy.EPOCH:
+            # save checkpoint after each epoch and push checkpoint to the hub
+            if jax.process_index() == 0:
+                save_model_checkpoint(model, training_args.output_dir, state, with_opt=model_args.save_optimizer,
+                                      push_to_hub=training_args.push_to_hub)
+                if training_args.save_total_limit is not None:
+                    rotate_checkpoints(training_args.output_dir, training_args.save_total_limit)
+
+
+    # save model after training is over
+    if jax.process_index() == 0:
+        save_model_checkpoint(model, training_args.output_dir, state, with_opt=model_args.save_optimizer, push_to_hub=training_args.push_to_hub)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/run_clm_mp_apps.py b/run_clm_mp_apps.py
new file mode 100755
index 0000000..c201010
--- /dev/null
+++ b/run_clm_mp_apps.py
@@ -0,0 +1,636 @@
+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2021 The HuggingFace Team All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Pre-training/Fine-tuning the GPTNeo model for causal language modeling on a text file or a dataset using model parallelism.
+"""
+
+import logging
+import math
+import os
+import sys
+import time
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Callable, Optional
+
+import datasets
+import numpy as np
+from datasets import Dataset, load_dataset
+from tqdm import tqdm
+
+import jax
+import jax.numpy as jnp
+import optax
+import transformers
+from flax.core.frozen_dict import freeze, unfreeze
+from flax.training.common_utils import onehot, stack_forest
+from jax.experimental.maps import mesh
+from jax.experimental.pjit import pjit
+from partitions import set_partitions
+from transformers import (
+    CONFIG_MAPPING,
+    FLAX_MODEL_FOR_CAUSAL_LM_MAPPING,
+    AutoConfig,
+    AutoTokenizer,
+    FlaxAutoModelForCausalLM,
+    HfArgumentParser,
+    TrainingArguments,
+    is_tensorboard_available,
+)
+from transformers.testing_utils import CaptureLogger
+
+
+logger = logging.getLogger(__name__)
+
+MODEL_CONFIG_CLASSES = list(FLAX_MODEL_FOR_CAUSAL_LM_MAPPING.keys())
+MODEL_TYPES = tuple(conf.model_type for conf in MODEL_CONFIG_CLASSES)
+
+
+@dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune, or train from scratch.
+    """
+
+    model_name_or_path: Optional[str] = field(
+        default=None,
+        metadata={
+            "help": "The model checkpoint for weights initialization."
+            "Don't set if you want to train a model from scratch."
+        },
+    )
+    model_type: Optional[str] = field(
+        default=None,
+        metadata={"help": "If training from scratch, pass a model type from the list: " + ", ".join(MODEL_TYPES)},
+    )
+    config_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
+    )
+    tokenizer_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
+    )
+    cache_dir: Optional[str] = field(
+        default=None, metadata={"help": "Where do you want to store the pretrained models downloaded from s3"}
+    )
+    use_fast_tokenizer: bool = field(
+        default=True,
+        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
+    )
+    dtype: Optional[str] = field(
+        default="float32",
+        metadata={
+            "help": "Floating-point format in which the model weights should be initialized and trained. Choose one of `[float32, float16, bfloat16]`."
+        },
+    )
+    from_pt: Optional[bool] = field(
+        default=False,
+         metadata={"help": "Whether the model weights should be converted from pytorch."},
+    )
+
+
+@dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    """
+
+    dataset_name: Optional[str] = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    train_file: Optional[str] = field(default=None, metadata={"help": "The input training data file (a text file)."})
+    validation_file: Optional[str] = field(
+        default=None,
+        metadata={"help": "An optional input evaluation data file to evaluate the perplexity on (a text file)."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of training examples to this "
+            "value if set."
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+            "value if set."
+        },
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    validation_split_percentage: Optional[int] = field(
+        default=5,
+        metadata={
+            "help": "The percentage of the train set used as validation set in case there's no validation split"
+        },
+    )
+    block_size: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": "Optional input sequence length after tokenization. "
+            "The training dataset will be truncated in block of this size for training. "
+            "Default to the model max input length for single sentence inputs (take into account special tokens)."
+        },
+    )
+    overwrite_cache: bool = field(
+        default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}
+    )
+    preprocessing_num_workers: Optional[int] = field(
+        default=None,
+        metadata={"help": "The number of processes to use for the preprocessing."},
+    )
+
+    def __post_init__(self):
+        if self.dataset_name is None and self.train_file is None and self.validation_file is None:
+            raise ValueError("Need either a dataset name or a training/validation file.")
+        else:
+            if self.train_file is not None:
+                extension = self.train_file.split(".")[-1]
+                assert extension in ["csv", "json", "txt"], "`train_file` should be a csv, a json or a txt file."
+            if self.validation_file is not None:
+                extension = self.validation_file.split(".")[-1]
+                assert extension in ["csv", "json", "txt"], "`validation_file` should be a csv, a json or a txt file."
+
+
+def data_loader(rng: jax.random.PRNGKey, dataset: Dataset, batch_size: int, shuffle: bool = False):
+    """
+    Returns batches of size `batch_size` from truncated `dataset`, sharded over all local devices.
+    Shuffle batches if `shuffle` is `True`.
+    """
+    steps_per_epoch = len(dataset) // batch_size
+
+    if shuffle:
+        batch_idx = jax.random.permutation(rng, len(dataset))
+    else:
+        batch_idx = jnp.arange(len(dataset))
+
+    batch_idx = batch_idx[: steps_per_epoch * batch_size]  # Skip incomplete batch.
+    batch_idx = batch_idx.reshape((steps_per_epoch, batch_size))
+
+    for idx in batch_idx:
+        batch = dataset[idx]
+        batch = {k: jnp.array(v) for k, v in batch.items()}
+        yield batch
+
+
+def write_train_metric(summary_writer, train_metrics, train_time, step):
+    summary_writer.scalar("train_time", train_time, step)
+
+    train_metrics = stack_forest(train_metrics)
+    for key, vals in train_metrics.items():
+        tag = f"train_{key}"
+        for i, val in enumerate(vals):
+            summary_writer.scalar(tag, val, step - len(vals) + i + 1)
+
+
+def write_eval_metric(summary_writer, eval_metrics, step):
+    for metric_name, value in eval_metrics.items():
+        summary_writer.scalar(f"eval_{metric_name}", value, step)
+
+
+def create_learning_rate_fn(
+    train_ds_size: int, train_batch_size: int, num_train_epochs: int, num_warmup_steps: int, learning_rate: float
+) -> Callable[[int], jnp.array]:
+    """Returns a linear warmup, linear_decay learning rate function."""
+    steps_per_epoch = train_ds_size // train_batch_size
+    num_train_steps = steps_per_epoch * num_train_epochs
+    warmup_fn = optax.linear_schedule(init_value=0.0, end_value=learning_rate, transition_steps=num_warmup_steps)
+    decay_fn = optax.linear_schedule(
+        init_value=learning_rate, end_value=0, transition_steps=num_train_steps - num_warmup_steps
+    )
+    schedule_fn = optax.join_schedules(schedules=[warmup_fn, decay_fn], boundaries=[num_warmup_steps])
+    return schedule_fn
+
+
+def main():
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, TrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+
+    if (
+        os.path.exists(training_args.output_dir)
+        and os.listdir(training_args.output_dir)
+        and training_args.do_train
+        and not training_args.overwrite_output_dir
+    ):
+        raise ValueError(
+            f"Output directory ({training_args.output_dir}) already exists and is not empty."
+            "Use --overwrite_output_dir to overcome."
+        )
+
+    # Make one log on every process with the configuration for debugging.
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        level=logging.INFO,
+    )
+    # Setup logging, we only want one process per machine to log things on the screen.
+    logger.setLevel(logging.INFO if jax.process_index() == 0 else logging.ERROR)
+    if jax.process_index() == 0:
+        datasets.utils.logging.set_verbosity_warning()
+        transformers.utils.logging.set_verbosity_info()
+    else:
+        datasets.utils.logging.set_verbosity_error()
+        transformers.utils.logging.set_verbosity_error()
+
+    # Set the verbosity to info of the Transformers logger (on main process only):
+    logger.info(f"Training/evaluation parameters {training_args}")
+
+    # Get the datasets: you can either provide your own CSV/JSON/TXT training and evaluation files (see below)
+    # or just provide the name of one of the public datasets available on the hub at https://huggingface.co/datasets/
+    # (the dataset will be downloaded automatically from the datasets Hub).
+    #
+    # For CSV/JSON files, this script will use the column called 'text' or the first column if no column called
+    # 'text' is found. You can easily tweak this behavior (see below).
+    if data_args.dataset_name is not None:
+        # Downloading and loading a dataset from the hub.
+        dataset = load_dataset(
+            data_args.dataset_name, data_args.dataset_config_name, cache_dir=model_args.cache_dir, keep_in_memory=False
+        )
+
+        if "validation" not in dataset.keys():
+            dataset["validation"] = load_dataset(
+                data_args.dataset_name,
+                data_args.dataset_config_name,
+                split=f"train[:{data_args.validation_split_percentage}%]",
+                cache_dir=model_args.cache_dir,
+            )
+            dataset["train"] = load_dataset(
+                data_args.dataset_name,
+                data_args.dataset_config_name,
+                split=f"train[{data_args.validation_split_percentage}%:]",
+                cache_dir=model_args.cache_dir,
+            )
+    else:
+        data_files = {}
+        if data_args.train_file is not None:
+            data_files["train"] = data_args.train_file
+        if data_args.validation_file is not None:
+            data_files["validation"] = data_args.validation_file
+        extension = data_args.train_file.split(".")[-1]
+        if extension == "txt":
+            extension = "text"
+        dataset = load_dataset(extension, data_files=data_files, cache_dir=model_args.cache_dir)
+    # See more about loading any type of standard or custom dataset (from files, python dict, pandas DataFrame, etc) at
+    # https://huggingface.co/docs/datasets/loading_datasets.html.
+
+    # Load pretrained config and tokenizer
+    if model_args.config_name:
+        config = AutoConfig.from_pretrained(model_args.config_name, cache_dir=model_args.cache_dir)
+    elif model_args.model_name_or_path:
+        config = AutoConfig.from_pretrained(model_args.model_name_or_path, cache_dir=model_args.cache_dir)
+    else:
+        config = CONFIG_MAPPING[model_args.model_type]()
+        logger.warning("You are instantiating a new config instance from scratch.")
+
+    if model_args.tokenizer_name:
+        tokenizer = AutoTokenizer.from_pretrained(
+            model_args.tokenizer_name, cache_dir=model_args.cache_dir, use_fast=model_args.use_fast_tokenizer
+        )
+    elif model_args.model_name_or_path:
+        tokenizer = AutoTokenizer.from_pretrained(
+            model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=model_args.use_fast_tokenizer
+        )
+    else:
+        raise ValueError(
+            "You are instantiating a new tokenizer from scratch. This is not supported by this script."
+            "You can do it from another script, save it, and load it from here, using --tokenizer_name."
+        )
+
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+
+    if training_args.do_train:
+        column_names = dataset["train"].column_names
+    else:
+        column_names = dataset["validation"].column_names
+    text_column_name = "text" if "text" in column_names else column_names[0]
+
+
+    if data_args.block_size is None:
+        block_size = tokenizer.model_max_length
+        if block_size > config.max_position_embeddings:
+            logger.warning(
+                f"The tokenizer picked seems to have a very large `model_max_length` ({tokenizer.model_max_length}). "
+                "Picking 1024 instead. You can change that default value by passing --block_size xxx."
+            )
+            block_size = 1024
+    else:
+        if data_args.block_size > tokenizer.model_max_length:
+            logger.warning(
+                f"The block_size passed ({data_args.block_size}) is larger than the maximum length for the model"
+                f"({tokenizer.model_max_length}). Using block_size={tokenizer.model_max_length}."
+            )
+        block_size = min(data_args.block_size, tokenizer.model_max_length)
+
+        
+    def tokenize_function(examples):
+        toks = tokenizer(examples["question"],
+                         examples["answer"], 
+                         max_length=block_size,
+                         padding="max_length",
+                         truncation=True, 
+                         return_token_type_ids=True,
+                        #  return_tensors="np",
+                         )
+        labels = toks["input_ids"].copy()
+        toks["labels"] = labels
+        return toks
+
+
+    lm_datasets = dataset.map(
+        tokenize_function,
+        batched=True,
+        num_proc=data_args.preprocessing_num_workers,
+        remove_columns=column_names,
+        load_from_cache_file=not data_args.overwrite_cache,
+    )
+
+
+    if training_args.do_train:
+        if "train" not in lm_datasets:
+            raise ValueError("--do_train requires a train dataset")
+        train_dataset = lm_datasets["train"]
+        if data_args.max_train_samples is not None:
+            train_dataset = train_dataset.select(range(data_args.max_train_samples))
+
+    if training_args.do_eval:
+        if "validation" not in lm_datasets:
+            raise ValueError("--do_eval requires a validation dataset")
+        eval_dataset = lm_datasets["validation"]
+        if data_args.max_eval_samples is not None:
+            eval_dataset = eval_dataset.select(range(data_args.max_eval_samples))
+
+    # Enable tensorboard only on the master node
+    has_tensorboard = is_tensorboard_available()
+    if has_tensorboard and jax.process_index() == 0:
+        try:
+            from flax.metrics.tensorboard import SummaryWriter
+
+            summary_writer = SummaryWriter(log_dir=Path(training_args.output_dir))
+        except ImportError as ie:
+            has_tensorboard = False
+            logger.warning(
+                f"Unable to display metrics through TensorBoard because some package are not installed: {ie}"
+            )
+    else:
+        logger.warning(
+            "Unable to display metrics through TensorBoard because the package is not installed: "
+            "Please run pip install tensorboard to enable."
+        )
+
+    # Initialize our training
+    rng = jax.random.PRNGKey(training_args.seed)
+    rng, dropout_rng = jax.random.split(rng)
+
+    # Store some constant
+    num_epochs = int(training_args.num_train_epochs)
+    train_batch_size = int(training_args.per_device_train_batch_size) * jax.device_count()
+    eval_batch_size = int(training_args.per_device_eval_batch_size) * jax.device_count()
+    steps_per_epoch = len(train_dataset) // train_batch_size
+    total_train_steps = steps_per_epoch * num_epochs
+
+    # TODO: weights should be initialized in pjitted fun, this won't work for REALLY large models
+    # TODO: when loading from pre-trained model we need to make sure the vocab is divisible by num_partitions
+    # GPT2's vocab is odd, we need to resize it for fine-tuning
+    model = FlaxAutoModelForCausalLM.from_pretrained(
+        model_args.model_name_or_path, seed=training_args.seed, dtype=getattr(jnp, model_args.dtype), from_pt=model_args.from_pt,
+    )
+
+    # Create learning rate schedule
+    linear_decay_lr_schedule_fn = create_learning_rate_fn(
+        len(train_dataset),
+        train_batch_size,
+        training_args.num_train_epochs,
+        training_args.warmup_steps,
+        training_args.learning_rate,
+    )
+
+    if training_args.adafactor:
+        optimizer = optax.adafactor(
+            learning_rate=linear_decay_lr_schedule_fn,
+        )
+    else:
+        optimizer = optax.adamw(
+            learning_rate=linear_decay_lr_schedule_fn,
+            b1=training_args.adam_beta1,
+            b2=training_args.adam_beta2,
+            eps=training_args.adam_epsilon,
+            weight_decay=training_args.weight_decay,
+        )
+
+    def get_initial_state(params):
+        state = optimizer.init(params)
+        return tuple(state), params
+
+    # Get PartitionSpec for model params
+    param_spec = set_partitions(unfreeze(model.params))
+
+    # Get the PyTree for opt_state, we don't actually initialize the opt_state yet.
+    params_shapes = jax.tree_map(lambda x: x.shape, model.params)
+    state_shapes = jax.eval_shape(get_initial_state, params_shapes)
+
+    # get PartitionSpec for opt_state, this is very specific to adamw
+    # TODO: optax returns different state for different optimizers, how can we handle this generically ?
+    # or maybe we don't since in our examples we just use adamw or adafactor
+    def get_opt_spec(x):
+        if isinstance(x, dict):
+            return param_spec
+        return None
+
+    opt_state_spec, param_spec = jax.tree_map(
+        get_opt_spec, state_shapes, is_leaf=lambda x: isinstance(x, (dict, optax.EmptyState))
+    )
+
+    # pjit the get_initial_state function to shard params and init
+    # optimizer state in sharded way
+    p_get_initial_state = pjit(
+        get_initial_state,
+        in_axis_resources=None,
+        out_axis_resources=(opt_state_spec, param_spec),
+    )
+
+    # hack: move the inital params to CPU to free up device memory
+    # TODO: allow loading weights on CPU in pre-trained model
+    model.params = jax.tree_map(lambda x: np.asarray(x), model.params)
+
+    # mesh defination
+    mesh_devices = np.array(jax.devices()).reshape(1, jax.local_device_count())
+
+    # actually initialize the opt_state
+    with mesh(mesh_devices, ("dp", "mp")):
+        opt_state, params = p_get_initial_state(freeze(model.params))
+
+    # cross-entropy with z loss
+    def loss_fn(logits, labels, z_loss=0):
+        shift_logits = logits[..., :-1, :]
+        shift_labels = labels[..., 1:]
+
+        shift_labels = onehot(shift_labels, shift_logits.shape[-1])
+
+        shift_logits = shift_logits - jax.lax.stop_gradient(shift_logits.max(axis=-1, keepdims=True))
+        log_z = jnp.log(jnp.sum(jnp.exp(shift_logits), axis=-1, keepdims=True))
+        log_softmax = shift_logits - log_z
+        loss = -jnp.sum(shift_labels * log_softmax, axis=-1)
+
+        loss += (1e-4 * jnp.square(log_z.squeeze(-1))) * z_loss
+
+        return loss.mean()
+
+    # Define gradient update step fn
+    # TODO: try to use TrainState instead of passing params and opt_state individually
+    def train_step(params, opt_state, dropout_rng, batch, step):
+        dropout_rng, new_dropout_rng = jax.random.split(dropout_rng)
+
+        def compute_loss(params):
+            labels = batch.pop("labels")
+            # TODO: mask question in loss_func
+            token_type_ids = batch.pop('token_type_ids')
+            logits = model(**batch, params=params, dropout_rng=dropout_rng, train=True)[0]
+            loss = loss_fn(logits, labels, z_loss=1.0)
+            return loss
+
+        grad_fn = jax.value_and_grad(compute_loss)
+        loss, grads = grad_fn(params)
+
+        updates, new_opt_state = optimizer.update(grads, opt_state, params)
+        new_params = optax.apply_updates(params, updates)
+
+        metrics = {"loss": loss, "learning_rate": linear_decay_lr_schedule_fn(step)}
+        return new_params, tuple(new_opt_state), new_dropout_rng, metrics, step + 1
+
+    # Define eval fn
+    def eval_step(input_ids, labels, params):
+        logits = model(input_ids=input_ids, params=params, train=False)[0]
+        loss = loss_fn(logits, labels)
+        # metrics
+        return {"loss": loss}
+
+    p_train_step = pjit(
+        train_step,
+        in_axis_resources=(param_spec, opt_state_spec, None, None, None),
+        out_axis_resources=(param_spec, opt_state_spec, None, None, None),
+        donate_argnums=(0, 1),
+    )
+
+    p_eval_step = pjit(
+        eval_step,
+        in_axis_resources=(None, None, param_spec),
+        out_axis_resources=None,
+    )
+
+    logger.info("***** Running training *****")
+    logger.info(f"  Num examples = {len(train_dataset)}")
+    logger.info(f"  Num Epochs = {num_epochs}")
+    logger.info(f"  Instantaneous batch size per device = {training_args.per_device_train_batch_size}")
+    logger.info(f"  Total train batch size (w. parallel & distributed) = {train_batch_size}")
+    logger.info(f"  Total optimization steps = {total_train_steps}")
+
+    train_time = 0
+    train_metrics = []
+    epochs = tqdm(range(num_epochs), desc=f"Epoch ... (1/{num_epochs})", position=0)
+    global_step = 0
+    # we are not doing 2D parallelism (yet!), this just does model parallelism
+    with mesh(mesh_devices, ("dp", "mp")):
+        for _ in epochs:
+            # ======================== Training ================================
+            train_start = time.time()
+
+            # Create sampling rng
+            rng, input_rng = jax.random.split(rng)
+
+            # Generate an epoch by shuffling sampling indices from the train dataset
+            train_metrics = []
+            train_loader = data_loader(input_rng, train_dataset, train_batch_size, shuffle=True)
+            steps_per_epoch = len(train_dataset) // train_batch_size
+
+            # train
+            for _ in tqdm(range(steps_per_epoch), desc="Training...", position=1, leave=False):
+                batch = next(train_loader)
+
+                params, opt_state, dropout_rng, train_metric, global_step = p_train_step(
+                    params,
+                    opt_state,
+                    dropout_rng,
+                    batch,
+                    global_step,
+                )
+                train_metrics.append(train_metric)
+
+                cur_step = global_step
+
+                if cur_step % training_args.logging_steps == 0 and cur_step > 0:
+                    # Save metrics
+                    train_time += time.time() - train_start
+                    if has_tensorboard and jax.process_index() == 0:
+                        write_train_metric(summary_writer, train_metrics, train_time, cur_step)
+
+                    epochs.write(
+                        f"Step... ({cur_step} | Loss: {train_metric['loss']}, Learning Rate: {train_metric['learning_rate']})"
+                    )
+
+                    train_metrics = []
+
+                if cur_step % training_args.eval_steps == 0 and cur_step > 0:
+                    # ======================== Evaluating ==============================
+                    eval_metrics = []
+                    eval_loader = data_loader(input_rng, eval_dataset, eval_batch_size)
+                    eval_steps = len(eval_dataset) // eval_batch_size
+
+                    for _ in tqdm(range(eval_steps), desc="Evaluating...", position=2, leave=False):
+                        batch = next(eval_loader)
+                        metrics = p_eval_step(batch["input_ids"], batch["labels"], params)
+                        eval_metrics.append(metrics)
+
+                    # normalize eval metrics
+                    eval_metrics = stack_forest(eval_metrics)
+                    eval_metrics = jax.tree_map(jnp.mean, eval_metrics)
+
+                    try:
+                        eval_metrics["perplexity"] = math.exp(eval_metrics["loss"])
+                    except OverflowError:
+                        eval_metrics["perplexity"] = float("inf")
+
+                    logger.info(
+                        f"Step... ({cur_step} | Eval loss: {eval_metrics['loss']} | Eval Perplexity: {eval_metrics['perplexity']}"
+                    )
+
+                if cur_step % training_args.save_steps == 0 and cur_step > 0:
+                    # save checkpoint after each epoch and push checkpoint to the hub
+                    if jax.process_index() == 0:
+                        params = jax.device_get(params)
+                        model.save_pretrained(
+                            training_args.output_dir,
+                            params=params,
+                            push_to_hub=training_args.push_to_hub,
+                            commit_message=f"Saving weights and logs of step {cur_step}",
+                        )
+
+
+if __name__ == "__main__":
+    main()
diff --git a/run_clm_streaming.sh b/run_clm_streaming.sh
index b0cf84b..0f1e917 100644
--- a/run_clm_streaming.sh
+++ b/run_clm_streaming.sh
@@ -1,16 +1,16 @@
 #! /bin/bash
 ./run_clm_streaming_flax_v2.py \
-    --output_dir $HOME/gpt-neo-125M-test \
-    --model_name_or_path="EleutherAI/gpt-neo-125M" \
+    --output_dir $HOME/gpt-neo-13B-test \
+    --model_name_or_path EleutherAI/gpt-neo-1.3B \
     --dataset_name $HOME/gpt-code-clippy/code_clippy.py \
-    --data_dir /home/shared/code-clippy-dataset/merged-data \
+    --data_dir /home/arto/exdata/merged-data \
     --text_column_name="text" \
     --do_train --do_eval \
-    --block_size="2048" \
-    --per_device_train_batch_size="8" \
-    --per_device_eval_batch_size="16" \
+    --block_size="1024" \
+    --per_device_train_batch_size="1" \
+    --per_device_eval_batch_size="2" \
     --preprocessing_num_workers="8" \
-    --learning_rate="6e-4" \
+    --learning_rate="1e-4" \
     --max_steps 500 \
     --warmup_steps 150 \
     --decay_steps 250 \
@@ -26,9 +26,9 @@
     --skip_memory_metrics="False" \
     --save_steps="50" \
     --save_total_limit 2 \
-    --gradient_accumulation_steps 8 \
+    --gradient_accumulation_steps 1 \
     --report_to="wandb" \
-    --run_name="testing-mini" \
+    --run_name="testing" \
     --max_eval_samples 100 \
     --save_optimizer true \
     # --adafactor \

From e2240fe9109a0176383d5b5356dec60f5417ccb7 Mon Sep 17 00:00:00 2001
From: Mrinal18 <mrinalmathur180796@gmail.com>
Date: Fri, 16 Jul 2021 11:48:10 +0000
Subject: [PATCH 4/4] gradient accumulation for APPS

---
 run_clm_streaming_flax_v2.py | 29 +++++++++++++++++++++++++++++
 1 file changed, 29 insertions(+)

diff --git a/run_clm_streaming_flax_v2.py b/run_clm_streaming_flax_v2.py
index ee9e63b..9f851f8 100755
--- a/run_clm_streaming_flax_v2.py
+++ b/run_clm_streaming_flax_v2.py
@@ -670,6 +670,34 @@ def loss_fn(logits, labels):
         loss = optax.softmax_cross_entropy(shift_logits, onehot(shift_labels, shift_logits.shape[-1]))
         return loss.mean()
 
+    #Function to write gradient checkpointing using Jax
+    #https://github.com/cybertronai/gradient-checkpointing
+
+    def binomial_checkpoint(step, state):
+        
+    #gradient accumulation
+    def accumulate_gradient(loss_and_grad_fn, params, inputs, labels, accum_steps):
+        """Accumulate gradient over multiple steps to save on memory."""
+        if accum_steps and accum_steps > 1:
+            assert inputs.shape[0] % accum_steps == 0, (
+                f'Bad accum_steps {accum_steps} for batch size {inputs.shape[0]}')
+            step_size = inputs.shape[0] // accum_steps
+            (l, _), g = loss_and_grad_fn(params, inputs[:step_size], labels[:step_size])
+
+            def acc_grad_and_loss(i, l_and_g):
+                inps = jax.lax.dynamic_slice(inputs, (i * step_size, 0),
+                                            (step_size,) + inputs.shape[1:])
+                lbls = jax.lax.dynamic_slice(labels[..., jnp.newaxis], (i * step_size, 1),
+                                            (step_size, 1)).squeeze(axis=-1)
+                (li, _), gi = loss_and_grad_fn(params, inps, lbls)
+                l, g = l_and_g
+                return l + li, jax.tree_multimap(lambda x, y: x + y, g, gi)
+
+            l, g = jax.lax.fori_loop(1, accum_steps, acc_grad_and_loss, (l, g))
+            l, g = jax.tree_map(lambda x: x / accum_steps, (l, g))
+            return l, g 
+        else:
+            return loss_and_grad_fn(params, inputs, labels)
     # Define gradient update step fn
     def train_step(state, batch):
         dropout_rng, new_dropout_rng = jax.random.split(state.dropout_rng)
@@ -682,6 +710,7 @@ def compute_loss(params):
 
         grad_fn = jax.value_and_grad(compute_loss)
         loss, grad = grad_fn(state.params)
+        accumulate_gradient(grad_fn, state.params, batch, batch["labels"], grad_accum_steps)
         grad = jax.lax.pmean(grad, "batch")
 
         new_state = state.apply_gradients(grads=grad, dropout_rng=new_dropout_rng)