carsonkahn-external
diff --git a/‎.gitignore
+1-2 b/‎.gitignore
+1-2
diff --git a/‎dmn_basic.py
+35-23 b/‎dmn_basic.py
+35-23
diff --git a/‎dmn_batch.py
+13-18 b/‎dmn_batch.py
+13-18
diff --git a/‎dmn_qa.py renamed to ‎dmn_qa_draft.py
+3-4 b/‎dmn_qa.py renamed to ‎dmn_qa_draft.py
+3-4
@@ -5,8 +5,7 @@ old*
 states/*
 logs/*
 nesterov*
-change_19_task.py
 *debug*
 *.state
 *.sh
-for5*
+*deploy*
@@ -20,8 +20,9 @@ class DMN_basic:
 
     def __init__(self, babi_train_raw, babi_test_raw, word2vec, word_vector_size, 
                 dim, mode, answer_module, input_mask_mode, memory_hops, l2, 
-                normalize_attention):
-        
+                normalize_attention, **kwargs):
+
+        print "==> not used params in DMN class:", kwargs.keys()
         self.vocab = {}
         self.ivocab = {}
 
@@ -85,11 +86,11 @@ def __init__(self, babi_train_raw, babi_test_raw, word2vec, word_vector_size,
         self.b_mem_hid = nn_utils.constant_param(value=0.0, shape=(self.dim,))
 
         self.W_b = nn_utils.normal_param(std=0.1, shape=(self.dim, self.dim))
-        self.W_1 = nn_utils.normal_param(std=0.1, shape=(self.dim, 7 * self.dim + 0))
+        self.W_1 = nn_utils.normal_param(std=0.1, shape=(self.dim, 7 * self.dim + 2))
         self.W_2 = nn_utils.normal_param(std=0.1, shape=(1, self.dim))
         self.b_1 = nn_utils.constant_param(value=0.0, shape=(self.dim,))
         self.b_2 = nn_utils.constant_param(value=0.0, shape=(1,))
-
+        
 
         print "==> building episodic memory module (fixed number of steps: %d)" % self.memory_hops
         memory = [self.q_q.copy()]
@@ -147,8 +148,8 @@ def answer_step(prev_a, prev_y):
                   self.W_inp_hid_in, self.W_inp_hid_hid, self.b_inp_hid,
                   self.W_mem_res_in, self.W_mem_res_hid, self.b_mem_res, 
                   self.W_mem_upd_in, self.W_mem_upd_hid, self.b_mem_upd,
-                  self.W_mem_hid_in, self.W_mem_hid_hid, self.b_mem_hid, #self.W_b
-                  self.W_1, self.W_2, self.b_1, self.b_2, self.W_a]
+                  self.W_mem_hid_in, self.W_mem_hid_hid, self.b_mem_hid,
+                  self.W_b, self.W_1, self.W_2, self.b_1, self.b_2, self.W_a]
 
         if self.answer_module == 'recurrent':
             self.params = self.params + [self.W_ans_res_in, self.W_ans_res_hid, self.b_ans_res, 
@@ -157,9 +158,7 @@ def answer_step(prev_a, prev_y):
 
 
         print "==> building loss layer and computing updates"
-        self.loss_ce = T.nnet.categorical_crossentropy(self.prediction.dimshuffle('x', 0), 
-                                                       T.stack([self.answer_var]))[0]
-
+        self.loss_ce = T.nnet.categorical_crossentropy(self.prediction.dimshuffle('x', 0), T.stack([self.answer_var]))[0]
         if self.l2 > 0:
             self.loss_l2 = self.l2 * nn_utils.l2_reg(self.params)
         else:
@@ -172,14 +171,19 @@ def answer_step(prev_a, prev_y):
         if self.mode == 'train':
             print "==> compiling train_fn"
             self.train_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, self.input_mask_var], 
-                                            outputs=[self.prediction, self.loss],
-                                            updates=updates)
+                                       outputs=[self.prediction, self.loss],
+                                       updates=updates)
 
         print "==> compiling test_fn"
         self.test_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, self.input_mask_var],
-                                       outputs=[self.prediction, self.loss, self.inp_c, 
-                                                self.q_q, last_mem])
+                                  outputs=[self.prediction, self.loss, self.inp_c, self.q_q, last_mem])
+        
 
+        if self.mode == 'train':
+            print "==> computing gradients (for debugging)"
+            gradient = T.grad(self.loss, self.params)
+            self.get_gradient_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, self.input_mask_var], outputs=gradient)
+
 
     def GRU_update(self, h, x, W_res_in, W_res_hid, b_res,
                          W_upd_in, W_upd_hid, b_upd,
@@ -205,12 +209,12 @@ def input_gru_step(self, x, prev_h):
         return self.GRU_update(prev_h, x, self.W_inp_res_in, self.W_inp_res_hid, self.b_inp_res, 
                                      self.W_inp_upd_in, self.W_inp_upd_hid, self.b_inp_upd,
                                      self.W_inp_hid_in, self.W_inp_hid_hid, self.b_inp_hid)
-
+    
 
     def new_attention_step(self, ct, prev_g, mem, q_q):
-        #cWq = T.stack([T.dot(T.dot(ct, self.W_b), q_q)])
-        #cWm = T.stack([T.dot(T.dot(ct, self.W_b), mem)])
-        z = T.concatenate([ct, mem, q_q, ct * q_q, ct * mem, (ct - q_q) ** 2, (ct - mem) ** 2])#, cWq, cWm])
+        cWq = T.stack([T.dot(T.dot(ct, self.W_b), q_q)])
+        cWm = T.stack([T.dot(T.dot(ct, self.W_b), mem)])
+        z = T.concatenate([ct, mem, q_q, ct * q_q, ct * mem, T.abs_(ct - q_q), T.abs_(ct - mem), cWq, cWm])
 
         l_1 = T.dot(self.W_1, z) + self.b_1
         l_1 = T.tanh(l_1)
@@ -318,14 +322,14 @@ def get_batches_per_epoch(self, mode):
             return len(self.test_input)
         else:
             raise Exception("unknown mode")
-
+    
 
     def shuffle_train_set(self):
         print "==> Shuffling the train set"
         combined = zip(self.train_input, self.train_q, self.train_answer, self.train_input_mask)
         random.shuffle(combined)
         self.train_input, self.train_q, self.train_answer, self.train_input_mask = zip(*combined)
-    
+        
 
     def step(self, batch_index, mode):
         if mode == "train" and self.mode == "test":
@@ -354,18 +358,26 @@ def step(self, batch_index, mode):
         skipped = 0
         grad_norm = float('NaN')
 
+        if mode == 'train':
+            gradient_value = self.get_gradient_fn(inp, q, ans, input_mask)
+            grad_norm = np.max([utils.get_norm(x) for x in gradient_value])
+            
+            if (np.isnan(grad_norm)):
+                print "==> gradient is nan at index %d." % batch_index
+                print "==> skipping"
+                skipped = 1
+        
         if skipped == 0:
             ret = theano_fn(inp, q, ans, input_mask)
         else:
-            ret = [float('NaN'), float('NaN')]
+            ret = [-1, -1]
 
         param_norm = np.max([utils.get_norm(x.get_value()) for x in self.params])
 
         return {"prediction": np.array([ret[0]]),
                 "answers": np.array([ans]),
                 "current_loss": ret[1],
                 "skipped": skipped,
-                "grad_norm": grad_norm,
-                "param_norm": param_norm,
-                "log": "",
+                "log": "pn: %.3f \t gn: %.3f" % (param_norm, grad_norm)
                 }
+        
@@ -19,7 +19,9 @@ class DMN_batch:
 
     def __init__(self, babi_train_raw, babi_test_raw, word2vec, word_vector_size, dim, 
                 mode, answer_module, input_mask_mode, memory_hops, batch_size, l2,
-                normalize_attention):
+                normalize_attention, **kwargs):
+        
+        print "==> not used params in DMN class:", kwargs.keys()
 
         self.vocab = {}
         self.ivocab = {}
@@ -186,13 +188,15 @@ def answer_step(prev_a, prev_y):
 
         if self.mode == 'train':
             print "==> compiling train_fn"
-            self.train_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, self.fact_count_var, self.input_mask_var], 
-                                       outputs=[self.prediction, self.loss],
-                                       updates=updates)
+            self.train_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, 
+                                                    self.fact_count_var, self.input_mask_var], 
+                                            outputs=[self.prediction, self.loss],
+                                            updates=updates)
 
         print "==> compiling test_fn"
-        self.test_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, self.fact_count_var, self.input_mask_var],
-                                  outputs=[self.prediction, self.loss, self.inp_c, self.q_q, last_mem])
+        self.test_fn = theano.function(inputs=[self.input_var, self.q_var, self.answer_var, 
+                                               self.fact_count_var, self.input_mask_var],
+                                       outputs=[self.prediction, self.loss])
 
 
 
@@ -421,22 +425,13 @@ def step(self, batch_index, mode):
         fact_count = fact_counts[start_index:start_index+self.batch_size]
         input_mask = input_masks[start_index:start_index+self.batch_size]
 
-        skipped = 0
-        grad_norm = float('NaN')
-        
-        if skipped == 0:
-            ret = theano_fn(inp, q, ans, fact_count, input_mask)
-        else:
-            ret = [float('NaN'), float('NaN')]
-        
+        ret = theano_fn(inp, q, ans, fact_count, input_mask)
         param_norm = np.max([utils.get_norm(x.get_value()) for x in self.params])
 
         return {"prediction": ret[0],
                 "answers": ans,
                 "current_loss": ret[1],
-                "skipped": skipped,
-                "grad_norm": grad_norm,
-                "param_norm": param_norm,
-                "log": "",
+                "skipped": 0,
+                "log": "pn: %.3f" % param_norm,
                 }
 
@@ -17,8 +17,9 @@
 class DMN_qa:
 
     def __init__(self, babi_train_raw, babi_test_raw, word2vec, word_vector_size, 
-                dim, mode, input_mask_mode, memory_hops, l2, normalize_attention):
+                dim, mode, input_mask_mode, memory_hops, l2, normalize_attention, **kwargs):
 
+        print "==> not used params in DMN class:", kwargs.keys()
         self.vocab = {}
         self.ivocab = {}
 
@@ -423,9 +424,7 @@ def step(self, batch_index, mode):
                 "answers": np.array([ans]),
                 "current_loss": ret[1],
                 "skipped": skipped,
-                "grad_norm": grad_norm,
-                "param_norm": param_norm,
-                "log": "",
+                "log": "pn: %.3f \t gn: %.3f" % (param_norm, grad_norm)
                 }