recover neuralchat ut

VincyZhang · VincyZhang · commit 4870a780588e · 2023-11-07T18:10:32.000+08:00
diff --git a/intel_extension_for_transformers/neural_chat/tests/optimization/test_optimization.py b/intel_extension_for_transformers/neural_chat/tests/optimization/test_optimization.py
@@ -42,11 +42,9 @@ def test_build_chatbot_with_AMP(self):
         print("\n")
         self.assertIsNotNone(response)
 
-    def test_build_chatbot_with_llm_runtime(self):
-        loading_config = LoadingModelConfig(use_llm_runtime=True)
+    def test_build_chatbot_with_weight_only_quant(self):
         config = PipelineConfig(model_name_or_path="facebook/opt-125m",
-            optimization_config=WeightOnlyQuantConfig(compute_dtype="int8", weight_dtype="int8"),
-            loading_config=loading_config
+            optimization_config=WeightOnlyQuantizationConfig()
         )
         chatbot = build_chatbot(config)
         self.assertIsNotNone(chatbot)
@@ -72,18 +70,5 @@ def test_build_chatbot_with_bitsandbytes_quant(self):
             print(response)
             self.assertIsNotNone(response)
 
-    # run this case will cause core dump
-    # def test_build_chatbot_with_weight_only_quant(self):
-    #     loading_config = LoadingModelConfig(use_llm_runtime=False)
-    #     config = PipelineConfig(model_name_or_path="facebook/opt-125m",
-    #         optimization_config=WeightOnlyQuantConfig(compute_dtype="fp32", weight_dtype="int4_fullrange"),
-    #         loading_config=loading_config
-    #     )
-    #     chatbot = build_chatbot(config)
-    #     self.assertIsNotNone(chatbot)
-    #     response = chatbot.predict(query="Tell me about Intel Xeon Scalable Processors.")
-    #     print(response)
-    #     self.assertIsNotNone(response)
-
 if __name__ == '__main__':
     unittest.main()