delete max_batch_size

PaddlePaddle · Feb 22, 2025 · d824c2a · d824c2a
1 parent b425f74
commit d824c2a
Show file tree

Hide file tree

Showing 3 changed files with 2 additions and 7 deletions.
diff --git a/llm/predict/predictor.py b/llm/predict/predictor.py
@@ -111,9 +111,6 @@ class PredictorArgument:
         metadata={"help": "avx cachekv type. Supported values: fp16,int8"},
     )
     batch_size: int = field(default=1, metadata={"help": "The batch size of data."})
-    max_batch_size: int = field(
-        default=1, metadata={"help": "The max batch size of data used for export static model."}
-    )
     benchmark: bool = field(
         default=False,
         metadata={
@@ -179,8 +176,6 @@ def __post_init__(self):
         assert (
             self.src_length + self.max_length <= self.total_max_length
         ), "src_length + max_length should smaller than total_max_length."
-        if self.max_batch_size < self.batch_size:
-            self.max_batch_size = self.batch_size
 
 
 @dataclass

diff --git a/paddlenlp/experimental/transformers/deepseek_v2/modeling.py b/paddlenlp/experimental/transformers/deepseek_v2/modeling.py
@@ -486,7 +486,8 @@ def __init__(self, config: DeepseekV2Config, base_model_prefix: str):
         self.prefill_cache_k_buffer: paddle.Tensor = None
         self.prefill_cache_v_buffer: paddle.Tensor = None
         if self.config.mla_use_matrix_absorption:
-            max_block_nums = config.max_batch_size * (self.max_seq_len + config.block_size - 1) // config.block_size
+            max_batch_size = 1
+            max_block_nums = max_batch_size * (self.max_seq_len + config.block_size - 1) // config.block_size
             cache_k_shape = [
                 max_block_nums,
                 config.num_key_value_heads // max(config.tensor_parallel_degree, 1),

diff --git a/paddlenlp/transformers/model_utils.py b/paddlenlp/transformers/model_utils.py
@@ -1172,7 +1172,6 @@ def set_inference_config(cls, config, predictor_args, **kwargs):
         config.append_attn = predictor_args.append_attn
         config.decode_strategy = predictor_args.decode_strategy
         config.mla_use_matrix_absorption = predictor_args.mla_use_matrix_absorption
-        config.max_batch_size = predictor_args.max_batch_size
         config.weightonly_group_size = predictor_args.weightonly_group_size
 
         if config.quantization_config.quant_type is not None: