fix acc bug

LookAround0301 · LookAround0301 · commit a16bf4a5c699 · 2025-11-12T21:19:35.000+08:00
Signed-off-by: LookAround &lt;lixushi@huawei.com&gt;
diff --git a/vllm_ascend/attention/utils.py b/vllm_ascend/attention/utils.py
@@ -20,13 +20,6 @@ class AscendPrefillContextParallelMetadata:
 
     num_computed_tokens_of_pcp_dcp: Optional[list[list[list[int]]]] = None
 
-    local_chunked_kv_lens: Optional[list[Optional[list[Optional[list[Optional[
-        list[int]]]]]]]] = None
-
-    mask_for_non_zero_chunk: Optional[List[bool]] = None
-
-    max_chunk_num: int = 0
-
     q_head_idx_tensor: torch.Tensor = None
 
     q_tail_idx_tensor: torch.Tensor = None
@@ -115,23 +108,6 @@ class AscendCommonAttentionMetadata:
         AscendPrefillContextParallelMetadata] = None
 
 
-def extract_req_dcp_by_chunk_pcp(lst,
-                                 chunk_idx,
-                                 dcp_size,
-                                 pcp_rank,
-                                 fill_value=0):
-    num_reqs = len(lst)
-    results: List[List[int]] = []
-    for i in range(num_reqs):
-        if len(lst[i]) == 0 or chunk_idx >= len(lst[i]):
-            # empty req or this req has no corresponding chunk, fill 0
-            results.append([fill_value] * dcp_size)
-            continue
-        dcp_values = lst[i][chunk_idx][pcp_rank]
-        results.append(dcp_values)
-    return results
-
-
 def filter_chunked_req_indices(
     seq_len: torch.Tensor,
     mask_for_non_zero_chunk: Optional[List[bool]],
diff --git a/vllm_ascend/worker/npu_input_batch.py b/vllm_ascend/worker/npu_input_batch.py
@@ -73,12 +73,6 @@ class CachedRequestState:
     lora_request: Optional[LoRARequest] = None
     prompt_embeds: Optional[torch.Tensor] = None
 
-    # pcp/dcp param
-    local_chunked_kv_lens: Optional[list[Optional[list[Optional[
-        list[int]]]]]] = None  # Records computed tokens for each chunk
-    next_pcp_dcp_start_rank: int = 0  # Tracks next starting rank for round-robin distribution
-    token_blank_in_last_blk: int = 0  # if the last block is not full, how many future tokens can be stored
-
     def __post_init__(self):
         self.num_prompt_tokens = length_from_prompt_token_ids_or_embeds(
             self.prompt_token_ids, self.prompt_embeds)
@@ -319,10 +313,6 @@ def __init__(
         self.prev_sampled_token_ids_invalid_indices: Optional[set[int]] = None
         self.prev_req_id_to_index: Optional[dict[str, int]] = None
 
-        # pcp/dcp parameters
-        self.local_chunked_kv_lens: list[Optional[list[Optional[list[Optional[
-            list[int]]]]]]] = [None] * max_num_reqs
-
     @property
     def req_ids(self) -> list[str]:
         # None elements should only be present transiently
@@ -395,9 +385,6 @@ def add_request(
         self.num_computed_tokens_cpu[req_index] = request.num_computed_tokens
         self.block_table.add_row(request.block_ids, req_index)
 
-        # Add PCP/DCP tracking fields
-        self.local_chunked_kv_lens[req_index] = request.local_chunked_kv_lens
-
         if sampling_params := request.sampling_params:
             if (self.is_spec_decode
                     and is_spec_decode_unsupported(sampling_params)):
@@ -693,8 +680,6 @@ def condense(self) -> None:
                 last_req_index]
             self.num_computed_tokens_cpu[
                 empty_index] = self.num_computed_tokens_cpu[last_req_index]
-            self.local_chunked_kv_lens[
-                empty_index] = self.local_chunked_kv_lens[last_req_index]
             self.block_table.move_row(last_req_index, empty_index)
             self.temperature_cpu[empty_index] = self.temperature_cpu[
                 last_req_index]