Skip to content

Commit 8eabdfd

Browse files
authored
add deepseek demo start. (#795)
1 parent 704cb87 commit 8eabdfd

File tree

1 file changed

+89
-0
lines changed

1 file changed

+89
-0
lines changed

test/deepseek.sh

+89
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,89 @@
1+
# 单机 deepseek V3 ep 运行模式启动示例, 启动参数中的tp含义发生了变化,代表使用的所有卡数量,并不是tp推理。
2+
# max_total_token_num 可以按照实际场景调节。
3+
MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 --model_dir /dev/shm/DeepSeek-R1 \
4+
--tp 8 \
5+
--dp 8 \
6+
--max_total_token_num 200000 \
7+
--graph_max_batch_size 64 \
8+
--batch_max_tokens 8192 \
9+
--enable_flashinfer_prefill \
10+
--enable_flashinfer_decode \
11+
--enable_prefill_microbatch_overlap \
12+
--disable_aggressive_schedule
13+
14+
# H800 双机 deepseek V3 ep 运行模式启动实列
15+
# 启动命令中的 nccl_host 和 nccl_port 两个节点的必须一致,一般nccl_host设置为 node 0的ip。
16+
# max_total_token_num 最佳设置需要按照使用场景和显存情况配置。
17+
# 启动后两个节点的8088端口都可以接收访问的请求
18+
# node 0
19+
MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 --model_dir /dev/shm/DeepSeek-R1 \
20+
--tp 16 \
21+
--dp 16 \
22+
--max_total_token_num 200000 \
23+
--graph_max_batch_size 64 \
24+
--batch_max_tokens 8192 \
25+
--enable_flashinfer_prefill \
26+
--enable_flashinfer_decode \
27+
--enable_prefill_microbatch_overlap \
28+
--nnodes 2 \
29+
--node_rank 0 \
30+
--nccl_host <node_0_ip> \
31+
--nccl_port 2732
32+
# node 1
33+
MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 --model_dir /dev/shm/DeepSeek-R1 \
34+
--tp 16 \
35+
--dp 16 \
36+
--max_total_token_num 200000 \
37+
--graph_max_batch_size 64 \
38+
--batch_max_tokens 8192 \
39+
--enable_flashinfer_prefill \
40+
--enable_flashinfer_decode \
41+
--enable_prefill_microbatch_overlap \
42+
--nnodes 2 \
43+
--node_rank 1 \
44+
--nccl_host <node_0_ip> \
45+
--nccl_port 2732
46+
47+
# pd 分离启动示列, 单机 做 P 和 D, 也支持多机组成的D和单机的P混合。
48+
# 目前 P D 分离的 PD master可能存在并发处理问题,还需提升。
49+
50+
# pd master 启动
51+
python -m lightllm.server.api_server --model_dir /dev/shm/DeepSeek-R1 --run_mode "pd_master" --host `hostname -i` --port 60011
52+
53+
# p 启动
54+
nvidia-cuda-mps-control -d
55+
MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server --model_dir /dev/shm/DeepSeek-R1 \
56+
--run_mode "prefill" \
57+
--tp 8 \
58+
--dp 8 \
59+
--host `hostname -i` \
60+
--port 8019 \
61+
--nccl_port 2732 \
62+
--max_total_token_num 200000 \
63+
--batch_max_tokens 8192 \
64+
--enable_flashinfer_prefill \
65+
--enable_flashinfer_decode \
66+
--enable_prefill_microbatch_overlap \
67+
--use_dynamic_prompt_cache \
68+
--disable_cudagraph \
69+
--pd_master_ip <pd_master_ip> \
70+
--pd_master_port 60011
71+
72+
# d 启动
73+
nvidia-cuda-mps-control -d
74+
MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server --model_dir /dev/shm/DeepSeek-R1 \
75+
--run_mode "decode" \
76+
--tp 8 \
77+
--dp 8 \
78+
--host `hostname -i` \
79+
--port 8121 \
80+
--nccl_port 12322 \
81+
--max_total_token_num 200000 \
82+
--graph_max_batch_size 64 \
83+
--enable_flashinfer_prefill \
84+
--enable_flashinfer_decode \
85+
--enable_prefill_microbatch_overlap \
86+
--use_dynamic_prompt_cache \
87+
--pd_master_ip <pd_master_ip> \
88+
--pd_master_port 60011
89+

0 commit comments

Comments
 (0)