Add option for enable_llama_tool_parser

vertex-mg-bot · copybara-github · commit 3977d8d21a9f · 2025-03-27T18:40:55.000-07:00
PiperOrigin-RevId: 741206007
diff --git a/notebooks/community/model_garden/model_garden_axolotl_finetuning.ipynb b/notebooks/community/model_garden/model_garden_axolotl_finetuning.ipynb
@@ -950,6 +950,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -1002,6 +1003,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_codegemma_deployment_on_vertex.ipynb b/notebooks/community/model_garden/model_garden_codegemma_deployment_on_vertex.ipynb
@@ -592,6 +592,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -644,6 +645,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_gemma3_deployment_on_vertex.ipynb b/notebooks/community/model_garden/model_garden_gemma3_deployment_on_vertex.ipynb
@@ -263,6 +263,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -315,6 +316,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
@@ -635,6 +640,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -687,6 +693,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_gemma_deployment_on_vertex.ipynb b/notebooks/community/model_garden/model_garden_gemma_deployment_on_vertex.ipynb
@@ -702,6 +702,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -754,6 +755,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb b/notebooks/community/model_garden/model_garden_gradio_streaming_chat_completions.ipynb
@@ -208,6 +208,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -260,6 +261,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_llama_guard_deployment.ipynb b/notebooks/community/model_garden/model_garden_llama_guard_deployment.ipynb
@@ -319,6 +319,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -371,6 +372,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_phi3_deployment.ipynb b/notebooks/community/model_garden/model_garden_phi3_deployment.ipynb
@@ -384,6 +384,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -436,6 +437,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_phi4_deployment.ipynb b/notebooks/community/model_garden/model_garden_phi4_deployment.ipynb
@@ -285,6 +285,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -337,6 +338,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_biogpt_serve.ipynb b/notebooks/community/model_garden/model_garden_pytorch_biogpt_serve.ipynb
@@ -172,6 +172,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -224,6 +225,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_codellama.ipynb b/notebooks/community/model_garden/model_garden_pytorch_codellama.ipynb
@@ -271,6 +271,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -323,6 +324,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llama3_1_agent_engine.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llama3_1_agent_engine.ipynb
@@ -487,6 +487,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -539,6 +540,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llama3_1_deployment.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llama3_1_deployment.ipynb
@@ -964,6 +964,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -1016,6 +1017,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llama3_1_reasoning_engine.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llama3_1_reasoning_engine.ipynb
@@ -487,6 +487,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -539,6 +540,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llama3_2_deployment.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llama3_2_deployment.ipynb
@@ -935,6 +935,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -987,6 +988,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llama3_deployment.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llama3_deployment.ipynb
@@ -340,6 +340,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -392,6 +393,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llama3_finetuning.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llama3_finetuning.ipynb
@@ -615,6 +615,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -667,6 +668,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_llava.ipynb b/notebooks/community/model_garden/model_garden_pytorch_llava.ipynb
@@ -264,6 +264,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -316,6 +317,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_mistral_deployment.ipynb b/notebooks/community/model_garden/model_garden_pytorch_mistral_deployment.ipynb
@@ -282,6 +282,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -334,6 +335,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_mixtral_deployment.ipynb b/notebooks/community/model_garden/model_garden_pytorch_mixtral_deployment.ipynb
@@ -295,6 +295,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -347,6 +348,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",
diff --git a/notebooks/community/model_garden/model_garden_pytorch_qwen2_deployment.ipynb b/notebooks/community/model_garden/model_garden_pytorch_qwen2_deployment.ipynb
@@ -332,6 +332,7 @@
         "    use_dedicated_endpoint: bool = False,\n",
         "    max_num_seqs: int = 256,\n",
         "    model_type: str = None,\n",
+        "    enable_llama_tool_parser: bool = False,\n",
         ") -> Tuple[aiplatform.Model, aiplatform.Endpoint]:\n",
         "    \"\"\"Deploys trained models with vLLM into Vertex AI.\"\"\"\n",
         "    endpoint = aiplatform.Endpoint.create(\n",
@@ -384,6 +385,10 @@
         "    if model_type:\n",
         "        vllm_args.append(f\"--model-type={model_type}\")\n",
         "\n",
+        "    if enable_llama_tool_parser:\n",
+        "        vllm_args.append(\"--enable-auto-tool-choice\")\n",
+        "        vllm_args.append(\"--tool-call-parser=vertex-llama-3\")\n",
+        "\n",
         "    env_vars = {\n",
         "        \"MODEL_ID\": base_model_id,\n",
         "        \"DEPLOY_SOURCE\": \"notebook\",\n",