Only support generating one prompt at a time.

abetlen · abetlen · commit 8740ddc58e75 · 2023-05-12T07:21:46.000-04:00
diff --git a/llama_cpp/server/app.py b/llama_cpp/server/app.py
@@ -166,10 +166,10 @@ def get_llama():
     description="Positive values penalize new tokens based on their existing frequency in the text so far, decreasing the model's likelihood to repeat the same line verbatim.",
 )
 
+
 class CreateCompletionRequest(BaseModel):
     prompt: Union[str, List[str]] = Field(
-        default="",
-        description="The prompt to generate completions for."
+        default="", description="The prompt to generate completions for."
     )
     suffix: Optional[str] = Field(
         default=None,
@@ -224,7 +224,8 @@ def create_completion(
     request: CreateCompletionRequest, llama: llama_cpp.Llama = Depends(get_llama)
 ):
     if isinstance(request.prompt, list):
-        request.prompt = "".join(request.prompt)
+        assert len(request.prompt) <= 1
+        request.prompt = request.prompt[0] if len(request.prompt) > 0 else ""
 
     completion_or_chunks = llama(
         **request.dict(