bmedi
diff --git a/‎llama_cpp/server/app.py
Copy file name to clipboardExpand all lines: llama_cpp/server/app.py
+26-24Lines changed: 26 additions & 24 deletions b/‎llama_cpp/server/app.py
Copy file name to clipboardExpand all lines: llama_cpp/server/app.py
+26-24Lines changed: 26 additions & 24 deletions
diff --git a/‎llama_cpp/server/errors.py
Copy file name to clipboardExpand all lines: llama_cpp/server/errors.py
+2-2Lines changed: 2 additions & 2 deletions b/‎llama_cpp/server/errors.py
Copy file name to clipboardExpand all lines: llama_cpp/server/errors.py
+2-2Lines changed: 2 additions & 2 deletions
diff --git a/‎llama_cpp/server/model.py
Copy file name to clipboardExpand all lines: llama_cpp/server/model.py
+11-8Lines changed: 11 additions & 8 deletions b/‎llama_cpp/server/model.py
Copy file name to clipboardExpand all lines: llama_cpp/server/model.py
+11-8Lines changed: 11 additions & 8 deletions
diff --git a/‎llama_cpp/server/settings.py
Copy file name to clipboardExpand all lines: llama_cpp/server/settings.py
+4-4Lines changed: 4 additions & 4 deletions b/‎llama_cpp/server/settings.py
Copy file name to clipboardExpand all lines: llama_cpp/server/settings.py
+4-4Lines changed: 4 additions & 4 deletions
diff --git a/‎llama_cpp/server/types.py
Copy file name to clipboardExpand all lines: llama_cpp/server/types.py
+1-1Lines changed: 1 addition & 1 deletion b/‎llama_cpp/server/types.py
Copy file name to clipboardExpand all lines: llama_cpp/server/types.py
+1-1Lines changed: 1 addition & 1 deletion
@@ -199,8 +199,8 @@ async def authenticate(
 @router.post(
     "/v1/completions",
     summary="Completion",
-    dependencies=[Depends(authenticate)],    
-    response_model= Union[
+    dependencies=[Depends(authenticate)],
+    response_model=Union[
         llama_cpp.CreateCompletionResponse,
         str,
     ],
@@ -211,19 +211,19 @@ async def authenticate(
                 "application/json": {
                     "schema": {
                         "anyOf": [
-                            {"$ref": "#/components/schemas/CreateCompletionResponse"}                            
+                            {"$ref": "#/components/schemas/CreateCompletionResponse"}
                         ],
                         "title": "Completion response, when stream=False",
                     }
                 },
-                "text/event-stream":{
-                    "schema": {                     
-                      "type": "string",
-                      "title": "Server Side Streaming response, when stream=True. " +
-                        "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
-                      "example": """data: {... see CreateCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]"""
+                "text/event-stream": {
+                    "schema": {
+                        "type": "string",
+                        "title": "Server Side Streaming response, when stream=True. "
+                        + "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
+                        "example": """data: {... see CreateCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]""",
                     }
-                }
+                },
             },
         }
     },
@@ -290,7 +290,7 @@ def iterator() -> Iterator[llama_cpp.CreateCompletionStreamResponse]:
                 inner_send_chan=send_chan,
                 iterator=iterator(),
             ),
-            sep='\n',
+            sep="\n",
         )
     else:
         return iterator_or_completion
@@ -310,30 +310,32 @@ async def create_embedding(
 
 
 @router.post(
-    "/v1/chat/completions", summary="Chat", dependencies=[Depends(authenticate)],
-    response_model= Union[
-        llama_cpp.ChatCompletion, str
-    ],
+    "/v1/chat/completions",
+    summary="Chat",
+    dependencies=[Depends(authenticate)],
+    response_model=Union[llama_cpp.ChatCompletion, str],
     responses={
         "200": {
             "description": "Successful Response",
             "content": {
                 "application/json": {
                     "schema": {
                         "anyOf": [
-                            {"$ref": "#/components/schemas/CreateChatCompletionResponse"}                            
+                            {
+                                "$ref": "#/components/schemas/CreateChatCompletionResponse"
+                            }
                         ],
                         "title": "Completion response, when stream=False",
                     }
                 },
-                "text/event-stream":{
-                    "schema": {                     
-                      "type": "string",
-                      "title": "Server Side Streaming response, when stream=True" +
-                        "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
-                      "example": """data: {... see CreateChatCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]"""
+                "text/event-stream": {
+                    "schema": {
+                        "type": "string",
+                        "title": "Server Side Streaming response, when stream=True"
+                        + "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
+                        "example": """data: {... see CreateChatCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]""",
                     }
-                }
+                },
             },
         }
     },
@@ -383,7 +385,7 @@ def iterator() -> Iterator[llama_cpp.ChatCompletionChunk]:
                 inner_send_chan=send_chan,
                 iterator=iterator(),
             ),
-            sep='\n',
+            sep="\n",
         )
     else:
         return iterator_or_completion
 
@@ -22,6 +22,7 @@
     CreateChatCompletionRequest,
 )
 
+
 class ErrorResponse(TypedDict):
     """OpenAI style error response"""
 
@@ -75,7 +76,7 @@ def context_length_exceeded(
                 (completion_tokens or 0) + prompt_tokens,
                 prompt_tokens,
                 completion_tokens,
-            ), # type: ignore
+            ),  # type: ignore
             type="invalid_request_error",
             param="messages",
             code="context_length_exceeded",
@@ -207,4 +208,3 @@ async def custom_route_handler(request: Request) -> Response:
                 )
 
         return custom_route_handler
-
@@ -88,15 +88,15 @@ def load_llama_from_model_settings(settings: ModelSettings) -> llama_cpp.Llama:
             assert (
                 settings.hf_tokenizer_config_path is not None
             ), "hf_tokenizer_config_path must be set for hf-tokenizer-config"
-            chat_handler = (
-                llama_cpp.llama_chat_format.hf_tokenizer_config_to_chat_completion_handler(
-                    json.load(open(settings.hf_tokenizer_config_path))
-                )
+            chat_handler = llama_cpp.llama_chat_format.hf_tokenizer_config_to_chat_completion_handler(
+                json.load(open(settings.hf_tokenizer_config_path))
             )
 
         tokenizer: Optional[llama_cpp.BaseLlamaTokenizer] = None
         if settings.hf_pretrained_model_name_or_path is not None:
-            tokenizer = llama_tokenizer.LlamaHFTokenizer.from_pretrained(settings.hf_pretrained_model_name_or_path)
+            tokenizer = llama_tokenizer.LlamaHFTokenizer.from_pretrained(
+                settings.hf_pretrained_model_name_or_path
+            )
 
         draft_model = None
         if settings.draft_model is not None:
@@ -120,17 +120,20 @@ def load_llama_from_model_settings(settings: ModelSettings) -> llama_cpp.Llama:
                         kv_overrides[key] = float(value)
                     else:
                         raise ValueError(f"Unknown value type {value_type}")
-        
+
         import functools
 
         kwargs = {}
 
         if settings.hf_model_repo_id is not None:
-            create_fn = functools.partial(llama_cpp.Llama.from_pretrained, repo_id=settings.hf_model_repo_id, filename=settings.model)
+            create_fn = functools.partial(
+                llama_cpp.Llama.from_pretrained,
+                repo_id=settings.hf_model_repo_id,
+                filename=settings.model,
+            )
         else:
             create_fn = llama_cpp.Llama
             kwargs["model_path"] = settings.model
-        
 
         _model = create_fn(
             **kwargs,
 
@@ -74,7 +74,9 @@ class ModelSettings(BaseSettings):
         ge=0,
         description="The number of threads to use when batch processing.",
     )
-    rope_scaling_type: int = Field(default=llama_cpp.LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED)
+    rope_scaling_type: int = Field(
+        default=llama_cpp.LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED
+    )
     rope_freq_base: float = Field(default=0.0, description="RoPE base frequency")
     rope_freq_scale: float = Field(
         default=0.0, description="RoPE frequency scaling factor"
@@ -193,6 +195,4 @@ class Settings(ServerSettings, ModelSettings):
 class ConfigFileSettings(ServerSettings):
     """Configuration file format settings."""
 
-    models: List[ModelSettings] = Field(
-        default=[], description="Model configs"
-    )
+    models: List[ModelSettings] = Field(default=[], description="Model configs")
@@ -110,7 +110,7 @@ class CreateCompletionRequest(BaseModel):
         default=None,
         description="A suffix to append to the generated text. If None, no suffix is appended. Useful for chatbots.",
     )
-    max_tokens: Optional[int] =  Field(
+    max_tokens: Optional[int] = Field(
         default=16, ge=0, description="The maximum number of tokens to generate."
     )
     temperature: float = temperature_field
Original file line number	Diff line number	Diff line change
`@@ -110,7 +110,7 @@ class CreateCompletionRequest(BaseModel):`
`110`	`110`	`default=None,`
`111`	`111`	`description="A suffix to append to the generated text. If None, no suffix is appended. Useful for chatbots.",`
`112`	`112`	`)`
`113`		`- max_tokens: Optional[int] = Field(`
	`113`	`+ max_tokens: Optional[int] = Field(`
`114`	`114`	`default=16, ge=0, description="The maximum number of tokens to generate."`
`115`	`115`	`)`
`116`	`116`	`temperature: float = temperature_field`