@@ -827,7 +827,7 @@ def llama_kv_cache_clear(ctx: llama_context_p):
827
827
# llama_pos p1);
828
828
def llama_kv_cache_seq_rm (
829
829
ctx : llama_context_p ,
830
- seq_id : llama_seq_id ,
830
+ seq_id : Union [ llama_seq_id , int ] ,
831
831
p0 : Union [llama_pos , int ],
832
832
p1 : Union [llama_pos , int ],
833
833
):
@@ -855,8 +855,8 @@ def llama_kv_cache_seq_rm(
855
855
# llama_pos p1);
856
856
def llama_kv_cache_seq_cp (
857
857
ctx : llama_context_p ,
858
- seq_id_src : llama_seq_id ,
859
- seq_id_dst : llama_seq_id ,
858
+ seq_id_src : Union [ llama_seq_id , int ] ,
859
+ seq_id_dst : Union [ llama_seq_id , int ] ,
860
860
p0 : Union [llama_pos , int ],
861
861
p1 : Union [llama_pos , int ],
862
862
):
@@ -879,7 +879,7 @@ def llama_kv_cache_seq_cp(
879
879
# llama_seq_id seq_id);
880
880
def llama_kv_cache_seq_keep (
881
881
ctx : llama_context_p ,
882
- seq_id : llama_seq_id ,
882
+ seq_id : Union [ llama_seq_id , int ] ,
883
883
):
884
884
return _lib .llama_kv_cache_seq_keep (ctx , seq_id )
885
885
@@ -900,7 +900,7 @@ def llama_kv_cache_seq_keep(
900
900
# llama_pos delta);
901
901
def llama_kv_cache_seq_shift (
902
902
ctx : llama_context_p ,
903
- seq_id : llama_seq_id ,
903
+ seq_id : Union [ llama_seq_id , int ] ,
904
904
p0 : Union [llama_pos , int ],
905
905
p1 : Union [llama_pos , int ],
906
906
delta : Union [llama_pos , int ],
@@ -1204,7 +1204,7 @@ def llama_get_embeddings(
1204
1204
1205
1205
1206
1206
# LLAMA_API const char * llama_token_get_text(const struct llama_model * model, llama_token token);
1207
- def llama_token_get_text (model : llama_model_p , token : llama_token ) -> bytes :
1207
+ def llama_token_get_text (model : llama_model_p , token : Union [ llama_token , int ] ) -> bytes :
1208
1208
return _lib .llama_token_get_text (model , token )
1209
1209
1210
1210
@@ -1213,7 +1213,7 @@ def llama_token_get_text(model: llama_model_p, token: llama_token) -> bytes:
1213
1213
1214
1214
1215
1215
# LLAMA_API float llama_token_get_score(const struct llama_model * model, llama_token token);
1216
- def llama_token_get_score (model : llama_model_p , token : llama_token ) -> float :
1216
+ def llama_token_get_score (model : llama_model_p , token : Union [ llama_token , int ] ) -> float :
1217
1217
return _lib .llama_token_get_score (model , token )
1218
1218
1219
1219
@@ -1222,7 +1222,7 @@ def llama_token_get_score(model: llama_model_p, token: llama_token) -> float:
1222
1222
1223
1223
1224
1224
# LLAMA_API enum llama_token_type llama_token_get_type(const struct llama_model * model, llama_token token);
1225
- def llama_token_get_type (model : llama_model_p , token : llama_token ) -> int :
1225
+ def llama_token_get_type (model : llama_model_p , token : Union [ llama_token , int ] ) -> int :
1226
1226
return _lib .llama_token_get_type (model , token )
1227
1227
1228
1228
@@ -1302,39 +1302,6 @@ def llama_token_eot(model: llama_model_p) -> int:
1302
1302
# //
1303
1303
1304
1304
1305
- # // Convert the provided text into tokens.
1306
- # // The tokens pointer must be large enough to hold the resulting tokens.
1307
- # // Returns the number of tokens on success, no more than n_max_tokens
1308
- # // Returns a negative number on failure - the number of tokens that would have been returned
1309
- # LLAMA_API int llama_tokenize(
1310
- # const struct llama_model * model,
1311
- # const char * text,
1312
- # int text_len,
1313
- # llama_token * tokens,
1314
- # int n_max_tokens,
1315
- # bool add_bos);
1316
- def llama_tokenize (
1317
- model : llama_model_p ,
1318
- text : bytes ,
1319
- text_len : Union [c_int , int ],
1320
- tokens , # type: Array[llama_token]
1321
- n_max_tokens : Union [c_int , int ],
1322
- add_bos : Union [c_bool , bool ],
1323
- ) -> int :
1324
- return _lib .llama_tokenize (model , text , text_len , tokens , n_max_tokens , add_bos )
1325
-
1326
-
1327
- _lib .llama_tokenize .argtypes = [
1328
- llama_model_p ,
1329
- c_char_p ,
1330
- c_int ,
1331
- llama_token_p ,
1332
- c_int ,
1333
- c_bool ,
1334
- ]
1335
- _lib .llama_tokenize .restype = c_int
1336
-
1337
-
1338
1305
# /// @details Convert the provided text into tokens.
1339
1306
# /// @param tokens The tokens pointer must be large enough to hold the resulting tokens.
1340
1307
# /// @return Returns the number of tokens on success, no more than n_max_tokens
@@ -1386,7 +1353,7 @@ def llama_tokenize(
1386
1353
# int length);
1387
1354
def llama_token_to_piece (
1388
1355
model : llama_model_p ,
1389
- token : llama_token ,
1356
+ token : Union [ llama_token , int ] ,
1390
1357
buf : Union [c_char_p , bytes ],
1391
1358
length : Union [c_int , int ],
1392
1359
) -> int :
@@ -1835,7 +1802,7 @@ def llama_sample_token(
1835
1802
def llama_grammar_accept_token (
1836
1803
ctx : llama_context_p ,
1837
1804
grammar : llama_grammar_p ,
1838
- token : llama_token ,
1805
+ token : Union [ llama_token , int ] ,
1839
1806
) -> None :
1840
1807
_lib .llama_grammar_accept_token (ctx , grammar , token )
1841
1808
0 commit comments