GitHub · Where software is built

🚨FAQs | 常见问题🚨
#4614 · hiyouga opened on Jun 28, 2024
关于npu训练模型总结以及疑问
#4388 · sweetning0809 opened on Jun 20, 2024
31
顺利在 Apple silicon M3 上运行 README 中 Llama3-8B 相关示例工作流的小波折
#4341 · mapix opened on Jun 17, 2024
7

is:issue state:open

is:issue state:open

Labels Milestones New issue

[Bug] GLM-4.6v-Flash LoRA fine-tuning fails with NotImplementedError: get_input_embeddings

#9635

· GUYYYUG opened

on Dec 19, 2025

自定义模型如何创建kt_optimize_rule

#9629

· Lorenz5622 opened

on Dec 18, 2025

Training hangs during backward pass with MoE models when some experts are not activated

#9628

· jiaqiw09 opened

on Dec 18, 2025

Ascend deepspeed zero3-offload 全参微调 Qwen3-VL-30B-A3B速度明显慢于 Qwen3-VL-32B模型

#9625

· ZhengChang467 opened

on Dec 17, 2025

PPO LoRA training with Qwen-14B on Ascend NPU: past_key_values NoneType error in generate (v0.9.4.dev0 + DeepSpeed)

#9623

· shanghaiyangming opened

on Dec 17, 2025

sft时 instruction 和 input是在哪个代码里拼起来的，没找到

#9614

· TZYSJTU opened

on Dec 15, 2025

卡死不动，多卡多机

#9603

· Codingfarmer-hkl opened

on Dec 11, 2025

[RFC] Upgrade trl Dependency to Latest Version to Resolve Compatibility

#9601

· jiaqiw09 opened

on Dec 11, 2025

Invalid condition in "Dropped invalid example"

#9600

· ngminhthanh12a3 opened

on Dec 10, 2025

lora 微调后，使用vllm_infer.py推理问题

#9598

· houliangxue opened

on Dec 10, 2025

预训练Streaming 加载 fineweb 本地数据集

#9596

· windows10207 opened

on Dec 10, 2025

RoPE scaling configuration not applied when using mcore_adapter for training

#9589

· sijyy opened

on Dec 9, 2025