DeepSeek 新模型因华为芯片训练失败推迟发布
DeepSeek 因无法使用华为昇腾处理器成功训练其 R2 模型,被迫推迟新模型发布。据知情人士透露,当局曾鼓励该公司在 1 月发布 R1 模型后采用华为芯片替代英伟达系统,但 DeepSeek 在使用昇腾芯片训练过程中遭遇持续技术问题。
华为曾派遣工程师团队驻场协助,但 DeepSeek 仍无法在昇腾芯片上成功完成训练。该公司最终改用英伟达芯片进行训练,华为芯片仅用于推理环节,使得原定于 5 月发布的 R2 模型被推迟。
FINANCIAL TIMES
🍀频道 🍵茶馆 📮投稿
DeepSeek 因无法使用华为昇腾处理器成功训练其 R2 模型,被迫推迟新模型发布。据知情人士透露,当局曾鼓励该公司在 1 月发布 R1 模型后采用华为芯片替代英伟达系统,但 DeepSeek 在使用昇腾芯片训练过程中遭遇持续技术问题。
华为曾派遣工程师团队驻场协助,但 DeepSeek 仍无法在昇腾芯片上成功完成训练。该公司最终改用英伟达芯片进行训练,华为芯片仅用于推理环节,使得原定于 5 月发布的 R2 模型被推迟。
FINANCIAL TIMES
🍀频道 🍵茶馆 📮投稿
😁 485 🤣 422 🍾 38 🙏 25
14 ❤️ 12 👎 7 🫡 7