预印本论文：华为盘古模型被指涉嫌抄袭通义千问权重，新检测方法提供极低 p 值证据清华大学求真书院研究员张锐翀近日在论文中提出“矩阵驱动即时审查”（Matrix-Driven Instant Review, MDIR）方法，用于精准检测大型语言模型（LLM）间的权重抄袭

08:05 · Aug 14, 2025 · Thu

科技圈🎗在花频道📮

盘古大模型团队回应开源代码争议盘古 Pro MoE 技术开发团队今日发布声明，回应近期关于盘古大模型开源代码的网络讨论。团队强调，盘古 Pro MoE 开源模型基于昇腾硬件平台开发训练，并非基于其他厂商模型增量训练而来。该模型创新性提出分组混合专家模型（MoGE）架构，有效解决大规模分布式训练的负载均衡难题。团队承认部分基础组件代码实现参考了业界开源实践，但严格遵循开源许可证要求，在代码文件中清晰标注版权声明。声明表示将继续坚持开放创新，尊重第三方知识产权。诺亚方舟实验室 📮分享投稿 ☘️频道…

预印本论文：华为盘古模型被指涉嫌抄袭通义千问权重，新检测方法提供极低 p 值证据

清华大学求真书院研究员张锐翀近日在论文中提出“矩阵驱动即时审查”（Matrix-Driven Instant Review, MDIR）方法，用于精准检测大型语言模型（LLM）间的权重抄袭。该方法利用矩阵分析与大偏差理论，对模型嵌入和多层权重进行对齐比对，并计算严格的 p 值，可在单台个人电脑一小时内完成。

实验显示，MDIR 在避免假阳性的同时，能准确识别经过增量预训练、剪枝或置换的权重来源。一项案例研究指向华为 Pangu-Pro-MoE 模型，结果表明其权重与 Qwen2.5-14B 高度关联，p 值小于 10^-3,000,000，被认为是极强的抄袭统计证据。作者称，此方法可为 LLM 知识产权保护提供重要技术手段。

arxiv

🍀频道 🍵茶馆 📮投稿

⭐ 5 🤣 512 😁 37 🫡 28 👍 16 ❤️ 15 👎 2