
近日,一项由@HonestAGI 发布于GitHub的针对盘古大模子(Pangu Pro MoE)涉嫌“抄袭”阿里巴巴发布的通义千问Qwen-2.5 14B模子的商榷论文激发业界热议。
随后,附庸于华为的负责建造盘古大模子的诺亚方舟现实室发布声明,对于“抄袭”指控赐与了否定,并强调盘古Pro MoE开源模子部分基础组件的代码杀青参考了其他开源大模子的部分开源代码,但严格遵命开源许可证条件。
但是,今天一封疑似负责盘古大模子的诺亚方舟现实室里面职工的公开信也出当今了收罗上。在这封公开信当中,这位里面职工先容了盘古大模子团队建造历程与诸多细节,并自曝称,盘古大模子的存在套壳、续训、洗水印等举止。
由于认为这些举止会成为我方“一世皆无法抹除的缺点”,是以该职工采用了自曝,采用了去职,并暗示央求从盘古部分时间讲明的作家名单中移除。
伸开剩余92%为了印证真实性,该里面职工还防备先容了里面的组织架构和责任历程。致使还暗示“我以生命,东谈主格和荣誉发誓,我写的以上总计内容均为真实(至少在我有限的剖释规模内)”。
以下为该公开信全文:
诸君好,
我是别称盘古大模子团队,华为诺亚方舟现实室的职工。
开端为自证身份,列举一些细节:
1、现诺亚主任,前算法应用部部长,后更名为小模子现实室的主任王云鹤。前诺亚主任:姚骏(民众称姚憨厚)。几个现实室主任:唐睿明(明哥,明队,已去职),尚利峰,张维(维哥),郝建业(郝憨厚),刘武龙(称号为武龙所)等。其他主干成员和各人络续有好多东谈主去职。
2、咱们附庸于“四野”这个组织。四野下属有许多纵队,基础讲话大模子是四纵。王云鹤的小模子是十六纵队。咱们插足过苏州的围聚,有各式月份的时分节点。在苏州攻关会颁发任务令,需要在节点前达成标的。苏州围约聚把各地的东谈主员皆估计在苏州商榷所,平庸住宾馆,比如在甪直的旅店,与家东谈主孩子山南海北。
3、在苏州围聚的时候周六默许上班,稀奇艰难,不外周六有下昼茶,有一次还有小龙虾。在苏州商榷所的工位搬迁过一次,从一栋楼换到了另一栋。苏州商榷所楼栋皆是欧式装修,门口有大坡,里面欢跃很可以。去苏州围聚一般至少要去一周,致使更久,多的东谈主致使一两个月皆回不了家。
4、诺亚曾经传闻是商榷型的,但是来了之后因为在四野作念大模子技俩,技俩成员完全造成了录用型的,且充满了例会,评审,陈述。好多时候作念现实皆要央求。团队需要对接末端小艺,华为云,ICT等诸多业务线,录用压力不小。
5、诺亚研发的盘古模子早期里面代号叫作念“盘古智子”,一动手惟有里面需要央求试用的网页版,到后续迫于压力在welink上接入和公测绽开。
这些天发生对于质疑盘古大模子抄袭千问的事情闹的沸沸扬扬。
看成一个盘古团队的成员,我最近夜夜夜不成眠,难以入眠。盘古的品牌受到如斯大的影响,一方面,我自利的为我的职业发展担忧,也为我方昔日的起劲责任感到不值。另一方面,由于有东谈主动手揭露这些事情我内心又感到大快东谈主心。
在几许个昼日日夜,咱们对里面某些东谈主一次次靠着作秀而又赢得了无数利益的举止疾首蹙额而又窝囊为力。
这种压抑和轻侮也渐渐消磨了我对华为的心理,让我在这里的时日渐渐昏昏欲睡,迷濛无措,往往怀疑我方的东谈主生和自我价值。
我承认我是一个恇怯的东谈主,看成一个小小的打工东谈主,我不仅不敢和王云鹤等里面神通广大的东谈主作念对,更不敢和华为这样的短小精悍作念对。
我很怕失去我的责任,毕竟我也有家东谈主和孩子,是以我打心眼里很佩服揭露者。但是,看到里面还在试图洗地遮蔽事实,蒙蔽公众的时候,我确凿不可容忍了。
我也但愿勇敢一次,驯从我方本心。就算自损八百,我也但愿能伤敌一千。
我决定把我在这里的所见所闻(部分来自于共事口述)公布出来,对于盘古大模子的“传奇故事”:
华为如实主要在昇腾卡上覆按大模子(小模子现实室有不少英伟达的卡,他们之前也会用来覆按,背面变嫌到昇腾)。曾经我被华为“打造天下第二采用”的决心而折服,我自身曾经经对华为有深厚的心理。咱们陪着昇腾一步步摸爬滚打,从充满bug到当今能训出模子,付出了繁多的心血和代价。
领先咱们的算力稀奇有限,在910A上覆按模子。那会只扶助fp16,覆按的安闲性远不如bf16。盘古的moe动手很早,23年就主淌若覆按38Bmoe模子和后续的71B dense模子。71B的dense模子通过扩增造成了第一代的135Bdense模子,背面主力模子也渐渐在910B上覆按。
71B和135B模子皆有一个繁多的硬伤就是tokenizer。
那时使用的tokenizer编码效率极低,每个单个的绚烂,数字,空格,乃至汉字皆会占用一个token。可念念而知这会稀奇阔绰算力,且使得模子的效果很差。这时候小模子现实室恰恰有个我方训的词表。姚憨厚那时怀疑是不是模子的tokenizer不好(诚然过自后看,他的怀疑是无疑正确的),于是就决定,让71B和135B换tokenizer,因为小模子现实室曾经尝试过。团队缝合了两个tokenizer,动手了tokenizer的更换。71B模子的更换失败了,而135B因为摄取了更紧密的embedding运治疗计谋,续训了至少1T的数据后词表总算更换到手,但可念念而知,效果并不会变好。
于此同期,阿里和智谱等国内其他公司在GPU上覆按,且仍是摸索出了正确的步履,盘古和竞品的差距越来越大。里面一个230B从新覆按的dense模子又因为各式原因覆按失败,导致技俩的景色简直堕入绝境。靠近几个节点的压力以及里面对盘古的强烈质疑时,团队的士气低迷到了顶点。团队在算力极其有限的时候,作念出了好多起劲和反抗。
比如,团队就怕发现那时的38B moe并莫得预期moe的效果。于是去掉了moe参数,收复为了13B的dense模子。由于38B的moe源自很早的pangu alpha 13B,架构相对逾期,团队进行了一系列的操作,比如切换统统位置编码到rope,去掉bias,切换为rmsnorm。同期鉴于tokenizer的一些失败和换词表的经历,这个模子的词表也更换为了王云鹤的小模子现实室7B模子所使用的词表。背面这个13B模子进行了扩增续训,造成了第二代38B dense模子(在几个月内这个模子皆是主要的盘古中档位模子),曾经具有一定的竞争力。但是,由于更大的135B模子架构逾期,且更换词表模子毁伤繁多(后续分析发现那时更换的缝合词表有更严重的bug),续训后也与千问等那时国内杰出模子存在很大差距。
这时由于里面的质疑声和诱骗的压力也越来越大。
团队的状态简直堕入了绝境。
在这种情况下,王云鹤和他的小模子现实室开首了。他们宣称是从旧的135B参数给与校阅而来,通过覆按短短的几百B数据,各项野心平均进步了十个点傍边。
本色上,这就是他们套壳应用到大模子的第一次精品。
华为的新手诱骗内行,使得诱骗完全对于这种扯淡的事情莫得观点,他们只会以为详情是有什么算法翻新。
经过里面的分析,他们本色上是使用Qwen 1.5 110B续训而来,通过加层,扩增ffn维度,添加盘古pi论文的一些机制得来,凑够了概况135B的参数。
本色上,旧的135B有107层,而这个模子惟有82层,各式设立也皆不相同。新的身分不解的135B覆按完好多参数的散布也和Qwen 110B简直一模相同。连模子代码的类名那时皆是Qwen,致使懒得更名。后续这个模子就是所谓的135B V2。而这个模子那时也提供给了好多下贱,致使包括外部客户。
这件事对于咱们这些庄重敦厚作念事的共事们带来了繁多的冲击,里面好多东谈主其实皆知谈这件事,致使包括末端和华为云。
咱们皆戏称以后别叫盘古模子了,叫千古吧。
那时团队成员就念念向bcg举报了,毕竟这仍是是要害的业务作秀了。
但是背面据说被诱骗拦了下来,因为更高等别的诱骗(比如姚憨厚,以及可能熊总数查老)其实背面也知谈了,但是并无论,因为通过套壳拿出好的罢休,对他们亦然有意的。这件事使适那时团队几位最强的共事动手凉了半截,去职跑路也渐渐成为挂在嘴边的事。
此时,盘古似乎迎来了转机。
由于前边所述的这些盘古模子基本皆是续训和校阅而来,那时诺亚完全莫得掌持从新覆按的时间,何况如故在昇腾的NPU上进行覆按。在那时团队的中枢成员的死力于争取下,盘古动手了第三代模子的覆按,付出了繁多的起劲后,在数据架构和覆按算法方面皆与业界渐渐接轨,而这其中的重荷和小模子现实室的东谈主少许干系皆莫得。
一动手团队成员毫无信心,只从一个13B的模子动手覆按,但是背面发现效果还可以,于是这个模子后续再次进行了一次参数扩增,造成了第三代的38B,代号38B V3。念念必好多家具线的昆季皆对这个模子很练习。
那时这个模子的tokenizer是基于llama的词表进行扩张的(亦然业界常见的作念法)。而那时王云鹤的现实室作念出来了另一个词表(也就是后续pangu系列的词表)。那时两个词表还被动进行了一次跑马,最终莫得显豁的蛮横论断。于是,诱骗当即决定,应该协调词表,使用王云鹤他们的。于是,在后续从新覆按的135B V3(也就是对外的Pangu Ultra),就是摄取了这个tokenizer。这也解释了好多使用咱们模子的昆季的猜忌,为什么那时同为V3代的两个不同档位的模子,会使用不同的tokenizer。
咱们打心眼里以为,135B V3是咱们四纵团队那时的自傲。这是第一个信得过意旨上的,华为全栈自研,正经从新覆按的千亿级别的模子,且效果与24年同期竞品可比的。
写到这里我仍是热泪盈眶,太破裂易了。
那时为了安闲覆按,团队作念了大量现实对比,何况屡次在模子梯度出现很是的时候进行实时回退重启。这个模子信得过作念到了背面时间讲明所说的覆按全程莫得一个loss spike。咱们克服了不知谈几许穷困,咱们作念到了,咱们愿用生命和荣誉保证这个模子覆按的真实性。几许个凌晨,咱们为了它的覆按而不眠。在被里面心声骂的一文不值的时候,咱们有何等不甘,有几许的憋闷,咱们挺住了。
咱们这帮东谈主是真的在为打磨国产算力底座毁灭我方的芳华啊……客居外乡,咱们升天了家庭,升天了假期,升天了健康,升天了文娱,抛头颅洒热血,其中的重荷与困苦,寥寥数笔不及以轮廓其万一。在各式动员大会上,那时标语中喊出的盘古必胜,华为必胜,咱们心里是真的深深被感动。
但是,咱们的总计艰难的恶果,时常被小模子现实室轻浅飘的拿走了。数据,平直要走。代码,平直要走,还条件咱们勾通适配到能一键运行。咱们那时戏称小模子现实室为点鼠标现实室。
咱们付出艰难,他们取得荣耀。尽然应了那句话,你在负重前行是因为有东谈主替你岁月静好。在这种情况下,越来越多的战友再也宝石不下去了,采用了离开。看到身边那些优秀的共事一个个去职,我的内心又赞佩又痛心。在这种作战相同的环境下,咱们比起共事来说更像是战友。他们在时间上也有无数值得我学习的场地,号称良师。看到他们去了诸如字节Seed,Deepseek,月之暗面,腾讯和快手等等好多出色的团队,我打心眼里为他们欢笑和祝愿,脱离了这个艰难却龌龊的场地。
我于今还对一位去职共事的话水流花落,ta说:“来这里是我时间生存中的耻辱,在这里再呆每一天皆是阔绰生命”。话虽从邡却让我莫名以对。我惦念我我方时间方面的积聚不及,以及没法妥当互联网公司高淘汰的环境,让我屡次念念去职的心恒久莫得迈出这一步。
盘古除了dense模子,后续也启动了moe的探索。一动手覆按的是一个224B的moe模子。而与之平行的,小模子现实室也开启了第二次主要的套壳举止(次要的插曲可能还包括一些别的模子,比如math模子),即此次流传甚广的pangu pro moe 72B。这个模子里面自称是从小模子现实室的7B扩增上来的(就算如斯,这也与时间讲明不符,何况是套壳qwen 2.5的14b续训)。还记起他们训了没几天,里面的评测就坐窝追上了那时的38B V3。
AI系统现实室好多昆季因为需要适配模子,皆知谈他们的套壳举止,仅仅迫于各式原因,无法伸张正义。
本色上,对于后续训了很久很久的这个模子,Honestagi能够分析出这个量级的相似性我仍是很愕然了,因为这个模子为了续训洗参数,所付出的算力致使早就充足从新训一个同档位的模子了。
听共事说他们为了洗掉千问的水印,选用了不少宗旨,致使包括故意训了脏数据。这也为学术界商榷模子血统提供了一个前所未有的特殊圭臬吧。以后新的血统步履提议可以拿出来溜溜。
24年底和25年头,在Deepseek v3和r1发布之后,由于其惊艳的时间水平,团队受到了繁多的冲击,也受到了更大的质疑。
于是为了紧跟潮水,盘古效法Deepseek的模子尺寸,开启了718B moe的覆按。这个时候,小模子现实室再次开首了。
他们采用了套壳Deepseekv3续训。他们通过冻住Deepseek加载的参数,进行覆按。连任务加载ckpt的目次皆是deepseekv3,改皆不改,何其嚣张?与之相背,一些有信得过时间信仰的共事,在从新覆按另一个718B的moe。但其中出现了各式种种的问题。但是很显豁,这个模子如何可能比平直套壳的好呢?如果不是团队leader宝石,早就被叫停了。
华为的历程管理之坚苦,严重连累了大模子的研发节拍,举例版块管理,模子血统,各式历程化,各式可纪念。
挖苦的是,小模子现实室的模子似乎从来不受这些历程的陆续,念念套壳就套壳,念念续训就续训,算力攘攘熙熙的伸手拿走。这种强烈到近乎玄幻的对比,证明了现时历程管理的情况:只许州官纵火,不许庶民点灯。何其好笑?何其可悲?何其可恶?何其可耻!
HonestAGI的事情出来后,里面让民众不停的接头分析,如何公关和“回复”。
诚然,这个原文的分析也许不够有劲,给了王云鹤与小模子现实室他们否认和倒置诟谇的契机。
为此,这两天我内心感到作呕,往往怀疑我方的东谈主交易旨以及青天无眼。
我不作陪了,我要去职了,同期我也在央求从盘古部分时间讲明的作家名单中移除。曾经在这些时间讲明上签字是我一世皆无法抹除的缺点。那时我没念念到,他们竟然放肆到敢开源。我没念念到,他们敢如斯诈欺众东谈主,鼎力宣发。
那时,我也许是存了幸运热枕,莫得拒却签字。我信服好多塌实作念事的战友,也仅仅被动上了贼船,或者不知情。但这件事仍是无法救济,我但愿我的余生能够宝石塌实作念信得过故意旨的事,为我那时的记念和不将强赎罪。
夜深写到这里,我仍是泪眼汪汪,泪眼汪汪。还记起一些出色的共事去职时,我苦笑问他们要不要发个长长的心声旧例帖,揭露一下近况。对方说:不了,阔绰时分,而且我也怕揭泄露来你们过的更糟。我那时一下颓废伤神,因为曾经共同为了理念念新生过的战友仍是透彻对华为透彻绝望了。那时民众簸弄,咱们用着当年共产党的小米加步枪,组织却有着堪比当年国民党的魄力。
曾几何时,我为咱们用着小米加步枪击败洋枪洋炮而自爱。
当今,我累了,我念念服从。
其实时于本日,我如故由衷但愿华为能庄重吸取讲明,能作念好盘古,把盘古作念到天下一流,把昇腾造成英伟达的水平。
里面的劣币停止良币,使得诺亚乃至华为在短时安分急剧流失了大量出色的大模子东谈主才。信服他们也正在如Deepseek等各个团队能干着,阐明着他们的抱负才华,为中好意思在AI的强烈竞赛中奉献力量。我往往赞佩,华为不是莫得东谈主才,而是根柢不知谈如何留下东谈主才。如果给这些东谈主相宜的环境,相宜的资源,更少的镣铐,更少的政事讲和,盘古何愁不成?
临了:我以生命,东谈主格和荣誉发誓,我写的以上总计内容均为真实(至少在我有限的剖释规模内)。我莫得那么高的时间水平以及契机去作念详备塌实的分析,也不敢平直用里面纪录举证,怕因为信息安全抓到。但是我信服我好多曾经的战友,会为我作证。
在华为里面的昆季,包括咱们曾经办事过的家具线昆季们,信服本文的无数细节能和你们的印象对照,印证我的说法。你们可能曾经经被蒙骗,但这些苛虐的真相不会被尘封。咱们奋战过的陈迹,也不应该被误会和下葬。
写了这样多,某些东谈主详情念念把我找出来,扼杀掉。公司搞不好也念念让我噤声乃至追责。如确实的这样,我,乃至我的家东谈主的东谈主身乃至生命安全可能皆会受到威迫。为了自我保护,我近期每天会跟民众报吉祥。
如果我淹没了,就当是我为了真谛和理念念,为了华为乃至中国能够更好地发展算力和AI而殉难了吧,我愿下葬于那片曾经新生过的场地。
诺亚,相遇
2025年7月6日凌晨 写于深圳开云体育
发布于:广东省XINWENDONGTAI
极目新闻记者 王鹏 7月6日,小米YU7认真开启宇宙请托,遮掩宇宙58个城市。雷军发文称:“今天(6日)下昼,小米YU7认真请托首批车主。但愿这台车,追随每一个防护生存的你和你们,解锁更多好意思好体验。感谢寰球的扶直与信任!” 雷军发文称小米YU7当天请托(着手:雷军微博) 有多位网友发视频称,雷军在北京小米科技园亲手给首批YU7车主请托新车,给他们送花,并为他们开车门,心扉价值拉满。一位小米汽车门店的职责主说念主员告诉极目新闻记者,6日,小米YU7认真开启宇宙请托,鄙人午的技能,雷军在北京小
近日,一项由@HonestAGI 发布于GitHub的针对盘古大模子(Pangu Pro MoE)涉嫌“抄袭”阿里巴巴发布的通义千问Qwen-2.5 14B模子的商榷论文激发业界热议。 随后,附庸于华为的负责建造盘古大模子的诺亚方舟现实室发布声明,对于“抄袭”指控赐与了否定,并强调盘古Pro MoE开源模子部分基础组件的代码杀青参考了其他开源大模子的部分开源代码,但严格遵命开源许可证条件。 但是,今天一封疑似负责盘古大模子的诺亚方舟现实室里面职工的公开信也出当今了收罗上。在这封公开信当中,这位
说真话,第一次看到华为Mate XT的时候,我的方式只可用“瞪目结舌”四个字来描述。你说折叠屏手机我们见多了,单折的、凹凸折的,但三折的手机,这种奇妙的物种,以前只存在于办法视频里。华为Mate XT平直把办法形成了实验,还大摇大摆地摆在了我们眼前。 这个三折叠的贪图,若何描述呢?粗拙来说,即是华为平直甩出一记杀招,给竞争敌手和市集来了个措手不足。一台手机,你不错折成平淡的单屏6.4寸大小,粗浅单手操作;也不错掀开成一个7.9寸的小平板,刷剧看演义刚刚好;再一折叠,就形成了10.2寸的超等平板
我亲爱的摩羯座们, 其时针悄然滑过2025年的中点,我知谈,你们中的好多东谈主正站在东谈主生的某个山坡上,回望来路,心中五味杂陈。你们老是民风负重前行,像千里默的磐石,坚决,却也孑然。 但整夜,星象的画卷正为你们张开一幅全新的篇章。红运之星木星已投入你们的职责健康宫,督察星土星在疏浚学习宫条款你深度念念考,而变革之星冥王星则在财富宫酝酿着深刻的更正。这一切皆在预示着:下半年,是属于你们的“收货季”。你们将迎来“三吉三喜”,这并非虚无的运谈,而是你们往常系数致力的势必回响。当今,让咱们系数望望,
【小小故事博全球一乐!!!】开云体育 2025年星座霸王名次榜,这几个座位列前三? 跟着新的一年冉冉拉开序幕,咱们老是满怀期待地思要考查改日的点滴,尤其是在星座运势方面。每个东谈主皆但愿在新的一年里,不管是干事、爱情照旧生存,皆能相敬如宾,一帆风顺。那么,在2025年的星象之下,哪些星座将展现出前所未有的霸王之气,稳坐运势名次榜的前三甲呢?让咱们全部揭开答案! 最初,不得不提的即是狮子座。这个星座的东谈主天生就领有王者风姿,他们自信、存眷,仿佛天生就是为了指示他东谈主而生。在2025年,狮子座