手机浏览器扫描二维码访问
在FP8问题上,孟繁岐与DS是一致的。
在稀疏这一方向上,孟繁岐选择了细粒度,矩阵层面的稀疏。
DS则选择了通道层面的MoE,混合专家模型。
简单来说,DS选择把模型拆分为1632个专家,就像是把一块蛋糕均分切成1632块。
每一块都是不同的味道,每一个专家更加专注于不同的知识。
根据具体的情况,会有一个门控系统,来决定哪些专家参与计算。
而孟繁岐的野心更甚,他想要从根本上将整个模型在原子级别拆分,细粒度地对所有权重进行大刀阔斧地裁减,直到原本大小的1632分之一。
从理论上说,这种方式的上限更高,MoE的稀疏更显得粗糙。
另一方面,孟繁岐也有愿景,想要增强国内硬件的竞争力。
因为英伟达的设备,是无法支持这种细粒度稀疏计算的。
倘若能够先发展国内计算设备,适配这种技术,就能够在制程等诸多硬件技术落后的情况下,达到更快的推理效果。
换言之,孟繁岐又一次将希望寄予了发展周期更长的硬件厂商,那么在这方面被其他人赶上,倒也不是什么奇怪的事情了。
虽然具体实现上稍显不同,但总体来说,DS完成了孟繁岐在技术上的两点宏观展望。
从其余的许多技术细节当中,孟繁岐可以很强烈地读到,他们的开发之路走得也并不顺利。
比如说混合专家MoE,很容易让一两个专家变成懂王,什么都要参与,很多其他的专家渐渐变成了挂件,貌似在参与,其实完全就是围观的观众。
如果增加额外的损失函数去调整它们,既增加了大量计算量,又极有可能影响到训练的主要目标本身。
专家们的调度问题这个小问题影响到模型的能力这个主要问题。
DS最终完美地解决了这个问题,既没有额外增添损失计算优化,又使得各专家实现了负载均衡。
孟繁岐相信,这个最终简洁优雅的技术方案背后一定存在许多努力与艰辛。
而现在的closeai对这种付出是越来越排斥的。
比起花费许多的努力在某一个算子上优化20-30%的速度,他们更愿意多用一些显卡,多花一些时间。
既然英伟达暂时不直接支持FP8做这样的操作,那就先等等吧。
诸如此类的事情持续累积,使得后来者已经实质上实现了相当数量的技术超越,甚至是在孟繁岐较为关注的技术方向上。
而DeepSeek的坦率开源,也让孟繁岐动摇了closeai是否继续闭源的想法。
“若是我适当裁减一些已经沉迷安乐的技术人员,逐渐走向开源,对比海对面的OpenAI倒也算是奇景了。”
孟繁岐想到这里也是笑出了声。
自从两国关系逐渐微妙,CloseAI的在美使用就收到了限制。
原本标榜开源的OpenAI逐渐走向闭源,而最初就闭源盈利的CloseAI反而在考虑拥抱开源盛世。
这倒也称得上是另一种双向奔赴了。
同一时刻,比起一直在关注技术细节的孟繁岐,普通人更为在意的,则是R1这个模型,首次揭露了前沿高性能智能思考问题的逻辑脉络。
叶菲凡很后悔,她救人被人以身相许了,而且还是强加的,对方还是汴京有名的纨绔子弟。大人,未来夫人跟公子们谈笑风生。凌纨绔去搞破坏。大人,未来夫人给薛小三公子亲自下厨了。凌纨绔抢过自家未来娘子给前未婚夫做的好吃,全部吃掉。大人,夫人要离家出走,说老祖宗要给你纳妾。凌纨绔直接追上去,他也要离家出走,娘子带上他。...
一剑归来,剑帝重生!一代剑帝,重生八百年前,携带百年记忆,重新改写历史!解开一切谜团,弥补所有遗憾!一剑创世,一剑灭世!万古以来,唯我无敌!...
作者刺猬的经典小说豪门战神最新章节全文阅读服务本站更新及时无弹窗广告小说五年前,他千里赴戎。从此,金戈铁马,征战沙场。踏尸海血山,破千军万马。以盖世神姿,封战神之名。当真国士之无双。功成而身退,携烈火归来。然,其父惨死,家族分崩。饮恨家仇。他定要以牙还牙,十倍奉还。...
...
一代战神秦九州重归都市,为弥补遗憾,搅动风起云涌,以不败之资横行四方,诸天震颤。...
林江今天要结婚了。但是新娘长什么样子他都不知道他站在酒店门口,犹豫着要不要进去赴婚约,最后心一横,决定遵照爷爷遗命,以报顾家老头救命之恩。...