亚洲av狠狠爱一区二区三区,亚洲gv白嫩小受在线观看

靠博客文章入職OpenAI，Keller Jordan的Muon優(yōu)化器或助力GPT-5訓(xùn)練

發(fā)布時間：2025-06-17 05:15 來源：ITBEAR 作者：蘇婉清

近日，AI界傳出了一則令人矚目的消息。據(jù)AI云服務(wù)商Hyperbolic的聯(lián)合創(chuàng)始人兼CTO Yuchen Jin在社交平臺上的爆料，研究員Keller Jordan僅憑一篇博客文章就成功加入了OpenAI，并且可能正在利用文章中提及的神經(jīng)網(wǎng)絡(luò)隱藏層優(yōu)化器Muon來訓(xùn)練GPT-5。

Jin在爆料中感慨道，許多研究人員，包括曾經(jīng)的自己，都曾誤以為在頂級學(xué)術(shù)會議上發(fā)表論文才是最終目標(biāo)。然而，發(fā)表論文并不等同于產(chǎn)生實際影響力。Keller Jordan發(fā)布的Muon優(yōu)化器僅以博客形式問世，卻幫助他叩開了OpenAI的大門，并有可能在GPT-5的訓(xùn)練中大放異彩。

Jordan的這篇博客發(fā)表于2024年12月，題為《Muon：神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器》。文章詳細(xì)介紹了Muon的設(shè)計理念及其在多個實驗中的優(yōu)異表現(xiàn)。從職場社交平臺領(lǐng)英的信息可以確認(rèn)，Jordan正是在博客發(fā)布后不久加入了OpenAI，這無疑進一步證實了他的研究成果得到了業(yè)界的認(rèn)可。

Muon作為一種針對神經(jīng)網(wǎng)絡(luò)隱藏層二維參數(shù)的優(yōu)化器，在設(shè)計和應(yīng)用上都有其獨到之處。它通過采用SGD-momentum生成的更新，并在應(yīng)用于參數(shù)之前對每個更新應(yīng)用Newton-Schulz迭代作為后處理步驟，從而實現(xiàn)了更新矩陣的近似正交化。這一創(chuàng)新設(shè)計使得Muon在多個實驗中都取得了顯著優(yōu)于傳統(tǒng)優(yōu)化器AdamW的表現(xiàn)。

具體而言，Muon在CIFAR-10數(shù)據(jù)集上的訓(xùn)練速度記錄從3.3秒提高到了2.6秒，準(zhǔn)確率達到了94%；在FineWeb競賽任務(wù)上的訓(xùn)練速度記錄也提高了1.35倍。在擴展到更大規(guī)模的模型時，Muon仍然能夠持續(xù)顯示訓(xùn)練速度的提升。這些實證成果無疑為Muon在OpenAI中的應(yīng)用提供了堅實的基礎(chǔ)。

除了在設(shè)計上的創(chuàng)新，Jordan在博客中還對神經(jīng)網(wǎng)絡(luò)優(yōu)化研究中的證據(jù)標(biāo)準(zhǔn)提出了犀利批評。他指出，當(dāng)前的研究文獻中充斥著大量聲稱能夠擊敗AdamW的優(yōu)化器，但這些優(yōu)化器往往因為基線欠調(diào)而未能得到廣泛采用。為了糾正這種情況，Jordan建議研究界應(yīng)該要求新方法在競爭性訓(xùn)練任務(wù)中取得成功，以確保其有效性和可靠性。

隨著Jordan加入OpenAI并可能參與GPT-5的訓(xùn)練工作，Muon這一全新優(yōu)化器有望成為GPT-5中的重要技術(shù)。然而，關(guān)于Muon的未來發(fā)展仍有許多未知因素，包括其是否能夠在更大規(guī)模的訓(xùn)練中擴展應(yīng)用，以及在大型GPU集群中的正確分布等?；蛟S在GPT-5的研究中，這些問題都將得到解答。

更多>同類內(nèi)容

亚洲精品国产a久久久久久,亚洲 激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

靠博客文章入職OpenAI，Keller Jordan的Muon優(yōu)化器或助力GPT-5訓(xùn)練

亚洲精品国产a久久久久久,亚洲激情 ,欧美精品,亚洲av日韩综合一区在线观看,亚洲精品不卡av在线播放,无码国产69精品久久久久同性

靠博客文章入職OpenAI，Keller Jordan的Muon優(yōu)化器或助力GPT-5訓(xùn)練