一区二区久久蜜桃,人妻一区二区三区不卡,久久 91

告別 Prompt 玄學(xué)！臉譜心智陸弘遠(yuǎn)團(tuán)隊(duì)提出 Adam's Law，高頻文本優(yōu)化大模型訓(xùn)練與推理

2026-04-22 16:11 瀏覽量: 2529

　　學(xué)術(shù)早慧方面，陸弘遠(yuǎn)準(zhǔn)00后創(chuàng)業(yè)者，高中時(shí)就自學(xué)完了大學(xué)數(shù)學(xué)，本科就讀于帝國理工學(xué)院計(jì)算機(jī)系，博士就讀于香港中文大學(xué)，曾在微軟預(yù)訓(xùn)練AI模型。2023年就開始探索符號(hào)化的空間智能以及世界模型——這條技術(shù)路線后來被李飛飛所驗(yàn)證。2023年開創(chuàng)了AI的去污染化符號(hào)檢測(cè)與評(píng)估賽道——被北大李戈老師團(tuán)隊(duì)follow。2023年開創(chuàng)了多智能體的交互進(jìn)化，并獲取相關(guān)發(fā)明專利。等于說在很早期的階段就踩中了后來的多個(gè)風(fēng)口以及主流方向。

　　學(xué)術(shù)成果方面，他入學(xué)6個(gè)月即達(dá)到博士畢業(yè)要求，在這期間，他完成了一篇后續(xù)得到ACL系列Best Paper Awards的大獎(jiǎng)，這既是歷史上第一次中國機(jī)構(gòu)獨(dú)立獲得此獎(jiǎng)，同時(shí)也是一篇沒有任何公司背景支撐的文章。登上領(lǐng)獎(jiǎng)臺(tái)的作者團(tuán)隊(duì)只有兩個(gè)人，陸弘遠(yuǎn)和他的博導(dǎo)林偉教授，而身為一作的陸弘遠(yuǎn)在這個(gè)時(shí)間僅僅接受了6個(gè)月的科研訓(xùn)練。同時(shí)陸弘遠(yuǎn)也是少數(shù)博士就讀期間就能任職ACL頂會(huì)領(lǐng)域主席的博士。

　　放棄傳統(tǒng)學(xué)術(shù)路線方面，陸弘遠(yuǎn)在論文以及發(fā)明專利、獎(jiǎng)項(xiàng)方面是拿到了手軟。之所以堅(jiān)定選擇創(chuàng)業(yè)這條路線沒有選擇傳統(tǒng)的學(xué)術(shù)教職，是因?yàn)殛懞脒h(yuǎn)的夢(mèng)想是能夠創(chuàng)造一個(gè)像谷歌或者臉書一樣的業(yè)界和學(xué)界交叉的公司。

　　有這樣一種“模型玄學(xué)”：明明是同一個(gè)Prompt，僅僅換一種說法，模型的回答可能就天差地別。

　　深挖這個(gè)現(xiàn)象，是一個(gè)有趣、有用、但“反直覺”的問題：如果語義不變，只是把一句話改寫成更常見、更高頻的“大白話”，模型的推理以及訓(xùn)練表現(xiàn)會(huì)不會(huì)更好？

　　最近，來自臉譜心智與香港中文大學(xué)的科研人員圍繞這個(gè)問題展開了系統(tǒng)研究，并提出了一項(xiàng)中稿 ACL 2026 Main的新工作。他們提出了一個(gè)極具記憶點(diǎn)的新概念：Adam’s Law，aka Textual Frequency Law（文本頻率定律）。

　　論文用理論推導(dǎo)以及模型實(shí)驗(yàn)向我們展示了：當(dāng)不同表述表達(dá)同一個(gè)意思時(shí)，語言模型往往更偏好“高頻文本”。而這種偏好不僅出現(xiàn)在你敲下 Prompt 的那一刻，甚至在模型訓(xùn)練階段也同樣適用。

　　用大白話說，很多時(shí)候決定模型是否聰明的，不只是“你問了啥”，還包括“你是怎么說的”。

　　這啟發(fā)了什么？今天我們業(yè)內(nèi)談起模型優(yōu)化，關(guān)鍵詞永遠(yuǎn)是：更強(qiáng)更大的基座、更長(zhǎng)的推理思維鏈、以及昂貴的高質(zhì)量訓(xùn)練數(shù)據(jù)，或者是極其復(fù)雜的alignment算法。但Adam\'s Law揭示了文本頻率對(duì)于模型訓(xùn)練以及推理的重要性。

　　研究表明，高頻表達(dá)因?yàn)樵谟?xùn)練語料中出現(xiàn)的次數(shù)足夠多，大模型對(duì)它們有著天然的“肌肉記憶”。因此，在面對(duì)這些模型自身熟悉的詞句時(shí)，模型在理解、推理和生成時(shí)更容易零百“進(jìn)入狀態(tài)”。

　　Who is Adam？

　　Adam’s Law 主張的鐵律是：我們應(yīng)該優(yōu)先使用句子級(jí)頻率更高的expression，無論是做inference還是training。

　　研究團(tuán)隊(duì)不甘讓結(jié)論停留在“哎喲，好像確實(shí)是這樣”的empirical observation。

　　他們先是提供了縝密的theoratical proof，也為其搭建了一個(gè)完整的framework，由三板斧組成：

　　第一把斧 TFL（Adam’s Law）：提出Textual Frequency Law：“高頻文本應(yīng)被優(yōu)先選擇”；

圖：極其硬核的部分推導(dǎo)數(shù)學(xué)輔佐

　　第二把斧 TFD（Textual Frequency Distillation）：既然算不準(zhǔn)，那就讓模型自己開口。用目標(biāo)模型生成的文本，去反向修正frequency estimation；

　　第三把斧 CTFT（Curriculum Textual Frequency Training）：把文本頻率引入課程學(xué)習(xí)，給模型發(fā)一本循序漸進(jìn)的教材。

　　用大白話來說，他們的操作流程是這樣的：先給一句話算算“八字”（估算常見度），把同義句里最接地氣、最frequent的那句挑出來喂給模型；如果怕算得不準(zhǔn)，就讓模型自己做幾道“故事續(xù)寫”題，看看它平時(shí)潛意識(shí)里愛用什么詞，借此來修正頻率估算；最后，在訓(xùn)練時(shí)，不光是要挑數(shù)據(jù)頻率，而且訓(xùn)練順序都給你安排得明明白白。

　　怎樣才算“常見”？巧妙的工程解法

　　這里有一個(gè)大坑：像是GLM這種主流大模型，預(yù)訓(xùn)練數(shù)據(jù)全是個(gè)黑箱，連它吃過幾碗干飯都不知道，你怎么算它對(duì)哪句話更眼熟？不用擔(dān)心沒關(guān)系。

　　作者給了個(gè)極其巧妙且工程化的解：咱不糾結(jié)模型見過啥，直接借助公開的龐大corpora和詞頻資源去估算就行。在Adam’s Law中，句子的頻率被近似為詞頻的組合，直接攢出一個(gè)“句子級(jí)頻率指標(biāo)”。

　　這意味著，開發(fā)人員完全不需要破解閉源模型的訓(xùn)練集，就能直接用這套頻率估算大法。極其接地氣，繞開了黑箱限制，把玄學(xué)推進(jìn)到了可驗(yàn)證、可復(fù)現(xiàn)的工程層面。

　　當(dāng)然，僅靠公開詞頻估計(jì)大概率是有誤差的。Adam打出了第二把斧 TFD：讓目標(biāo)模型對(duì)給定文本做“story completion續(xù)寫補(bǔ)全”。這相當(dāng)于在審問模型：“別裝了，暴露你的真實(shí)用語習(xí)慣吧！”用模型自己吐出來的語料蒸餾，再去輔助修正原始頻率，這樣就無限逼近了模型內(nèi)部真正熟悉的白話表達(dá)分布。

　　別光顧著改 Prompt推理，訓(xùn)練的規(guī)矩也變了

　　Adam\'s Law最絕的一點(diǎn)，是沒有把“文本頻率”局限在一個(gè)討巧的 Prompt 推理技巧上，而是直接殺到了更硬核的模型訓(xùn)練范式里。

　　在提示（Inference）階段，邏輯非常順滑：同一道數(shù)學(xué)題，如果把題目里的生僻詞換成大白話的高頻表達(dá)，模型馬上就算得更準(zhǔn)。

　　但在訓(xùn)練（Training）階段，Adam拋出了一個(gè)靈魂拷問：如果老板給的算力預(yù)算有限，訓(xùn)練數(shù)據(jù)該怎么挑怎么用？Adam說：高頻文本可能比低頻文本更值得優(yōu)先保留！

　　而且 CTFT 甚至改變了喂數(shù)據(jù)的姿勢(shì)。作者發(fā)現(xiàn)，低頻表達(dá)往往語境更稀疏、結(jié)構(gòu)更復(fù)雜。就像我們上語文課一樣，先讓他死磕難懂的古文（更低頻），再讓他看通俗的白話文（更高頻），最終的收斂效果，居然比隨機(jī)亂喂數(shù)據(jù)還要好。

　　實(shí)驗(yàn)結(jié)果：白嫖的性能提升

　　為了拿數(shù)據(jù)說話，作者死磕出了一個(gè)專門的數(shù)據(jù)集 TFPD（Textual Frequency Paired Dataset），涵蓋了數(shù)學(xué)推理、機(jī)器翻譯、常識(shí)推理和智能體工具調(diào)用等多個(gè)場(chǎng)景。

　　為了保證嚴(yán)謹(jǐn)，他們先用模型生成一批“文縐縐、極其少見”的改寫，和一批“大白話、極其常見”的改寫，再花錢請(qǐng)人工標(biāo)注員挨個(gè)檢查，確保改寫后意思沒變，最后湊成了“高頻 vs 低頻”的成對(duì)樣本。

　　結(jié)果極其直觀。

　　在數(shù)學(xué)推理、Agent任務(wù)、以及常識(shí)解析上，僅僅只是把Prompt換成更高頻的表達(dá)，不換模型、不加訓(xùn)練數(shù)據(jù)、不增加inference時(shí)長(zhǎng)，inference效果顯著增加；在機(jī)器翻譯上，Adam\'s Law同樣穩(wěn)如泰山：研究人員一口氣測(cè)了 100 個(gè)語言翻譯方向：在訓(xùn)練實(shí)驗(yàn)里，三板斧CTFT 的威力同樣顯現(xiàn)。在 Pangasinan（一種菲律賓語支）的機(jī)器翻譯任務(wù)中，使用了 CTFT 后， BLEU 分?jǐn)?shù)狂漲29.96%。

　　圖：Adam\'s Law在上百種語言上的結(jié)果可視化，最外圈為Adam\'s Law的結(jié)果。

　　更顛覆認(rèn)知的是：有時(shí)候用高頻改寫數(shù)據(jù)去訓(xùn)練，效果甚至比直接用原汁原味的基準(zhǔn)training set還要好！這直接挑戰(zhàn)了業(yè)內(nèi)“原始數(shù)據(jù)天然最優(yōu)”的傳統(tǒng)偏見。

　　Adam\'s Law，給行業(yè)帶來了什么？

　　Adam’s Law 把一種飄渺的“直覺”，打造成了一套可定義、可估算、可驗(yàn)證、可部署、繞過黑盒的方法學(xué)定律，通過數(shù)學(xué)推導(dǎo)以及實(shí)驗(yàn)的方法證明了其可靠性。

　　對(duì)搞應(yīng)用（做 Agent、寫 Prompt）的打工人：別再給Prompt瘋狂加毫無必要的定語、約束和高端詞匯了。先把Prompt理順，改得更自然、更高頻，這可能是一種幾乎沒有成本、見效極快的“魔法”。

　　對(duì)搞訓(xùn)練（Pre-training、SFT、蒸餾、做數(shù)據(jù)清洗）的煉丹師：這是全新的Data Engineering治理思路。以后洗數(shù)據(jù)做數(shù)據(jù)，除了看數(shù)據(jù)的質(zhì)量、長(zhǎng)度、難度，咱還得給文本頻率拉個(gè)畫像。GPUTPU吃緊時(shí)，“留什么數(shù)據(jù)”不只看標(biāo)注對(duì)不對(duì)，咱還得看看這句話是不是足夠“大白話”。

　　對(duì)評(píng)測(cè)（Benchmark）的研究者：如果一道題，換個(gè)冷門說法模型就不行，那它是真的有了“推理能力”，還是僅僅靠著“刷題”，記住了特定表述的熟悉度？這給未來構(gòu)建更抗造的評(píng)測(cè)榜單提了個(gè)醒。

　　Conclusions

　　Adam’s Law 像一面鏡子，照出了 LLM 的本質(zhì)：模型不僅在“理解世界”，它更是在“記住人類語言世界里，什么東西最常出現(xiàn)”，然而這是雙向的，LLM在看世界的時(shí)候，世界也在看LLM。

　　當(dāng)整個(gè) AI 圈都在為了更長(zhǎng)的 RL 推理、更龐大的參數(shù)量、更玄乎的對(duì)齊算法無腦卷生卷死時(shí)，這篇工作輕巧地給出了一條無比樸素的線索：

　　讓模型變聰明的捷徑，不是把話說得更高深，而是把話說得更大白話一點(diǎn)。這在推理時(shí)有用，也在訓(xùn)練時(shí)有用

　　論文信息：

　　論文標(biāo)題： Adam’s Law: Textual Frequency Law on Large Language Models

　　作者： Hongyuan Adam Lu, Z.L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam

　　機(jī)構(gòu)： FaceMind Corporation、The Chinese University of Hong Kong

　　arXiv 鏈接： https://arxiv.org/abs/2604.02176

　　huggingface鏈接：https://huggingface.co/papers/2604.02176

　　github鏈接：https://github.com/HongyuanLuke/frequencylaw

　　一作介紹：

　　Hongyuan Adam Lu，F(xiàn)aceMind CEO，CUHK AI PhD研究課題：LLM預(yù)訓(xùn)練、世界模型、端側(cè)模型訓(xùn)練；帝國理工CS本碩；愛丁堡大學(xué)AI碩士；ACL系頂會(huì)Outstanding Paper Award一作；曾于MSRA（北京）任預(yù)訓(xùn)練一職，研發(fā)了世界上第一個(gè)支持200種語言的LLM；旗艦會(huì)議ACL 2025、NAACL 2025 Area Chair，創(chuàng)辦了AI軟件：疊疊社，深受二次元喜愛，是一款被投資人稱之為“米哈游的蔡浩宇都要學(xué)習(xí)的AI產(chǎn)品”；

內(nèi)容編輯：

(本文轉(zhuǎn)載自，如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)

* 文章為作者獨(dú)立觀點(diǎn)，不代表MBAChina立場(chǎng)。采編部郵箱：news@mbachina.com，歡迎交流與合作。

贊