蛋播视频一区,无码鲁丝一区二区,精品 久久 五月天,国产老熟女,五月草草在线观看,中文日韩欧美,情色一区二区三区,欧美日韩亚洲激情在线,亚洲制服在线香蕉

重磅發(fā)布 | 2027中央財(cái)經(jīng)大學(xué)金融學(xué)院第一期“金融MBA體驗(yàn)營”暨前沿公開課報(bào)名開啟

告別 Prompt 玄學(xué)!臉譜心智陸弘遠(yuǎn)團(tuán)隊(duì)提出 Adam's Law,高頻文本優(yōu)化大模型訓(xùn)練與推理

2026-04-22 16:11 瀏覽量: 2529

  學(xué)術(shù)早慧方面,陸弘遠(yuǎn)準(zhǔn)00后創(chuàng)業(yè)者,高中時(shí)就自學(xué)完了大學(xué)數(shù)學(xué),本科就讀于帝國理工學(xué)院計(jì)算機(jī)系,博士就讀于香港中文大學(xué),曾在微軟預(yù)訓(xùn)練AI模型。2023年就開始探索符號(hào)化的空間智能以及世界模型——這條技術(shù)路線后來被李飛飛所驗(yàn)證。2023年開創(chuàng)了AI的去污染化符號(hào)檢測(cè)與評(píng)估賽道——被北大李戈老師團(tuán)隊(duì)follow。2023年開創(chuàng)了多智能體的交互進(jìn)化,并獲取相關(guān)發(fā)明專利。等于說在很早期的階段就踩中了后來的多個(gè)風(fēng)口以及主流方向。

  學(xué)術(shù)成果方面,他入學(xué)6個(gè)月即達(dá)到博士畢業(yè)要求,在這期間,他完成了一篇后續(xù)得到ACL系列Best Paper Awards的大獎(jiǎng),這既是歷史上第一次中國機(jī)構(gòu)獨(dú)立獲得此獎(jiǎng),同時(shí)也是一篇沒有任何公司背景支撐的文章。登上領(lǐng)獎(jiǎng)臺(tái)的作者團(tuán)隊(duì)只有兩個(gè)人,陸弘遠(yuǎn)和他的博導(dǎo)林偉教授,而身為一作的陸弘遠(yuǎn)在這個(gè)時(shí)間僅僅接受了6個(gè)月的科研訓(xùn)練。同時(shí)陸弘遠(yuǎn)也是少數(shù)博士就讀期間就能任職ACL頂會(huì)領(lǐng)域主席的博士。

  放棄傳統(tǒng)學(xué)術(shù)路線方面,陸弘遠(yuǎn)在論文以及發(fā)明專利、獎(jiǎng)項(xiàng)方面是拿到了手軟。之所以堅(jiān)定選擇創(chuàng)業(yè)這條路線沒有選擇傳統(tǒng)的學(xué)術(shù)教職,是因?yàn)殛懞脒h(yuǎn)的夢(mèng)想是能夠創(chuàng)造一個(gè)像谷歌或者臉書一樣的業(yè)界和學(xué)界交叉的公司。

  有這樣一種“模型玄學(xué)”:明明是同一個(gè)Prompt,僅僅換一種說法,模型的回答可能就天差地別。

  深挖這個(gè)現(xiàn)象,是一個(gè)有趣、有用、但“反直覺”的問題:如果語義不變,只是把一句話改寫成更常見、更高頻的“大白話”,模型的推理以及訓(xùn)練表現(xiàn)會(huì)不會(huì)更好?

  最近,來自臉譜心智與香港中文大學(xué)的科研人員圍繞這個(gè)問題展開了系統(tǒng)研究,并提出了一項(xiàng)中稿 ACL 2026 Main的新工作。他們提出了一個(gè)極具記憶點(diǎn)的新概念:Adam’s Law,aka Textual Frequency Law(文本頻率定律)。

  論文用理論推導(dǎo)以及模型實(shí)驗(yàn)向我們展示了:當(dāng)不同表述表達(dá)同一個(gè)意思時(shí),語言模型往往更偏好“高頻文本”。而這種偏好不僅出現(xiàn)在你敲下 Prompt 的那一刻,甚至在模型訓(xùn)練階段也同樣適用。

  用大白話說,很多時(shí)候決定模型是否聰明的,不只是“你問了啥”,還包括“你是怎么說的”。

  這啟發(fā)了什么?今天我們業(yè)內(nèi)談起模型優(yōu)化,關(guān)鍵詞永遠(yuǎn)是:更強(qiáng)更大的基座、更長(zhǎng)的推理思維鏈、以及昂貴的高質(zhì)量訓(xùn)練數(shù)據(jù),或者是極其復(fù)雜的alignment算法。但Adam\'s Law揭示了文本頻率對(duì)于模型訓(xùn)練以及推理的重要性。

  研究表明,高頻表達(dá)因?yàn)樵谟?xùn)練語料中出現(xiàn)的次數(shù)足夠多,大模型對(duì)它們有著天然的“肌肉記憶”。因此,在面對(duì)這些模型自身熟悉的詞句時(shí),模型在理解、推理和生成時(shí)更容易零百“進(jìn)入狀態(tài)”。

  Who is Adam?

  Adam’s Law 主張的鐵律是:我們應(yīng)該優(yōu)先使用句子級(jí)頻率更高的expression,無論是做inference還是training。

  研究團(tuán)隊(duì)不甘讓結(jié)論停留在“哎喲,好像確實(shí)是這樣”的empirical observation。

  他們先是提供了縝密的theoratical proof,也為其搭建了一個(gè)完整的framework,由三板斧組成:

  第一把斧 TFL(Adam’s Law): 提出Textual Frequency Law:“高頻文本應(yīng)被優(yōu)先選擇”;

1776838552455641.jpg

圖:極其硬核的部分推導(dǎo)數(shù)學(xué)輔佐

  第二把斧 TFD(Textual Frequency Distillation): 既然算不準(zhǔn),那就讓模型自己開口。用目標(biāo)模型生成的文本,去反向修正frequency estimation;

  第三把斧 CTFT(Curriculum Textual Frequency Training): 把文本頻率引入課程學(xué)習(xí),給模型發(fā)一本循序漸進(jìn)的教材。

  用大白話來說,他們的操作流程是這樣的: 先給一句話算算“八字”(估算常見度),把同義句里最接地氣、最frequent的那句挑出來喂給模型;如果怕算得不準(zhǔn),就讓模型自己做幾道“故事續(xù)寫”題,看看它平時(shí)潛意識(shí)里愛用什么詞,借此來修正頻率估算;最后,在訓(xùn)練時(shí),不光是要挑數(shù)據(jù)頻率,而且訓(xùn)練順序都給你安排得明明白白。

  怎樣才算“常見”?巧妙的工程解法

  這里有一個(gè)大坑:像是GLM這種主流大模型,預(yù)訓(xùn)練數(shù)據(jù)全是個(gè)黑箱,連它吃過幾碗干飯都不知道,你怎么算它對(duì)哪句話更眼熟?不用擔(dān)心沒關(guān)系。

  作者給了個(gè)極其巧妙且工程化的解:咱不糾結(jié)模型見過啥,直接借助公開的龐大corpora和詞頻資源去估算就行。 在Adam’s Law中,句子的頻率被近似為詞頻的組合,直接攢出一個(gè)“句子級(jí)頻率指標(biāo)”。

  這意味著,開發(fā)人員完全不需要破解閉源模型的訓(xùn)練集,就能直接用這套頻率估算大法。極其接地氣,繞開了黑箱限制,把玄學(xué)推進(jìn)到了可驗(yàn)證、可復(fù)現(xiàn)的工程層面。

  當(dāng)然,僅靠公開詞頻估計(jì)大概率是有誤差的。Adam打出了第二把斧 TFD:讓目標(biāo)模型對(duì)給定文本做“story completion續(xù)寫補(bǔ)全”。這相當(dāng)于在審問模型:“別裝了,暴露你的真實(shí)用語習(xí)慣吧!”用模型自己吐出來的語料蒸餾,再去輔助修正原始頻率,這樣就無限逼近了模型內(nèi)部真正熟悉的白話表達(dá)分布。

  別光顧著改 Prompt推理,訓(xùn)練的規(guī)矩也變了

  Adam\'s Law最絕的一點(diǎn),是沒有把“文本頻率”局限在一個(gè)討巧的 Prompt 推理技巧上,而是直接殺到了更硬核的模型訓(xùn)練范式里。

  在提示(Inference)階段,邏輯非常順滑:同一道數(shù)學(xué)題,如果把題目里的生僻詞換成大白話的高頻表達(dá),模型馬上就算得更準(zhǔn)。

  但在訓(xùn)練(Training)階段,Adam拋出了一個(gè)靈魂拷問:如果老板給的算力預(yù)算有限,訓(xùn)練數(shù)據(jù)該怎么挑怎么用?Adam說:高頻文本可能比低頻文本更值得優(yōu)先保留!

  而且 CTFT 甚至改變了喂數(shù)據(jù)的姿勢(shì)。作者發(fā)現(xiàn),低頻表達(dá)往往語境更稀疏、結(jié)構(gòu)更復(fù)雜。就像我們上語文課一樣,先讓他死磕難懂的古文(更低頻),再讓他看通俗的白話文(更高頻),最終的收斂效果,居然比隨機(jī)亂喂數(shù)據(jù)還要好。

  實(shí)驗(yàn)結(jié)果:白嫖的性能提升

  為了拿數(shù)據(jù)說話,作者死磕出了一個(gè)專門的數(shù)據(jù)集 TFPD(Textual Frequency Paired Dataset),涵蓋了數(shù)學(xué)推理、機(jī)器翻譯、常識(shí)推理和智能體工具調(diào)用等多個(gè)場(chǎng)景。

  為了保證嚴(yán)謹(jǐn),他們先用模型生成一批“文縐縐、極其少見”的改寫,和一批“大白話、極其常見”的改寫,再花錢請(qǐng)人工標(biāo)注員挨個(gè)檢查,確保改寫后意思沒變,最后湊成了“高頻 vs 低頻”的成對(duì)樣本。

  結(jié)果極其直觀。

  在數(shù)學(xué)推理、Agent任務(wù)、以及常識(shí)解析上,僅僅只是把Prompt換成更高頻的表達(dá),不換模型、不加訓(xùn)練數(shù)據(jù)、不增加inference時(shí)長(zhǎng),inference效果顯著增加;在機(jī)器翻譯上,Adam\'s Law同樣穩(wěn)如泰山:研究人員一口氣測(cè)了 100 個(gè)語言翻譯方向:在訓(xùn)練實(shí)驗(yàn)里,三板斧CTFT 的威力同樣顯現(xiàn)。在 Pangasinan(一種菲律賓語支)的機(jī)器翻譯任務(wù)中,使用了 CTFT 后, BLEU 分?jǐn)?shù)狂漲29.96%。

1776838584603138.png

  圖:Adam\'s Law在上百種語言上的結(jié)果可視化,最外圈為Adam\'s Law的結(jié)果。

  更顛覆認(rèn)知的是:有時(shí)候用高頻改寫數(shù)據(jù)去訓(xùn)練,效果甚至比直接用原汁原味的基準(zhǔn)training set還要好! 這直接挑戰(zhàn)了業(yè)內(nèi)“原始數(shù)據(jù)天然最優(yōu)”的傳統(tǒng)偏見。

  Adam\'s Law,給行業(yè)帶來了什么?

  Adam’s Law 把一種飄渺的“直覺”,打造成了一套可定義、可估算、可驗(yàn)證、可部署、繞過黑盒的方法學(xué)定律,通過數(shù)學(xué)推導(dǎo)以及實(shí)驗(yàn)的方法證明了其可靠性。

  對(duì)搞應(yīng)用(做 Agent、寫 Prompt)的打工人: 別再給Prompt瘋狂加毫無必要的定語、約束和高端詞匯了。先把Prompt理順,改得更自然、更高頻,這可能是一種幾乎沒有成本、見效極快的“魔法”。

  對(duì)搞訓(xùn)練(Pre-training、SFT、蒸餾、做數(shù)據(jù)清洗)的煉丹師: 這是全新的Data Engineering治理思路。以后洗數(shù)據(jù)做數(shù)據(jù),除了看數(shù)據(jù)的質(zhì)量、長(zhǎng)度、難度,咱還得給文本頻率拉個(gè)畫像。GPUTPU吃緊時(shí),“留什么數(shù)據(jù)”不只看標(biāo)注對(duì)不對(duì),咱還得看看這句話是不是足夠“大白話”。

  對(duì)評(píng)測(cè)(Benchmark)的研究者: 如果一道題,換個(gè)冷門說法模型就不行,那它是真的有了“推理能力”,還是僅僅靠著“刷題”,記住了特定表述的熟悉度?這給未來構(gòu)建更抗造的評(píng)測(cè)榜單提了個(gè)醒。

  Conclusions

  Adam’s Law 像一面鏡子,照出了 LLM 的本質(zhì):模型不僅在“理解世界”,它更是在“記住人類語言世界里,什么東西最常出現(xiàn)”,然而這是雙向的,LLM在看世界的時(shí)候,世界也在看LLM。

  當(dāng)整個(gè) AI 圈都在為了更長(zhǎng)的 RL 推理、更龐大的參數(shù)量、更玄乎的對(duì)齊算法無腦卷生卷死時(shí),這篇工作輕巧地給出了一條無比樸素的線索:

  讓模型變聰明的捷徑,不是把話說得更高深,而是把話說得更大白話一點(diǎn)。這在推理時(shí)有用,也在訓(xùn)練時(shí)有用

  論文信息:

  論文標(biāo)題: Adam’s Law: Textual Frequency Law on Large Language Models

  作者: Hongyuan Adam Lu, Z.L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam

  機(jī)構(gòu): FaceMind Corporation、The Chinese University of Hong Kong

  arXiv 鏈接: https://arxiv.org/abs/2604.02176

  huggingface鏈接:https://huggingface.co/papers/2604.02176

  github鏈接:https://github.com/HongyuanLuke/frequencylaw

  一作介紹:

  Hongyuan Adam Lu,F(xiàn)aceMind CEO,CUHK AI PhD研究課題:LLM預(yù)訓(xùn)練、世界模型、端側(cè)模型訓(xùn)練;帝國理工CS本碩;愛丁堡大學(xué)AI碩士;ACL系頂會(huì)Outstanding Paper Award一作;曾于MSRA(北京)任預(yù)訓(xùn)練一職,研發(fā)了世界上第一個(gè)支持200種語言的LLM;旗艦會(huì)議ACL 2025、NAACL 2025 Area Chair,創(chuàng)辦了AI軟件:疊疊社,深受二次元喜愛,是一款被投資人稱之為“米哈游的蔡浩宇都要學(xué)習(xí)的AI產(chǎn)品”;

內(nèi)容編輯:

(本文轉(zhuǎn)載自 ,如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)

* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場(chǎng)。采編部郵箱:news@mbachina.com,歡迎交流與合作。

收藏
訂閱

最新動(dòng)態(tài)

    MBAChina 掃碼關(guān)注

    掃碼關(guān)注 MBAChina

    EMBA 掃碼關(guān)注

    掃碼關(guān)注
    EMBA

    秭归县| 二连浩特市| 鄱阳县| 瓦房店市| 天津市| 自治县| 和平县| 富蕴县| 纳雍县| 孝昌县| 蛟河市| 蓬安县| 通河县| 定日县| 宁武县| 临泽县| 桂阳县| 隆化县| 仙居县| 资中县| 尼木县| 东丽区| 泗阳县| 淮北市| 蓬溪县| 五华县| 宜昌市| 沽源县| 彩票| 灌阳县| 旺苍县| 长宁区| 巴林右旗| 沁源县| 仁寿县| 鞍山市| 永新县| 京山县| 弥渡县| 时尚| 苗栗市|