蛋播视频一区,无码鲁丝一区二区,精品 久久 五月天,国产老熟女,五月草草在线观看,中文日韩欧美,情色一区二区三区,欧美日韩亚洲激情在线,亚洲制服在线香蕉

北大光華彭一杰團(tuán)隊(duì)論文榮獲IJOC杰出論文獎(jiǎng)

北京大學(xué)光華管理學(xué)院
2025-02-26 17:52 瀏覽量: 2616
?智能總結(jié)

國(guó)際運(yùn)籌學(xué)與管理科學(xué)學(xué)會(huì)旗下期刊IJOC公布2024年度杰出論文獲獎(jiǎng)名單,北大光華彭一杰等完成的論文入選。該論文創(chuàng)新引入多排序選擇問(wèn)題框架,提出AOAT策略,提升搜索效率與決策準(zhǔn)確性,為強(qiáng)化學(xué)習(xí)算法提供新思路,研究獲國(guó)家自然科學(xué)基金資助。

近日,國(guó)際管理科學(xué)與運(yùn)籌學(xué)領(lǐng)域的頂級(jí)期刊之一、國(guó)際運(yùn)籌學(xué)與管理科學(xué)學(xué)會(huì)(INFORMS)旗下權(quán)威期刊INFORMS Journal on Computing(IJOC)公布了2024年度Meritorious Papers(杰出論文)獲獎(jiǎng)名單。由北京大學(xué)光華管理學(xué)院副教授彭一杰與美國(guó)佐治亞理工大學(xué)工業(yè)與系統(tǒng)工程系博士生劉嘯天、北京大學(xué)光華管理學(xué)院博士后張公伯、博士生周睿涵共同完成的論文“An Efficient Node Selection Policy for Monte Carlo Tree Search with Neural Networks”(《基于神經(jīng)網(wǎng)絡(luò)的蒙特卡洛樹搜索高效節(jié)點(diǎn)選擇策略》)成功入選,成為IJOC此獎(jiǎng)項(xiàng)2024年度唯一獲獎(jiǎng)?wù)撐?/strong>。該獎(jiǎng)項(xiàng)旨在表彰在運(yùn)籌學(xué)與計(jì)算科學(xué)領(lǐng)域具有突出理論創(chuàng)新與實(shí)踐價(jià)值的頂尖研究成果。

論文簡(jiǎn)介

近年來(lái),在供應(yīng)鏈管理、制造業(yè)和機(jī)器人控制等各個(gè)領(lǐng)域出現(xiàn)了大規(guī)模決策問(wèn)題。通常,這些問(wèn)題的挑戰(zhàn)在于在大的動(dòng)作空間中識(shí)別最優(yōu)動(dòng)作,這對(duì)于大多數(shù)傳統(tǒng)的基于解搜索的方法來(lái)說(shuō)是難以計(jì)算的。作為一種基于仿真的算法,蒙特卡羅樹搜索(MCTS)因其在計(jì)成本可控的情況下的漸進(jìn)最優(yōu)性而越來(lái)越受到人們的歡迎。

在此基礎(chǔ)上,AlphaGo的成功引發(fā)了一種新的趨勢(shì),即在MCTS中加入用神經(jīng)網(wǎng)絡(luò) (Neural Networks, NN) 構(gòu)建的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò) (NN-MCTS)。

NN-MCTS

此論文創(chuàng)新性地將多排序選擇(R&S)問(wèn)題框架引入MCTS,提出漸進(jìn)最優(yōu)樹分配策略(AOAT),顯著提升了搜索效率與決策準(zhǔn)確性。AOAT有效地分配有限的搜索資源,以最大化正確選擇最佳動(dòng)作的概率。NN-MCTS中的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)分別通過(guò)提供先驗(yàn)知識(shí)和指導(dǎo)最終動(dòng)作的選擇提高AOAT策略的性能。在兩個(gè)棋盤游戲和OpenAI任務(wù)上的數(shù)值實(shí)驗(yàn)表明,該方法優(yōu)于AlphaGo Zero和MuZero中廣泛使用的UCT策略。此外,此研究同時(shí)反映了將R&S方法應(yīng)用于NN-MCTS中實(shí)現(xiàn)節(jié)點(diǎn)選擇的潛力,進(jìn)而為開發(fā)更高效的基于搜索的強(qiáng)化學(xué)習(xí)算法提供了新的思路和方向。

在井字棋下的實(shí)驗(yàn)結(jié)果:

基于AOAT的節(jié)點(diǎn)選擇策略優(yōu)于UCT

在五子棋下的實(shí)驗(yàn)結(jié)果

在強(qiáng)化學(xué)習(xí)任務(wù)CartPole下的實(shí)驗(yàn)結(jié)果

這項(xiàng)研究揭示了將動(dòng)態(tài)仿真資源分配策略擴(kuò)展為MCTS中節(jié)點(diǎn)選擇策略的潛力,該研究得到國(guó)家自然科學(xué)基金杰出青年科學(xué)基金、原創(chuàng)探索項(xiàng)目的資助。應(yīng)用這種新的蒙特卡洛樹搜索方法來(lái)解決大規(guī)模決策問(wèn)題值得進(jìn)一步深入研究。

教授簡(jiǎn)介

彭一杰,北京大學(xué)光華管理學(xué)院副教授,博士生導(dǎo)師。北京大學(xué)人工智能研究院、國(guó)家健康醫(yī)療大數(shù)據(jù)研究院兼職研究員。本科畢業(yè)于武漢大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,從復(fù)旦大學(xué)管理學(xué)院獲博士學(xué)位。在美國(guó)馬里蘭大學(xué)和喬治梅森大學(xué)分別從事過(guò)博士后與助理教授工作。主要研究方向包括仿真建模與優(yōu)化、金融工程與風(fēng)險(xiǎn)管理、人工智能、健康醫(yī)療等。主持國(guó)家自然科學(xué)基金委優(yōu)秀青年科學(xué)基金、原創(chuàng)探索計(jì)劃、杰出青年科學(xué)基金等。在Operations ResearchINFORMS Journal on ComputingIEEE Transactions on Automatic Control等高質(zhì)量期刊上發(fā)表學(xué)術(shù)論文,曾獲INFORMS Outstanding Simulation Publication Award。目前擔(dān)任Asia-Pacific Journal of Operational Research副主編、《系統(tǒng)管理學(xué)報(bào)》領(lǐng)域主編,全國(guó)工業(yè)統(tǒng)計(jì)學(xué)教學(xué)研究會(huì)金融科技與大數(shù)據(jù)分會(huì)副理事長(zhǎng),北京運(yùn)籌學(xué)會(huì)副秘書長(zhǎng),中國(guó)運(yùn)籌學(xué)會(huì)金融工程與金融風(fēng)險(xiǎn)管理分會(huì)常務(wù)理事,管理科學(xué)與工程協(xié)會(huì)理事。

內(nèi)容編輯:許力文

(本文轉(zhuǎn)載自北京大學(xué)光華管理學(xué)院 ,如有侵權(quán)請(qǐng)電話聯(lián)系13810995524)

* 文章為作者獨(dú)立觀點(diǎn),不代表MBAChina立場(chǎng)。采編部郵箱:news@mbachina.com,歡迎交流與合作。

收藏
訂閱

備考交流

  • 【MBAChina 官方社群矩陣】
  • 涵蓋 199管理類聯(lián)考備考 · 復(fù)試調(diào)劑 · 博士申請(qǐng) · 中外合辦學(xué) 四大板塊。
  • ??2027 MBA/MPA/MEM/MPAcc /EMBA聯(lián)考備考群
  • ??2026 管理類聯(lián)考復(fù)試調(diào)劑群
  • ??博士項(xiàng)目交流群
  • ??中外合作辦學(xué)項(xiàng)目群
  • ?? 添加微信:MBAChina001
  • 備注【報(bào)考項(xiàng)目】,邀請(qǐng)您加入專屬交流群
免費(fèi)領(lǐng)取價(jià)值5000元MBA備考學(xué)習(xí)包 購(gòu)買管理類聯(lián)考MBA/MPAcc/MEM/MPA大綱配套新教材

掃碼關(guān)注我們

  • 獲取報(bào)考資訊
  • 了解院?;顒?dòng)
  • 學(xué)習(xí)備考干貨
  • 研究上岸攻略

最新動(dòng)態(tài)

    MBAChina 掃碼關(guān)注

    掃碼關(guān)注 MBAChina

    EMBA 掃碼關(guān)注

    掃碼關(guān)注
    EMBA

    马关县| 郧西县| 古蔺县| 浏阳市| 武宁县| 文山县| 漳平市| 泸定县| 方正县| 教育| 温宿县| 南郑县| 突泉县| 都匀市| 三原县| 隆子县| 广昌县| 团风县| 云浮市| 麦盖提县| 枞阳县| 湟源县| 西藏| 宁阳县| 南投县| 安远县| 米林县| 祥云县| 农安县| 松滋市| 漳州市| 绵阳市| 承德县| 阿坝| 容城县| 岐山县| 龙川县| 玛多县| 九台市| 土默特右旗| 瑞金市|