国产一线二线三线女,无码AV天天AV天天爽,亚洲欧美成人一区二区三区,天天躁日日躁狠狠躁免费麻豆,网站你们懂得

為什么《王者榮耀》是理想的人工智能強化學習競賽場

2022.08.09
最近,不少玩家在(zai)YouTube等平臺圍觀Honor of Kings的首測。這款備受期待的手游計劃于今年底在全球逐步上線。

由騰訊游戲天美工作室群研發的手游《王者榮耀》2015年發布以來,常年躋身最(zui)受歡迎的多(duo)人(ren)在(zai)線戰(zhan)術(shu)競技游戲(MOBA)之列。

少有人知的是,《王者榮耀》不僅是一款現象級手游,還是進行AI研(yan)究的試金石。

在(zai)今年4月(yue)落幕的第二屆(jie)開悟多(duo)智能(neng)體(ti)強化(hua)學習大賽中(zhong),充滿活力的學生開發團隊構建了基于強化(hua)學習(RL)的AI算法,可用于《王者榮耀》中自主攻防對抗。

由清華大(da)學五名學生(sheng)組成(cheng)的團隊最終(zhong)獲勝,他們表(biao)示(shi),RL模型的理論(lun)能力(li)在實際應用中并不像想(xiang)象的那(nei)么容易。

組長陳華玉同學表示,盡管自己和其他團隊成員都是《王者榮耀》的忠實玩家,但一開始(shi),我們甚(shen)至(zhi)無法創建游戲環境,更(geng)不用說訓練智(zhi)能體玩游戲了(le)。

他們用了五個月時間處理源代碼,慢慢探索游(you)戲架構,與(yu)來(lai)自全國其他19所頂尖高校的(de)團隊展開(kai)激烈角逐,最(zui)終摘得桂冠。

深度學習(xi)迎接挑戰

過去,國際(ji)象棋和圍棋等棋盤類游戲曾為深度RL算(suan)法提供了理想的(de)試驗環(huan)境。Google旗下DeepMind開發(fa)的計算(suan)機程序AlphaGo堪稱最為破圈(quan)的案例之一。2016年,AlphaGo4-1擊(ji)敗18次國際賽(sai)冠軍、傳奇人物李世乭。

六年(nian)時光飛逝,游(you)戲AI研究(jiu)的焦點已經從棋盤類游(you)戲轉移到更復雜、非完美的信息游(you)戲和(he)策略類電(dian)子游(you)戲。

《王者榮耀》作為一款5V5 MOBA類游戲(xi),具有高(gao)復雜度、高(gao)挑戰性(xing)、強協作性(xing)的特點,正是(shi)AI研發所需要的理想環境。

隨著大(da)賽賽程過半,其他團隊后來(lai)居上,而(er)清華大(da)學團隊的排名卻不斷下滑。有(you)時,他們投入(ru)幾天的時間和(he)精力訓(xun)練模型但改善甚(shen)微,而(er)更糟(zao)糕的是模型會突然崩(beng)潰(kui),團隊不得(de)不重新開始。

陳(chen)華玉說:這(zhe)是個艱難(nan)、緩慢且枯燥的過程,起初(chu)令(ling)人沮喪。但終于(yu),情況有了轉機(ji)

我們仔細思考了可能導(dao)致錯誤的原因,然后(hou)一點點地對(dui)算法進行調整。突然之間(jian),柳(liu)暗(an)花明。陳華玉設(she)計的AI智(zhi)能體在無數次迭代中不斷學習(xi)。對某一場(chang)景(jing)進行(xing)上千(qian)次訓練后,智(zhi)能體可以計算(suan)出各個選(xuan)項的勝率,最終選(xuan)用最優解。

解決(jue)實際問題

環境越復雜,訓練(lian)出(chu)的AI就越聰(cong)明。騰訊(xun)AI實驗室總(zong)經理楊(yang)巍解釋道(dao),游(you)戲提(ti)供了一個最優(you)的研(yan)發環境,擁有明確(que)的目標和指(zhi)標,更(geng)容(rong)易進(jin)行(xing)測試和迭代。

無論(lun)是(shi)由人類(lei)測試員(yuan)提供還是(shi)由AI在(zai)對戰中生成(cheng),數據都是直接在(zai)虛擬(ni)世(shi)界(jie)中獲取(qu),不需要(yao)額(e)外(wai)的(de)傳(chuan)感器和(he)處理器,楊巍表示,這類范式同樣可以更有效地解決(jue)現實問題。

楊巍(wei)補充(chong)道(dao),如果(guo)AI可以像人類那樣,在《王者榮耀》等復雜游戲中學會實時感知、分析、理解、推理、決策和行動,那就預示著它具有更大的潛力解決廣泛領域的問題,例如機器人、農業、交通和能源等。

騰(teng)訊開悟(wu)平臺的綜合(he)實力讓這項比賽成為一個匯聚行業、學術界(jie)和研究機構的平臺。

游戲環境可以不斷提升AI能力,沉淀創新算法,打造更通用的AI工具。可以想象,下一個AI里程碑可能會誕生在策略游戲中,并逐步應用于推動教育和醫療等更多實用性領域的發展。

                                                                                                       騰訊AI實驗室總經理楊巍(wei)

獲(huo)勝秘訣

陳華(hua)玉認為,團隊分工明確、隊員工程能力強和實現完全自動化的代理部署是他(ta)們此(ci)次(ci)比賽RL開(kai)發(fa)成功的(de)關(guan)鍵。

智能(neng)體發生錯誤時,我們知道算法(fa)的(de)哪個部分(fen)出了問(wen)題,而且(qie)我們團隊擁有豐富的(de)工(gong)程(cheng)經驗,可以幫助(zhu)我們更快地找到并(bing)解決(jue)問(wen)題。

在比賽的最后兩(liang)個(ge)月(yue)時(shi)間(jian)里,他們已經可(ke)以(yi)完全自動(dong)化地部署智能體,甚(shen)至可(ke)以(yi)用(yong)AI選(xuan)出最好的智能體(ti)。這樣一來,他(ta)們比其他(ta)團(tuan)隊(dui)效率更高,便能夠進行更多實驗。

此外,每名成員(yuan)被分配(pei)了明確具體的任(ren)務(wu)。陳華玉負(fu)責設(she)計算(suan)法,一(yi)名隊員(yuan)負(fu)責記錄(lu)和(he)跟蹤實驗,一(yi)人管理神經網絡模(mo)型,另(ling)一(yi)人負(fu)責工程(cheng)、測(ce)試和(he)優化(hua)。

培養下一(yi)代AI先(xian)行者

在第(di)二屆(jie)開悟多智(zhi)能體(ti)強(qiang)化(hua)學習(xi)大賽一舉奪魁后,今年3月陳華玉帶領新(xin)團隊報名(ming)參加了第(di)31屆世界大(da)學(xue)生夏季運動會的數智競技(ji)邀請賽。由騰訊舉(ju)辦的開悟AI多(duo)智(zhi)能(neng)體博弈賽(sai)道是邀(yao)請賽(sai)項目之一。

陳(chen)華(hua)玉表示,數智競技邀請賽具(ju)有若干(gan)優勢,對(dui)學生和研究人員很有吸(xi)引力(li)。

使用先進的智能(neng)算法需要大量的算力(li),這超出了學生個人甚至(zhi)許(xu)多大學實(shi)驗室的能(neng)力(li)。

《王者榮耀》的世界規模龐大,如果研究人員單靠自己來進行那些測試,可能會耗時數年,成本亦令人望而卻步。而參賽團隊可以獲得騰訊開悟平臺提供的強大算力和云服務。

因此,數智競技(ji)邀請賽成為(wei)推(tui)動(dong)建(jian)立新生態的助(zhu)推(tui)器,將產學研(yan)(yan)相結(jie)合,實現學生和(he)機構之間的研(yan)(yan)究合作。參賽團隊(dui)來自加(jia)拿大(da)、荷(he)蘭、澳大(da)利(li)亞、美國(guo)(guo)和(he)中國(guo)(guo)(包括香港)。借此機會(hui),參賽者不僅(jin)可以(yi)與世界各地其(qi)他頂尖高校(xiao)進行(xing)比拼,展開交流(liu),而(er)且可以(yi)在團隊(dui)內部(bu)和(he)團隊(dui)之間建(jian)立聯系(xi)。

騰訊天美L1工作室總經理、《王者榮耀》項目執行制作人黃藍梟表示:我們依托《王者榮耀》AI和電(dian)競(jing)領域的(de)沉淀,搭建充(chong)滿青春活力(li)的(de)世界(jie)大學生數智競(jing)技交流(liu)平臺。來自不同國(guo)(guo)家和地區的(de)(de)青(qing)年學子在賽(sai)事(shi)中跨越語言與地域的(de)(de)差異,進一步加深國(guo)(guo)際青(qing)年群體間(jian)的(de)(de)相互尊重和友誼(yi)。

黃藍梟說:《王者榮耀》希望以教育、競賽和科研的共生發展模式推動AI產(chan)業生態的建設,從而成為(wei)AI產業發展的三條新紐帶(dai)。