国产一线二线三线女,无码AV天天AV天天爽,亚洲欧美成人一区二区三区,天天躁日日躁狠狠躁免费麻豆,网站你们懂得

為什么《王者榮耀》是理想的人工智能強化學習競賽場

2022.08.09
最近,不少玩家在(zai)YouTube等平臺圍觀Honor of Kings的首測。這款備受期待的手游計劃于今年底在全球逐步上線。

由騰訊游戲天美工作室群研發的手游《王者榮耀》2015年發布(bu)以來,常年躋(ji)身最受歡迎的多人在線(xian)戰術競技游戲(MOBA)之列。

少有人知的是,《王者榮耀》不僅是一款現象級手游,還是進行AI研究的試(shi)金石。

在今(jin)年4月落幕的(de)第二(er)屆開悟(wu)多智(zhi)能體(ti)強化(hua)學習大賽中,充滿(man)活力的(de)學生開發團隊構建了(le)基于強化(hua)學習(RL)的(de)AI算法,可用于《王者榮耀》中自主攻防對抗。

由清(qing)華大(da)學(xue)五名學(xue)生組成的(de)團隊最終(zhong)獲勝,他們表(biao)示,RL模(mo)型的理(li)論能力在(zai)實(shi)際應用中并不像想象的那么容易。

組長陳華玉同學表示,盡管自己和其他團隊成員都是《王者榮耀》的忠實玩家,但一開始,我們(men)甚(shen)至無法創建游戲(xi)環(huan)境,更(geng)不用說訓練智能體玩游戲(xi)了。

他們(men)用了五(wu)個(ge)月時間處理源代(dai)碼,慢(man)慢(man)探索(suo)游戲架(jia)構(gou),與來自全國(guo)其(qi)他19所(suo)頂尖高(gao)校(xiao)的團隊(dui)展開激烈角逐(zhu),最終(zhong)摘得桂冠。

深度學習迎接挑戰

過去,國際象棋和圍棋等棋盤(pan)類游戲曾為深(shen)度RL算法提供了理想的(de)試驗環境。Google旗下(xia)DeepMind開(kai)發的計算機程序AlphaGo堪稱最為(wei)破圈的(de)案(an)例之一(yi)。2016年,AlphaGo以(yi)4-1擊敗18次國際賽冠軍、傳奇人物李世乭。

六年時光(guang)飛逝,游戲AI研究(jiu)的焦點已經(jing)從棋盤類(lei)游戲(xi)(xi)轉移到更復(fu)雜、非完美的信(xin)息游戲(xi)(xi)和策(ce)略(lve)類(lei)電(dian)子游戲(xi)(xi)。

《王者榮耀》作為一款5V5 MOBA類游戲,具(ju)有高復雜(za)度、高挑戰性(xing)、強協作性(xing)的特(te)點(dian),正是AI研發所需(xu)要的理想環境。

隨著大(da)賽(sai)賽(sai)程(cheng)過半,其他(ta)團隊(dui)后來居上,而(er)清華大(da)學團隊(dui)的(de)排名卻不(bu)斷下滑。有時,他(ta)們(men)投入幾天的(de)時間和精力訓練(lian)模型但(dan)改善甚(shen)微,而(er)更糟(zao)糕(gao)的(de)是模型會突然崩潰,團隊(dui)不(bu)得不(bu)重(zhong)新開始。

陳華玉說:這是(shi)個艱難、緩慢且枯燥的(de)過程,起初令人沮喪。但(dan)終于,情況有(you)了轉機

我們仔細思考(kao)了可(ke)能導(dao)致錯誤的(de)原因(yin),然后(hou)一點點地對(dui)算(suan)法進行調整。突然之間,柳暗花明。陳華玉設(she)計的AI智(zhi)能(neng)體(ti)在無數次迭(die)代中(zhong)不斷學習。對某一場景進行上千次訓(xun)練后,智(zhi)能(neng)體(ti)可以計算出各個選(xuan)項(xiang)的勝率,最終選(xuan)用(yong)最優解。

解(jie)決實(shi)際問(wen)題

環境越復(fu)雜(za),訓練出(chu)的AI就越聰明。騰訊AI實驗室總經理楊巍解釋道,游戲提供了(le)一(yi)個最優的研(yan)發(fa)環(huan)境,擁有明確的目標和(he)指標,更容(rong)易進行測試和(he)迭代。

無論是由人類測試(shi)員提供還是由AI在對戰(zhan)中(zhong)生成,數據都是直(zhi)接在虛擬世(shi)界中(zhong)獲(huo)取(qu),不需要額外的傳(chuan)感器和處理(li)器,楊巍表(biao)示,這類范式同(tong)樣可以更有效地解決現實問題。

楊巍補充(chong)道,如(ru)果AI可以像人類那樣,在《王者榮耀》等復雜游戲中學會實時感知、分析、理解、推理、決策和行動,那就預示著它具有更大的潛力解決廣泛領域的問題,例如機器人、農業、交通和能源等。

騰訊開悟平臺的綜(zong)合實力讓這項比賽成(cheng)為一個(ge)匯聚行業(ye)、學術界和(he)研究(jiu)機構的平臺。

游戲環境可以不斷提升AI能力,沉淀創新算法,打造更通用的AI工具。可以想象,下一個AI里程碑可能會誕生在策略游戲中,并逐步應用于推動教育和醫療等更多實用性領域的發展。

                                                                                                       騰訊AI實驗(yan)室總經理楊巍(wei)

獲勝秘訣

陳(chen)華玉認為,團隊(dui)分工明確、隊(dui)員工程能力(li)強和實現完全自動(dong)化的(de)代理部(bu)署是他們此次比賽RL開發成功的(de)關鍵(jian)。

智能體發(fa)生錯誤時,我(wo)們(men)知道算(suan)法的(de)哪個部分出了(le)問(wen)題(ti),而(er)且我(wo)們(men)團(tuan)隊擁有(you)豐富的(de)工程(cheng)經驗,可以幫助我(wo)們(men)更快地找到并(bing)解決問(wen)題(ti)。

在比賽的最后兩個(ge)月時(shi)間里(li),他們已(yi)經可以完全自動化地部署智能體,甚(shen)至可以用AI選出最好的智能體。這樣一來,他們比(bi)其他團隊效率更高,便能夠進行更多實驗。

此外,每(mei)名成(cheng)員被分配(pei)了明確具體的任務。陳華(hua)玉負責(ze)(ze)設(she)計(ji)算法,一(yi)名隊員負責(ze)(ze)記錄和(he)跟蹤實(shi)驗,一(yi)人管理神經網絡模型(xing),另一(yi)人負責(ze)(ze)工(gong)程、測試(shi)和(he)優化。

培養下一代(dai)AI先(xian)行者

在第二(er)屆(jie)開悟(wu)多智能(neng)體強(qiang)化學習大賽(sai)一舉奪(duo)魁后,今年3月陳(chen)華玉帶領新團隊報名參(can)加(jia)了第(di)31屆世界大學生(sheng)夏季運動會的(de)數智(zhi)競技邀請賽(sai)。由騰訊舉辦的(de)開悟AI多(duo)智能體博弈賽(sai)道是邀請賽(sai)項目(mu)之一(yi)。

陳華玉表(biao)示,數(shu)智競技(ji)邀請賽(sai)具有若干優勢,對學(xue)生(sheng)和研究人員很有吸引力。

使用先進的智(zhi)能算法需要大量的算力(li),這(zhe)超(chao)出了(le)學(xue)生個人甚(shen)至(zhi)許多(duo)大學(xue)實驗室的能力(li)。

《王者榮耀》的世界規模龐大,如果研究人員單靠自己來進行那些測試,可能會耗時數年,成本亦令人望而卻步。而參賽團隊可以獲得騰訊開悟平臺提供的強大算力和云服務。

因此,數智競(jing)技(ji)邀請(qing)賽成為推(tui)動建立(li)新(xin)生態的助推(tui)器,將產學研相結(jie)合,實現學生和機構之間的研究合作。參賽團隊來自加拿大(da)、荷蘭、澳大(da)利(li)亞、美國(guo)和中國(guo)(包括香港)。借此機會,參賽者(zhe)不(bu)僅可以與世界各地其他(ta)頂尖(jian)高(gao)校進(jin)行比拼,展開交流,而且可以在團隊內(nei)部和團隊之間建立(li)聯系(xi)。

騰訊天美(mei)L1工作室總經理、《王者榮耀》項目執行制作人黃藍梟表示:我們依托《王者榮耀》AI和電競領域的沉淀,搭建充(chong)滿(man)青春活力的世界大(da)學生數智競技交流平(ping)臺。來自不同國家和(he)地區的青年學子(zi)在賽事中(zhong)跨越語(yu)言與(yu)地域的差(cha)異,進一步(bu)加深國際青年群體間的相(xiang)互(hu)尊重和(he)友誼。

黃藍梟說(shuo):《王者榮耀》希望以教育、競賽和科研的共生發展模式推動AI產(chan)業生態的建(jian)設,從而成為AI產(chan)業(ye)發展的三條新紐帶(dai)。