亚洲精品无码AⅤ片青青在线观看_国产在线播放不卡一区二区三区_无码中文字幕视频一区二区三区_久久夜色精品亚洲av三区_国产综合欧美无毒不卡怡红院

?
投資 干貨 消費(fèi) 評(píng)論 學(xué)院 滾動(dòng)
風(fēng)投 科技 創(chuàng)業(yè) 業(yè)內(nèi) 要聞
每日聚焦:進(jìn)化強(qiáng)化學(xué)習(xí)有望進(jìn)一步推進(jìn)機(jī)器學(xué)習(xí)
發(fā)布日期: 2023-05-22 10:11:11 來源: 萬能網(wǎng)

進(jìn)化強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中令人興奮的前沿,它結(jié)合了兩種不同方法的優(yōu)勢(shì):強(qiáng)化學(xué)習(xí)和進(jìn)化計(jì)算。在進(jìn)化強(qiáng)化學(xué)習(xí)中,智能代理通過積極探索不同的方法并獲得成功表現(xiàn)的獎(jiǎng)勵(lì)來學(xué)習(xí)最佳策略。

這種創(chuàng)新范式將強(qiáng)化學(xué)習(xí)的試錯(cuò)學(xué)習(xí)與進(jìn)化算法模仿自然選擇的能力相結(jié)合,從而產(chǎn)生了一種強(qiáng)大的人工智能開發(fā)方法,有望在各個(gè)領(lǐng)域取得突破。


(相關(guān)資料圖)

IntelligentComputing上發(fā)表了進(jìn)化強(qiáng)化學(xué)習(xí)的綜述文章。它闡明了進(jìn)化計(jì)算與強(qiáng)化學(xué)習(xí)相結(jié)合的最新進(jìn)展,并全面介紹了最先進(jìn)的方法。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,側(cè)重于開發(fā)學(xué)習(xí)根據(jù)環(huán)境反饋?zhàn)龀鰶Q策的算法。成功強(qiáng)化學(xué)習(xí)的顯著例子包括AlphaGo和最近踢足球的GoogleDeepMind機(jī)器人。

然而,強(qiáng)化學(xué)習(xí)仍然面臨一些挑戰(zhàn),包括探索和開發(fā)權(quán)衡、獎(jiǎng)勵(lì)設(shè)計(jì)、泛化和信用分配。

進(jìn)化計(jì)算模擬自然進(jìn)化過程來解決問題,為強(qiáng)化學(xué)習(xí)問題提供了一種潛在的解決方案。通過結(jié)合這兩種方法,研究人員創(chuàng)建了進(jìn)化強(qiáng)化學(xué)習(xí)領(lǐng)域。

進(jìn)化強(qiáng)化學(xué)習(xí)包括六個(gè)關(guān)鍵研究領(lǐng)域:

超參數(shù)優(yōu)化:進(jìn)化計(jì)算方法可用于超參數(shù)優(yōu)化。也就是說,它們可以自動(dòng)確定強(qiáng)化學(xué)習(xí)系統(tǒng)的最佳設(shè)置。由于涉及多種因素,例如算法的學(xué)習(xí)速度及其對(duì)未來獎(jiǎng)勵(lì)的傾向,手動(dòng)發(fā)現(xiàn)最佳設(shè)置可能具有挑戰(zhàn)性。此外,強(qiáng)化學(xué)習(xí)的性能在很大程度上取決于所采用的神經(jīng)網(wǎng)絡(luò)的架構(gòu),包括其層數(shù)和大小等因素。

策略搜索:策略搜索需要通過在神經(jīng)網(wǎng)絡(luò)的幫助下嘗試不同的策略來找到完成任務(wù)的最佳方法。這些網(wǎng)絡(luò)類似于強(qiáng)大的計(jì)算器,近似執(zhí)行任務(wù)并利用深度學(xué)習(xí)的進(jìn)步。由于存在多種任務(wù)執(zhí)行可能性,搜索過程就像在一個(gè)巨大的迷宮中導(dǎo)航。隨機(jī)梯度下降是訓(xùn)練神經(jīng)網(wǎng)絡(luò)和在迷宮中導(dǎo)航的常用方法。進(jìn)化計(jì)算提供了基于進(jìn)化策略、遺傳算法和遺傳編程的替代“神經(jīng)進(jìn)化”方法。這些方法可以確定用于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的最佳權(quán)重和其他屬性。

探索:強(qiáng)化學(xué)習(xí)代理通過與環(huán)境交互來改進(jìn)。探索太少會(huì)導(dǎo)致錯(cuò)誤的決策,而探索太多則代價(jià)高昂。因此,在代理人發(fā)現(xiàn)良好行為的探索與代理人對(duì)已發(fā)現(xiàn)的良好行為的利用之間存在權(quán)衡。代理人通過為其行為添加隨機(jī)性來進(jìn)行探索。高效探索面臨挑戰(zhàn):大量可能的行動(dòng)、稀有和延遲的獎(jiǎng)勵(lì)、不可預(yù)測(cè)的環(huán)境和復(fù)雜的多智能體場(chǎng)景。進(jìn)化計(jì)算方法通過促進(jìn)競(jìng)爭、合作和并行化來應(yīng)對(duì)這些挑戰(zhàn)。他們鼓勵(lì)通過多樣性和引導(dǎo)進(jìn)化進(jìn)行探索。

獎(jiǎng)勵(lì)塑造:獎(jiǎng)勵(lì)在強(qiáng)化學(xué)習(xí)中很重要,但它們通常很少見,而且代理人很難從中學(xué)習(xí)。獎(jiǎng)勵(lì)塑造增加了額外的細(xì)粒度獎(jiǎng)勵(lì),以幫助代理更好地學(xué)習(xí)。然而,這些獎(jiǎng)勵(lì)可能會(huì)以意想不到的方式改變代理人的行為,要弄清楚這些額外獎(jiǎng)勵(lì)應(yīng)該是什么、如何平衡它們以及如何在多個(gè)代理人之間分配信用通常需要手頭任務(wù)的具體知識(shí)。為了應(yīng)對(duì)獎(jiǎng)勵(lì)設(shè)計(jì)的挑戰(zhàn),研究人員使用進(jìn)化計(jì)算來調(diào)整單代理和多代理強(qiáng)化學(xué)習(xí)中的額外獎(jiǎng)勵(lì)及其設(shè)置。

元強(qiáng)化學(xué)習(xí):元強(qiáng)化學(xué)習(xí)旨在開發(fā)一種通用的學(xué)習(xí)算法,該算法可以利用以前的知識(shí)適應(yīng)不同的任務(wù)。這種方法解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)中需要大量樣本從頭開始學(xué)習(xí)每個(gè)任務(wù)的問題。然而,使用元強(qiáng)化學(xué)習(xí)可以解決的任務(wù)的數(shù)量和復(fù)雜性仍然有限,并且與之相關(guān)的計(jì)算成本很高。因此,利用進(jìn)化計(jì)算的模型不可知和高度并行特性是釋放元強(qiáng)化學(xué)習(xí)全部潛力的一個(gè)有前途的方向,使其能夠在現(xiàn)實(shí)場(chǎng)景中學(xué)習(xí)、泛化并提高計(jì)算效率。

多目標(biāo)強(qiáng)化學(xué)習(xí):在一些現(xiàn)實(shí)世界的問題中,存在多個(gè)相互沖突的目標(biāo)。多目標(biāo)進(jìn)化算法可以平衡這些目標(biāo),并在沒有解決方案看起來比其他解決方案更好時(shí)提出折衷方案。多目標(biāo)強(qiáng)化學(xué)習(xí)方法可以分為兩種類型:將多個(gè)目標(biāo)組合成一個(gè)以找到單個(gè)最佳解決方案的方法和找到一系列好的解決方案的方法。相反,一些單一目標(biāo)問題可以有效地分解為多個(gè)目標(biāo),使問題解決更容易。

進(jìn)化強(qiáng)化學(xué)習(xí)可以解決復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù),即使是在具有罕見或誤導(dǎo)性獎(jiǎng)勵(lì)的場(chǎng)景中也是如此。但是,它需要大量的計(jì)算資源,因此計(jì)算成本很高。人們?cè)絹碓叫枰行У姆椒ǎǜ倪M(jìn)編碼、采樣、搜索運(yùn)算符、算法框架和評(píng)估。

雖然進(jìn)化強(qiáng)化學(xué)習(xí)在解決具有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)問題方面已經(jīng)顯示出可喜的成果,但仍有可能取得進(jìn)一步的進(jìn)展。通過提高其計(jì)算效率并探索新的基準(zhǔn)、平臺(tái)和應(yīng)用程序,進(jìn)化強(qiáng)化學(xué)習(xí)領(lǐng)域的研究人員可以使進(jìn)化方法更加有效和有用地解決復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)。

關(guān)鍵詞:
24小時(shí)熱點(diǎn) 精彩推薦
資訊新聞
?