離散時(shí)間獎(jiǎng)勵(lì)有效地指導(dǎo)從系統(tǒng)數(shù)據(jù)中提取連續(xù)時(shí)間最優(yōu)控制策略
該項(xiàng)研究由一個(gè)國(guó)際科學(xué)家團(tuán)隊(duì)領(lǐng)導(dǎo),其中包括陳慈博士(廣東工業(yè)大學(xué)自動(dòng)化學(xué)院)、謝麗華博士(新加坡南洋理工大學(xué)電氣與電子工程學(xué)院)和謝勝利博士(粵港澳智能離散制造聯(lián)合實(shí)驗(yàn)室、廣東省物聯(lián)網(wǎng)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室),并由劉逸璐博士(美國(guó)田納西大學(xué)電氣工程與計(jì)算機(jī)科學(xué)系)和 Frank L. Lewis 博士(美國(guó)德克薩斯大學(xué)阿靈頓分校 UTA 研究所)共同參與。

獎(jiǎng)勵(lì)的概念是強(qiáng)化學(xué)習(xí)的核心,也廣泛應(yīng)用于自然科學(xué)、工程學(xué)和社會(huì)科學(xué)。生物通過與環(huán)境互動(dòng)并觀察由此產(chǎn)生的獎(jiǎng)勵(lì)刺激來學(xué)習(xí)行為。獎(jiǎng)勵(lì)的表達(dá)在很大程度上代表了系統(tǒng)的感知,并定義了動(dòng)態(tài)系統(tǒng)的行為狀態(tài)。在強(qiáng)化學(xué)習(xí)中,尋找能夠解釋動(dòng)態(tài)系統(tǒng)行為決策的獎(jiǎng)勵(lì)一直是一個(gè)開放的挑戰(zhàn)。
該工作旨在提出在連續(xù)時(shí)間和動(dòng)作空間中使用離散時(shí)間獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,其中連續(xù)空間對(duì)應(yīng)于物理定律描述的系統(tǒng)的現(xiàn)象或行為。將狀態(tài)導(dǎo)數(shù)反饋到學(xué)習(xí)過程中的方法導(dǎo)致了基于離散時(shí)間獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)分析框架的發(fā)展,這與現(xiàn)有的積分強(qiáng)化學(xué)習(xí)框架有本質(zhì)區(qū)別。“當(dāng)想到將導(dǎo)數(shù)反饋到學(xué)習(xí)過程中的想法時(shí),感覺就像閃電一樣!你猜怎么著?它在數(shù)學(xué)上與基于離散時(shí)間獎(jiǎng)勵(lì)的策略學(xué)習(xí)有關(guān)!”陳回憶起他的頓悟時(shí)刻說道。
在離散時(shí)間獎(jiǎng)勵(lì)的指導(dǎo)下,行為決策律的搜索過程分為前饋信號(hào)學(xué)習(xí)和反饋增益學(xué)習(xí)兩個(gè)階段。研究發(fā)現(xiàn),利用基于離散時(shí)間獎(jiǎng)勵(lì)的技術(shù)可以從動(dòng)態(tài)系統(tǒng)的實(shí)時(shí)數(shù)據(jù)中搜索連續(xù)時(shí)間動(dòng)態(tài)系統(tǒng)的最優(yōu)決策律。上述方法已應(yīng)用于電力系統(tǒng)狀態(tài)調(diào)節(jié),實(shí)現(xiàn)輸出反饋的最優(yōu)設(shè)計(jì)。該過程省去了動(dòng)態(tài)模型辨識(shí)的中間階段,并通過從現(xiàn)有的積分強(qiáng)化學(xué)習(xí)框架中去除獎(jiǎng)勵(lì)積分算子,顯著提高了計(jì)算效率。
本研究利用離散時(shí)間獎(jiǎng)勵(lì)引導(dǎo)來發(fā)現(xiàn)連續(xù)時(shí)間動(dòng)態(tài)系統(tǒng)的優(yōu)化策略,構(gòu)建理解和改進(jìn)動(dòng)態(tài)系統(tǒng)的計(jì)算工具,該成果可在自然科學(xué)、工程學(xué)和社會(huì)科學(xué)領(lǐng)域發(fā)揮重要作用。
該工作得到了國(guó)家自然科學(xué)基金和廣東省基礎(chǔ)與應(yīng)用基礎(chǔ)研究基金的資助。
免責(zé)聲明:本答案或內(nèi)容為用戶上傳,不代表本網(wǎng)觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。 如遇侵權(quán)請(qǐng)及時(shí)聯(lián)系本站刪除。
