男女扒开双腿猛进入爽爽免费,男生下面伸进女人下面的视频,美女跪下吃男人的j8视频,一本色道在线久88在线观看片

深度Q學習的二次主動采樣方法

趙英男; 劉鵬; 趙巍; 唐降龍 哈爾濱工業(yè)大學計算機科學與技術學院模式識別與智能系統(tǒng)研究中心; 哈爾濱150001

關鍵詞:優(yōu)先經驗回放 深度q網絡 累積回報 

摘要:實現(xiàn)深度Q學習的一種方式是深度Q網絡(Deep Q-networks,DQN).經驗回放方法利用經驗池中的樣本訓練深度Q網絡,構造經驗池需要智能體與環(huán)境進行大量交互,這樣會增加成本和風險.一種減少智能體與環(huán)境交互次數(shù)的有效方式是高效利用樣本.樣本所在序列的累積回報對深度Q網絡訓練有影響.累積回報大的序列中的樣本相對于累積回報小的序列中的樣本更能加速深度Q網絡的收斂速度,并提升策略的質量.本文提出深度Q學習的二次主動采樣方法.首先,根據(jù)序列累積回報的分布構造優(yōu)先級對經驗池中的序列進行采樣.然后,在已采樣的序列中根據(jù)樣本的TD-error(Temporal-difference error)分布構造優(yōu)先級對樣本采樣.隨后用兩次采樣得到的樣本訓練深度Q網絡.該方法從序列累積回報和TD-error兩個方面選擇樣本,以達到加速深度Q網絡收斂,提升策略質量的目的.在Atari平臺上進行了驗證.實驗結果表明,用經過二次主動采樣得到的樣本訓練深度Q網絡取得了良好的效果.

自動化學報雜志要求:

{1}關鍵詞選擇貼近文義的規(guī)范性單詞或組合詞(3—5個)。

{2}來稿應標明第一作者的工作單位、通信地址、電話等。

{3}文稿題目及各級標題要求簡短醒目,各級標題采用阿拉伯數(shù)字分級編號,即按照1;1.1;1.1.1……統(tǒng)一編號。

{4}參考文獻應引用所有公開發(fā)表的,并與本文有關的,近年主要中外文獻(以本學科或相關學科期刊為主)。

{5}多位作者的署名之間用空格隔開。英文摘要中,作者姓名的中文拼音,姓前名后,中間為空格,姓氏的全部字母均大寫,名字的首字母大寫。


注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社

自動化學報

北大期刊
1-3個月下單

關注 9人評論|4人關注
相關期刊
  • 大觀·論壇
    省級期刊 1個月內下單
    開封東京文學文化傳媒有限責任公司
  • 才智·才情齋
    部級期刊 1個月內下單
    中國科協(xié)繼續(xù)教育工作委員會;中國繼續(xù)工程教育協(xié)會
  • 全媒體探索
    省級期刊 1個月內下單
    大眾報業(yè)集團(大眾日報社)
  • 數(shù)碼時代
    省級期刊 1個月內下單
    天津市科學技術信息研究所
服務與支付
主站蜘蛛池模板: 夏邑县| 利辛县| 遵义市| 龙陵县| 永德县| 三穗县| 邵东县| 芷江| 饶河县| 盐池县| 仁布县| 个旧市| 清水县| 文登市| 闸北区| 汝南县| 子长县| 安吉县| 开封县| 海口市| 措美县| 嘉义市| 类乌齐县| 泸水县| 海城市| 花莲县| 沛县| 孟津县| 逊克县| 上犹县| 无棣县| 黄石市| 铁岭县| 酒泉市| 新源县| 南木林县| 且末县| 道孚县| 冕宁县| 威远县| 九龙坡区|