完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>
標(biāo)簽 > 強(qiáng)化學(xué)習(xí)
文章:225個(gè) 瀏覽:11844次 帖子:1個(gè)
AutoML模型壓縮技術(shù),利用強(qiáng)化學(xué)習(xí)將壓縮流程自動(dòng)化
“Cloud AutoML 產(chǎn)品設(shè)計(jì)讓機(jī)器學(xué)習(xí)的過(guò)程變得更簡(jiǎn)單,讓即便沒(méi)有機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的人也可以享受機(jī)器學(xué)習(xí)帶來(lái)的益處。盡管AutoML有很大的進(jìn)步,這...
2018-09-24 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí) 5.7k 0
對(duì)NAS任務(wù)中強(qiáng)化學(xué)習(xí)的效率進(jìn)行深入思考
在一些情況下,我們會(huì)用策略函數(shù)(policy, 總得分,也就是搭建的網(wǎng)絡(luò)在測(cè)試集上的精度(accuracy),通過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement ...
2019-01-28 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí) 5.6k 0
多智體深度強(qiáng)化學(xué)習(xí)研究中首次將概率遞歸推理引入AI的學(xué)習(xí)過(guò)程
在傳統(tǒng)的多智體學(xué)習(xí)過(guò)程當(dāng)中,有研究者在對(duì)其他智能體建模 (也即“對(duì)手建?!? opponent modeling) 時(shí)使用了遞歸推理,但由于算法復(fù)雜和計(jì)...
2019-03-05 標(biāo)簽:AI智能體強(qiáng)化學(xué)習(xí) 5.6k 0
深思考人工智能SMP2018特定域任務(wù)型人機(jī)對(duì)話在線評(píng)測(cè)技術(shù)報(bào)告
對(duì)話管理模塊的決策器中采用了深度強(qiáng)化學(xué)習(xí)Deep Reinforcement Learning中的Deep Q Learning算法來(lái)訓(xùn)練一個(gè)最佳上下文...
2018-08-06 標(biāo)簽:人工智能人機(jī)對(duì)話強(qiáng)化學(xué)習(xí) 5.4k 0
DeepMind開源了一個(gè)內(nèi)部強(qiáng)化學(xué)習(xí)庫(kù)TRFL
TRFL庫(kù)包含實(shí)現(xiàn)經(jīng)典RL算法以及更前沿技術(shù)的許多函數(shù)。這里提供的損失函數(shù)和其他操作是在純TensorFlow中實(shí)現(xiàn)的。它們不是完整的算法,而是在構(gòu)建功...
2018-10-19 標(biāo)簽:智能體強(qiáng)化學(xué)習(xí)DeepMind 5.4k 0
伯克利那個(gè)會(huì)“18般武藝”的DeepMimic模型開源了!
整個(gè)DeepMimic所需要的input分為三部分:一個(gè)被稱為Character的Agent模型;希望Agent學(xué)習(xí)的參考動(dòng)作(reference mo...
2018-10-19 標(biāo)簽:AI智能體強(qiáng)化學(xué)習(xí) 5.4k 0
人工智能強(qiáng)化學(xué)習(xí)的原理和目標(biāo)
通俗的講,就是當(dāng)一個(gè)小孩學(xué)習(xí)有迷茫或困惑時(shí),如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎(jiǎng)勵(lì)或鼓勵(lì));否則就給他(她)負(fù)反饋(教訓(xùn)或懲罰),激勵(lì)...
2018-06-26 標(biāo)簽:人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí) 5.4k 0
虛擬到現(xiàn)實(shí)的翻譯網(wǎng)絡(luò)如何滿足自動(dòng)駕駛要求?
虛擬到現(xiàn)實(shí)的翻譯網(wǎng)絡(luò),可以將虛擬駕駛模擬器中生成的虛擬場(chǎng)景翻譯成真實(shí)場(chǎng)景,來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
2018-08-16 標(biāo)簽:自動(dòng)駕駛強(qiáng)化學(xué)習(xí) 5.4k 0
如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來(lái)訓(xùn)練無(wú)人車算法
本文作者通過(guò)簡(jiǎn)單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來(lái)訓(xùn)練無(wú)人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗(yàn)。
2018-11-12 標(biāo)簽:無(wú)人車強(qiáng)化學(xué)習(xí) 5.3k 0
生成對(duì)抗網(wǎng)絡(luò)GAN,正在成為新的“深度學(xué)習(xí)”
生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成網(wǎng)絡(luò)(Generator)與一個(gè)判別網(wǎng)絡(luò)(Discriminator)組成。生成網(wǎng)絡(luò)從潛在空間(latent space)中隨機(jī)采...
2018-06-11 標(biāo)簽:GAN深度學(xué)習(xí)強(qiáng)化學(xué)習(xí) 5.3k 0
我們利用觸覺信息的顯著表示,來(lái)指導(dǎo)虛擬人物穿衣的過(guò)程,并將其用于獎(jiǎng)勵(lì)函數(shù)中,在訓(xùn)練期間提供明確的學(xué)習(xí)信號(hào)。我們發(fā)現(xiàn),為了學(xué)習(xí)涉及各種穿衣操作技能的長(zhǎng)時(shí)間...
2018-11-08 標(biāo)簽:機(jī)器人強(qiáng)化學(xué)習(xí)AI技術(shù) 5.3k 0
基于TensorFlow的開源強(qiáng)化學(xué)習(xí)框架 Dopamine
對(duì)于新的研究人員來(lái)說(shuō),能夠根據(jù)既定方法快速對(duì)其想法進(jìn)行基準(zhǔn)測(cè)試非常重要。因此,我們?yōu)?Arcade 學(xué)習(xí)環(huán)境支持的 60 個(gè)游戲提供四個(gè)智能體的完整培訓(xùn)...
2018-08-31 標(biāo)簽:智能體強(qiáng)化學(xué)習(xí)TensorFlow 5.3k 0
AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷
前段時(shí)間,OpenAI的游戲機(jī)器人在Dota2的比賽中贏了人類的5人小組,取得了團(tuán)隊(duì)勝利,是強(qiáng)化學(xué)習(xí)攻克的又一游戲里程碑。
2018-07-13 標(biāo)簽:ai強(qiáng)化學(xué)習(xí) 5.3k 0
DeepMind和OpenAI攻克蒙特祖瑪?shù)膹?fù)仇并沒(méi)有看上去意義那么重大
在這篇文章中,我想討論的是,這些方法是為了解決蒙特祖瑪?shù)膹?fù)仇游戲的第一個(gè)關(guān)卡,以及為什么在游戲環(huán)境以及Deep RL的長(zhǎng)期目標(biāo)中,這些方法并沒(méi)有看上去意...
2018-07-24 標(biāo)簽:智能體強(qiáng)化學(xué)習(xí) 5.2k 0
基于記憶的神經(jīng)網(wǎng)絡(luò)通過(guò)利用長(zhǎng)時(shí)間記憶信息的能力來(lái)建模時(shí)序數(shù)據(jù)
我們?cè)谝唤M監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)任務(wù)中測(cè)試RMC。值得注意的是N?? Farthest的任務(wù)和語(yǔ)言建模。在前者中,解決方案需要顯式的關(guān)系推理,因?yàn)槟P捅仨殞?duì)...
2018-07-03 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集強(qiáng)化學(xué)習(xí) 5.2k 0
伯克利RISELab推出了多主體強(qiáng)化學(xué)習(xí)包Ray RLlib 0.6.0
在緩解交通擁堵方面,只需要控制極少量自動(dòng)駕駛車輛的速度,就能大幅度提高交通流的效率。多主體強(qiáng)化學(xué)習(xí)就可以用于這樣的場(chǎng)景,在混合駕駛的情況下我們暫時(shí)無(wú)法通...
2018-12-17 標(biāo)簽:智能體強(qiáng)化學(xué)習(xí) 5.2k 0
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一,它與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列,是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。 在圍棋上擊敗世界第一李世石的 AlphaGo、在《星際爭(zhēng)霸2》...
2023-10-30 標(biāo)簽:模型代碼機(jī)器學(xué)習(xí) 5.1k 0
利用強(qiáng)化學(xué)習(xí)探索多巴胺對(duì)學(xué)習(xí)的作用
當(dāng)我們使用虛擬的計(jì)算機(jī)屏幕和隨機(jī)選擇的圖像來(lái)模擬一個(gè)非常相似的測(cè)試時(shí),我們發(fā)現(xiàn),我們的“元強(qiáng)化學(xué)習(xí)智能體”(meta-RL agent)似乎是以類似于H...
2018-05-16 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)AI強(qiáng)化學(xué)習(xí) 5.1k 0
AlphaZero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu)等,但兩者也有諸多不同之處。比如圍棋中很少會(huì)出現(xiàn)平局的情況,因此AlphaGo Ze...
2018-12-17 標(biāo)簽:神經(jīng)網(wǎng)絡(luò)算法強(qiáng)化學(xué)習(xí) 5k 0
換一批
編輯推薦廠商產(chǎn)品技術(shù)軟件/工具OS/語(yǔ)言教程專題
| 電機(jī)控制 | DSP | 氮化鎵 | 功率放大器 | ChatGPT | 自動(dòng)駕駛 | TI | 瑞薩電子 |
| BLDC | PLC | 碳化硅 | 二極管 | OpenAI | 元宇宙 | 安森美 | ADI |
| 無(wú)刷電機(jī) | FOC | IGBT | 逆變器 | 文心一言 | 5G | 英飛凌 | 羅姆 |
| 直流電機(jī) | PID | MOSFET | 傳感器 | 人工智能 | 物聯(lián)網(wǎng) | NXP | 賽靈思 |
| 步進(jìn)電機(jī) | SPWM | 充電樁 | IPM | 機(jī)器視覺 | 無(wú)人機(jī) | 三菱電機(jī) | ST |
| 伺服電機(jī) | SVPWM | 光伏發(fā)電 | UPS | AR | 智能電網(wǎng) | 國(guó)民技術(shù) | Microchip |
| Arduino | BeagleBone | 樹莓派 | STM32 | MSP430 | EFM32 | ARM mbed | EDA |
| 示波器 | LPC | imx8 | PSoC | Altium Designer | Allegro | Mentor | Pads |
| OrCAD | Cadence | AutoCAD | 華秋DFM | Keil | MATLAB | MPLAB | Quartus |
| C++ | Java | Python | JavaScript | node.js | RISC-V | verilog | Tensorflow |
| Android | iOS | linux | RTOS | FreeRTOS | LiteOS | RT-THread | uCOS |
| DuerOS | Brillo | Windows11 | HarmonyOS |