EITC/AI/ARL Advanced Reinforcement Learning är det europeiska IT-certifieringsprogrammet om DeepMinds syn på förstärkningsinlärning inom artificiell intelligens.
Läroplanen för EITC/AI/ARL Advanced Reinforcement Learning fokuserar på teoretiska aspekter och praktiska färdigheter i förstärkningsinlärningstekniker från DeepMinds perspektiv organiserad inom följande struktur, och omfattar omfattande videodidaktiskt innehåll som referens för denna EITC-certifiering.
Förstärkningsinlärning (RL) är ett område för maskininlärning som handlar om hur intelligenta agenter borde vidta åtgärder i en miljö för att maximera uppfattningen om kumulativ belöning. Förstärkningsinlärning är ett av tre grundläggande maskininlärningsparadigmer, tillsammans med övervakat lärande och övervakat lärande.
Förstärkningsinlärning skiljer sig från övervakad inlärning genom att inte behöva märkta inmatnings-/utgångspar presenteras och inte behöver suboptimala åtgärder för att korrigeras uttryckligen. I stället är fokus på att hitta en balans mellan utforskning (av okänt territorium) och exploatering (av aktuell kunskap).
Miljön anges typiskt i form av en Markov-beslutsprocess (MDP), eftersom många förstärkningsinlärningsalgoritmer för detta sammanhang använder dynamiska programmeringstekniker. Huvudskillnaden mellan de klassiska dynamiska programmeringsmetoderna och förstärkningsinlärningsalgoritmerna är att de senare inte tar kunskap om en exakt matematisk modell av MDP och de riktar sig mot stora MDP där exakta metoder blir omöjliga.
På grund av dess allmäntalitet studeras förstärkningsinlärning i många discipliner, såsom spelteori, styrteori, operationsforskning, informationsteori, simuleringsbaserad optimering, multiagentsystem, svärmintelligens och statistik. I operationsforskning och kontrolllitteratur kallas förstärkningslärande ungefärlig dynamisk programmering eller neurodynamisk programmering. Problemen av intresse för förstärkningslärande har också studerats i teorin om optimal kontroll, som mest handlar om existensen och karakteriseringen av optimala lösningar, och algoritmer för deras exakta beräkning, och mindre om inlärning eller approximation, särskilt i frånvaro av en matematisk miljömodell. I ekonomi och spelteori kan förstärkningsinlärning användas för att förklara hur jämvikt kan uppstå under begränsad rationalitet.
Grundläggande förstärkning modelleras som en Markov-beslutsprocess (MDP). I matematik är en Markov-beslutsprocess (MDP) en diskret stokastisk kontrollprocess. Det ger en matematisk ram för modellering av beslutsfattande i situationer där resultaten delvis är slumpmässiga och delvis under kontroll av en beslutsfattare. MDP är användbara för att studera optimeringsproblem som löses via dynamisk programmering. MDP var kända åtminstone så tidigt som på 1950-talet. En kärna av forskning om Markovs beslutsprocesser är resultatet av Ronald Howards 1960-bok, Dynamic Programming och Markov Processes. De används i många discipliner, inklusive robotik, automatisk styrning, ekonomi och tillverkning. Namnet på MDP kommer från den ryska matematikern Andrey Markov eftersom de är en förlängning av Markov-kedjor.
Vid varje tidssteg är processen i något tillstånd S, och beslutsfattaren kan välja vilken åtgärd som helst som är tillgänglig i tillstånd S. Processen svarar vid nästa tidsteg genom att slumpmässigt flytta till ett nytt tillstånd S 'och ge beslutsfattare en motsvarande belöning Ra (S, S ').
Sannolikheten att processen flyttar till sitt nya tillstånd S 'påverkas av den valda åtgärden a. Specifikt ges den av tillståndsövergångsfunktionen Pa (S, S '). Således beror nästa tillstånd S 'på det aktuella tillståndet S och beslutsfattarens handling a. Men med tanke på S och a är det villkorligt oberoende av alla tidigare stater och handlingar. Med andra ord uppfyller tillståndsövergångarna för en MDP Markov-egenskapen.
Markovs beslutsprocesser är en förlängning av Markov-kedjorna. skillnaden är tillägget av handlingar (tillåter val) och belöningar (ger motivation). Omvänt, om det bara finns en åtgärd för varje tillstånd (t.ex. "vänta") och alla belöningar är desamma (t.ex. "noll"), reduceras en Markov-beslutsprocess till en Markov-kedja.
En förstärkningsinlärningsagent interagerar med sin miljö i diskreta tidssteg. Vid varje gång t får agenten det aktuella tillståndet S (t) och belöningen r (t). Det väljer sedan en åtgärd a (t) från uppsättningen tillgängliga åtgärder, som sedan skickas till miljön. Miljön flyttas till ett nytt tillstånd S (t + 1) och belöningen r (t + 1) associerad med övergången bestäms. Målet för en förstärkningsinlärningsagent är att lära sig en policy som maximerar den förväntade kumulativa belöningen.
Att formulera problemet som en MDP förutsätter att agenten direkt följer det aktuella miljöläget. I detta fall sägs problemet ha full observerbarhet. Om agenten endast har tillgång till en delmängd av tillstånd, eller om de observerade tillstånden är skadade av brus, sägs agenten ha delvis observerbarhet, och formellt måste problemet formuleras som en delvis observerbar Markov-beslutsprocess. I båda fallen kan den uppsättning åtgärder som är tillgängliga för agenten begränsas. Till exempel kan kontosaldot begränsas till att vara positivt. om tillståndets nuvarande värde är 3 och tillståndsövergången försöker minska värdet med 4, kommer övergången inte att tillåtas.
När agentens prestanda jämförs med en agent som agerar optimalt ger skillnaden i prestation uppfattningen om ånger. För att kunna agera nära optimalt måste agenten resonera över de långsiktiga konsekvenserna av sina handlingar (dvs. maximera framtida inkomster), även om den omedelbara belöningen som är förknippad med detta kan vara negativ.
Således är förstärkningsinlärning särskilt väl lämpad för problem som inkluderar en avvägning mellan lång och kontra belöning. Den har framgångsrikt tillämpats på olika problem, inklusive robotkontroll, schemaläggning av hissar, telekommunikation, backgammon, pjäser och Go (AlphaGo).
Två element gör förstärkningsinlärning kraftfull: användningen av prover för att optimera prestanda och användningen av funktions approximation för att hantera stora miljöer. Tack vare dessa två viktiga komponenter kan förstärkningsinlärning användas i stora miljöer i följande situationer:
- En miljömodell är känd, men en analytisk lösning är inte tillgänglig.
- Endast en simuleringsmodell av miljön ges (föremålet för simuleringsbaserad optimering).
- Det enda sättet att samla in information om miljön är att interagera med den.
De två första av dessa problem kan betraktas som planeringsproblem (eftersom någon form av modell finns), medan den sista kan betraktas som ett verkligt inlärningsproblem. Men förstärkning lärande omvandlar båda planeringsproblemen till maskininlärningsproblem.
Utväxlingen mellan prospektering och exploatering har studerats noggrant genom det flerarmade banditproblemet och för ändliga statsutrymme-MDP i Burnetas och Katehakis (1997).
Förstärkning lärande kräver smarta utforskningsmekanismer; slumpmässigt välja åtgärder, utan hänvisning till en uppskattad sannolikhetsfördelning, visar dålig prestanda. Fallet med (små) ändliga Markov-beslutsprocesser är relativt väl förstått. Men på grund av bristen på algoritmer som skalas bra med antalet tillstånd (eller skalas till problem med oändliga tillståndsutrymmen) är enkla utforskningsmetoder de mest praktiska.
Även om frågan om utforskning bortses från och även om staten var observerbar, kvarstår problemet att använda tidigare erfarenheter för att ta reda på vilka åtgärder som leder till högre kumulativa belöningar.
För att bekanta dig i detalj med certifieringsläroplanen kan du utöka och analysera tabellen nedan.
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum refererar till didaktiskt material med öppen tillgång i en videoform. Lärprocessen är uppdelad i en steg-för-steg-struktur (program -> lektioner -> ämnen) som täcker relevanta läroplansdelar. Obegränsad rådgivning med domänexperter tillhandahålls också.
För detaljer om certifieringsförfarandet kontrollera Hur det fungerar.
Läroplan Referensresurser
Kontroll på mänsklig nivå genom publicering av Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Open-access-kurs om djupförstärkningslärande vid UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL tillämpades på K-armbed banditproblem från Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Ladda ner det kompletta offline självlärande förberedande materialet för EITC/AI/ARL Advanced Reinforcement Learning-programmet i en PDF-fil
EITC/AI/ARL förberedande material – standardversion
EITC/AI/ARL förberedande material – utökad version med granskningsfrågor