Igre in spodbujevano učenje
Kako računalniki igrajo igre in o spodbujevanem učenju, predvsem pa: kaj je pravzaprav umetna inteligenca?
Tema Inteligentnega papirja in Računalnika iz bombonov je fundamentalna: kaj je pravzaprav umetna inteligenca?
V Pumicah se trudimo vplesti umetno inteligenco v različne šolske predmete, zato se večina učnih ur suka okrog podatkov. Razpravo o tem, kaj je umetna inteligenca — in ali so računalniki res inteligentni — si lahko privoščimo tudi tam. Je postopek, ki se nauči razvrščati živali, ki odkrije različna podnebja ali ugane, katera televizijska serija nam bo všeč, inteligenten?
Inteligentni papir in Računalnik iz bombonov se ne navezujeta na noben predmet (razen računalništva), vendar ju dodajamo, ker veliko bolj kot druge učne ure izzivata vprašanje, kdaj lahko za neko stvar rečemo, da je inteligentna.
Obenem pa: obe uri sta tako zanimivi, da bi ju bilo škoda izpustiti.
Gradivo nastaja v okviru projekta DALI4US.


Poglavje 1: Uvod
Eden od pionirjev umetne inteligence, Donald Michie (1923 - 2007), si je leta 1961 izmislil "računalnik" za učenje igre križcev in krožcev. V tistih časih niti vrhunski znanstveniki kot je bil Michie, namreč niso imeli ves čas pri roki računalnikov.

Namesto papirnih lončkov je uporabil vžigalične škatlice, v katere je dal barvne kroglice, na koncu vsake pa je bil papir v obliki črke V; žrebal je tako, da je potresel škatlico in izbral kroglico v konici V-ja. Ob porazu je iz škatlic jemal kroglice, ob zmagah jih je dodajal. Čeprav je računalnik deloval, je za naše potrebe neuporaben, saj zahteva 300 škatlic (ali pol in lončkov), poleg tega pa je Michie potreboval 220 iger, ki so trajale dva dni, da ga je natreniral.
Igro Šest kmetov, ki se v originalu imenuje Hexapawn, si je izmislil popularni avtor člankov in iger iz "rekreativne matematike" Martin Gardner (1914 – 2010). Prednost igre pred Križci in krožce je, da ima veliko manj različnih možnih položajev (in s tem pol ali škatlic). Igra je celo tako preprosta, da ni težko videti, da lahko igralec, ki je na potezi drugi, vedno zmaga, če igra pametno. Vendar tega z otroki ni potrebno analizirati, razen, morda, po končani aktivnosti. To aktivnosti sicer ne naredi nič manj zanimive: računalnik je "pameten" že zato, ker je uspel poiskati optimalno strategijo.
Poglavje 2: Drevo pozicij in zmagovalne strategije
Vse igre, pri katerih igralca vlečeta poteze, lahko predstavimo z drevesom, kot je spodnje drevo za križce in krožce.
Igra je kot potovanje po drevesu. Začnemo na vrhu in vedno potujemo le navzdol, tako da se v vsaki potezi odločimo za eno od vej. Če gre za igro z enim samim igralcem, ki želi doseči nek cilj, vse poteze izbira sam. Če gre za igro z dvema igralcema, kot Križci in krožci, se igralca, ki izbirata potezo, to je, naslednjo pot v drevesu, izmenjujeta.
Drevesa je konec v "listih". Z vsakim listom je povezan izid - zmaga enega ali drugega igralca, ali pa neodločen izid.
Dober igralec izbira tiste veje, ki ga vodijo do zmage. V nekaterih pozicijah se lahko zgodi, da more eden od igralcev s pametno igro zagotovo zmagati. To je, očitno, pozicija, v kateri ima igralec zmagovalno potezo; ali pa pozicija, v kateri ima igralec določeno potezo, ki ga bo, ne glede na odgovor nasprotnika, pripeljala v pozicijo z zmagovalno potezo; ali pa pozicija, ki ga bo pripeljala v pozicijo, ki ga bo pripeljala … Saj razumemo, ne?
Vsaka igra, v kateri ni naključij in imata oba igralca popolno informacijo o stanju igre ima strategijo za enega od igralcev, ki ga zagotovo pripelje do zmage ali vsaj neodločene igre. To vključuje tudi šah, vendar ima le-ta okrog možnih pozicij, zato takšne strategije ne moremo — tako kot smo jo pri šestih kmetih — najti s preiskovanjem celotnega drevesa.
Včasih se zgodi, da je igra odločena, še preden se začne: že v začetni poziciji ima eden od igralcev možnost izbirati poteze, ki ga zagotovo pripeljejo do zmage. Takšne igre niso zelo zanimive v praksi, zanimive pa so za raziskovanje. V nekaterih igrah obstaja zmagovalna strategija za igralca, ki povleče prvo potezo ("beli"), v nekaterh zmagovalna strategija za igralca, ki je na vrsti drugi ("črni"). Križci in krožci so primer igre, kjer lahko beli z modrim izborom potez zagotovi, da ne bo izgubil. Šest kmetov je primer igre z zmagovalno strategijo za črnega. Zato je aktivnost zastavljena tako, da računalnik povleče drugo potezo.
Naloga računalnika je, da poišče zmagovalno strategijo. Pri razlagi dogajanja si spet pomagajmo z drevesom. Ko računalnik izgubi igro, odstranimo bombon, ki nas vodi v potezo, v kateri lahko človek zmaga. Pomembno je, da odstranimo le zadnjega, ne pa vseh na poti, saj lahko z gotovostjo vemo le, da je bila napačna zadnja poteza.
S postopnim odstranjevanjem bombonov režemo dele drevesa, ki nas potencialno vodijo v poraz. Tako ostanejo le še poteze, s katerimi bo računalnik gotovo zmagal. Drevo se s tem ne spremeni v eno samo, linearno pot: v igri je še vedno človek, ki ima v začetku dve možni potezi, prav tako lahko sprejema različne odločitve v kasnejših potezah. Tudi računalnik ima lahko — vsaj v načelu — v nekaterih pozicijah lahko več možnih odgovorov, ki ga vodijo do zmage.
Zanimiva je vloga plastičnih lončkov in bombonov: ti so "pomnilnik" našega računalnika, ki beleži veje drevesa, v katerih ni računalnik še nikoli zagotovo izgubil.
Poglavje 3: Spodbujevano učenje
Kaj pa, kadar igra nima zmagovalne strategije? Ali pa morda niti ne gre za igro, temveč za nek cilj, ki ga želimo doseči in različne poti do njega so lahko bolj ali manj uspešne, preprostejše ali bolj zapletene, cenejše ali dražje.
V tem primeru se zatečemo k spodbujevanemu učenju (reinforcement learning). Ob napovednih modelih smo spoznali algoritme strojnega učenja, ki se učijo na podlagi podatkov napovedati določen izid ali pripadnost razredu. Spodbujevano učenje je bolj zapleteno: njegova naloga je sestaviti model, ki v določeni situaciji predvidi, katera od možnih akcij bo uspešneje vodila k cilju. Za razliko od učenja napovednih modelov pri spodbujevanjem učenju ne dobimo takojšnje povratne informacije o tem, ali je bila odločitev pravilna. Po odločitvi se znajdemo v novi situaciji in pred novo odločitvijo. Kako uspešni smo bili, izvemo šele na koncu.
Postopki spodbujevanega učenja navadno delujejo tako, da po uspešnem prihodu na cilj "nagradijo" vse poteze, ki smo jih napravili; najbolj nagrajene so zadnje poteze, starejše pa vedno manj. Na ta način se utrjujejo prave odločitve, slabe pa tonejo v pozabo.
Učenje računalnika iz bombonov je v nekem smislu spodbujevano učenje. Točneje: "kaznovano učenje" (izraz je neuraden in priložnosten :), saj kaznujemo slabe odločitve. Pri tem se "kazen" za razliko od spodbujevanega učenja nanaša le na zadnjo odločitev in ni mehka, temveč popolna: namesto da bi napačni odločitvi le zmanjšali verjenost, da jo naslednjič spet izberemo, jo kar prepovemo.
Poglavje 4: Kaj je umetna inteligenca
Opis učne ure Računalnik iz bombonov se konča z razmišljanjem o tem, ali je računalnik, ki se uči optimalnega igranja neke igre, že inteligenten. Otroci bodo gotovo ugovarjali, saj vidijo, kako reč deluje.
Pa je računalnik res inteligenten samo zato, ker otroci ne vedo, kako deluje? Tako kot računalnik iz bombonov tudi računalnik vedno deluje deterministično, na podlagi pravil, postopkov, programov, ki jih zapišemo ljudje. V načelu torej ni razlike med pravim računalnikom in onim iz bombonov. Tudi Michieja, ki je prvi ustvaril prototip takšnega računalnika, je najbrž privlačila prav ta misel, sicer ne bi dva dni igral križcev in krožcev s škatlicami, čeprav je gotovo vedel, kakšen bo končni rezultat poskusa.
Je potem umetna inteligenca možna ali ne?
Zadnja odstavka tega besedila sem napisal deset let preden smo dobili ChatGPT in druge velike jezikovne modele. Z njim je postal Turingov test manj, tale odstavka - predvsem poskus s kitajsko sobo - pa le še bolj relevantna.
Vse je odvisno od tega, čemu rečemo (umetna) inteligenca. Filozofi umetne inteligence in čisto pravi filozofi se o tem radi pogovarjajo in so si izmislili tudi precej zanimivih miselnih eksperimentov. Alan Turing (1912 - 1954), ki ga srečamo na vsakem vogalu računalništva, si je izmislil test, ki ga po njem imenujemo Turingov test: računalnik bo inteligenten, ko poskusne osebe, ki se bodo pogovarjale (recimo prek tipkovnice) z računalnikom in s človekom, ki bosta v drugi sobi, ne bodo mogle razlikovati, kdo je kdo. Filozof John Searle (1932 - ) meni, da računalnik ne bo nikoli inteligenten, ker ne bo razumel tega, kar govori ali izpisuje. Zgodbo je ilustriral s kitajsko sobo (Chinese room experiment), v kateri je človek, ki se dela, da razume kitajsko, tako da pod vrati dobiva listke s kitajskimi pismenkami in vrača odgovore, ki jih sicer napiše sam, vendar skladno z navodili, ki jih ima v knjigi. Tak človek bi za zunanjega opazovalca ustvaril vtis, da zna kitajsko, v resnici pa ne bi razumel ničesar. Turingov test je potemtakem zgrešen. Kaj pomeni razumeti, pa se je trudil opisati Ludwig Wittgenstein (1889 - 1951) v poskusu s hroščem v škatli (Beetle box experiment), v katerem imamo kup ljudi s škatlicami, ki …
A pravzaprav niti ni pomembno. Povedati hočemo le, da je dilema o tem, ali so računalniki sploh lahko inteligentni ali ne, bolj stvar filozofije kot računalništva. Pa jo zato tudi prepustimo filozofom.