Gručenje

Gručenje

Dodatno gradivo o metodah gručenja

Dodatno gradivo se tokrat osredotoča predvsem na ozadje algoritmov. Za izvedbo učnih ur ga ni nujno prebrati, seveda pa ne bo škodilo. V gradivu je tudi podrobneje razloženo delovanje gradnikov za Orange, povezanih z gručenjem. Tudi tega ni nujno obvladati do zadnjih detajlov, saj so opisom ur priloženi že delujejoči delotoki.

Komentarji k učnim uram so tokrat kratki, saj k njihovim opisom na strani Pumice.si ni veliko dodati.

Gradivo nastaja v okviru projekta DALI4US.

Poglavje 1: Uvod

Napovedne modele, o katerih smo pisali v prejšnjem zvezku, uporabimo, ko imamo opravka s podatki, ki pripadajo različnim skupinam (tam smo jim rekli razredi, vrste ali kategorije, v praksi pa je šlo za poklice palčkov ali vrste štirikotnikov ali živali). Naša naloga je bila odkriti pravila, s katerimi lahko na podlagi znanih lastnosti določiti v katero skupino spada neznana stvar.

Zdaj imamo drugačen problem. Skupine niso znane, poznamo le lastnosti stvari. Naša naloga je najti skupine, ki so si podobne. To počnemo s gručenjem.

Tudi učenje napovednih modelov nam je prirojeno, le dovolj preprosto ga pogledati. Ne učimo se le napovedovanja vremena, temveč tudi, da udarec v prst pomeni bolečino - kot se kar hitro učijo že dojenčki.

V uvodu v napovedne modele smo pisali zgodbice o kmetih iz Vipave, ki so cele generacije opazovali vetrove, kape nad Nanosom in temperature na sv. Pankracija, da bi napovedali vreme. Ob gručenju poglejmo z druge strani: zmožnost zaznavanja gruč nam je tako prirojena, da se ji niti ne moremo izogniti. Gestalt psihologi so temeljito raziskali, kdaj in kako zaznavamo gruče. Pravil zaznavanja gruč je več, tu nas bo zanimalo predvsem eno: v isto skupino bomo dali reči, ki so si blizu skupaj. Z "blizu skupaj" tu ne bomo mislili na fizično razdaljo temveč na podobnost: za dve stvari bomo rekli, da sta si blizu, če sta si podobni.

V sliki na levi vsi vidimo štiri skupine. Za to ne potrebujemo nobenega računalnika. Tako bi znali združiti v skupine poljubne reči. Preprost primer imamo v učni uri Gruče v razredu, kjer ni tažko videti treh ali štirih skupin učencev glede na njihovo znanje matematike in spretnost v nogometu.

Naša veščina zaznavanja skupin odpove, ko so reči, ki bi jih radi zložili v skupine opisane z več kot dvema spremenljivkama, saj jih takrat ne moremo narisati. Poleg tega smo omejeni glede tega, kaj dojemamo kot razdaljo; vidimo le "zračno razdaljo" - matematiki ji rečejo evklidska razdalja in jo računajo, kot nas je učil Pitagora. Ta pogosto ni dobra za merjenje podobnosti.

V teh primerih se moramo zateči k računalnikom.

Gručenje je, tako kot napovedovanje, ena od osnovnih nalog v raziskovanju podatkov, zato postopkov gručenja ne manjka. Tu bomo spoznali dva: hierarhično gručenje in gručenje s k voditelji.

Poglavje 2: Hierarhično gručenje

Algoritem hierarhičnega gručenja je trivialen.

  1. V začetku je vsaka stvar svoja skupina.
  2. Združimo najbližji skupini.
  3. Ponavljamo korak 2, dokler ne ostane ena sama skupina.

To je vse. :) Lepši, nazornejši opis je v učni uri Gručenje.

Dendrogram

Rezultat hierarhičnega gručenja je, na prvi pogled, ena sama skupina. To seveda nima nobenega smisla.

Postopek med delom beleži, kaj je združil in kako daleč sta si bili združeni gruči. To pokaže v dendrogramu.

δένδρον (déndron) je grška beseda za drevo, γράμμα (grámma) pa za zapis. Dendrogram je torej zapis drevesa.

Drevo je nastalo z desne proti levi. Iz njega lahko razberemo vrstni red združevanja skupin: najbolj podobna sta si bila Benjamin in Hana, nato Gorazd in Cilka, za njima Andrej in Ema... Dolžine črt ustrezajo razdaljam med skupinama, ki sta bili združeni.

Z dendrogramom se lahko odločimo, koliko skupin bomo naredili. Postopek sicer vedno steče do konca, vendar se naknadno odločimo za, na primer, tri skupine. Dendrogram "prerežemo" na tem mestu in razberemo člane skupin. Na gornjem dendrogramu so v prvi skupini Helga, Ivan, Cilka in Gorazd, v drugi Jože, Daniel in Fanči, v tretji pa Benjamin, Hana, Andrej in Ema.

Lahko bi se odločili tudi za dve skupini; v tem primeru bi bili Jože, Daniel, Fanči, Benjamin, Hana, Andrej in Ema v isti skupini. Ali pa bi naredili štiri skupine; v tem primeru bi šla prva skupina na dvoje: Helgo bi ločili od Ivana, Cilke in Gorazda. Glede na gornjo sliko, ki kaže razpored teh učencev v prostoru, bi lahko dejansko imeli tri ali štiri skupine, dveh pa pravzaprav ne.

Številke — 35, 50, 110 — same zase ne povedo ničesar! Opazujemo le, kje pride do skoka, kje se črte nenadoma podaljšajo.

V praksi nimamo luksuza pogledati v graf, saj imajo lahko podatki več dimenzij — morda še znanje slovenščine in zgodovine? Kako se tedaj odločimo za število skupin? Pomagamo si z dendrogramom. Skupine so si običajno najprej podobne, potem pa razdalje nenadoma narastejo, črte v dendrogramu se potegnejo. To je točka, kjer ga prerežemo. V sedmem koraku postopka (vemo, zakaj sedmem? znamo prešteti?) smo povezali Benjamina in Hano z Andrejem in Emo; razdalja med tema skupinama je bila malo več kot 35 (glej os nad in pod dendrogramom). V osmem smo povezali Helgo z Ivanom, Cilko in Gorazdom. Razdalja med tema skupinama je bila 50. Razdalja med najbližjima iz preostalih treh skupin pa je skoraj 110, kar je precej več kot 50.

Razdalje

Kako računamo razdalje?

Na grafu jih lahko izmerimo. Če poznamo koordinate pa po Pitagori, ne?

Najprej se spomnimo: dimenzij (spremenljivk) je lahko veliko. Opazujemo lahko ocene učencev pri vseh predmetih. Opazujemo lahko podobnosti med državami glede na socioekonomske podatke. Opazujemo lahko podobnosti med živalmi glede na značilnosti. Ko smo se igrali s sestavljanjem priporočilnega sistema nas je zanimalo, kako podobni so si učenci glede na izbor najljubših risank. Kako merimo razdaljo v teh primerih.

Očitno na osnovi njihovih lastnosti. Za začetek si predstavljajmo, da so vsi podatki številski. Dve stvari sta si različni toliko, kolikor se pač razlikujejo pripadajoče številke. Skupna razlika med dvema stvarema je nekakšna vsota teh razlik, ne?

No, da, približno tako. Različnih definicij razdalj je veliko. Tule bomo pogledali le štiri, ki nam bodo prišle kdaj prav v razredu.

Evklidska in Manhattanska razdalja

Evklidska in Manhattanska razdalja sta najbolj naravni. S par detajli.

Vrednosti spremenljivk morajo biti medsebojno primerljive!

Prvi detajl so različne skale. Vzemimo dva učenca. Prvi je velik 1,85 m in tehta 63 kg, drugi ima 1,60 m in tehta 65 kg. Za koliko se razlikujeta? Razlika v višini je 0.25, v teži pa 2. Potemtakem sta skoraj enako visoka, a zelo različno težka? Razlika v njuni teži je osemkrat večja od razlike v velikosti? Očitno ne. Da bi lahko nekako "seštevali" razlike, ki odražajo povsem različne lastnosti - teža, višina, dolžina las, število bratov in sester ter ocena pri biologiji, je potrebno vse spremenljivke spraviti na isto lestvico. Če od tež učencev odštejemo težo najlažjega, potem pa to delimo z razliko med najlažjim in najtežjim, bo najlažji težak 0, najtežji pa 1. To je le ena od vrst normalizacije; daljši seznamček najdete na Wikipediji.

Vrednosti želimo normalizirati, kadar so merjene na različnih skalah, kot recimo v gornjem primeru. Če so skale enake, normalizacija ni potrebna ali pa je celo nočemo. Če bi primerjali dijake glede na ocene pri različnih predmetih in menimo, da je razlika med 3 in 5 enaka 2, ne glede na to ali gre za telovadbo ali matematiko (kjer so ocene navadno nižje), potem normalizacije ne potrebujemo.

Skupna razlika ni nujno kar vsota razlik.

Drugi detajl je, kaj seštevamo. Lahko seštejemo razlike. Točneje: absolutno vrednost razlik - da ne bi kdo v gornjem primeru seštel 0.25 in -2, ker je prvi višji, drugi pa težji. Razlika med gornjima učencema (če pozabimo na normalizacijo) je 2.25.

Lahko pa seštevamo kvadrate razlik in vsoto korenimo. Torej 0.252 + 22 = 4.0625, koren tega pa je 2.016.

Prvi različici pravimo manhattanska razdalja, drugi evklidska. Prva je dobila ime po Manhattnu. Če smo na križišču 10 ulice in 11 avenije, priti pa nam je na 7 ulico, 15 avenijo, se bo potrebno premakniti za 3 ulice in 4 avenije. Ker je mreža pravokotna (in, recimo, celo kvadratna), bo treba prehoditi 3 + 4 = 7 blokov. V kakršnemkoli redu že.

Druga je dobila ime po Evklidu, lahko pa bi ga tudi po Pitagori. Če imamo za pot z (10, 11) na (7, 15) na voljo helikopter, nam dolžino poti pove Pitagora: dolga je koren iz 32 + 42, kar je, kakšno naključje, točno 5.

Obe definiciji sta smiselni, vsaka ima svoje prednosti in slabosti. In obe je možno izračunati s poljubnim številom dimenzij (ekhm, spremenljivk). Če sta dve, tako kot tule, seštejemo dva (kvadratа) razlik in vsoto korenimo. Če jih je sto, pač računamo vsoto stotih (kvadratov) razlik in vsoto korenimo (s kvadratnim korenom, tako kot prej).

Kaj pa, če spremenljivke niso številke? V tem primeru k razdalji prištejemo 1, kadar se vrednosti razlikujeta in 0, če sta enaki. Če pri gornjih dveh učencih opazujemo še barvo oči, bomo prišteli 0, če sta oba modro-, rjavo- ali zelenooka, in 1, če je eden, recimo, modro- in drugi rjavoook.

Kosinusna razdalja

Recimo, da primerjamo občine glede na njihov živinorejski profil.

KravePrašičiOvce
Majhenci40205
Šravenče40020050
Zgornje Podbrinje150200100

Kateri dve občini sta si najbolj podobni? Stvar pogleda, vendar bi si upal trditi, da Majhenci in Šravenče. Majhenci so, kot pove že ime, bolj majhna občina; pravzaprav vemo, da desetkrat manjša od Šravenč. In, glej čudo: imajo tudi točno desetkrat manj živine. Profil pa je natančno enak: prašičev je dvakrat manj kot krat krav, ovac pa štirikrat manj kot prašičev. V Zgornjem Podbrinju pa se ukvarjajo predvsem s prašičjerejo.

Geometrijsko gledano gredo Majhenci in Šravenče v "isto smer", le da so Šravenče desetkrat dlje. Kot med Majhenci in Šravenčami je 0.

Kosinusna razdalja deluje tako, da si predstavlja podatke kot dva vektorja in "razdalja" je kosinus kota med njima. Poglejmo spodnjo sliko: kosinusna razdalja ustreza kotu, torej dolžini loka. Ker računamo kosinus kota, pa ustreza dolžini rdeče črte pod lokom.

Kosinusno razdaljo bomo uporabili, kadar nas ne zanimajo številke, temveč razmerje med njimi.

Jaccardova razdalja

Jaccardova razdalja je razdalja med množicami. Uporabljamo jo, recimo, v učni uri o priporočilnih sistemih, kjer merimo podobnost okusov na podlagi tega, kako podobnosti izborov risank.

Jaccardov indeks je meri podobnost med množicama: izračunamo ga tako, da velikost preseka delimo z velikostjo unije, AB / AB|A \cap B|~/~|A \cup B|. Ker nas zanima razdalja in ne podobnost, to vrednost odštejemo od 1: 1AB / AB1 - |A \cap B|~/~|A \cup B|.

Razdalje med skupinami

Zamolčali smo še en pomemben detajl. Govorili smo o razdalji med Helgo ter Ivanom, Cilko in Gorazdom. Kaj mislimo s tem? Razdaljo med Helgo in Ivanom, med Helgo in Cilko ali med Helgo in Gorazdom?! Kaj pa razdalja med Benjaminom in Hano ter Andrejem in Emo. Med kom, konkretno?

Kakšna je razdalja med modrimi in rdečimi križci na spodnji sliki? Kako bi jo "izmerili"?

  1. Če bi bila slika le malo drugačna (skupini bi bilo potrebno le obkrožiti!) bi bil odgovor na prvi pogled praktično soglasen: kot razdaljo med skupinami bi "videli" razdaljo med njenima najbližjima elementoma.

  2. Kakor je slika videti zdaj, bi se nekaterim morda zazdelo primerneje izračunati nekakšno "poprečno razdaljo" ali razdaljo med sredinama skupin. Da, zveni smiselno.

  3. Spet tretji - vendar bi bili le-ti v manjšini - bi morda menili, da je potrebno meriti razdaljo med najbolj oddaljenima elementoma.

Če bi kdo predlagal, da za vsako skupino izračunamo "sredino", nekakšno težišče, ga spomnimo, da postopek gručenja temelji na razdaljah, ki niso nujno geometrijske. Kako izračunati "težišče" glede na Jaccardovo razdaljo?

Po prvem receptu poiščemo tisti par, med katerima je razdalja najmanjša; to bo razdalja med skupinama. Tretji recept je podoben, le da poišče najbolj oddaljeni par. Po drugem receptu pa izračunamo, preprosto, povprečno razdaljo med vsemi pari.

In? Kateri recept je "pravi"? Katerega v resnici uporabljamo? Kakor se odločimo, vendar je skoraj vedno najboljši četrti: Wardova razdalja. Ta je matematično bolj zapletena in minimizira varianco znotraj gruč. Za večino bralcev bode to dovolj, ostali naj sami poiščejo več, za začetek lahko kar članek o Wardovi metodi na Wikipediji.

Različne metode povezovanja

Zakaj Wardova? Z njim bomo navadno dobili dendrogram z lepo ločenimi gručami. Napisali smo, da so razdalja navadno najprej majhne, potem pa nenadoma skokovito narastejo. To velja tudi za Wardovo razdaljo, za ostale pa … bolj redko.

Poglavje 3: Gradniki za hierarhično gručenje v programu Orange

Za hierarhično gručenje bomo potrebovali dva gradnika: enega, ki računa razdalje in drugega, ki izračuna dendrogram.

Gradnik Razdalje

V gradniku razdalje izberemo, kako želimo meriti razdalje: ponuja vse, o čemer smo pisali v prejšnjem poglavju in še precej drugih vrst razdalje. Poleg tega se odločimo, ali bomo primerjali vrstice (stvari) ali spremenljivke (lastnosti). Če izberemo drugo, bomo v naslednjem koraku pridelali, recimo, hierarhično gručenje predmetov namesto gručenja učencev. Izvedeli bomo, da sta si matematika in fizika podobna, saj so tisti, ki so dobri v matematiki, dobri tudi v fiziki.

Pri tem gradniku niso toliko zanimive nastavitve kot vhodi in izhodi. Kot večina gradnikov sprejme tabelo s podatki. Izhod iz gradnika pa ni tabela podatkov temveč matrika razdalj.

Povezava med gradnikoma Razdalje in Matrika razdalj

Gradnika Razdalje ne moremo priključiti na Tabelo, Drevo in večino drugih gradnikov, saj zahtevajo tabelo podatkov, z matriko razdalj pa nimajo kaj početi.

Gradnik Hierarhično gručenje

Gradnik Hierarhično gručenje potrebuje matriko razdalj ter izračuna hierahijo gruč ter pokaže dendrogram. Sprejel bo tudi tabelo primerov, vendar jo uporabi za druge namene, v katere se ne bomo spuščali. Torej: hierarhično gručenje bomo vedno priključili na Razdalje. Če ga povežemo neposredno z Datoteka, Zbirke podatkov ali drugim gradnikom, ki vrne tabelo podatkov, gručenje ne bo delovalo.

V gradniku nas bosta zanimali predvsem dve nastavitvi.

Določimo lahko oznako, ki se izpisuje kot "ime" stvari. Gradnik je sorazmerno pameten in sam poišče primerno spremenljivko. Če je zgrešil - ali pa bi radi opazovali kaj posebnega, jo lahko spremenimo.

Nastavitev oznak v gradniku Hierarhično gručenjePokaži ponovno

Poleg tega lahko k oznakam postavimo kvadratek, katerega barva odraža vrednost določene spremenljivke.

Nastavitev barv v gradniku Hierarhično gručenjePokaži ponovno

S klikanjem na skupine lahko izbiramo stvari, ki so v njih. Izberemo lahko tudi več skupin, tako da kliknemo na prvo, ob klikanju na naslednje pa držimo Ctrl (oz. Cmd). Gradnik Hierarhično gručenje bo posredoval podatke gradnikom, priključenim nanj, na primer gradniku Tabeli. V podatkih se bo pojavil dodaten stolpec z oznako gruče.

Izbor v gradniku Hierarhično gručenjePokaži ponovno

V Dendrogramu lahko s klikom na os določimo, kje želimo razrezati drevo. Če kliknemo na določeno višino, bomo dobili gruče, ki so si podobne do te višine. Prag lahko tudi pomikamo s klikom in vlečenjem. Tudi v tem primeru gradnik posreduje podatke gradnikom, priključenim nanj — spet z dodatnim stolpcem, ki za vsak primer pove, v katero gručo spada.

Nastavitev praga v gradniku Hierarhično gručenjePokaži ponovno

Število skupin lahko določamo tudi ročno.

Nastavitev števila skupin v gradniku Hierarhično gručenjePokaži ponovno

Poglavje 4: Gručenje s središči

Gručenje s k središči (k-means clustering) je popolnoma drugačno. Takole gre.

  1. Naključno(?) izberi k koordinat. To bodo središča skupin.
  2. Stvar razporedi po skupinah: vsaka stvar sodi v tisto skupino, katere središču je najbližja.
  3. Za vsako skupino ugotovi, kje je — glede na stvari, ki so v njej — v resnici njeno središče.

Ker se v tretjem koraku spremenijo središča skupin, moramo nato ponoviti drugi korak in na novo prerazporediti stvari. Vendar se po ponovitvi drugega koraka spremenijo skupine, zato je potrebno na novo preračunati središča. Po spremembi središč je potrebno ponovno razdeliti stvari po skupinah … kar pa potegne novo preračunavanje središč.

Skratka, drugi in tretji korak ponavljamo, dokler se središča nehajo premikati in skupine nehajo spreminjati. To se vedno zgodi (razlog je v tem, da tako drugi kot tretji korak zmanjšujeta vsoto razdalj med stvarmi in središči). In to ponavadi kar hitro.

Število k je določeno vnaprej. Lahko je, recimo, 3. Postopek lahko vidimo v akciji na nekaj naključno razpostavljenih točkah.

Tule uporabljamo gradnik Interactive K-means iz dodatka Educational, ki za zdaj še ni preveden v slovenščino.

Pokaži ponovno

Lahko pa bi bilo tudi 4.

Pokaži ponovno

Uspešnost postopka je odvisna od začetnega razporeda središč. Če imamo smolo, se lahko zgodi kot na sliki na levi, kjer si oranžno in rdeče središče delita levo gornjo skupino, zato si zeleno in modro prevzameta točke desno spodaj. Algoritmi to težavo rešijo, tako da začetni koordinat ne izberejo povsem naključno, predvsem pa celoten postopek ponovijo večkrat in na koncu predlagajo rešitev, pri kateri so skupine najbolj strnjene.

Kdaj uporabiti hierarhično gručenje in kdaj metodo središč?

Gornje animacije puščajo vtis, da je metoda središč bolj vizualna in privlačna. Ni. Ravno nasprotno. Rezultat gručenja je seznam pripadnikov gruč. Nobenih grafov s točkami, saj nimamo le dveh spremenljivk, pa tudi nobenih dendrogramov.

Če bi namesto evklidske razdalje uporabljal kakšno drugo, bi se postopek lahko zaciklal — razen če bi spremenil tudi način določanja središč.

Gručenje s k središči zahteva tabelo primerov in ne matrike razdalj. Kar se tiče razdalj, nimamo kaj izbirati: ko računa, kateremu središču pripada posamična stvar, gradnik uporabi evklidsko razdaljo, sicer postopek ne bi deloval pravilno.

Prednost metode središč je manjša poraba pomnilnika, kadar je podatkov veliko. V razredu nas to prav nič ne zanima. Pač pa boste opazili, da smo metod k središč uporabili v uri Podnebni pasovi. Razlog je preprosto v tem, da hierarhično gručenje ni dalo lepih rezultatov. Zakaj ne — bogve. Metodo k središč bomo torej uporabili kot rezervo.

Poglavje 5: Gručenje s središči v programu Orange

Ker postopek gručenja s k središči ni tako vizualen kot hierarhično gručenje, je tudi gradnik preprostejši.

Vhod gradnika K gruč niso razdalje temveč tabela s podatki, izhod pa tabela primerov z dodatnim stolpcem, ki pove, v katero gručo spada posamična vrstica.

V gradniku lahko nastavimo vnaprej predpisano število gruč ali pa mu naročimo, naj preskusi različna števila znotraj določenih meja. V tem primeru bo na desni strani pokazal tabelo z ocenami kvalitete gručenja za vsako število gruč. Sam bo izbral najboljše število, s klikom v tabelo pa bomo izbrali število gruč, ki nas zanima.

Poglavje 6: Komentarji k učnim uram

Gruče v razredu

Gruče v razredu lahko izvedemo brez računalnika, seveda pa je smiselno pokazati tudi, da natančno enak postopek izvaja tudi računalnik.

Delotok je pripravljen in njegova uporaba preprosta. Več detajlov je opisanih v gornjem poglavju o gradnikih za hierarhično gručenje v programu Orange.

Omeni le, da so v gradniku Razdalje nastavljene nenormalizirane evklidske razdalje, saj bi radi, da razdalje, kot jih "vidi" gručenje ustrezajo razdaljam v grafu. Popaziti pa moramo, da imata osi v gradniku Razsevni diagram približno enako merilo, kar po potrebi popravljamo s širjenjem oziroma ožanjem gradnika.

Odkrivanje skupin živali

Uporaba računalnika pri Odkrivanju skupin živali je minimalna in podrobno razložena v opisu učne ure.

Podnebni pasovi Evrope

Za razliko od ostalih učnih ur, v Podnebni pasovi Evrope uporabimo gručenje s središči, saj hierarhično gručenje ne da lepih rezultatov: v najboljšem primeru sicer zazna sredozemsko podnebje, vendar v tem primeru postavi Pariz in London v skupino z Varšavo in Moskvo ne Berlinom in Amsterdamom. Zakaj? Bogsigavedi. Morda je problem v premajhni količini podatkov.

Delotok je velik, vendar le zato, ker vsebuje štiri gradnike krivulja, ki kažejo različne stvari.

Da bil delotok razumljivejši, smo nekatere gradnike tokrat preimenovali, tako imajo namesto imen, ki povedo njihovo splošno funkcijo, imena, ki povedo, kaj počnejo v tem konkretnem Delotoku.

image

Delotok vsebuje štiri gradnike Izbor stolpcev, s katerimi izberemo spremenljivke, ki se nanašajo na temperaturo oz. na padavine. Prva dva prejmeta podatke, ki jih izberemo v tabeli, da lahko opazujemo temperature in padavine v posameznih mestih. Druga dva prejmeta podatke iz gručenja, tako da lahko opazujemo temperature in padavine v posameznih gručah.

V k-gruč smo nastavili število gruč na 4. Kot je pojasnjeno tudi v opisu učne ure, bi želeli v resnici imeti tri gruče, vendar nastavimo gradnik na 4, ker se Podgorica tako razlikuje od ostalih gruč, da ji algoritem dodeli posebno gručo.

Slovenski priimki

V maju 2023 je skoraj 1000 učencev iz 40 šol širom Slovenije reševalo izziv iz raziskovanja slovenskih priimkov. Učenci so pogledali tri kratke videe, ki je predstavil določene vizualizacije ali algoritme v programu Orange. Po vsakem videu so morali učenci s pomočjo programa Orange še sami poiskati odgovor na vprašanje, podobno temu iz videa.

Aktivnost v teh obliki lahko še vedno izvedete (le majic in kapucarjev ne boste dobili, tako kot so ji oni). Videi so v seznamu na YouTubeu, za učitelje, ki to želijo ali potrebujejo, pa je na voljo poseben dodatni material.

Osnovni orodji pri analizi sta gručenje in opazovanje podatkov na zemljevidu. Hkrati pa ob tem izvemo veliko o izvoru priimkov, predvsem pa o zgodovini slovenskega ozemlja in tem, kako lahko njegovo zgodovinsko delitev zaznamo še danes.

Učno uro Slovenski priimki smo poslušali v drugem in tretjem triletju pei slovenščini, zemljepisu in zgodovini. Trenutno (februar 2025) je opis ure dolg in predpostavlja, da učitelj sam sestavlja delotok. Glede na to, da so to zmogli učenci, to ne bi smel biti problem, vseeno pa bomo pripravili tudi že dokončan delotok in navodila po korakih.

Družbeno-ekonomske značilnosti držav

Učno uro, v kateri raziskujemo Družbeno-ekonomske značilnosti držav smo preskušali v srednji šoli. Učenci tudi tu sami sestavljajo delotok, pri čemer jim pomaga učitelj. Tudi opis te ure bomo še nekoliko poenostavili.

V uri z različnimi vizualizacijami raziskujemo povezave med različnimi značilnostmi držav, konkretno, recimo, povezavo med povprečnim trajanjem izobraževanja in življenjsko dobo. Nato sestavimo gruče in opazujemo, katere države so podobne katerim in kako se razlikujejo od držav v drugih gručah.