Gručenje - s poudarkom na Orangeu
Tole je nadaljevanje prejšnjega dela; v njem ni skoraj nič novega o gručenju, pač pa je bolj poudarjena njegova povezava z drugimi gradniki v Orangeu
Poglavje 1: Kako daleč smo od Kanade?
... v katerem razmišljamo o tem, kako opisati in izračunati razliko med objekti.
Profesor Bratko, eden od pionirjev umetne inteligence pri nas in v svetu, je seveda obvladal matematiko, na predavanjih pa nas ni moril z njo. Nekoč pa je za trenutek pokazal kup nekih formul - bile so neke grozne beta distribucije - a jih tudi hitro skril z besedami: »Samo toliko, da boste vedeli, da je tu zadaj tudi nekaj matematike".
To poglavje ima podoben namen. Vendar matematika ne bo prehuda. In še: prav je, da približno veste, za kaj gre.
Za zdaj pustimo celine in verska vprašanja. Vrnimo se k osnovnemu naboru podatkov. Začnimo s praznim platnom, nanj postavimo le Zbirke podatkov, naložimo iste podatke kot vedno in jih povlecimo v Tabelo.
S koliko lastnostmi (spremenljivkami) je opisana vsaka država?
V nekaj naslednjih poglavjih bomo združevali države glede na podobnosti med njimi. Kako, na osnovi česa, lahko rečemo, da sta si dve državi podobni - ali različni?
Očitno na osnovi njihovih lastnosti. Vsaka država je opisana s 53 lastnostmi (tistim, ki niso odgovarjali na gornje vprašanje, smo pravkar izdali odgovor) in dve državi sta si podobni, če sta si podobni po teh lastnostih. Stvar je dodatno preprosta, ker so vse lastnosti številske. Dve državi se po posamični lastnosti razlikujeta za toliko, za kolikor sta si različni pripadajoči številki. In skupna razlika med državama je potem kar vsota teh razlik, ne?
No, da, približno tako. Z nekaj detajli.
Vrednosti spremenljivk morajo biti medsebojno primerljive!
Prvi detajl so različne skale. Vzemimo dva učenca. Prvi je velik 1,85 m in tehta 63 kg, drugi ima 1,60 m in tehta 65 kg. Razlika v višini je 0.25, v teži pa 2. Potemtakem sta skoraj enako visoka, a zelo različno težka? Razlika v njuni teži je osemkrat večja od razlike v velikosti? Očitno ne. Da bi lahko nekako »seštevali« razlike, ki odražajo povsem različne lastnosti - teža, višina, dolžina las, število bratov in sester ter ocena pri biologiji, je potrebno vse spremenljivke spraviti na isto lestvico. Če od tež učencev odštejemo težo najlažjega, potem pa to delimo z razliko med najlažjim in najtežjim, bo najlažji težak 0, najtežji pa 1. To je le ena od vrst normalizacije; daljši seznamček najdete na Wikipediji.
Skupna razlika ni nujno kar vsota razlik.
Drugi detajl je, kaj seštevamo. Lahko seštejemo razlike. Točneje: absolutno vrednost razlik - da ne bi kdo v gornjem primeru seštel 0.25 in -2, ker je prvi višji, drugi pa težji. Razlika med gornjima učencema (če pozabimo na normalizacijo) je 2.25.
Lahko pa seštevamo kvadrate razlik in vsoto korenimo. Torej 0.252 + 22 = 4.0625, koren tega pa je 2.016.
Prvi različici pravimo manhattanska razdalja, drugi evklidska. Prva je dobila ime po Manhattnu. Če smo na križišču 10 ulice in 11 avenije, priti pa nam je na 7 ulico, 15 avenijo, se bo potrebno premakniti za 3 ulice in 4 avenije. Ker je mreža pravokotna (in, recimo, celo kvadratna), bo treba prehoditi 3 + 4 = 7 blokov. V kakršnemkoli redu že.
Druga je dobila ime po Evklidu, lahko pa bi ga tudi po Pitagori. Če imamo za pot z (10, 11) na (7, 15) na voljo helikopter, bo nam dolžino poti pove Pitagora: dolga je koren iz 32 + 42, kar je, kakšno naključje, točno 5.
Obe definiciji sta smiselni, vsaka ima svoje prednosti in slabosti. In obe je možno izračunati s poljubnim številom dimenzij (ekhm, spremenljivk). Če sta dve, tako kot tule, seštejemo dva (kvadratа) razlik in vsoto korenimo. Če jih je sto, pač računamo vsoto stotih (kvadratov) razlik in vsoto korenimo (s kvadratnim korenom, tako kot prej).
Poleg teh dveh obstaja še kup definicij razdalj, za te podatke pa sta že dve preveč. Uporabljali bomo normalizirano evklidsko razdaljo in to bo to.
Razdalje med državami nam bo izračunal gradnik Razdalje. Dajmo mu podatke, naj naredi svoje, potem pa si oglejmo rezultat.
Gradnika Razdalje in Tabela se ne marata.
Ne gre? Ne, ne gre. Če vlečemo povezavo iz Razdalje, nam spustni menu sploh ne ponudi gradnika Tabela. In če ga postavimo na platno ter ju poskusimo povezati, se povezava »ne prime«.
Različni gradniki delajo z različnimi tipi podatkov.
Iz gradnika Razdalje ne dobimo tabele s podatki, tako kot iz vseh drugih doslej. V tabeli vsaka vrstica ustreza nekemu objektu (državi, učencu, pacientu, živali, potresu, nogometni tekmi), stolpci pa lastnostim, s katerimi so ti objekti opisani. Rezultat računanja razdalj pa je matrika razdalj, torej tabelica kvadratne oblike, v kateri tako vrstice kot stolpci ustrezajo »objektom« (državam), številke v njej pa predstavljajo razdalje med pari.
Gradnik, ki zna prikazati takšno reč, je Matrika razdalj. Dodajmo, odprimo, pa »Oznake« nastavimo na »Države«, če Orange tega ne nastavi že sam.
Kaj pomenijo te številke? Je 3.128 veliko ali malo? Tega ne moremo reči; te številke v splošnem nimajo absolutne lestvice. Odvisne so od števila spremenljivk in vrste razdalje. Kar nas spomni, da gradnika Razdalje sploh še nismo odprli! Odprite in preverite, da res računa normirano evklidsko razdaljo!
Razlika med Nemčijo in Dansko je 3,128, med Nemčijo in Singapurjem pa 5,641. Nemčija je bolj podobna Danski kot Singapurju.
Kakšna je razlika med Slovenijo in Kanado v primerjavi z razliko med Nemčijo in Dansko?
Zdaj znamo izračunati razdaljo - ali razliko, besedi bomo uporabljali kot sopomenki - med poljubnimi objekti. Kaj pa bomo počeli s temi številkami?
Poglavje 2: Gruče držav
... ko spoznamo postopek, s katerim je mogoče zložiti poljubne reči - na primer države - v gruče. Pravzaprav kar celo drevo gruč.
Za začetek bomo spoznali dva postopka gručenja. Najprej enega, ki je za uporabo v razredu najbrž bolj uporaben: njegovo učeno ime je hierarhično gručenje.
Reč je povsem preprosta. Začne se tako: če imamo 188 držav, je to pač 188 gruč. Vsaka država je gruča zase.
To nam kajpada nič ne pomaga, to ne bi bilo nobeno gručenje. Ne, 188 gruč je preveč. Zato postopek vzame tisti dve gruči (torej, očitno: tisti dve državi), ki sta si najbolj podobni, in ju združi v skupno gručo. Ker je 187 še vedno preveč, vzame naslednji najpodobnejši par gruč in ju združi. In nato naslednji najpodobnejši gruči. In naslednji. In naslednji.
V začetku postopek združuje (predvsem) posamične države, nato zliva gruče v večje gruče.
... in s tem početjem neha, ko? Pravzaprav ne neha. Torej: ne neha, dokler ne združi zadnjih dveh gruč v eno samo gručo. Vseh 188 držav da v eno samo gručo.
Ena sama gruča (z vsemi državami) zveni podobno nesmiselno in neuporabno, kot 188 gruč, z vsako posamično državo. Vendar ni: celoten postopek združevanja »shranimo« v obliki drevesa, iz katerega je razvidno, kaj se je združilo s čim.
Gradniku Hierarhično gručenje podamo matriko razdalj, ki jo dobimo iz Razdalje.
Kaj je Wardova razdalja, kakšne so druge in zakaj nam je Wardova najljubša, povemo kasneje.
Odprimo ga. Razdalja med gručami naj bo Wardova. Na desni ugledamo drevo združevanj, ki mu učeno rečemo dendrogram.
Slika kaže le majhen košček celotnega drevesa. V njem najdemo, recimo, Togo in Benin, ki sta si dovolj podobna, da ju je postopek nekoč (morda ne ravno v prvem koraku, vendar kmalu po njem) združil v eno gručo. Malo kasneje jima je pridružil še Burkino Faso, vsem trem pa še Burundi.
Poleg tega je zgručil (je to beseda?! četudi ni, bi lahko bila) Mali in Niger, ki se jima je potem pridružil Afganistan.
Te tri države so se nato skupaj s štirimi iz enega odstavka višje združile v večjo gručo.
Tej gruči se je postopno pridružilo še pol Afrike (vse, kar je izpisano od Ekvatorialne Gvineje do Liberije), temu pa se je potem pridružila še druga polovica, z nekaj izjemami (začenši z najvišje izpisanim predstavnikom te skupine, Mjanmarom).
Kako se imenuje država, ki jo je postopek najprej povezal s Slovenijo?
Slovenije ni težko poiskati. Oddrsati moramo do gruče, v kateri videvamo evropske države in hitro jo najdemo nekje med srednje- in vzhodnoevropskimi državami.
Pohvale, opazke, komentarji in svarila
Tole zahteva kar nekaj pohval, opazk, komentarjev in svaril.
Da so bližnje države tudi blizu v drevesu, sicer ni zgolj zasluga postopka. Da se je to lahko zgodilo, mora biti res tudi, da so države, ki so si blizu zemljepisno, tudi podobno razvite.
Najprej pohvala: če vas to, kar vidite, ne fascinira, potem ne razumete, kaj gledate. Gradnik Hierarhično gručenje ni prejel nobenih zemljepisnih koordinat, celin ali česa podobnega. Prejel je zgolj matriko razdalj, tako, kot smo jo gledali v prejšnjem poglavju. Ve le, kako dolgo v kateri državi hodijo v šolo, koliko žensk je v parlamentu, kakšen delež prebivalstva živi v mestu in tako naprej. Fascinantno je, da dobljene gruče tako dobro sledijo geografiji.
Zdaj pa opazka, komentar, svarilo: kako smo oblikovali gornje vprašanje? (Najprej, tako, da je odgovor v imenovalniku, da ne bo dvomov pri vnosu. :) Vprašali smo, s katero državo je najprej povezal Slovenijo, ne pa, kateri državi je Slovenija najbolj podobna. Možno je, da je Slovenija najbolj podobna Hrvaški. Vendar je Hrvaško že prej združil s Srbijo in Črno goro, ki pa jima Slovenija morda ni zelo podobna in zato ne sodi v njuno gručo. Morda se je torej zgodilo, da se je med Irsko ter Hrvaško-Srbijo-Črno goro raje odločil za Irsko. Morda pa je Slovenija pravzaprav bolj podobna Češki, vendar …
Prav tako nam je prikrito, kaj se dogaja v naslednjih korakih. Namreč: parček Slovenija-Irska se je pridružil »višegrajski skupini«, to je, Poljski, Češki, Slovaški in Madžarski. Na tem »velikostnem nivoju gruč« imamo tudi Rusijo z Baltikom, spodaj pa še balkansko trojko (uh, to zveni kot mafijska naveza), pod njimi pa jugovzhodno Evropo, torej Gruzijo, Moldavijo, Romunijo in Armenijo ter Ukrajino in Belorusijo. Nekako štiri skupine, torej. Zakaj je »našo« skupino združil z rusko-baltsko in ne z balkansko?
Na to je težko odgovoriti, vendar bi lahko ugibali, da zaradi podobnosti med »višegrajci« in ruso-baltikom. Enostavno, Poljaki, Čehi, Slovaki in Madžari so nas potegnili k njim, čeprav morda (vendar tega ne vemo) bolj sodimo na Balkan. To je pač omejitev tega postopka.
Razdalje med gručami
Kako pravzaprav računamo razdaljo med gručami?
Dokler imamo le posamične države, je stvar očitna: razdalja med Slovenijo in Irsko je pač takšna, kot je napisana v tabeli. Kakšna pa je razdalja med gručo Slovenija-Irska in gručo Poljska-Češka-Slovaška-Madžarska? Na to pa še nismo pomislili, ne?
Kakšna je razdalja med modrimi in rdečimi križci na spodnji sliki? Kako bi jo »izmerili«?
-
Če bi bila slika le malo drugačna (skupini bi bilo potrebno le obkrožiti!) bi bil odgovor na prvi pogled praktično soglasen: kot razdaljo med skupinami bi »videli« razdaljo med njenima najbližjima elementoma.
-
Kakor je slika videti zdaj, bi se nekaterim morda zazdelo primerneje izračunati nekakšno »poprečno razdaljo« ali razdaljo med sredinama skupin. Da, zveni smiselno.
-
Spet tretji - vendar bi bili le-ti v manjšini, ki bi morda štela celo 0 oseb - bi morda menili, da je potrebno meriti razdaljo med najbolj oddaljenima elementoma. Morda zveni nesmiselno, a spomnimo se na države: tu bi ob združevanju hitro pomislila, da ta in ta država pač ne more biti v isti skupini kot ona in ona. Če razmišljamo tako, razmišljamo o najbolj ekstremnih, največjih razdaljah.
Ob tem razmišljanju ne smemo pozabiti, da tule gledamo dvodimenzionalno ilustracijo, postopek gručenja pa dobi zgolj matriko razdalj, kakršno smo videli v prejšnjem poglavju. Razdaljo med dvema gručama mora torej izračunati iz znanih razdalj med pari, v katerih je ene država iz ene, druga iz druge gruče.
Po prvem receptu poišče tisti par, med katerime je razdalja najmanjša; to bo razdalja med skupinama. Tretji recept je podoben, le da poišče najbolj oddaljeni par. Po drugem receptu pa izračuna, preprosto, povprečno razdaljo med vsemi pari.
In? Kateri recept je »pravi«? Katerega v resnici uporabljamo? Kakor se odločimo. V gradniku hierarhično gručenje ga nastavljamo z »Razdalja med gručama«. Na izbiro imamo minimalno, povprečno, maksimalno in, hm, uteženo in Wardovo?
Wardova metoda minimizira varianco znotraj gruč. Za večino bralcev bode to dovolj, ostali naj sami poiščejo več, za začetek lahko kar članek o Wardovi metodi na Wikipediji.
Kako je videti gručenje, če namesto Wardove uporabimo kako drugo razdaljo, bomo videli čez dve poglavji.
Wardova metoda navadno da dendrogram z lepo ločenimi gručami, kar nam bo pomagalo pri analizi gručenja. Poprej pa povzemimo, kar smo se naučili v tem. Videli smo, da je hierarhično gručenje v osnovi preprost postopek, ki nam na podlagi matrike razdalj zloži elemente v hierarhijo gruč. Malo se zaplete pri definiciji razdalje med gručami, od le-tega pa je odvisna tudi interpretacija drevesa. Vanjo se nismo in ne bomo preveč poglabljali, pokazali pa smo, da iz drevesa ne smemo delati prenagljenih sklepov o tem, kdo je podoben komu. Rezultat postopka so neke smiselne gruče, z manjšo spremembo nastavitev (ali, v koraku prej, računanja razdalj) pa bi bile gruče lahko tudi drugačne.
Poglavje 3: Kje smo - in zakaj
... v katerem se spomnimo, kar smo se naučili v prejšnji knjigi, in postavimo gruče na zemljevid. Pa še brke jim dodamo.
V dendrogramu smo videli, da so države, ki spadajo v isto gručo (pravzaprav: v isti del drevesa) tudi z istega dela sveta. Vsaj zdelo se je tako. Zdaj pa preverimo, ali je res. Hierarhično gručenje povežemo z barvnim zemljevidom. Zdaj lahko v gručenju izbiremo gručo, tako da kliknemo nekje znotraj nje in gradnik bo na izhod poslal tabelico s podatki o teh državah.
Razvitejše države se delijo v dve veji. V eni so »bolj zahodne« države, kot so Nemčija, Danska, Nizozemska in tako naprej do Kanade, v drugi pa smo mi, pa Bolgari, Albanci, Litvanci (in tudi Španci, Italijani in Portugalci; toliko o »zahodu«).
Kdor gleda le gornji posnetek, morda ni pozoren na to, kje je potrebno klikniti. Zato naj le premaga pasivno lenobo in poskusi. Ko bo znal, pa naj poskusi tole.
- Najprej s klikom izberite »zahodne« države.
- Nato pa pritisnite Shift in kliknete še našo gručo.
- V Barvnem zemljevidu nastavite »Vrednost« na »Gruča«.
Zdaj lahko na zemljevidu vidimo, katere države so v kateri gruči.
Kako in zakaj to deluje? Če izberemo več gruč, vsebuje tabela na izhodi hierarhičnega gručenja stolpec Gruča, ki vsebuje oznaki C1 ali C2. (Če bi označili še več gruč pa, očitno, še C3, C4 in tako naprej.)
Zdaj pa odgovorite na vprašanje, ki bo zahtevalo, da uporabite nekaj znanja iz prejšnje knjige.
Po katerem kriteriju se najbolj razlikujejo države iz teh dveh gruč?
Smo izvedeli? In prebrali tudi razlago odgovora - oziroma pot do njega? Potem mimogrede spoznajmo še eno prikladno funkcijo gradnika Porazdelitve. Priključimo ga na Hierarhično gručenje.
- Poiščimo spremenljivko Bruto nacionalni dohodek (dovolj je, da začnemo tipkati del njenega imena v vrstico nad škatlo) in jo izberimo.
- V »Razdeli po« izberimo »Gruča«.
- Primerno nastavimo Širina koša.
Porazdelitve kažejo, tako kot vedno, število držav, katerih spremenljivka (tokrat Bruto nacionalni dohodek) leži v določenem intervalu. Ker smo jih razdelili po gručah, pa vidimo tudi, koliko držav iz posameznega intervala pripada določeni gruči.
Katera država z BND med 40.000 in 45.000 je v 'rdeči' gruči? Odgovor poskusi dobiti s pomočjo Porazdelitev (in morda, še enega gradnika)
Poigrajmo se še malo.
Primerjajte 'afriško' gručo z 'razvito'. Po kateri spremenljivki se najbolj razlikujeta?
V prejšnjem poglavju smo izvedeli, kako sestaviti gruče, kako razumeti drevo (ki mu pravimo dendrogram) in kakšne so omejitve postopka. Tu smo pogledali, kako analizirati dobljeno gručenje. Spoznali smo le preprosti kombinaciji s škatlo z brkami in s porazdelitvami. Na podoben način ga lahko povezujemo tudi z drugimi gradniki, vendar boste to odkrivali sami. Zdaj moramo namreč naprej.
Poglavje 4: Je to res gručenje?!
... ko končno naredimo gruče, ne drevesa.
Kar smo počeli doslej, sploh ni bilo gručenje. Od gručenja bi pač pričakovali gruče, ne drevesa, ne? No, kaj pa je bila potem tista »afriška gruča«, ki smo jo primerjali z »razvitejšo«? Ali pa »bolj razvita«, ki smo jo z »manj razvito«? Saj to. »Razvitejša gruča« se je delila naprej na »bolj« in »manj« razvito. Ves čas delamo s hierarhijo, ne z nekimi »dokončno določenimi« gručami.
V tem ni težava, temveč lepota hierarhičnega gručenja. Gručenje, ki ga dobimo, je, vemo, odvisno od tega, kako se ga lotimo. Obstajajo različne definicije razdalj med objekti (evklidska, Manhattanska in še deset drugih), ter različne definicije razdalj med gručami (minimalna, povprečna, maksimalna, Wardova). Da o tem, da je vse skupaj odvisno od tega, katere spremenljivke uporabimo, niti ne govorimo. In, ja, odstranimo Irsko, pa se lahko Slovenija znajde v čisto drugi družbi.
Skratka. Gručenje ni nekaj absolutnega, zato je kar dobro, da si lahko ogledamo drevo in na podlagi drevesa določimo gruče »po občutku«.
Celo drevo je takšno.
Koliko gruč vidimo v njej? V osnovi dve, ne? Lahko pa prerežemo malo nižje (no, malo bolj desno) in se delamo, da imamo tri ali štiri.
Trak nas dendrogramom kaže razdalje med gručami, vendar je njegova razlaga odvisna od tega, katero definicijo razdalje uporabimo.
V gradniku Hierarhično gručenje lahko določamo mesto, na katerem »prerežemo« dendrogram, tako da klikamo po traku nad njim ali premikamo črto z miško. Druga možnost je, da eksplicitno določamo število gruč.
Zdaj lahko (končno) pokažemo tudi, zakaj nam je od vseh definicij razdalj med gručami najbolj všeč Wardova.
Navadno le z njo dobimo lepo drevo z jasno ločenimi gručami. Z ostalimi si pogosto nimamo kaj pomagati, saj ne vemo, kje odrezati. Poleg tega je pri nekaterih, recimo pri minimalni razdalji med gručami, gručenje pogosto videti tako, da začne z najbližjim parom, potem pa v to — eno samo, stalno naraščajočo gručo — dodaja nove in nove objekte.
Tako dobljene gruče lahko pogledamo tudi na zemljevidu.
V Hierarhično gručenje povečujte število gruč z izbirnikom na levi strani gradnika. Na koliko gruč je potrebno razdeliti države, da se zahodnoevropske države ločijo od vzhodnoevropskih?
Poglavje 5: Poimenovanje
... v katerem se ne zgodi nič dramatičnega, vendar je koristno, saj nas nauči po- oziroma pre-imenovati spremenljivke in njihove vrednosti.
Razdelimo države v tri gruče.
Tri gruče se imenujejo C1, C2 in C3. V sedanjih, politično korektnih časih, je to morda edino pravilno. V starih časih, ko se je bobu še smelo reči bob, pa smo govorili o državah, ki so »razvite«, »v razvoju« ali »nerazvite«. Pa jih tvegajmo tudi tu poimenovati tako.
Beseda domena se v programu Orange nanaša na opis podatkov, torej na imena spremenljivk, njihove tipe (številska, kategorična, časovna, besedilna) in, v primeru kategoričnih, nabor in imena možnih vrednosti. Če želimo spremeniti kaj od tega, uporabimo gradnik Uredi domeno.
Gradnik Uredi domeno bomo postavili na izhod gradnika Hierarhično gručenje. Naslednje gradnike (v tem primeru Barvni zemljevid, Škatlo z brki in Porazdelitve) prevežemo tako, da bodo dobivali podatke iz Uredi domeno.
V Uredi domeno na levi strani poiščemo spremenljivko Gruča. Na desni strani jo bomo preimenovali v Skupina (brez posebnega razloga - samo zato, ker lahko) in nato preimenovali C1, C2 in C3. To storimo tako, da dvokliknemo vrednost in vpišemo novo ime. Katero ime pripada kateri gruči, razberemo iz zemljevida. Poleg tega lahko spremenimo tudi vrstni red, tako da izberemo vrednost in jo premikamo z ikonicama s puščicama gor in dol, ki se nahajata pod seznamom vrednosti.
Spremembe moramo potrditi s tipko Potrdi.
Barvni zemljevid je prej kazal vrednost spremenljivke Gruča. Ker smo jo preimenovali in je torej ne najde več, zdaj kaže vrednost neke druge spremenljivke. Da dobimo enako sliko kot prej, poiščemo spremenljivko Skupine.
Tudi gradnika Škatla z brki in Porazdelitve sta zdaj, ko namesto C1, C2 in C3 vsebuje razumljivejše opise skupin, uporabnejša.
Poglavje 6: Če bi bil svet ploščat
... v katerem ugotovimo, da gručenje ni dovolj, zato postavimo risanje zemljevidov na glavo: namesto, da bi iz zemljevida izračunali razdalje, iz razdalj izračunamo zemljevid.
Maribor je praktično enako daleč od Celja in od Velenja: zračna razdalja do obeh je 46 km. Celje in Velenje sta si dejansko kar blizu: razdalja med njima je 18 km.
Ptuj pa je relativno blizu Maribora: med njima je 22 km (zračne razdalje), medtem ko je od Ptuja do Celja 50 km, do Velenja pa 58 km.
Štajerci v gornjih dveh odstavkih niso izvedeli veliko novega, pa tudi povprečno izobražen Primorec ima v glavi sliko: Maribor zgoraj desno, Celje spodaj levo, Velenje nekje nad Celjem (samo malo levo) in Ptuj desno spodaj od Maribora.
Kakšno sliko pa si ustvarite ob tem? Kakšna je relacija med temi irskimi mesti? Katero je bližje katerega?
Kilkenny | Carlow | Galway | Dublin | |
Kilkenny | 33 | 138 | 105 | |
Carlow | 33 | 150 | 73 | |
Galway | 138 | 150 | 187 | |
Dublin | 105 | 73 | 187 |
Na zadnje vprašanje seveda lahko odgovorimo, Kilkenny in Carlow sta si blizu, Galway in Dublin sta oddaljena … cele slike pa nimamo. Aja, glej no, če seštejemo razdalji od Kilkennyja do Carlowa (33) in od Carlowa do Dublina (73), dobimo 106, kar je skoraj enako razdalji od Kilkennyja do Dublina (105). Torej je Carlow skoraj natančno na črti med Kilkennyjem in Dublinom - nekako na tretjini poti.
Da dobimo pravo predstavo, očitno potrebujemo zemljevid. Ga znamo narisati? Znamo. Najprej narišemo, recimo, trikotnik Galway - Kilkenny - Dublin s stranicami 138, 105 in 187 (v ustreznem merilu). Nato dodamo še Carlow, tako da bo 33 in 73 oddaljen od Kilkennyja in Dublina. Slednje je možno storiti na dva načina (Carlow je lahko znotraj prvega trikotnika ali izven njega); pravi je tisti, pri katerem je razdalja med Galwayem in Carlowom enaka 150.
Ne le, da bomo na ta način dobili zemljevid, ki je obrnjen v neko poljubno smer: lahko je tudi prezrcaljen. Kot da bi narisali zemljevid Slovenije, v katerem se vse razdalje ujemajo, pa tudi Jesenice so zgoraj in Kočevje spodaj, vendar je Lendava na levi in Piran na desni.
Je to pravilno? V bistvu je. Samo - kdor je že kaj hodil po irskem, ve, da je Galway nekoliko severno od Dublina, tule pa … No, kdo pa je rekel, da je ta zemljevid obrnjen tako, da je sever zgoraj? Nihče, odgovori omenjeni poznavalec Irske, vendar bi bilo to normalno, ne? Da, bilo bi, vendar smo zemljevid rekonstruirali iz podatkov o razdaljah, iz česar pač ne moremo razbrati orientacije. Ne gre, pri najboljši volji. Sitnež (pravzaprav si kar lahko predstavljamo kake jezikavega dijaka) pripomni, da je to itak brez zveze, ker lahko pogledamo v pravi zemljevid. Čemu naj bi služilo sestavljanje zemljevidov iz razdalj?!
Temu. Recimo, da so to razdalje med državami.
Vemo, niso. To so »razdalje« v smislu razlik v ekonomski razvitosti. A vseeno, bi bilo možno narisati »zemljevid«, v katerem bi razpostavili države tako, da bi razdalje med njimi ustrezale različnostim v družbenoekonomskem razvoju?
Matematiki že godrnjajo, za začetek morda kaj o neki »trikotniški neenakosti«. Pomirili jih bomo čez par odstavkov; dotlej naj prizanesljivo potrpijo.
Da, na podoben način kot prej. Rezultat bi bil takšen.
Preveč držav, preveč gneče. Vzemimo le evropske države.
Čemu ustrezajo velikost točk (ne velikosti držav ali kakemu podobnemu podatku) in kaj pomenijo povezave med državami, bomo izvedeli malo kasneje.
Večrazsežnostno lestvičenje je (preveč) dobesedni prevod angleškega multidimensional scaling, ali, s kratico, MDS.
Preden se lotimo razlage zemljevida in utemeljevanja, zakaj je uporaben - in pogosto tudi boljši od gručenja - pa ste na vrsti vi: naložite podatke, izberite ameriške države, izračunajte razdalje in narišite zemljevid. Kako izbrati ameriške države, upam, še znamo. (Podatke zlijte s podatki iz celine.xlsx) Zemljevid pa narišete z gradnikom s skrivnostnim imenom večrazsežnostno lestvičenje. Sestaviti bo torej potrebno nekaj takšnega.