Nadzorovan PCA

Ločljivost razredov v podatkovnih projekcijah; implementacija in primerjava tehnik.

Pred časom smo s kolegi objavili članek FreeViz—An intelligent multivariate visualization approach to explorative analysis of biomedical data. Članek govori o metodi, ki zna za večdimenzionalne podatke poiskati projekcijo, kjer so podatki čimbolj ločeni glede na razred. Članek je objavljen leta 2007, so se pa takrat in tudi kasneje ukvarjali z zelo podobno metodo, ki ji pravijo »Supervised PCA«, torej metodo glavnih komponent, kjer je cilj ne samo povečanje variance ampak tudi ločitev primerov različnih razredov. Tako FreeViz kot Supervised PCA naj bi znala obravnavati zvezne in diskretne razrede, torej, sta primerna tako za klasifikacijo kot regresijo. FreeViz je implementiran v orodju Orange.

Za nadzorovano metodo glavnih komponent (angl. supervised PCA) kot vse kaže obstaja nekaj pythonovskih implementacij (npr. tale tu, ki kot vir navaja članek Prediction by Supervised Principal Components slovitih avtorjev s področja statistike). Člankov na temo Supervised PCA se sicer najde še kar nekaj, npr. Supervised PCA: A Multiobjective Approach iz leta 2020 in Supervised principal component analysis: Visualization, classification and regression on subspaces and submanifolds iz leta 2011.

Cilj naloge je:

preberi članke (supervised PCA in FreeViz) in še malo pobrskaj po literaturi,
skušaj razumeti uporabljeno matematiko,
implementiraj obe tehnike oziroma prilogodi že znane implementacije, pri tem če se le da uporabi PyTorch,
preglej, kakšen učinek ima regularizacija,
primerjaj obe tehnike na vsaj petih do desetih primerih (podatkovnih množicah) in razloži, v čem je razlika in kje je bolje uporabiti FreeViz ter kje Supervised PCA.