Appunti e slides forniti dal docente, disponibili su Moodle.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (Second Edition). New York: Springer.
Disponibile online: https://hastie.su.domains/ISLR2/ISLRv2_website.pdf
Friedman, J., Hastie, T., & Tibshirani, R. (2013). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Disponibile online: https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12_toc.pdf
Obiettivi Formativi
Il corso introduce lo studente a comprendere ed applicare metodi di analisi statistica e di statistical learning per lo studio di dati multivariati e di grande dimensione. In particolare, saranno forniti gli strumenti di base per comprendere ed applicare la letteratura scientifica recente sugli aspetti statistici di modelli predittivi e di modelli su distribuzioni multivariate.
Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R. Al termine del corso, lo studente avrà una buona conoscenza della statistica multivariata e degli aspetti statistici del machine learning, per cui sarà in grado di scegliere ed applicare metodi ed algoritmi appropriati in contesti specifici. Saprà di esaminare in modo critico i risultati di un algoritmo/modello, visualizzarli e presentarli; sarà in grado di comprendere nuove tecniche e confrontarle con le esistenti.
Prerequisiti
Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.
Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica
Metodi Didattici
Lezioni frontali, esercitazioni, flipped classes, competizioni di gruppo.
Altre Informazioni
La frequenza è fortemente consigliata
Modalità di verifica apprendimento
L'esame consta di due parti:
(1) Homework, da caricare su Moodle e presentare alla classe. Per gli studenti che non svolgono il 75% dei compiti a casa, al punto (2) sarà inserita una breve prova orale (25% del punteggio finale).
(2) Presentazione seminariale di due progetti volti a dimostrare la padronanza personale degli argomenti del corso.
Per gli studenti frequentanti, il primo progetto può essere preparato in gruppo e presentato in un contest tra gruppi (30% del voto finale). L’argomento dei progetti sarà scelto dagli studenti nell’ambito delle tematiche trattate nel corso e di loro estensioni.
Prima della presentazione, le slides e i codici devono essere caricati sulla piattaforma Moodle.
Saranno valutate la capacità di comprensione dell’argomento di ricerca, l’utilizzo degli strumenti teorici e computazionali coerenti, il rigore nell’applicazione dei metodi scelti, la capacità di argomentare e difendere i risultati raggiunti.
Programma del corso
(1)Introduzione allo statistical learning. Definizione di statistical learning e differenziazione da Machine learning e da Modelli statistici. Supervised e Unsupervised Learning. Regression e Classification. Misure di accuratezza. Trade-off variabilità e bias.
(2) Data Generating Process, simulazioni Monte Carlo, Metodi di resampling e cross-validation.
(3) Introduzione a metodi di regressione non parametrica, piecewise constant, polinomiale, splines, regressione kernel
(4) Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
(5) Algoritmi basati su alberi: CART, conditional trees, alberi obliqui.
Ensemble basati su alberi: bagging, boosting, adaboost, gradient boosting (anche versione non basata su alberi), Random Forest, BART.
(6) Metodi di riduzione dimensionale: PCA e SVD e loro relazione.
(7) Metodi clustering: principali algoritmi gerarchici e non gerarchici e loro caratterizzazione, algoritmi probabilistici (misture di gaussiane)
(8) Ensamble di classificatori forti: Super Learner
(9) SVM e SVM con kernel
(10) Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione