B027495 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING

English Version

Principali informazioni

Lingua Insegnamento

Contenuto del corso

Libri di testo consigliati

Obiettivi Formativi

Prerequisiti

Metodi Didattici

Altre Informazioni

Modalità di verifica apprendimento

Programma del corso

Obiettivi Agenda 2030 per lo sviluppo sostenibile

Il corso utilizza in parte materiali e risorse online

Anno Accademico 2023-24

Coorte 2022 - Laurea Magistrale in INFORMATICA

Anno di corso

Secondo Anno - Primo Semestre

Dipartimento di Afferenza

Statistica, Informatica, Applicazioni "G. Parenti" (DiSIA)

Tipo insegnamento

Attività formativa monodisciplinare

Settore Scientifico disciplinare

SECS-S/01 - STATISTICA

Crediti Formativi

Ore Didattica

Periodo didattico

11/09/2023 ⇒ 22/12/2023

Frequenza Obbligatoria

Tipo Valutazione

Voto Finale

Contenuto del corso

mostra

Programma del corso

mostra

Docenza

GOTTARD ANNA

Mutuazione

Insegnamento mutuato da:
B025406 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING
Laurea Magistrale in STATISTICA E DATA SCIENCE
Curriculum GENERALE

Lingua Insegnamento

Inglese

Contenuto del corso

Il corso tratta metodi statistici per l’analisi multivariata e per l'apprendimento automatico. Si veda il Programma del Corso per ulteriori dettagli.

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

Appunti e slides forniti dal docente, disponibili su Moodle.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning (Second Edition). New York: Springer.
Disponibile online: https://hastie.su.domains/ISLR2/ISLRv2_website.pdf

Friedman, J., Hastie, T., & Tibshirani, R. (2013). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Disponibile online: https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12_toc.pdf

Obiettivi Formativi

Il corso introduce lo studente a comprendere ed applicare metodi di analisi statistica e di statistical learning per lo studio di dati multivariati e di grande dimensione. In particolare, saranno forniti gli strumenti di base per comprendere ed applicare la letteratura scientifica recente sugli aspetti statistici di modelli predittivi e di modelli su distribuzioni multivariate.
Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R. Al termine del corso, lo studente avrà una buona conoscenza della statistica multivariata e degli aspetti statistici del machine learning, per cui sarà in grado di scegliere ed applicare metodi ed algoritmi appropriati in contesti specifici. Saprà di esaminare in modo critico i risultati di un algoritmo/modello, visualizzarli e presentarli; sarà in grado di comprendere nuove tecniche e confrontarle con le esistenti.

Prerequisiti

Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.

Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica

Metodi Didattici

Lezioni frontali, esercitazioni, flipped classes, competizioni di gruppo.

Altre Informazioni

La frequenza è fortemente consigliata

Modalità di verifica apprendimento

L'esame consta di due parti:

(1) Homework, da caricare su Moodle e presentare alla classe. Per gli studenti che non svolgono il 75% dei compiti a casa, al punto (2) sarà inserita una breve prova orale (25% del punteggio finale).

(2) Presentazione seminariale di due progetti volti a dimostrare la padronanza personale degli argomenti del corso.
Per gli studenti frequentanti, il primo progetto può essere preparato in gruppo e presentato in un contest tra gruppi (30% del voto finale). L’argomento dei progetti sarà scelto dagli studenti nell’ambito delle tematiche trattate nel corso e di loro estensioni.
Prima della presentazione, le slides e i codici devono essere caricati sulla piattaforma Moodle.

Saranno valutate la capacità di comprensione dell’argomento di ricerca, l’utilizzo degli strumenti teorici e computazionali coerenti, il rigore nell’applicazione dei metodi scelti, la capacità di argomentare e difendere i risultati raggiunti.

Programma del corso

(1)Introduzione allo statistical learning. Definizione di statistical learning e differenziazione da Machine learning e da Modelli statistici. Supervised e Unsupervised Learning. Regression e Classification. Misure di accuratezza. Trade-off variabilità e bias.
(2) Data Generating Process, simulazioni Monte Carlo, Metodi di resampling e cross-validation.
(3) Introduzione a metodi di regressione non parametrica, piecewise constant, polinomiale, splines, regressione kernel

(4) Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
(5) Algoritmi basati su alberi: CART, conditional trees, alberi obliqui.
Ensemble basati su alberi: bagging, boosting, adaboost, gradient boosting (anche versione non basata su alberi), Random Forest, BART.
(6) Metodi di riduzione dimensionale: PCA e SVD e loro relazione.
(7) Metodi clustering: principali algoritmi gerarchici e non gerarchici e loro caratterizzazione, algoritmi probabilistici (misture di gaussiane)

(8) Ensamble di classificatori forti: Super Learner
(9) SVM e SVM con kernel
(10) Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione