B027512 - INFORMATION RETRIEVAL AND SEMANTIC WEB TECHNOLOGIES

English Version

Principali informazioni

Lingua Insegnamento

Contenuto del corso

Libri di testo consigliati

Obiettivi Formativi

Metodi Didattici

Altre Informazioni

Modalità di verifica apprendimento

Programma del corso

Il corso utilizza in parte materiali e risorse online

Anno Accademico 2018-19

Coorte 2018 - Laurea Magistrale in INFORMATICA

Anno di corso

Primo Anno - Secondo Semestre

Dipartimento di Afferenza

Matematica e Informatica "Ulisse Dini"

Tipo insegnamento

Attività formativa monodisciplinare

Settore Scientifico disciplinare

INF/01 - INFORMATICA

Crediti Formativi

Ore Didattica

Periodo didattico

25/02/2019 ⇒ 14/06/2019

Frequenza Obbligatoria

Tipo Valutazione

Voto Finale

Contenuto del corso

mostra

Programma del corso

mostra

Docenza

FRANCESCONI ENRICO

Lingua Insegnamento

Italiano

Contenuto del corso

Caratterizzazione formale del problema di Information Retrieval (IR). Modelli IR: Boolean, Vector e Probabilistic; Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space. Valutazione del Retrieval. Query languages. Pattern Matching. Query Protocols. Operazioni su query: User Relevance Feedback, Query Expansion e Term Reweighting. Standard di rappresentazione di documenti e metadati. Sistemi di indicizzazione. Principi del Web Semantico.

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

R. Baeza-Yates, B. Ribeiro-Neto, "Modern Information Retrieval" Addison Wesley

Obiettivi Formativi

- Conoscenza e comprensione:
Il corso si propone di fornire le principali conoscenze sui modelli di Information Retrieval. Saranno inoltre introdotti i principi e gli standard del Web Semantico.- Capacità di applicare conoscenza e comprensione:
Particolare enfasi viene data alla capacità di applicare tecniche di ricerca dell'informazione sul Web e al calcolo della rilevanza dei documenti rispetto a una query, alla costruzione di motori di ricerca, alle tecniche di raccolta e indicizzazione dell'informazione, infine agli standard di rappresentazione dei documenti.

Metodi Didattici

Lezioni frontali.
Strumenti a supporto della didattica sulla piattaforma di e-learning
http://e-l.unifi.it

Altre Informazioni

Orario di ricevimento:
su appuntamento.

ITTIG-CNR
Via de’ Barucci 20 50127 Firenze, Italy
Tel.: +39 055 4399665
Fax: +39 055 4399605
e-mail: francesconi@ittig.cnr.it

Modalità di verifica apprendimento

Prova scritta. Non sono previste prove intermedie. La prova scritta ha lo scopo di verificare l’acquisizione delle nozioni relative agli modelli di calcolo della rilevanza dei documenti rispetto ad una query, nonché alla valutazione delle prestazioni di un modello di IR. Il voto d’esame è il risultato della valutazione degli esercizi del test.

Programma del corso

Motivazioni. Concetti base. Il processo di Retrieval.

Modellazione
I modelli di Information Retrieval (IR). Tipi di Retrieval. Caratterizzazione formale dei modelli IR. IR classica: concetti base, Boolean Model, Vector Model, Probabilistic Model. Confronto fra modelli. Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space.

Valutazione del Retrieval
Misure di valutazione del Retrieval: Precision e Recall. Misure alternative.

Query Language
Keyword-Based Querying, Single-Word Queries, Context Queries, Boolean Queries, Natural Language Query. Pattern Matching. Structural Queries. Query Protocols.

Operazioni su query
User Relevance Feedback. Query Expansion e Term Reweighting per il Vector Model. Term Reweighting per il Probabilistic Model. Automatic Local Analysis: Query Expansion Through Local Clustering. Query Expansion Through Local Context Analysis. Automatic Global Analysis: Query Expansion basata su un Thesaurus di similarità, Query Expansion basata su un Thesaurus statistico.

Linguaggi di rappresentazione dei contenuti
Metadati. Testo: formati, teoria dell’informazione, modellazione del linguaggio naturale, modelli di similarità. Linguaggi di markup: SGML, HTML, XML.

Operazioni sul testo
Analisi dei documenti: analisi lessicale, stopwords, stemming, selezione dei termini per l’indicizzazione, thesauri. Clustering di documenti. Compressione del testo.

Indicizzazione e Ricerca
Inverted files. Altre modalità di indicizzazione. Boolean Queries. Sequential searching. Pattern Matching. Structural Queries. Compressione.

IR distribuita
Caso di studio: Il Progetto NIR. Standard XML e URN. Applicazioni.

Ricerca dell’infomazione sul Web
Caratterizzazione del Web. Motori di ricerca. Browsing. Metamotori. Web Query Languages e Software Agents.

Sistemi bibliotecari
Cenni al protocollo OAI-PMH.

Web Semantico
Principi e linee guida. Standard di rappresentazione della conoscenza. RDF(S)/OWL