Caratterizzazione formale del problema di Information Retrieval (IR). Modelli IR: Boolean, Vector e Probabilistic; Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space. Valutazione del Retrieval. Query languages. Pattern Matching. Query Protocols. Operazioni su query: User Relevance Feedback, Query Expansion e Term Reweighting. Standard di rappresentazione di documenti e metadati. Sistemi di indicizzazione. Principi del Web Semantico.
R. Baeza-Yates, B. Ribeiro-Neto, "Modern Information Retrieval" Addison Wesley
Obiettivi Formativi
- Conoscenza e comprensione:
Il corso si propone di fornire le principali conoscenze sui modelli di Information Retrieval. Saranno inoltre introdotti i principi e gli standard del Web Semantico.- Capacità di applicare conoscenza e comprensione:
Particolare enfasi viene data alla capacità di applicare tecniche di ricerca dell'informazione sul Web e al calcolo della rilevanza dei documenti rispetto a una query, alla costruzione di motori di ricerca, alle tecniche di raccolta e indicizzazione dell'informazione, infine agli standard di rappresentazione dei documenti.
Metodi Didattici
Lezioni frontali.
Strumenti a supporto della didattica sulla piattaforma di e-learning
http://e-l.unifi.it
Prova scritta. Non sono previste prove intermedie. La prova scritta ha lo scopo di verificare l’acquisizione delle nozioni relative agli modelli di calcolo della rilevanza dei documenti rispetto ad una query, nonché alla valutazione delle prestazioni di un modello di IR. Il voto d’esame è il risultato della valutazione degli esercizi del test.
Programma del corso
Motivazioni. Concetti base. Il processo di Retrieval.
Modellazione
I modelli di Information Retrieval (IR). Tipi di Retrieval. Caratterizzazione formale dei modelli IR. IR classica: concetti base, Boolean Model, Vector Model, Probabilistic Model. Confronto fra modelli. Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space.
Valutazione del Retrieval
Misure di valutazione del Retrieval: Precision e Recall. Misure alternative.
Query Language
Keyword-Based Querying, Single-Word Queries, Context Queries, Boolean Queries, Natural Language Query. Pattern Matching. Structural Queries. Query Protocols.
Operazioni su query
User Relevance Feedback. Query Expansion e Term Reweighting per il Vector Model. Term Reweighting per il Probabilistic Model. Automatic Local Analysis: Query Expansion Through Local Clustering. Query Expansion Through Local Context Analysis. Automatic Global Analysis: Query Expansion basata su un Thesaurus di similarità, Query Expansion basata su un Thesaurus statistico.
Linguaggi di rappresentazione dei contenuti
Metadati. Testo: formati, teoria dell’informazione, modellazione del linguaggio naturale, modelli di similarità. Linguaggi di markup: SGML, HTML, XML.
Operazioni sul testo
Analisi dei documenti: analisi lessicale, stopwords, stemming, selezione dei termini per l’indicizzazione, thesauri. Clustering di documenti. Compressione del testo.
Indicizzazione e Ricerca
Inverted files. Altre modalità di indicizzazione. Boolean Queries. Sequential searching. Pattern Matching. Structural Queries. Compressione.
IR distribuita
Caso di studio: Il Progetto NIR. Standard XML e URN. Applicazioni.
Ricerca dell’infomazione sul Web
Caratterizzazione del Web. Motori di ricerca. Browsing. Metamotori. Web Query Languages e Software Agents.
Sistemi bibliotecari
Cenni al protocollo OAI-PMH.
Web Semantico
Principi e linee guida. Standard di rappresentazione della conoscenza. RDF(S)/OWL