I modelli di Information Retrieval (IR). Caratterizzazione formale dei modelli di IR. IR classica e avanzata. Misure di valutazione del Retrieval. Query language e operazioni su query. Standard di rappresentazione dei documenti e metadati. Sistemi di indicizzazione. Motori di ricerca.
R. Baeza-Yates, B. Ribeiro-Neto, "Modern Information Retrieval" Addison Wesley
Obiettivi Formativi
Conoscenze:
Il corso si propone di fornire le principali conoscenze sui modelli di Information Retrieval. Particolare enfasi viene data alle tecniche di ricerca dell'informazione sul Web, alla costruzione di motori di ricerca, alle tecniche di raccolta e indicizzazione dell'informazione, infine agli standard di rappresentazione dei documenti.
Competenze acquisite:
Comprensione dei modelli di retrieval e ranking delle informazioni sul Web.
Conoscenza dei linguaggi XML di rappresentazione dell'informazione.
Conoscenza dei modelli di indicizzazione dei documenti.
Capacità acquisite (al termine del corso):
Misure di rilevanza dell'informazione rispetto ai bisogni informativi degli utenti.
Introduzione all'utilizzo di standard documentali orientati al Web Semantico.
Altre Informazioni
Orario di ricevimento:
Prof. Francesconi
Su appuntamento
E_mail: francesconi@ittig.cnr.it
Modalità di verifica apprendimento
Orale
Programma del corso
Introduzione
Motivazioni. Concetti base. Il processo di Retrieval.
Modellazione
I modelli di Information Retrieval (IR). Tipi di Retrieval. Caratterizzazione formale dei modelli IR.
Valutazione del Retrieval
Misure di valutazione del Retrieval: Precision e Recall. Misure alternative.
Query Language
Keyword-Based Querying, Single-Word Queries, Context Queries, Boolean Queries, Natural Language Query. Pattern Matching. Structural Queries. Query Protocols.
Operazioni su query
User Relevance Feedback. Query Expansion e Term Reweighting per il Vector Model. Term Reweighting per il Probabilistic Model. Automatic Local Analysis: Query Expansion Through Local Clustering. Query Expansion Through Local Context Analysis. Automatic Global Analysis: Query Expansion basata su un Thesaurus di similarita', Query Expansion basata su un Thesaurus statistico.
Linguaggi di rappresentazione dei contenuti
Metadati. Testo: formati, teoria dell'informazione, modellazione del linguaggio naturale, modelli di similarita'. Linguaggi di markup: SGML, HTML, XML.
Operazioni sul testo
Analisi dei documenti: analisi lessicale, stopwords, stemming, selezione dei termini per l'indicizzazione, thesauri. Clustering di documenti. Compressione del testo.
Indicizzazione e Ricerca
Inverted files. Altre modalita' di indicizzazione. Boolean Queries. Sequential searching. Pattern Matching. Structural Queries. Compressione.
IR distribuita
Caso di studio: Il Progetto NIR. Standard XML e URN. Applicazioni.
Ricerca dell'infomazione sul Web
Caratterizzazione del Web. Motori di ricerca. Browsing. Metamotori. Web Query Languages e Software Agents.