Caratterizzazione formale del problema di Information Retrieval (IR). Modelli IR: Boolean, Vector e Probabilistic; Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space. Valutazione del Retrieval. Query languages. Pattern Matching. Query Protocols. Operazioni su query: User Relevance Feedback, Query Expansion e Term Reweighting. Standard di rappresentazione di documenti e metadati. Sistemi di indicizzazione. Principi del Web Semantico.
R. Baeza-Yates, B. Ribeiro-Neto, "Modern Information Retrieval" Addison Wesley
Obiettivi Formativi
Il corso si propone di fornire le principali conoscenze sui modelli di Information Retrieval. Particolare enfasi viene data alle tecniche di ricerca dell'informazione sul Web, alla costruzione di motori di ricerca, alle tecniche di raccolta e indicizzazione dell'informazione, infine agli standard di rappresentazione dei documenti.
Motivazioni. Concetti base. Il processo di Retrieval.
Modellazione
I modelli di Information Retrieval (IR). Tipi di Retrieval. Caratterizzazione formale dei modelli IR. IR classica: concetti base, Boolean Model, Vector Model, Probabilistic Model. Confronto fra modelli. Modelli Fuzzy Set, Extended Boolean, Generalized Vector Space.
Valutazione del Retrieval
Misure di valutazione del Retrieval: Precision e Recall. Misure alternative.
Query Language
Keyword-Based Querying, Single-Word Queries, Context Queries, Boolean Queries, Natural Language Query. Pattern Matching. Structural Queries. Query Protocols.
Operazioni su query
User Relevance Feedback. Query Expansion e Term Reweighting per il Vector Model. Term Reweighting per il Probabilistic Model. Automatic Local Analysis: Query Expansion Through Local Clustering. Query Expansion Through Local Context Analysis. Automatic Global Analysis: Query Expansion basata su un Thesaurus di similarità, Query Expansion basata su un Thesaurus statistico.
Linguaggi di rappresentazione dei contenuti
Metadati. Testo: formati, teoria dell’informazione, modellazione del linguaggio naturale, modelli di similarità. Linguaggi di markup: SGML, HTML, XML.
Operazioni sul testo
Analisi dei documenti: analisi lessicale, stopwords, stemming, selezione dei termini per l’indicizzazione, thesauri. Clustering di documenti. Compressione del testo.
Indicizzazione e Ricerca
Inverted files. Altre modalità di indicizzazione. Boolean Queries. Sequential searching. Pattern Matching. Structural Queries. Compressione.
IR distribuita
Caso di studio: Il Progetto NIR. Standard XML e URN. Applicazioni.
Ricerca dell’infomazione sul Web
Caratterizzazione del Web. Motori di ricerca. Browsing. Metamotori. Web Query Languages e Software Agents.
Sistemi bibliotecari
Cenni al protocollo OAI-PMH.
RDF(S)/OWL