Proposte di Tesi

con grado di difficoltà da 1 a 6

Titolo

Descrizione

Tipo e complessità di lavoro

A chi è rivolta

Quanto servono i weblink veramente?
Torna all'inizio
Molti ritengono che ci debba essere una qualche similarita' tra le pagine collegate da un weblink o addirittura che un weblinks abbia un qualche significato; ad esempio, spesso si ritiene che due pagine collegate parlino dello stesso argomento oppure che la pagina collegata conferisca autorita' alle pagine che la citano. Questa assunzione e' alla base di molti lavori scientifici, primo fra tutti il lavoro che ha dato origine a Google. Gli esperimenti hanno mostrato che l'uso dei weblink è poco efficace.
Tuttavia, l'assunzione per cui debba esserci un qualche legame tra pagine collegate da weblink merita d'essere verificata indipendentemente dal fatto che un algoritmo che la sfrutti sia efficace oppure no.
Il lavoro sarà di tipo sperimentale. Si dovra' disegnare un esperimento e coinvolgere dei soggetti che partecipino ad uno studio d'utente. Lo studio dovra' verificare se, in sostanza, due pagine legate da qualche relazione di similarita', autorevolezza o altro tendono ad essere collegate anche da weblink, con quale frequenza e con secondo quale modello (ad esempio, PageRank assume che una pagina è tatno più autorevole quanto più elevato è il numero di citazioni di pagine autorevoli.
La proposta è per studenti di laurea di magistrale o specialistica delle facoltà di Scienze Statistiche o del CdL in Ingegneria Informatica. Uno studente del I livello con conoscenze di piano degli esperimenti e d'indagini campionarie può e' il benvenuto. In ogni caso, autonomia nell'uso dell'ICT e competenze in Informatica sono necessarie.
Valutazione di uno strumento di accesso a biblioteche digitali attraverso sponsored links
Torna all'inizio
La pubblicità on-line è un'industria di miliardi di euro ed è ormai connaturata con i motori di ricerca che includono loghi e link pubblicitari in modo più o meno esplicito nei risultati. Le tecniche per decidere quanto far pagare e quanto rende la pubblicità on-line mediante motori di ricerca si basano su Probabilità, Statistica, Economia, Finanza e Informatica. Nonostante l'importanza, la pubblicità mediante motori di ricerca è un tema giovane e ricco di opportunità professionali.
In lavori precedenti abbiamo sviluppato plugin che utilizzano le metodologie per la pubblicità on-line allo scopo di "sponsorizzare" e quindi accedere a biblioteche digitali a partire dai risultati di Google allo scopo di "far scoprire" ai navigatori le ricchezze di cataloghi multimediali e di non limitarsi al materiale Web a volte di scarsa qualità.
Lo scopo della tesi è la valutazione di questi metodi allo scopo di verificare se l'accesso alle biblioteche digitali "sponsorizzate" fornisce una quantità ed una qualità d'informazione maggiore di quella fornita dalla classica lista di snippet; ad esempio, si vuole misurare quanti utenti che, dopo aver ottenuto dei risultati da Google o a Yahoo!, seguono dei sponsored link verso i "nostri" cataloghi o archivi elettronici. Ciò contribuirebbe alla soluzione di almeno un paio di problemi: il primo, di natura culturale, riguarda la limitatezza dell'informazione restituita dai motori di ricerca (che indicizzano una piccola porzione del Web con scarsi controlli di qualit`), il secondo, di natura tecnica, riguarda l'incapacità dei motori di ricerca d'accedere direttamente al contenuto prezioso dei cataloghi, degli archivi e delle biblioteche digitali.
La proposta è per studenti di laurea di magistrale o specialistica delle facoltà di Scienze Statistiche o del CdL in Ingegneria Informatica. Uno studente di laurea di I livello con conoscenze di piano degli esperimenti e d'indagini campionarie può affrontare il tema, ma è richiesto impegno e costanza.
Utiizzo di metodi matematici per catturare il contesto delle query elaborate dai motori di ricerca.
Torna all'inizio
Un motore di ricerca restituisce informazioni in risposta ad un'interrogazione dell'utente. L'efficacia di reperimento del motore è data dalla quantità di informazioni rilevanti reperite e di quelle non rilevanti che non sono reperite. E' stato dimostrato sperimentalmente da diversi ricercatori che un motore, nel rispondere alla stessa interrogazione, ma in grado di adattarsi all'utente specifico, è più efficace di un motore con un comportamento uniforme. Nell'ambito di una collaborazione con MS, è stato messa a punto e sperimentata una metodologia per motori di ricerca personalizzati. La metodologia è imperniata sull'individuazione dell'autovettore di una matrice simmetrica che massimizza l'efficacia. Il lavoro è inserito, come gli altri, in un'attività di ricerca. In particolare, si desidera arrivare alla definizione di un metodo per individuare l'autovettore in modo automatico. Perciò, il lavoro dovrà essere necessariamente sia di natura teorica che di natura sperimentale.
Lo scopo della tesi è affrontare il problema della definizione di un metodo per individuare l'autovettore in modo automatico.
La proposta è per studenti di laurea magistrale o specialistica delle facoltà di Scienze Statistiche o del CdL in Ingegneria Informatica.
Valutazione di uno strumento di query suggestion automatico
Torna all'inizio
Nell'ambito di un progetto europeo, abbiamo realizzato uno strumento che adatta in modo automatico i risultati di un motore di ricerca a seconda delle ricerche precedenti effettuati dall'utente. Lo strumento applica, ad esempio, tecniche di query suggestion che, sulla base di quanto fatto dall'utente, aggiunge in automatico delle nuove parole chiave all'interrogazione dell'utente che rispecchiano la storia dell'interazione. L'idea è implementata con un'estensione di Firefox che estrae le parole dalle query precedenti introdotte mediante motori di ricerca o portali oppure da fonti qualificate come Wikipedia.
Il lavoro precedente era inserito in un'attività di ricerca svolta nell'ambito di un progetto europeo. È già disponibile uno strumento effettivo ed ha le funzionalità che dovranno essere oggetto di valutazione delll'efficacia delle tecniche di query expansion .
Lo scopo della tesi è la valutazione di questo strumento innovativo di query suggestion allo scopo di verificare se suggerimenti provenienti da fonti diverse (gli utenti del web, wikipedia, utenti di portali) permette d'avere suggerimenti di qualità maggiore di quella fornita dai suggerimenti preconfezionati dei motori di ricera.
La proposta è per studenti di laurea specialistica o magistrale delle facoltà di Scienze Statistiche o del CdL in Ingegneria Informatica. Uno studente del I livello con conoscenze di piano degli esperimenti e d'indagini campionarie può e' il benvenuto. In ogni caso, autonomia nell'uso dell'ICT e competenze in Informatica sono necessarie.
Studio del problema del pseudo relevance feedback. Torna all'inizio La letteratura ha mostrato che in media le tecniche di pseudo relevance feedback (PRF) migliorano l'efficacia dei motori di ricerca. Il PRF funziona così: l'utente invia una query, il motore reperisce una prima lista di documenti, ma prima di mostrarla all'utente, estrae le parole chiave "migliori" dalle prime pagine e le aggiunge alla query che viene utilizzata per reperire la lista effettivamente mostrata all'utente.
Il problema è che il PRF è efficace solo a volte (a volte funziona molto bene, a volte peggiora il risultato iniziale), ma non è chiaro perchè. Se lo fosse per tutte le query si otterrebbe il "miglior" motore di ricerca.
Lo scopo della tesi è è lo studio dei fattori che determinano l'efficacia del PRF. Si tratta di utilizzare collezioni sperimentali già disponibili, di estrarre i dati necessari e di studiarne i pattern alla ricerca di quelli connessi con l'efficacia del PRF.
La proposta è per studenti di laurea magistrale o specialistica livello delle facoltà di Scienze Statistiche o del CdL in Ingegneria Informatica. Sono comunque necessarie competenze di Informatica e di Statistica.

Massimo Melucci

Last modified: Sat Feb 13 20:29:13 CET 2010