Data e Ora: 
Tuesday, May 31, 2005 - 15:00
Luogo: 
Aula Magna
Relatore: 
S. Marinai
Descrizione: 

Si analizza un sistema per il recupero di immagini di documenti da biblioteche digitali. L`approccio classico all`elaborazione di immagini di documenti prevede una conversione completa ed accurata del loro contenuto. Tenendo� conto delle esigenze di verifica dei risultati ottenuti da sistemi completamente automatici, tale approccio � economicamente sostenibile solo per piccole quantit� di dati, o quando si ha a che fare con documenti di particolare valore commerciale.
Nel caso della conversione di grandi quantit� di documenti presenti in biblioteche digitali � necessario seguire strade alternative per permettere l`accesso alle informazioni. Nel seminario verranno approfonditi due aspetti della ricerca condotta in questo campo: - il recupero di pagine basato su similarit� di layout;- l`indicizzazione di parole basandosi sulle immagini dei documenti.
Nel recupero basato sulla similarit� del layout delle pagine l`utente individua una pagina contenuta nella base di dati e il sistema recupera le pagine pi� simili al campione indicato dall`utente. Nel sistema da noi proposto le pagine vengono rappresentate per mezzo di alberi MXY e una opportuna codifica di tali alberi permette di ordinare le pagine di una collezione sulla base della loro similitudine con la pagina indicata dall`utente.
Dl punto di vista dell`utente, la ricerca di pagine contenenti determinate parole segue lo schema familiare dei motori di ricerca in Internet. Abbiamo recentemente proposto un sistema per il recupero di documenti sulla base di parole la cui principale caratteristica � l`indipendenza, durante la memorizzazione, dal tipo di carattere di stampa. A tal fine i caratteri vengono codificati per mezzo di un loro clustering ottenuto tramite una rete Self Organizing Map addestrata durante la fase di memorizzazione. Tale approccio � particolarmente interessante nel caso di documenti storici che siano stampati con caratteri che non vengono riconosciuti dai sistemi di OCR correnti. Un tipico esempio�costituito dai caratteri gotici con i quali venivano stampati i libri in Germania fino alla fine del XIXo secolo.

Affiliazione: 
Universit� di Firenze