Progetti di implementazione dei dati dell'Indice SBN

Per consentire una presentazione ordinata e strutturata delle opere di un autore e delle edizioni di una stessa opera nel Catalogo SBN, la normativa sul trattamento del titolo dell’opera in SBN prevede la creazione di un collegamento tra il titolo della monografia e il titolo dell’opera o i titoli delle opere contenute in essa.

Nell’ottica di ampliare il numero di tali legami alle monografie che ancora non presentano un collegamento con il titolo dell’opera, l’ICCU si accinge, dopo una fase di sperimentazione, ad applicare nell’Indice SBN una procedura di propagazione automatica dei collegamenti con i titoli dell’opera già presenti nell’Indice. La propagazione dei titoli dell’opera è prodotta dal confronto della chiave titolo della monografia con quella del titolo dell’opera.

Il progetto 

Il progetto è stato avviato dall’ICCU nel dicembre del 2018 con la definizione delle procedure sul funzionamento di un algoritmo di propagazione automatica dei legami tra titoli di monografie (titoli di natura M) e titoli dell’opera (titoli di natura A) nell’Indice SBN: legame M09A.  

La prima fase di sperimentazione 

Nella prima fase di sperimentazione è stata definita la procedura automatica per il popolamento dei legami fra monografie e titoli dell’opera e si è avviata una fase di sperimentazione su un gruppo di autori italiani del Novecento. Questa fase del lavoro è consistita nella verifica della correttezza dei titoli dell’opera già presenti in Indice e già collegati alle monografie e nella creazione di nuovi titoli dell’opera per le opere presenti nel Catalogo ma non ancora rappresentate da un titolo.  

 Nello specifico sono stati scelti: 

  • alcuni autori italiani selezionati tramite il codice lingua ITA e/o il codice paese IT e con un livello di autorità 95 o 97 
  • i titoli di natura A con tipo materiale diverso da U (Musica) legati all’autore con relazione 1 (responsabilità principale) o 2 (responsabilità alternativa) purché utilizzati, vale a dire collegati a titoli natura M (monografie) con tipo record a, e tipo materiale diverso da che non fossero libretti.  

  Per ciascun autore e relativo titolo dell’opera sono stati estratti: 

  1. l'elenco dei titoli di natura M con legame a titolo di natura A già presente in Indice  
  2. l'elenco dei titoli di natura M non legati a titolo di natura A già presente in Indice 
  3. l'elenco dei titoli di natura M non legati a titolo di natura A perché non presente in Indice. 

Partendo dalle monografie non legate a titolo A (punto 2), è stata effettuata una prova di “mappatura” associando un titolo A (tra quelli già presenti – punto1) alle monografie dello stesso autore sulla base della chiave titolo della monografia. La corrispondenza monografia – opera è stata individuata attraverso la chiave del titolo M senza complemento del titolo. Si è scelto di considerare almeno in questa prima fase di test la punteggiatura che indica il complemento del titolo ( : ) come limite per la chiave di ricerca e di riconoscimento per la mappatura dei titoli, analogamente a quanto avviene per la barra di responsabilità oltre la quale non avviene la ricerca. 

Al contrario la chiave titolo estende la ricerca ai seguenti segni convenzionali usati per l’area del titolo: 

  • Il punto e virgola fra due spazi ( ; ) che separa titoli successivi di opere distinte di uno stesso autore (in questo caso viene generato un legame con il titolo A anche per i titoli successivi). 
  • Il punto fra due spazi ( . ) che separa titoli di opere distinte di autori diversi o anonime (anche in questo caso viene generato un legame con il titolo A anche per i titoli successivi). 
  • Il punto senza spazio prima del segno (. ) che separa il titolo comune e il titolo dipendente. 
  • La virgola senza spazio prima del segno (, ) che separa un titolo alternativo (es.  *Candido, ovvero Un sogno fatto in Sicilia), oppure un titolo dipendente che segua la relativa designazione. 

Questa prima fase di sperimentazione si è conclusa con il passaggio dell’algoritmo sugli autori italiani trattati, con conseguente incremento dei legami M09A nel Catalogo.   

La seconda fase di sperimentazione 

A partire dal 2022 è stato ripreso il progetto per l’applicazione della procedura in modo estensivo all’interno dell’Indice SBN, con l’obiettivo di: 

  • verificare su più ampia scala i criteri della procedura, selezionando un campione più vario di autori  
  • valutare l’impatto e la fattibilità di una procedura massiva di propagazione automatizzata dei titoli dell’opera presenti nel Catalogo SBN. 

L’attività si è focalizzata su venti autori della letteratura italiana le cui opere coprono vari ambiti disciplinari, dalla letteratura alla filosofia, dalla storia alla scienza, e un arco cronologico che va dal XIII secolo alla contemporaneità. Gli autori trattati sono i seguenti: 

Sibilla Aleramo; Vittorio Alfieri; Dante Alighieri; Giovani Boccaccio; Piero Citati; Vincenzo Consolo; Ugo Foscolo; Galileo Galilei; Umberto Galimberti; Carlo Ginzburg; Giacomo Leopardi; Rita Levi-Montalcini; Claudio Magris; Michele Mari; Elsa Morante; Lalla Romano; Antonio Scurati; Matilde Serao; Emanuele Severino; Torquato Tasso. 

Per questi autori, nel loro complesso, erano già presenti in Indice 723 titoli dell’opera, 4730 monografie legate ad almeno un titolo dell’opera, meno del 20% del totale, e 5238 legami M09A (la differenza tra questi ultimi due dati deriva dal fatto che una singola monografia può contenere diverse opere e riportare correttamente i relativi collegamenti). Rimanevano 20252 monografie non collegate al titolo dell’opera: in relazione a questa percentuale occorre considerare alcuni fattori, tra i quali il fatto che la normativa sul trattamento del titolo dell’opera in SBN è stata pubblicata recentemente (2018), che per alcune tipologie di risorse non è previsto un collegamento al titolo dell’opera, che per gli autori della letteratura italiana dei secoli passati vi è un’oggettiva difficoltà di individuare e scegliere la forma più corretta dei titoli dell’opera. Quest’ultimo aspetto fornisce una prima spiegazione della forte differenza nelle percentuali di monografie legate ai titoli dell’opera per un autore come Giacomo Leopardi, meno del 9%, rispetto a quella per Elsa Morante che arrivava a superare di poco il 50%.

La lavorazione e il miglioramento dei dati 

Nel corso dell’attività di verifica sono stati cancellati o fusi 204 titoli dell’opera impropri perché non corretti, duplicati, generici (es. Romanzi, Tragedie, etc.) o sotto forma di titoli collettivi uniformi non previsti dalla normativa SBN sul titolo dell’opera (es. [Opere. Lettere], [Opere. Poesie], etc.). Si è provveduto all’inserimento di 596 titoli dell’opera, un totale non esaustivo in relazione alla produzione degli autori ma rilevante in relazione alle monografie presenti in Indice. Una particolare attenzione è stata rivolta ai grandi autori della letteratura italiana per i quali sono state lavorate 134 schede del titolo dell’opera arricchendole di informazioni e fonti. Sono stati inoltre cancellati 387 legami preesistenti tra monografie e titoli dell’opera non corretti e inseriti 2328 nuovi legami per raggiungere alcune monografie che l’algoritmo non avrebbe potuto intercettare come, ad esempio, le manifestazioni in lingua straniera, le antologie, gli adattamenti. 

La propagazione automatizzata dei legami 

A seguito dell’attività di verifica e implementazione manuale dei titoli dell’opera e dei legami M09A, la procedura automatica basata sull’algoritmo ha potuto propagare, sulla base del criterio di similarità tra la CLES della monografia e la CLES del titolo dell’opera, i titoli presenti in Indice, verificati e corretti per i venti autori trattati, ottenendo un aumento di legami M09A di 7178 unità complessive. Il risultato finale ha prodotto, a fronte di 1115 titoli dell’opera presenti, 14357 legami tra monografie e titoli dell’opera e 12884 monografie legate ad almeno un titolo dell’opera; è conseguentemente aumentata la percentuale di monografie legate per questi venti autori che arriva a superare il 50% del totale. Per riprendere gli esempi già citati: nel caso di Giacomo Leopardi le monografie legate passano dal coprire il 9% del totale al 41%, mentre per Elsa Morante che aveva una percentuale, prima della lavorazione, del 51% si arriva al 91% delle monografie presenti in Indice legate ad almeno un titolo delle sue opere.

Il criterio adottato per la propagazione dei titoli dell’opera esclude, dall’insieme delle monografie verso cui creare il legame, tutte quelle in cui il titolo si presenti in maniera difforme dalla forma prescelta per il titolo dell’opera e quelle per cui sia già stato inserito un legame M09A.  

Per esemplificare il funzionamento: 

  • la monografia I *benandanti / Carlo Ginzburg verrà legata al titolo dell’opera I *benandanti collegato con codice 1 (responsabilità principale) all’autore Ginzburg, Carlo 
  • la monografia *Comedia di Dante degli Allagherii / Dante Alighieri non verrà legata al titolo dell’opera: *Divina Commedia collegato con codice 1 (responsabilità principale) all’autore Alighieri, Dante 
  • la monografia *Arturos insel / Elsa Morante non verrà legata al titolo dell’opera: L’*isola di Arturo collegato con codice 1 (responsabilità principale) all’autore Morante, Elsa 

L’esclusione dalla propagazione automatica interviene più frequentemente per gli autori italiani attivi prima del Novecento, poiché spesso non c’è coincidenza fra il titolo dell’opera e i titoli delle diverse monografie, e avviene sempre per le traduzioni straniere degli autori italiani. Si tratta di una percentuale rilevante del patrimonio descritto in Indice, per il quale si stanno avviando degli studi per la raffinazione dell’algoritmo o l’attivazione di altre procedure. 

Oltre a questi casi, sono escluse dalla propagazione automatizzata tutte quelle monografie che riguardano raccolte dal titolo generico, per le quali la normativa SBN non prevede la creazione di un titolo dell’opera, come ad esempio: *Tutte le tragedie di Alfieri; Le *liriche di Leopardi; *Lettere; *Opere, etc. La propagazione, infatti, viene limitata da una stop-list di termini che blocca la creazione dei legami in presenza in Indice di un corrispettivo titolo dell’opera errato.  

Le conclusioni e i passaggi successivi 

Un’ulteriore sperimentazione applicata ad altri venti autori, con lo scopo di valutare la percentuale di rischio di una propagazione automatizzata, ha restituito esiti confortanti: il margine di errore (per legame non corretto tra monografie e titoli dell’opera) è inferiore al 5% e riguarda sostanzialmente i casi di versioni ridotte, adattamenti, antologie o i casi più rari di opere differenti del medesimo autore con titoli identici. Per esemplificare:    

  • *Piccolo mondo antico / brani scelti e commentati a cura di Terenzio Sarasso verrebbe erroneamente legato al titolo dell’opera *Piccolo mondo antico, piuttosto che al titolo dell’opera corretto *Piccolo mondo antico (antologie)  
  • Le *tigri di Mompracem / Emilio Salgari ; [riduzione e adattamento di Beatrice Masini] verrebbe erroneamente legato al titolo dell’opera Le *tigri di Mompracem piuttosto che al titolo dell’opera corretto relativo all’adattamento. 

In relazione a quanto indicato, e più in generale per la corretta tenuta dell’Indice, si invitano i bibliotecari a prestare particolare attenzione a correggere eventuali titoli dell’opera o legami M09A errati, e a creare titoli dell’opera appropriati in modo da contribuire alla corretta propagazione automatica dei legami M09A in Indice.  

L’applicazione massiva della procedura automatica   

Dopo questa complessa fase di sperimentazione, l’ICCU si accinge ad applicare massivamente la procedura automatica per incrementare il numero dei legami fra i titoli delle monografie e i corrispettivi titoli dell’opera già presenti in Indice. L’intervento è stato pensato, preliminarmente, per i titoli dell’opera che hanno un collegamento con responsabilità principale ad autori italiani, che presentino in Indice un livello Massimo (90), Super (95) o di Authority file (97). La propagazione dei legami M09A riguarderà le monografie con tipo record a e tipo materiale E (Antico) o M (Moderno).  

Certamente il popolamento dell’Indice con nuovi titoli dell’opera e nuovi legami M09A da parte di tutte le biblioteche partecipanti a SBN, può contribuire in modo ancora più significativo all’evoluzione del Catalogo SBN. 

 

Documento complessivo con tabelle riassuntive (PDF