Migrazione della base dati EDIT16

(Tiziana Brunetti - ICCU)

Alla fine di giugno 2000 si è svolta la migrazione in Indice antico di una parte della base dati EDIT16 - Censimento nazionale delle edizioni italiane del XVI secolo. La migrazione ha interessato circa 15.000 notizie relative a edizioni con intestazione A-C ed è stata la prima di una serie di migrazioni che dovrebbero gradualmente portare al riversamento dell'intera base dati, man mano che si riterranno conclusi i controlli sulle edizioni interessate.

Si tratta di una migrazione anomala rispetto a tutte le precedenti in quanto è la prima che riguarda non un Polo ma una base dati esterna a SBN. Per questo riteniamo utile porre l'accento sui particolari problemi che tale attività ha comportato, sulle soluzioni adottate e infine sui risultati raggiunti. Potrebbe sembrare ovvio sottolineare l’obiettivo strategico di tale attività: si è voluto mettere a disposizione delle biblioteche SBN un prezioso insieme di notizie utili per promuovere e facilitare la catalogazione del libro antico.

Quando ci si è posti l'obiettivo di riversare in Indice antico i dati di EDIT16 è stato subito chiaro che la parziale disomogeneità delle due basi dati avrebbe impedito un proficuo utilizzo delle procedure di migrazione basate, come è noto, su un processo totalmente automatico di riconoscimento e conseguente accorpamento delle notizie relative ad una stessa edizione. Si valutò che, pur controllando autori e tipografi, si sarebbe duplicata la quasi totalità delle notizie in comune tra le due basi dati. Ricordiamo infatti che attualmente EDIT16 segue la normativa della guida SBN ma che le edizioni oggetto di questa prima migrazione sono state catalogate prima dell'adozione della nuova normativa e sono caratterizzate da una descrizione breve che le rende incompatibili con l'algoritmo di riconoscimento del s/w di migrazione SBN basato, tra l'altro, sull'uguaglianza della chiave titolo (già nella prossima migrazione si avranno notizie catalogate con la normativa SBN). Altro problema che avrebbe portato alla duplicazione di un consistente numero di notizie è rappresentato dalla presenza in Indice antico, a seguito delle normali migrazioni di Polo, di notizie immesse con le procedure di catalogazione del libro moderno e pertanto prive del legame al tipografo, essenziale per il riconoscimento delle notizie da accorpare. Duplicazioni certe si sarebbero inoltre prodotte a seguito dell'utilizzo in SBN di forme generiche per gli editori (es. Giunta) laddove EDIT16 precisa sempre il nome del componente o dei componenti di una società editoriale.

Si ritenne pertanto che era necessario fornire al s/w di migrazione notizie riconoscibili e questo si poteva ottenere basando il confronto su dati inequivocabili, cioè sugli identificativi SBN (BID).

Per questo la migrazione (totalmente automatica) da EDIT16 in SBN è stata preceduta da una migrazione inversa (controllata) da SBN in EDIT16 che si è svolta con un s/w sviluppato all'interno delle procedure del Censimento. Tale processo ha consentito di verificare "notizie simili" e decidere, caso per caso, gli accorpamenti. Le notizie così accorpate hanno acquisito in EDIT16 l'identificativo SBN e sono pertanto divenute riconoscibili per il s/w di migrazione che ha accorpato gran parte delle notizie sulla base dell'uguaglianza dei BID.

Altri controlli di premigrazione hanno interessato le notizie relative ad autori e tipografi per le quali, analogamente alle edizioni, si è deciso caso per caso l'accorpamento e la relativa acquisizione in EDIT16 del VID che le identifica in SBN. Va precisato che i nomi dei tipografi risultano allineati nelle due basi in quanto, avendo la Struttura affidato agli operatori del Censimento la responsabilità della scelta della forma di "autorità", si sono potuti effettuare i necessari interventi di correzione in Indice (più di 500 tra accorpamenti e variazioni di descrizione). Fare altrettanto per gli autori avrebbe richiesto tempi non accettabili. Si è scelto pertanto di acquisire in EDIT16 il VID mantenendo l'eventuale disallineamento tra le due basi dati relativamente alla forma del nome (nel caso di duplicazioni in Indice si è scelto il VID dell'autore nella forma che si riteneva più corretta).

In questo modo si è raggiunto per il momento il risultato di evitare duplicazioni in Indice dove tutte le edizioni di un autore, sia quelle preesistenti che quelle derivanti dalla migrazione, risultano legate alla stessa voce autore (quella già presente in SBN) rimandando ad un secondo tempo la scelta della forma di "autorità".

Senza entrare nei dettagli del lavoro, da quanto detto si comprende come l'attività di premigrazione sia stata particolarmente onerosa e abbia richiesto un consistente periodo di tempo. Sono stati analizzati, uno ad uno, più di 10.000 abbinamenti di notizie bibliografiche simili e fatti controlli incrociati su oltre 9.000 nomi tra autori e tipografi (la verifica ha interessato non solo la porzione A-C, ma tutte le cinquecentine italiane presenti in Indice, oltre 13.000 al momento dell'estrazione, che si sono confrontate con l'intera base dati EDIT16).

Tra la migrazione SBN-EDIT16 e questa EDIT16-SBN è trascorso pertanto oltre un anno e mezzo (per non incidere troppo sulle normali attività del Censimento i lavori di premigrazione hanno coinvolto, e non a tempo pieno, solo due persone) e le notizie create in Indice antico in questo lasso di tempo non sono state verificate e di conseguenza accorpate in EDIT16. Tali notizie si sono confrontate secondo le normali procedure di migrazione ed è prevedibile che abbiano prodotto un certo numero di duplicazioni (d'altronde compensate da quelle che tutta l'operazione ha consentito di individuare in Indice e che saranno quanto prima rimosse (1)).

Altre duplicazioni in SBN, in questo caso consce, interessano quelle notizie che, pur se relative ad una stessa edizione, sono trattate in modo non compatibile nelle due basi dati. Si tratta per esempio del caso in cui una edizione è trattata come unica in una base dati e frazionata in più parti nell'altra. In questi casi, al momento di decidere se acquisire o meno il BID che avrebbe comportato l'accorpamento delle notizie in SBN, si è scelta talvolta la strada di una parziale duplicazione di notizie in Indice piuttosto che quella di una parziale perdita di informazioni soprattutto riguardo alle localizzazioni delle singole parti. In tutti i casi in cui era possibile si è comunque scelto di accorpare le notizie anche quando questo ha snaturato, talvolta anche in modo rilevante, la notizia di partenza del Censimento per scelta dell'intestazione, attribuzione di data, editore o altro.

Le nuove notizie inserite in Indice antico a seguito della migrazione di EDIT16 sono riconoscibili dall'identificativo che inizia con la sigla CNC (censimento nazionale cinquecentine).

Quelle relative alle edizioni sono state immesse a livello 05 (REC) in quanto, pur controllate, non corrispondono, come detto, ai requisiti formali della catalogazione "libro in mano", mentre quelle relative agli autori, per i quali si sono svolti i necessari controlli sulla forma del nome, sono state immesse a livello 90 (MAX). Pertanto se è possibile, anzi auspicabile, che le notizie bibliografiche, una volta catturate, vengano completate e corrette, per autori e editori è necessario inviare proposte di correzione ai responsabili del Censimento. Per inviare tali indicazioni ovviamente non sarà possibile utilizzare le procedure SBN ma i normali canali di comunicazione.

A seguito della migrazione sono state inoltre inserite in Indice le localizzazioni di circa 1.000 biblioteche di cui oltre 700, riferite a biblioteche non appartenenti a Poli SBN, riconoscibili dalla sigla costituita dalla lettera Z seguita dalla provincia di appartenenza e da un dato numerico.

Tutte le localizzazioni di provenienza EDIT16, relative a biblioteche che partecipino o meno a SBN, si distinguono per la presenza di un asterisco (es.: ZRM*10, BVE*CR) che indica che si tratta di localizzazioni non gestite dalla biblioteca. Le notizie infatti non provengono da una normale migrazione di Polo e pertanto sono presenti solo in Indice. I catalogatori possono naturalmente catturare le notizie con le normali procedure di gestione bibliografica e al momento dell'acquisizione su Polo viene automaticamente eliminato l'asterisco.

Le biblioteche che desiderano gestire il proprio posseduto devono catturare singolarmente le notizie in quanto non si dispone di procedure che consentano riversamenti in blocco su Polo. L'ICCU può comunque fornire alle biblioteche interessate i BID delle loro notizie localizzate e non gestite.

La scelta di inserire le catalogazioni derivanti da EDIT16 nel gestionale SBN, anziché solo nell'OPAC SBN, dove rappresentano un utile contributo anche per la ricchezza delle localizzazioni, deriva dalla volontà di rendere un servizio alle biblioteche partecipanti. E' un'ovvietà dire che la cattura di una notizia bibliografica con tutto il suo bagaglio di autori e editori è comunque vantaggiosa rispetto ad una nuova catalogazione, pur volendo completare la descrizione per portarla al livello di quelle create in linea. Tuttavia sappiamo anche che, nonostante gli sforzi profusi per limitare al massimo gli inconvenienti derivanti da una operazione che investe l'integrazione di dati che provengono da basi dati non perfettamente omogenee, esiste il rischio che la migrazione abbia prodotto qualche anomalia (per fortuna ancora non rilevata).

Per questo confidiamo nel contributo dei catalogatori delle biblioteche SBN che potranno aiutarci a verificare i risultati dell'impatto della migrazione in Indice e valutare eventuali correttivi.

Ricordiamo che per qualsiasi comunicazione bisogna rivolgersi al Laboratorio per la bibliografia retrospettiva dell'ICCU (e-mail: edit16@iccu.sbn.it - fax: 064959302).

Dati statistici

Autori % input autori Titoli % input titoli
Input alla migrazione 7.886   15.310  
Accorpati per BID/VID  2.289 29 3.359  22
Accorpati per descrizione  128 1,6  222 1,4
Inseriti 2.858  36,3 11.632 76
Scartati 2.611  33,1  97 0,6

   

Per una corretta lettura dei dati statistici bisogna tenere presente le particolari modalità del lavoro di premigrazione descritto. Alla luce di quanto detto si spiega infatti l'alto numero di accorpamenti per BID e VID, con una percentuale che sfiora il 95% rispetto agli accorpamenti per descrizione.

L'alta percentuale di nuovi inserimenti di notizie bibliografiche (76% del totale), pur riguardando inevitabilmente anche un certo numero di duplicazioni , si spiega invece con il fatto che, nonostante alcuni grandi progetti di catalogazione di edizioni antiche in SBN, sono ancora poche le risorse impiegate nella catalogazione di questo materiale rispetto alla catalogazione corrente.

I 2.611 autori scartati (33 % del totale) si riferiscono nella quasi totalità alle forme varianti legate ai 2.417 autori che si sono accorpati in Indice.


(1) Per la fine del 2000 è prevista la realizzazione delle funzioni centralizzate di accorpamento e cancellazione titoli in Indice antico

Torna su