Arricchimento dei dati di authority di SBN attraverso il confronto e lo scambio con Wikidata
La convenzione sottoscritta fra l’ICCU e Wikimedia Italia ha fra i suoi obiettivi la realizzazione di iniziative comuni volte a promuovere una sempre maggiore apertura e interscambio dei dati. Nello specifico, la collaborazione fra le due istituzioni mira al riutilizzo e all’integrazione dei dati e dei materiali dei progetti ICCU con quelli di Wikimedia. In quest’ottica si è giunti alla realizzazione di alcuni importanti obiettivi quali il lavoro di collegamento e sincronizzazione con l’Anagrafe delle Biblioteche Italiane e lo sviluppo della piattaforma Wiki riservata alla pubblicazione delle normative per la catalogazione delle risorse nell’ambito del Servizio Bibliotecario Nazionale (SBN).
Un’altra importante iniziativa ha riguardato il collegamento delle voci di autorità di SBN (Nomi di persona e Nomi di enti) con le corrispettive voci presenti in Wikidata tramite la proprietà P396 (per la documentazione di Wikidata. La comunità di Wikidata lavora da anni all’arricchimento dei dati presenti sulla piattaforma mediante la creazione di collegamenti con altre fonti liberamente accessibili sul web, quali VIAF, BNF, Internet Archive, etc. Questo collegamento è stato creato anche con i record di SBN, sfruttando la presenza nell’OPAC del Catalogo nazionale di permalink che consentono un agevole puntamento alle voci di autorità e alle risorse ad esse collegate (per la documentazione di Wikidata vedi Wikidata:Gruppo Wikidata per Musei, Archivi e Biblioteche/SBN e Property talk:P396). Questa attività di connessione delle voci comuni alle due piattaforme è destinata ad aumentare nel corso del tempo in seguito alla decisione dell’ICCU, nel giugno del 2023, di rendere visibili nell’OPAC SBN tutte le registrazioni relative ai Nomi di persona e di ente presenti in Indice, ad esclusione di quelle con livello di autorità 05, mentre in precedenza le voci visibili nell’OPAC SBN erano solo quelle con livello Massimo (90), Super (95) e di Authority File (97).
A fronte di un numero ormai consistente di correlazioni fra le voci presenti sulle due piattaforme, si è ritenuto opportuno promuovere un altro progetto volto all'arricchimento dei Nomi di persona presenti in SBN, privi di qualsiasi informazione, mediante i dati estratti da Wikidata. L’arricchimento di questi record è di fondamentale utilità per la funzione “identificativa” che essi possono svolgere in un Catalogo che ha superato i 4 milioni di record.
Progetto di arricchimento ICCU-Wikidata – Fase 1 (2023-2024)
La prima fase del progetto è iniziata a maggio 2023 quando i VID associati a Wikidata erano poco più di 103.000. Per raggiungere l’obiettivo sono state estratte da Wikidata tutte le voci relative ai nomi di persona che avessero una correlazione con un record di authority di SBN. Dal confronto tra queste voci e quelle di SBN sono state individuate circa 16.200 voci prive di qualsiasi informazione identificante nei campi Nota informativa, Datazioni, Codice Lingua o Codice Paese. Per queste sole voci sono stati selezionati i dati che in Wikidata fossero referenziati tramite la presenza di almeno una fonte. I principali dati forniti da Wikidata sono i seguenti: identificativo di Wikidata, VID SBN, ISNI, eventuale ordine religioso di appartenenza, occupazione della persona, eventuale carica ricoperta, eventuale stato di canonizzazione e, se presenti, luogo di nascita, data di nascita, paese di nascita, luogo di morte, data di morte. Per circa 2000 nomi per i quali erano referenziate solo le date o i luoghi di nascita e/o morte, si è deciso di utilizzare anche il campo descrizione di Wikidata per ricavare maggiori informazioni, laddove presenti, sull’attività della persona: si tratta di un campo che riporta informazioni non sempre referenziate ma che da un test a campione risultano nel complesso corrette.
Sono stati estratti anche i dati relativi al paese di cittadinanza e alle lingue parlate o scritte ma tali informazioni sono state prese in considerazione solo quando il valore associato a un nome di persona fosse singolo. Nel caso di più paesi o più lingue associate alla stessa persona, nell’impossibilità, dovuta all’Indice, di inserire più di una Lingua o Paese, si è deciso di non utilizzare l’informazione.
Sui dati estratti sono stati condotti dei test a campione per verificare la coerenza delle correlazioni e la correttezza dei contenuti. Talvolta sono state riscontrate delle incongruenze: ad esempio non tutte le occupazioni o le cariche ricoperte referenziate con una fonte sono state esportate da Wikidata; inoltre, in presenza di più occupazioni o di più cariche ricoperte, Wikidata non indica un ordine di precedenza con la conseguente ricaduta che ad alcuni nomi possa essere associata come attività principale quella meno identificante (significativa) oppure che la carica ricoperta non sia l’ultima o la più importante.
Valutando come ammissibile la residua percentuale di possibili incongruenze ed errori nell'ambito di una lavorazione massiva necessaria a fornire elementi identificanti per schede che ne erano prive, si è deciso di procedere all’elaborazione di tali dati in modo da poterli inviare in Indice per popolare i seguenti campi della registrazione di authority:
- Datazioni
- Codice Lingua
- ISNI
- Codice Paese
- Nota informativa
- Nota del catalogatore
Il campo della Nota informativa è stato riempito mediante il concatenamento dei seguenti dati estratti da Wikidata: eventuale ordine religioso di appartenenza, occupazione della persona, eventuale carica ricoperta, eventuale stato di canonizzazione e, se presenti, luogo di nascita, data di nascita, paese di nascita, luogo di morte, data di morte.
Nella Nota del catalogatore è presente l’espressione <Informazioni da Wikidata 01.07.2023-31.03.2024> seguita dalla URI della voce.
Il livello di autorità delle notizie arricchite con i dati provenienti da Wikidata non è stato elevato.
Si raccomanda ai bibliotecari che intervenissero su questi Nomi di persona di verificare la congruenza tra le informazioni inserite nella Nota informativa e i titoli collegati all’entità e di controllare la correttezza e la completezza delle informazioni tramite il confronto con altre fonti. Se anche i titoli collegati sono corretti, si possono innalzare i record a livello 90 (Super), 95 (Massimo) o 97 (Authority), basandosi sul grado di completezza delle informazioni registrate. I bibliotecari che abbiano effettuato questi controlli ma che lavorano a livelli inferiori al 90, sono invitati a segnalare questi record ai referenti di Polo o all’ICCU (ic-cu.AFnomi@cultura.gov.it), affinché possano essere portati a un livello di autorità superiore. Se queste voci fossero modificate o arricchite in modo sostanziale, con informazioni, codici, fonti, etc. mancanti, si prega di aggiungere le fonti e di modificare il riferimento presente nella Nota del catalogatore <Informazioni da Wikidata 01.07.2023-31.03.2024> seguita dalla URI della voce con “Informazioni anche da Wikidata 01.07.2023-31.03.2024> seguita dalla URI.
Progetto di arricchimento ICCU-Wikidata – Fase 2 (2024-2025)
A partire dall’autunno del 2024 è stato avviato un nuovo progetto di arricchimento dei nomi di persona presenti in SBN. In quel momento i VID associati a Wikidata erano circa 140.000. E, a differenza del precedente progetto di arricchimento dei nomi di persona di SBN (2023-2024), in cui erano stati presi in considerazione i record privi di Nota informativa, Datazioni, Codice lingua e Codice paese, in questa seconda fase, sono stati inclusi anche i record che risultavano privi della sola Nota informativa. In questo modo il numero di record oggetto di lavorazione è salito a circa 36.000. Tale incremento è stato favorito anche da un’operazione di bonifica dei record, consistente nella rimozione di contenuti non pertinenti che erano presenti nella Nota informativa, come ad esempio fonti o annotazioni di servizio ereditate da vecchi progetti di importazione. Questi ultimi contenuti sono stati ricollocati nei campi più appropriati (ad esempio nel campo Fonti o nella Nota del Catalogatore). Questa operazione ha permesso di individuare un numero significativamente maggiore di voci effettivamente prive di Nota informativa.
In questa seconda fase, sono state perfezionate le procedure di estrazione dei dati da Wikidata e, parallelamente, sono stati potenziati i controlli per il confronto tra i nomi presenti nelle due basi dati. Allo stesso tempo, sono state semplificate le informazioni inserite in alcuni campi della registrazione di authority di SBN. Ad esempio, è stato deciso di inserire nel campo Datazioni solo l’anno di nascita e di morte della persona, escludendo il giorno e il mese, e di non riportare le date nella Nota informativa, come avveniva in precedenza. Oltre alle attività preliminari, già previste nella fase precedente (come la normalizzazione delle descrizioni relative agli ordini religiosi di appartenenza, l’identificazione dei comuni amministrativi di riferimento per le località geografiche di nascita e morte, la normalizzazione delle datazioni secondo le norme per la registrazione di authority dei nomi personali, la traduzione delle descrizioni - per note biografiche, occupazioni, località geografiche - in lingue diverse da quelle del Catalogo) sono state affinate delle procedure semiautomatizzate per ridurre il rischio di errate associazioni tra le entità di Wikidata e quelle di SBN. In particolare è stato effettuato un confronto incrociato tra la forma del nome di Indice e quella di Wikidata e, a parità di forma del nome, fra le date di nascita e di morte, presenti nelle due banche dati. In generale sono state ammesse alla lavorazione le voci che, in presenza della stessa forma nome, avessero una differenza di datazione compresa in un range di date di 5 anni, in questi casi, salvo per gli autori per cui è intervenuta una verifica puntuale, sono state mantenute le date già presenti in SBN.
Alla luce di questo esame, sono stati esclusi cautelativamente dalla fase di arricchimento circa 2600 record, per la mancata corrispondenza negli estremi cronologici o in presenza di differenze nella forma del nome, laddove l’assenza delle date anagrafiche faceva mancare un elemento di controllo. Questi record sono da destinarsi ad una successiva lavorazione manuale. Come pure i circa 650 nomi per i quali l’abbinamento ha permesso di evidenziare il sospetto di duplicazioni della medesima entità in Wikidata o in Indice, o il pericolo di confondere tra loro entità diverse, in presenza di omonimie.
La lavorazione di questa seconda lista di voci ha utilizzato le informazioni presenti in Wikidata in maniera più intensiva, così da poter valorizzare i campi di SBN anche in assenza di informazioni referenziate in Wikidata. In particolare, per circa 5200 voci, il codice Paese, assente in Wikidata e assente o scorretto in SBN, è stato ottenuto attraverso la comparazione tra la nazionalità espressa nella descrizione del nome in Wikidata e quella ricavabile dai luoghi di nascita e morte forniti da Wikidata. La generale revisione delle voci sottoposte ad arricchimento ha inoltre comportato un riallineamento delle qualificazioni cronologiche inserite nella stringa dei nomi, nei casi di aggiunta o modifica migliorativa delle datazioni nella scheda di autorità relativa. Al termine di questa seconda fase del progetto, i nomi di persona inviati all’Indice SBN arricchiti di nuovi dati sono risultati pari a 32.000.