Arricchimento dei dati di authority di SBN attraverso il confronto e lo scambio con Wikidata

La convenzione sottoscritta fra l’ICCU e Wikimedia Italia ha fra i suoi obiettivi la realizzazione di iniziative comuni volte a promuovere una sempre maggiore apertura e interscambio dei dati. Nello specifico, la collaborazione fra le due istituzioni mira al riutilizzo e all’integrazione dei dati e dei materiali dei progetti ICCU con quelli di Wikimedia. In quest’ottica si è giunti alla realizzazione di alcuni importanti obiettivi quali il lavoro di collegamento e sincronizzazione con l’Anagrafe delle Biblioteche Italiane e lo sviluppo della piattaforma Wiki riservata alla pubblicazione delle normative per la catalogazione delle risorse nell’ambito del Servizio Bibliotecario Nazionale (SBN).

Un’altra importante iniziativa ha riguardato il collegamento delle voci di autorità di SBN (Nomi di persona e Nomi di enti) con le corrispettive voci presenti in Wikidata. La comunità di Wikidata lavora da anni all’arricchimento dei dati presenti sulla piattaforma mediante la creazione di collegamenti con altre fonti liberamente accessibili sul web, quali VIAF, BNF, Internet Archive, etc.  Questo collegamento è stato creato anche con i record di SBN, sfruttando la presenza nell’OPAC del Catalogo nazionale di permalink che consentono un agevole puntamento alle voci di autorità e alle risorse ad esse collegate. Questa attività di connessione delle voci comuni alle due piattaforme è destinata ad aumentare nel corso del tempo in seguito alla decisione dell’ICCU, nel giugno del 2023, di rendere visibili nell’OPAC SBN tutte le registrazioni relative ai Nomi di persona e di ente presenti in Indice, ad esclusione di quelle con livello di autorità 05, mentre in precedenza le voci visibili nell’OPAC SBN erano solo quelle con livello Massimo (90), Super (95) e di Authority File (97).

A fronte di un numero ormai consistente di correlazioni fra le voci presenti sulle due piattaforme, si è ritenuto opportuno promuovere un altro progetto volto all'arricchimento dei Nomi di persona presenti in SBN, privi di qualsiasi informazione, mediante i dati estratti da Wikidata. L’arricchimento di questi record è di fondamentale utilità per la funzione “identificativa” che essi possono svolgere in un Catalogo che ha superato i 4 milioni di record.

Per raggiungere questo obiettivo sono state estratte da Wikidata tutte le voci relative ai nomi di persona che avessero una correlazione con un record di authority di SBN. Dal confronto tra queste voci e quelle di SBN sono state individuate circa 16.200 voci prive di qualsiasi informazione identificante nei campi Nota informativa, Datazioni, Codice Lingua o Codice Paese. Per queste sole voci sono stati selezionati i dati che in Wikidata fossero referenziati tramite la presenza di almeno una fonte. I principali dati forniti da Wikidata sono i seguenti: identificativo di Wikidata, VID SBN, ISNI, eventuale ordine religioso di appartenenza, occupazione della persona, eventuale carica ricoperta, eventuale stato di canonizzazione e, se presenti, luogo di nascita, data di nascita, paese di nascita, luogo di morte, data di morte. Per circa 2000 nomi per i quali erano referenziate solo le date o i luoghi di nascita e/o morte, si è deciso di utilizzare anche il campo descrizione di Wikidata per ricavare maggiori informazioni, laddove presenti, sull’attività della persona: si tratta di un campo che riporta informazioni non sempre referenziate ma che da un test a campione risultano nel complesso corrette.

Sono stati estratti anche i dati relativi al paese di cittadinanza e alle lingue parlate o scritte ma tali informazioni sono state prese in considerazione solo quando il valore associato a un nome di persona fosse singolo. Nel caso di più paesi o più lingue associate alla stessa persona, nell’impossibilità, dovuta all’Indice, di inserire più di una Lingua o Paese, si è deciso di non utilizzare l’informazione.

Sui dati estratti sono stati condotti dei test a campione per verificare la coerenza delle correlazioni e la correttezza dei contenuti. Talvolta sono state riscontrate delle incongruenze: ad esempio non tutte le occupazioni o le cariche ricoperte referenziate con una fonte sono state esportate da Wikidata; inoltre, in presenza di più occupazioni o di più cariche ricoperte, Wikidata non indica un ordine di precedenza con la conseguente ricaduta che ad alcuni nomi possa essere associata come attività principale quella meno identificante (significativa) oppure che la carica ricoperta non sia l’ultima o la più importante.

A fronte di queste possibili incongruenze e in presenza di una percentuale comunque residua di errore, si è deciso di procedere all’elaborazione di tali dati in modo da poterli inviare in Indice per popolare i seguenti campi della registrazione di authority:

  • Datazioni
  • Codice Lingua
  • ISNI
  • Codice Paese
  • Nota informativa
  • Nota del catalogatore

Il campo della Nota informativa è stato riempito mediante il concatenamento dei seguenti dati estratti da Wikidata: eventuale ordine religioso di appartenenza, occupazione della persona, eventuale carica ricoperta, eventuale stato di canonizzazione e, se presenti, luogo di nascita, data di nascita, paese di nascita, luogo di morte, data di morte.

Nella Nota del catalogatore è presente l’espressione “Informazioni da Wikidata 01.07.2023-31.03.2024” seguita dalla URI della voce.

Il livello di autorità delle notizie arricchite con i dati provenienti da Wikidata non è stato elevato.

Si raccomanda ai bibliotecari che intervenissero su questi Nomi di persona di verificare la congruenza tra le informazioni inserite nella Nota informativa e i titoli collegati all’entità e di controllare la correttezza e la completezza delle informazioni tramite il confronto con altre fonti. Se anche i titoli collegati sono corretti, si possono innalzare i record a livello 90 (Super), 95 (Massimo) o 97 (Authority), basandosi sul grado di completezza delle informazioni registrate. I bibliotecari che abbiano effettuato questi controlli ma che lavorano a livelli inferiori al 90, sono invitati a segnalare questi record ai referenti di Polo o all’ICCU (ic-cu.AFnomi@cultura.gov.it), affinché possano essere portati a un livello di autorità superiore. Se queste voci fossero modificate o arricchite in modo sostanziale, con informazioni, codici, fonti, etc. mancanti, si prega di aggiungere le fonti e di modificare il riferimento presente nella Nota del catalogatore “Informazioni da Wikidata 01.07.2023-31.03.2024” seguita dalla URI della voce con “Informazioni anche da Wikidata 01.07.2023-31.03.2024” seguita dalla URI.