GramsciProject Lab è la sezione dedicata al lavoro di ricerca e sviluppo tecnologico che sta alla base degli strumenti offerti dal progetto. Qui troverete informazioni sulle idee di base e le metodologie, ma anche sugli strumenti attualmente in fase di sviluppo (come il browser dei Quaderni dal carcere) o in fase di sperimentazione (come il tool di annotazione Pundit).
Knowledge Graph
Knowledge graph è un’espressione entrata ormai in uso da tempo nella comunità scientifica e fatta propria relativamente di recente anche da Google. Si tratta di una base di conoscenza in cui entità (o risorse) di diverso tipo (come persone, luoghi, o concetti più o meno astratti) sono rappresentate e interconnesse tra loro.
In un knowledge graph le relazioni che intercorrono tra le risorse sono semanticamente caratterizzate. Una persona, ad esempio, può essere collegata a un testo di cui è autore, ma anche a un testo in cui viene menzionata o, ancora, a un luogo nel quale ha vissuto. Questo modello di rappresentazione dei dati è flessibile e molto potente e permette alle applicazioni di seguire i collegamenti tra le entità, navigando nel grafo per trovare e usare efficacemente le informazioni.
Il concetto di knowledge graph assume ancora più rilevanza se pensato in un contesto aperto, in cui le informazioni sono pubbliche e il grafo stesso è pubblicato sul Web e pronto per essere interrogato e usato da utenti e sviluppatori per costruire nuove applicazioni, possibilmente al di fuori del contesto per cui i dati sono stati creati. Le tecnologie relative al Semantic Web sposano naturalmente questa visione fornendo i componenti necessari per rappresentare e pubblicare il grafo in modalità Linked Open Data.
Una delle idee alla base del nostro progetto è quindi quella di creare e far crescere nel tempo, utilizzando strumenti semi-automatici insieme a procedimenti più classicamente “manuali”, un grafo in cui testi, concetti, persone e altri tipi di risorse legate ad Antonio Gramsci siano semanticamente rappresentate e collegate tra loro in maniera sensata. Lo scopo del progetto è quello di permettere agli studiosi, agli studenti o ai semplici utenti di esplorare questo grafo di conoscenza, sviluppando strumenti che possano supportare il lavoro di ricerca.
Infine, sebbene il contesto sotto esame sia principalmente quello legato a Gramsci, il progetto si propone di sviluppare metodologie e strumenti che possano essere applicati con successo anche in altri contesti.
Faceted Browsers
Ma come si esplora un knowledge graph?
Tra i vari paradigmi di navigazione e interrogazione dei dati, la navigazione a faccette (faceted search o faceted browsing) è una delle più intuitive e ben si adatta a questo modello di rappresentazione dei dati. Un faceted browser permette di esplorare le risorse prendendo in considerazione diverse dimensioni tra loro ortogonali. In GramsciProject stiamo attualmente facendo leva su questo paradigma per fornire strumenti di esplorazione intuitivi e semplici.
Il Dizionario gramsciano e la Media library sono i primi risultati di questo lavoro.
Esplorazione dei Quaderni (Work in progress…)
La semplice ricerca testuale non è spesso sufficiente, o comunque non sempre efficace, per esplorare un corpus di testi. Essa infatti non cattura la semantica delle informazioni nel testo. Diversi utenti necessitano quindi di diversi “punti di accesso” al testo. Molteplici sono infatti gli assi di navigazione del testo, corrispondenti ad altrettanti “aspetti” a cui l’utente può essere interessato.
Il faceted browser dei Quaderni dal carcere è attualmente disponibile in versione prototipale e in fase di valutazione e testing prima di essere rilasciato agli utenti. Si prega quindi di non considerare affidabile il prototipo per scopi di ricerca o analisi dei testi.
Prototipo: https://purl.org/gramsciproject/quaderni
Allo scopo di fornire una funzionalità di esplorazione “ricca”, abbiamo deciso di distinguere due diversi tipi di sorgenti di informazione:
- Conoscenza di dominio, accuratamente codificata da studiosi ed esperti (spesso in forma cartacea o non strutturata). Ne sono esempi il Dizionario Gramsciano e l’indice tematico dell’ediziona critica dei Quaderni.
- Conoscenza estratta automaticamente. Nel nostro caso ci riferiamo al riconoscimento automatico di entità menzionate nel testo.
Il browser consente quindi di esplorare i quaderni e le note in essi contenute filtrando secondo diversi criteri. I filtri (facets) a sinistra consentono di selezionare 1) le note relazionate a uno specifico termine dell’indice tematico Gerratana, 2) quelle citate all’interno di una voce del dizionario gramsciano, 3) le note di un solo quaderno. Le facets a destra derivano invece da un processo di estrazione semi-automatica delle entità menzionate nel testo, raggruppate per tipo (persone, libri, eventi, etc.).
Incrociando questi diversi livelli di informazioni, gli utenti hanno a disposizione un nuovo e potente mezzo per selezionare e analizzare i testi. Selezionando ad esempio Il Conte di Montecristo – utilizzando la facet Books -, l’utente restringe la selezione di note (quella centrale) a quelle che citano il libro in questione. Oltre ad avere questa selezione di note, l’utente ha anche, attraverso la riconfigurazione dei dati delle facets sulla base del nuovo corpus di note, una visione chiara:
- dei quaderni nei quali il libro è citato e quante volte in ognuno (facet Quaderni)
- delle tematiche interessate dalle note che citano il libro (indici edizione critica e dizionario gramsciano)
- delle persone, eventi o luoghi menzionati in tali note (facets a destra)
Si scopre quindi come ben cinque delle note che citano il libro hanno anche una relazione con il concetto di “superuomo” (nella facet a sinistra Indice tematico Gerratana). E’ quindi probabile che Gramsci instauri una qualche relazione tra questo libro e il concetto nietzschiano di superuomo (come infatti è), che si può così agevolmente individuare, avendo anche a disposizione la selezione di note nelle quali le due informazioni sono presenti contemporaneamente. Se poi si deseleziona la facet precedente (Il Conte di Montecristo), l’utente scopre che il concetto di superuomo è menzionato anche in altre note che non citano però Il Conte di Montecristo (altre 7, quindi 12 in totale), a loro volta caratterizzate da una serie di legami che si possono vedere dai dati delle facets, che si modificano ogni volta in base alla selezione di note presente in quel momento.
La derivazione di facet sensate e utili per la navigazione a partire dalle entità estratte pone diverse sfide e interrogativi ed è attualmente argomento di ricerca. L’approccio seguito in questo prototipo è quello di collegare automaticamente le entità a DBpedia per poi sfruttarne le informazioni semanticamente strutturate (il tipo).
Presentazioni e papers
- Leveraging Linked Data in the GramsciSource project @ LOD2014
- Linked Data and facets to explore text corpora in the Humanities: a case study @ ISWC2014, Poster Track
Data curation e annotazione dei testi
Il processo di creazione e revisione dei dati, sebbene supportato da strumenti informatici, non può prescindere dal contributo che un esperto di dominio può dare annotando manualmente i testi. GramsciProject collabora attivamente allo sviluppo di Pundit, un innovativo strumento di annotazione semantica di documenti sul web. Per maggiori informazioni su Pundit visitate il sito per progetto: https://thepund.it. Il software è attualmente usato in questo progetto per aggiungere o correggere informazioni estratte in maniera automatica.
Contatti
Se ti interessa saperne di più sulle attività di sviluppo e ricerca e/o collaborare con noi contattaci all’indirizzo: info@gramsciproject.org.




