Iniziative per la codifica digitale di testi antichi
a cura di Gian Pietro Basello
Innanzitutto ci sono due pagine di collegamenti commentati molto utili:
Di seguito replico per comodità alcuni dei collegamenti elencati nelle succitate (e più esaurienti) pagine. Da un punto di vista di implementazione tecnica, la maggior parte di questi progetti si basa sull'eXtensible Markup Language (XML), un metalinguaggio che permette la definizione di specifici linguaggi di marcatura testuale all'interno di un ambiente di sviluppo flessibile in cui i dati e la loro rappresentazione sono mantenuti ben distinti. Le specifiche di questo standard sono pubblicate dal World Wide Web Consortium [CDrom]. Per farsi un'idea più approfondita e concreta di come è strutturato XML rimando a A Gentle Introduction to XML [CDrom].
I dati sono inseriti in una struttura gerarchica secondo uno schema predefinito (elaborato tramite Document Type Definition o, come si preferisce oggi, XML Schema [CDrom]) e più o meno dettagliato a seconda delle esigenze. Ogni singolo frammento di dati viene immagazzinato in un elemento. Ogni elemento può avere degli attributi contenenti informazioni addizionali (metadati) ad esso correlate o contenere altri elementi, così da formare un albero di dati ramificato.
Una volta avvenuta la codifica dei dati, è possibile avere più rappresentazioni di essi. La stessa informazione può essere reperita e visualizzata in modi diversi. Ad esempio, un utente potrebbe richiedere una visione sinottica di un testo antico e della sua traduzione in una lingua moderna; un altro potrebbe aver bisogno invece del conteggio di tutte le attestazioni di una data parola in modo da costituire una voce lessicale comprendente tutte le varianti grafiche e le traduzioni proposte nei rispettivi contesti; oppure può eseguire una ricerca di qualsiasi parola o gruppo di segni o definizione morfologica in un corpus di iscrizioni o anche solo in una sua parte. Ognuna di queste modalità viene definita attraverso una procedura Extensible Stylesheet Transformation (XSLT) [CDrom] che raccoglie i dati utili e li trasforma in una rappresentazione appropriata. Una trasformazione può anche presentare i dati sotto forma di una rappresentazione visuale come un grafico attraverso il linguaggio Vector Markup Language (VML). L’effetto di una trasformazione può essere specifico sia per la visualizzazione in un browser HTML che per la stampa. L’aspetto grafico definitivo della pagina dipende da un foglio di stile Cascading Style Sheet (CSS) [CDrom], che costituisce quindi l’ultima fase del processo.
- Text Encoding Initiative
www.tei-c.org [CDrom]
Basato su XML, si tratta di un progetto molto avanzato per la codifica di testi in generale. E' già molto diffuso per l'edizione di testi teatrali o in poesia, in quanto può marcare le parti nei dialoghi o i singoli versi e le strofe. Fornisce però anche un'ottimo supporto per edizioni scientifiche di testi, ad esempio per i riferimenti bibliografici, per l'apparato critico etc. (per i particolari vedi qui sotto le Guidelines). La sua diffusione ha stimolato inoltre la creazione di diversi strumenti di supporto sviluppati indipendentemente da altre persone e messi a disposizione di tutti.
- XML System for Textual and Archaeological Research (XSTAR) by David Schloen and Gene Gragg (Oriental Institute of Chicago)
http://www-oi.uchicago.edu/OI/PROJ/XSTAR/XSTAR.html [CDrom]
XSTAR invece è un progetto specifico per la codifica di testi antichi e dati archeologici. Prevede una serie di elementi atti a descrivere sistemi di scrittura e caratteristiche linguistiche, per cui dovrebbe essere adattabile al cuneiforme come al medio persiano. Sono a disposizione i dettagliatissimi schemi per la codifica dei dati, ma non esiste ancora nessuno strumento di supporto. Sembra però che siano in arrivo presto delle novità.
- Thesaurus Indogermanischer Text- und Sprachmaterialien (TITUS) Wordcruncher Server
http://titus.uni-frankfurt.de/indexe.htm?/texte/tituswc2.htm
http://titus.uni-frankfurt.de/
TITUS è da anni un punto di riferimento per la codifica dei testi antichi. Oltre alle pagine normalmente accessibili tramite un browser HTML, mette a disposizione un sistema più elaborato che prevede l'interlineazione e la marcatura dei testi.
- La maggior parte di queste iniziative è basata sullo standard UNICODE per la codifica dei caratteri (www.unicode.org [CDrom]). Al contrario delle vecchie tabelle di codifica limitate a 256 caratteri (per cui, ad esempio, o si scriveva in cirillico o in caratteri latini e c'era bisogno di un font per il cirillico e uno per scrivere in greco), UNICODE prevede 65536 caratteri (256 x 256) suddivisi in sottoinsiemi (subset) corrispondenti grosso modo alle singole scritture (fra cui alfabeto fonetico, segni diacritici per tutti i gusti, arabo, greco, ebraico, siriaco, armeno, hindi, cinese etc.). In questo modo bisogna sempre avere a disposizione un font che contiene il sottoinsieme utilizzato (il comune Times New Roman per Windows contiene già diversi sottoinsiemi; esistono anche font quasi completi come l'Arial Unicode MS nel pacchetto Office), però non c'è più rischio di "scambiare" i caratteri e non bisogna per forza possedere un determinato font (prima uno poteva avere anche tre font per il greco, ma non era detto che si potesse passare dall'uno all'altro senza dover ribattere il testo). MS Word (dalla versione 97 in su) supporta pienamente UNICODE (vedi il menù "Inserisci | Simbolo") e le scritture da destra a sinistra. Sono disponibili anche programmi (vedi la sezione Keyboard Hookers [CDrom]) che intercettano (hook) i tasti premuti sulla tastiera e li riconfigurano per scrivere con altri sistemi di scrittura (senza dover inserire un carattere alla volta con "Inserisci | Simbolo"). Tramite questi software che si interpongono a qualsiasi applicazione di word processing con supporto UNICODE è possibile, ad esempio, scrivere rapidamente in greco con tanto di spiriti e accenti, e passare poi all'ebraico e quindi di nuovo ai caratteri latini. I volumi III e IV della serie Melammu Symposia sono stati impaginati utilizzando un unico font UNICODE sviluppato da TITUS (TITUS Cyberbit Basic).
- Useful resources
www.unicode.org/onlinedat/resources.html" [CDrom]
(9/V/2004) Un elenco molto ricco di risorse suddiviso nelle categori 'Fonts and Keyboards', 'Linguistics and Script Specialty Sites', 'Organizations and Other Standards' e 'Using Unicode'.
- Unicode and Multilingual Support in HTML, Fonts, Web Browsers and Other Applications by Alan Wood
www.alanwood.net/unicode/index.html [CDrom]
(9/V/2004) Alan Wood analizza in dettaglio "quanto" UNICODE è supportato nei programmi di scrittura elettronica e navigazione Internet. Un ottimo sussidio per capire come usare UNICODE nelle nostre applicazioni preferite (e di quali strumenti aggiuntivi si ha eventualmente bisogno).
- Does Your Browser Support Multi-language? by James Kass
http://home.att.net/~jameskass [CDrom]
(9/V/2004) Contiene una serie di pagine dedicate alle problematiche poste dalle singole scritture.
- Molto utili anche i seguenti articoli (che consiglierei proprio di leggere) che affrontano aspetti teorici e "filosofici" della codifica e condivisione di testi tramite il web.
- Opentext
http://opentext.org
Progetto aperto molto interessante dedicato alla codifica di testi in greco (papiri e nuovo testamento in particolare) che fornisce anche materiale "didattico" con codice XML (e XSL!) esemplificativo. Basato sulla libera collaborazione di chi vuole contribuire a realizzarlo, mi sembra però che si sia arenato al momento di iniziare a codificare concretamente dei testi. (7/V/2004) Purtroppo l'utilissimo materiale esemplificativo non è più accessibile.
- OSIS
http://whi.wts.edu/OSIS/Projects/ [CDrom]
(9/V/2004) Un nuovo progetto divenuto rapidamente operativo dedicato alla codifica XML di testi biblici e della letteratura correlata. E' possibile scaricare lo schema e diversi testi già codificati.
- Intratext
http://www.intratext.com/
Ecco invece una biblioteca ben fornita di testi (per lo più moderni) marcati con la tecnologia XML.
- Perseus Project
http://www.perseus.tufts.edu/
I seguenti progetti sono specifici per le scritture cuneiformi. Ci sono due tipi di approcci che in realtà sono complementari: la replica virtuale della superficie tridimensionale di un'iscrizione e la codifica (intesa come traslitterazione) del testo.
- Cuneiform.net (The Cuneiform Database Project at The University of Birmingham)
www.eee.bham.ac.uk/cuneiform/
Questo progetto si prefigge di ottenere automaticamente accurate raffigurazioni bidimensionali (disegni) della superficie tridimensionale iscritta di una tavoletta.
- Cuneiform Digital Library Initiative
http://cdli.ucla.edu/
Progetto molto attivo ma apparentemente poco unitario (una parte è sviluppata in XML, un'altra con il software FileMaker). Sono già disponibili molti testi in scrittura proto-cuneiforme e sumeri.
- The Electronic Text Corpus of Sumerian Literature
http://www-etcsl.orient.ox.ac.uk/
- The Pennsylvania Sumerian Dictionary
http://ccat.sas.upenn.edu/psd/
- Initiative for Cuneiform Encoding
www.jhu.edu/ice/
Questa iniziativa ha un'impostazione teorica molto rigorosa ma sembra poi non aver sviluppato null'altro, neanche una DTD completa.
- Digital Hammurabi, Johns Hopkins University
www.jhu.edu/digitalhammurabi/
altro progetto basato su XML. Fra i promotori c'è Simo Parpola degli State Archives of Assyria.
- Achemenet (College de France)
www.achemenet.com
Lo cito per completezza, ma i testi cuneiformi pubblicati in singoli file PDF (Adobe Acrobat) sono davvero penosi e permettono solo elementari possibilità di ricerca.
Ci sono anche alcuni articoli indipendenti da specifici progetti:
- Sean Anderson / Marc Levoy, Unwrapping and Visualizing Cuneiform Tablets
http://graphics.stanford.edu/papers/cuneiform/ [CDrom]
Un'entusiasmante dimostrazione delle possibilità che offre oggi la tecnologia: la superficie tridimensionale e irregolare di una tavoletta viene "spianata" mantenendo le informazioni tridimensionali dell'incisione dei segni; a questo punto può essere illuminata uniformemente da una sorgente di luce virtuale posizionabile a piacere.
- http://www.oasis-open.org/cover/bunz-iuc17pap.pdf [CDrom]
- Carl-Martin Bunz (University of Saarland), Applying the Unicode Standard in the Philology of Ancient Texts: Its Potential and Limitations
http://www.unicode.org/iuc/iuc19/a377.html [CDrom]
- Karljürgen Feuerherm, The Computer Representation of Cuneiform: Towards the Development of a Character Code, Paper presented at Rencontre Assyriologique Internationale, Paris, July 13, 2000.
http://www.oasis-open.org/cover/feuerherm-RAIPres.pdf [CDrom]
- Michael Everson, Proposal to encode Old Persian Cuneiform in Plane 1 of ISO/IEC 10646-2, 1997-09-18. ISO/IEC JTC1/SC2/WG2 N1639.
http://std.dkuug.dk/JTC1/SC2/WG2/docs/n1639/n1639.htm [CDrom]
Sono state avanzate anche alcune proposte formali per includere nello standard UNICODE le scritture di lingue cuneiformi come l'antico persiano e l'ugaritico. La "Initiative for Cuneiform Encoding" (vedi sopra) vorrebbe che venisse incluso anche il cuneiforme accadico vero e proprio. Personalmente credo che per le scritture sillabiche (per poi non parlare dei problemi connessi ad omofonia e polifonia dell'accadico) sia meglio una buona traslitterazione. Se proprio uno vuole vedere il cuneiforme può appoggiarsi a strumenti come il mio Tuppime o la nuova versione del CTML.
©2000-2004 Copyright by Gian Pietro Basello
for ElamIT.net <www.elamit.net> (old URL: http://digilander.libero.it/elam)
Write to <elam@elamit.net>
Napoli, 13.14/II/2003; 9/V/2004
Il materiale (testi e immagini) contenuto in questo sito può essere liberamente utilizzato per fini personali, didattici, non commerciali. Non può essere riprodotto senza indicarne correttamente l'autore e l'indirizzo internet (URL). Sarà gradita la segnalazione a <elam@elamit.net> di ogni uso o collegamento al materiale contenuto in questo sito. Grazie!
The contents of this site, including all images and text, are for personal, educational, non-commercial use only. The contents of this site may not be reproduced in any form without proper reference to Author and Internet Address (URL). Please report to <elam@elamit.net> every use or link to these contents. Thank you!