UNICODE e XML
Corso di informatica per gli studi umanistici
Bologna, 12 maggio 2004
(19/V/2004) Aggiunta la sezione "post-lezione".
(14/V/2004) In seguito alla lezione e alle richieste di alcuni partecipanti, ho aggiunto e risistemato alcune cose nelle due pagine sottoindicate. GPB
Si veda anche il testo esplicativo dell'iniziativa L'eXtensible Markup Language per gli Studi Umanistici.
(19/V/2004) Post-lezione
- Ovviamente la tabella di caratteri ASCII (American Standard Code for Information Interchange, 1963) non fu il primo sistema di codifica dei caratteri. Lasciando da parte le crittografie, bisogna citare prima di tutto il codice Morse (1844) e quello Baudot (avete presente quelle strane macchine da scrivere a 5 tasti che si usano in parlamento??), anche se non si tratta di codifiche numeriche (cioè di sistemi che codificano i caratteri tramite numeri). Su questo argomento rimando a ASCII: American Standard Code for Information Infiltration by Tom Jennings; un esaustivo elenco storico di tabelle di codifica per caratteri (compreso vietnamita, thai, etiopico, scritture indiane) si trova anche all'indirizzo <http://homepages.cwi.nl/~dik/english/codes/stand.html>. Che ne dite di un cellulare con soli 5 tasti che usa il sistema Baudot??
- I tre meccanismi (sistema unificato di denominazione delle risorse, protocolli di trasmissione, ipertesti) attraverso i quali il World Wide Web permette la fruizione e la condivisione delle risorse: <www.w3.org/TR/html401/intro/intro.html#h-2.1>.
- Alcune figure a corredo di quanto detto su UNICODE (tratte dalle specifiche UNICODE):
- Lo standard UNICODE è in continua crescita (ferma restando la compatibilità con le versioni passate): sia i caratteri antico-persiani che i cunei del sillabario sumero-accadico stanno percorrendo l'iter burocratico per l'inserimento nelle future versioni dello standard (all'interno del plane 1).
- Nel definire lo standard UNICODE non è stata rivolta particolare attenzione al rapporto fra una scrittura (non latina) e la sua traslitterazione (e trascrizione) con caratteri latini (Roman in inglese) e diacritici (in risposta ad una necessità tipicamente "latinocentrica" che probabilmente andrebbe analizzata nell'ottica dello sviluppo dell'Orientalismo e degli strumenti di diffusione dell'informazione messi a punto in Europa). Su questo argomento rimando all'articolo di Bunz e Gippert, già segnalato, ma che riporto per comodità: Unicode, Ancient Languages and the WWW. Similmente, troviamo lingue come il curdo e l'osseto scritte con più scritture.
- In Windows 2000 la combinazione di tasti per visualizzare il codice UNICODE esadecimale dell'ultimo carattere battuto è
SHIFT-ALT-X
! ALT-X
in Windows XP. In ambedue i sistemi operativi, premendo ALT-X
viene nuovamente visualizzato il glifo (così almeno dice Alan Wood).
- Risorse e strumenti segnalati nel corso della lezione senza esser riuscito a mostrarli:
- l'esaustivo elenco di Alan Wood in cui trovare fonts UNICODE in base al/i sottoinsieme/i desiderato/i. Wood segnala con precisione fonts e strumenti anche per il mondo Mac.
- Microsoft Visual Keyboard per aver sempre sott'occhio la corrispondenza fra tasti e caratteri quando si utilizza un layout di tastiera che non corrisponde a quello indicato sui vostri tasti;
- a partire da Windows 2000, è diventato possibile modificare i layouts di tastiera predefiniti grazie a Microsoft Keyboard Layout Creator (ad esempio per creare un layout per scrivere in carattere latini con determinati diacritici);
- Windows XP suddivide le scritture (scripts) in basic, complex (right to left) e east asian. Il supporto di quest'ultime due categorie va abilitato; successivamente compariranno i relativi layouts di tastiera nell'apposito elenco. In pratica Microsoft ha integrato nel sistema quelle funzioni che precedentemente dovevano essere espletate da keyboard hookers come Multikey.
- il volume Melammu Symposia III impaginato interamente in UNICODE. Nel volume degli atti del V convegno della Societas Iranologica Europaea abbiamo proposto (e istruito) agli autori di sperimentare UNICODE: al momento, il 66% di essi ha aderito al nostro invito, permettendoci di dimezzare i tempi della fase di impaginazione!
Cuneiform Text Markup Language
- Diagramma di flusso
- CTML images:
- XSLT 1 Immagine che mostra le interrelazioni fra fotografia, testo cuneiforme e traduzione, indicate da un’evidenziazione in giallo al passaggio del puntatore su qualsiasi elemento testuale.
- XSLT 2 Immagine che mostra la sinossi delle versioni antico persiana, elamita e babilonese di DSab così come ci sono pervenute. In essa è visibile l’ordine sintagmatico di ciascuna versione. I sintagmi semanticamente affini sono incolonnati. Nel caso in cui l’ordine sintagmatico fra le diverse lingue fosse divergente, a sintagmi semanticamente affini corrisponde identica colorazione. E’ peraltro possibile estrapolare visivamente anche altri tipi di informazione. In questa dimostrazione, a titolo di esempio, sono stati bordati di blu tutti i sintagmi verbali. Ogni punto sulla sinistra marca una frase; frasi subordinate sono rientrate. o iconografico.
- XSLT 3 Immagine che mostra l’analisi grammaticale che appare a video al passaggio del puntatore su una parola.
- XSLT 4 Immagine che mostra un riepilogo delle informazioni paleografiche seguite da un trattamento dettagliato segno per segno. La lista dei segni può essere riordinata in ogni momento in base al numero d’ordine del segno nei sillabari, la sua designazione o al numero di occorrenze, senza dover ricaricare la visualizzazione della pagina. Inoltre le letture corrispondenti al segno selezionato vengono evidenziate nel testo dell’iscrizione.
- XSLT 5 Immagine che mostra il glossario della versione antico persiana di DSab. Per ogni lemma sono elencati l’analisi morfologica, la traduzione e le parole corrispondenti nelle altre versioni. Il glossario può essere riordinato in ogni momento in base all’ordine alfabetico, alla classe grammaticale o al numero di attestazioni senza dover ricaricare la visualizzazione della pagina.
- XSLT 6 Immagine che mostra una bibliografia di base per DSab. Le referenze bibliografiche possono essere riordinate in ogni momento in base al titolo, all’autore o all’anno di pubblicazione senza dover ricaricare la visualizzazione della pagina.
- XSLT 7Immagine che riflette la sostituzione dei sottostanti fogli di entità e CSS. Sono cambiati la rappresentazione dei segni diacritici e l’aspetto grafico della pagina.
- XSLT 8
- XSLT 9
©2000-2004 Copyright by Gian Pietro Basello
for ElamIT.net <www.elamit.net> (old URL: http://digilander.libero.it/elam)
Write to <elam@elamit.net>
Napoli, 11/V/2004; Persiceto, 14/V/2004
Il materiale (testi e immagini) contenuto in questo sito può essere liberamente utilizzato per fini personali, didattici, non commerciali. Non può essere riprodotto senza indicarne correttamente l'autore e l'indirizzo internet (URL). Sarà gradita la segnalazione a <elam@elamit.net> di ogni uso o collegamento al materiale contenuto in questo sito. Grazie!
The contents of this site, including all images and text, are for personal, educational, non-commercial use only. The contents of this site may not be reproduced in any form without proper reference to Author and Internet Address (URL). Please report to <elam@elamit.net> every use or link to these contents. Thank you!