Linguistica e DNA
Dove sequenze "silenti" incontrano il linguaggio umano

di Leonardo Gnesi

Nella categoria: HOME | Letteratura e... altro

1. Intro

Esiste una "sana" interdisciplinarietà, in cui specifiche metodologie e prassi sono condivise tra distinti settori delle conoscenze, ancora prima di improbabili corrispondenze di contenuti e significati purtroppo perseguite nei più recenti progetti di riforma scolastica [1]. Questo scambio di idee e metodi tra diverse discipline allo scopo di affrontare determinati problemi, generalmente provvede nuove chiavi di lettura e rischiara strade percorribili di cui difficilmente ci saremmo altrimenti immaginati l'esistenza. L'esempio che vogliamo considerare in questo scritto concerne la linguistica, la biologia e la fisica (o meglio, la biofisica, una scienza interdisciplinare, per l'appunto, unita dalla biologia, dalla chimica e dalla fisica) ed in particolare un recente studio (1994) volto ad approfondire il ruolo di circa il 95% del DNA umano.

2. Bio

Il DNA è un acido presente in ogni cellula di ogni essere vivente, ed è il responsabile di ogni processo vitale che si compie negli organismi. Esso è composto di 4 sostanze (dette "basi") le cui iniziali sono A,T,C,G; per i nostri fini, possiamo immaginare che esse siano disposte in sequenza, come una stringa di caratteri, ad esempio:

....ATCGCGATGATGCGAT TTGATCATGAAAAATAGA TAGATAACCCATTAGGA....

In ogni molecola di DNA vi sono milioni di sequenze di questo tipo, il cui significato è -eccezion fatta per organismi estremamente semplici, come i batteri- pressoché ignoto. La difficoltà nel capire il ruolo di una così enorme quantità di basi e di un loro specifico allineamento può essere paragonato [2] alla difficoltà che noi occidentali potremmo avere ad esempio volendo tradurre l'intero Corano dall'arabo. Infatti, non saremmo mediamente in grado di riconoscere l'alfabeto, né il significato delle parole, né la grammatica e la sintassi del linguaggio.

Davanti all'enorme testo scritto che è il DNA i biologi, nell'intento di tradurlo, devono dunque affrontare il problema di capire:

1. quali sono le "parole", cioè quante basi occorrono per fare una sequenza con una certa pur minima funzione;
2. qual è la "grammatica", cioè come tali sequenze funzionali interagiscano tra loro al fine di governare un certo processo vitale;
3. persino qual è l'alfabeto, cioè se ad ogni "lettera" corrisponde una singola base A,T,C,G o piuttosto un gruppo (coppie, triplette...) di basi.

La sequenza di basi del DNA è composta di parti "codificanti" e parti "non codificanti": nelle prime figurano soltanto parole di 3 basi e quindi tutte le possibili parole (sono 4³ = 64) sono state studiate dai biologi che ne hanno costruito il corrispondente dizionario, più familiarmente noto come Codice Genetico. In esso si contemplano le corrispondenze tra ogni tripletta di basi e la corrispondente funzione, ad esempio:

GCC,GCA,GCG,GCT --> costruire l'Alanina;
TGG --> costruire il Triptofano; [3] ....

"Sfortunatamente", le zone codificanti negli organismi evoluti (certamente l'uomo, ma anche un modestissimo lievito di birra!) sono soltanto una piccola percentuale del DNA totale: nell'uomo, ad esempio, solo il 5%. Il restante 95% di DNA è non-codificante: si tratta infatti di sequenze che non vengono tradotte col meccanismo delle triplette di basi e che perciò appare "silente". Attualmente, sul ruolo di queste larghe porzioni di DNA sono state fatte varie ipotesi, sembrando strano infatti che la Natura, altrove così parsimoniosa, possa aver fornito - o quanto meno, dimenticato - una tale quantità di materia, energia, informazioni. Una delle ipotesi più interessanti è che le zone non codificanti celino un linguaggio "naturale" ancora sconosciuto. Per verificare la correttezza di questa ipotesi, mostreremo tra breve come alcuni scienziati abbiano cercato di capire se tali sequenze soddisfano alcuni requisiti fondamentali comuni ad ogni linguaggio esistente. È bene comunque ricordare, per tenere la discussione ad un livello concreto, che l'obiettivo di tradurre il DNA è, dato lo stato delle conoscenze e delle ricerche attuali, del tutto irraggiungibile.

3. Linguistica

3.1 Un certo signor Zipf

George Kingsley Zipf (1902-1950), americano, è stato una figura molto controversa, e non a torto, del mondo accademico del suo tempo [4]. Esperto di filologia germanica, durante i venti anni di insegnamento a Harvard amava definirsi un "ecologista umano statistico". Egli morì subito dopo aver pubblicato, pare a sue spese, "Human Behaviour and the Principle of Least Effort" che, considerata la summa delle sue ricerche, è un testo in cui la genialità di base delle sue osservazioni resta offuscata da un'enorme quantità di nozioni triviali ed opinioni inopportune, come l'indagine sulla forma degli organi sessuali o la giustificazione dell'Anschlub dell'Austria in base ad un miglior accordo con le leggi da lui scoperte.

I risultati innovativi ottenuti erano in forte contrapposizione con le idee degli scienziati dell'epoca che non riconobbero mai il valore delle sue ricerche, a maggior ragione perché nel suo libro Zipf non fu in grado di interpretare tutte le osservazioni in un omogeneo quadro di lettura. L'influenza di Zipf sarebbe dunque stata destinata a un ruolo marginale, se non fosse che nei decenni successivi alla sua morte le scienze naturali (dalla fisica alla biologia) e le discipline umanistiche (dalla linguistica alla politica) hanno riconosciuto la veridicità delle sue affermazioni. Come Mandelbrot [5] ha giustamente fatto notare, in Zipf "si riconosce, in modo chiaro ed anche caricaturale, la straordinaria difficoltà che soggiace ad ogni approccio interdisciplinare".

Ma qual è stato dunque il lavoro di questo stravagante personaggio?
Zipf ha analizzato una mole di scritti in lingua inglese, conteggiando le volte che ogni parola era ripetuta; poi ha classificato le parole in ordine decrescente di conteggi ed infine ha rappresentato su un grafico il numero di conteggi in funzione della posizione in classifica. Fu così evidenziato che c'è una relazione ben precisa tra il punteggio di ogni parola e la relativa posizione in classifica: con una certa approssimazione, si può affermare che la seconda in classifica ha un numero di conteggi che è la metà del punteggio della prima; la terza ha 1/3 dei conteggi della prima; la quarta, 1/4 e così via. Questa è la celebre Legge di Zipf.

Ad esempio, un recente conteggio su un campione di 46449 articoli del Wall Street Journal anno '87, per un totale di circa 19 milioni di occorrenze, ha evidenziato che le prime 20 parole sono [6]:

the, of, to, a, in, and, that, for, is, said, it, on, by, as, at, mr, with, from, he, million,......

La legge di Zipf fu contrastata in ambiente scientifico perché appariva come uno schiaffo al cosiddetto "dogma gaussiano" che regnava indisturbato in virtù dei secoli di prestigio di cui aveva goduto grazie ai successi nelle scienze naturali (specialmente in fisica e chimica). Tuttavia essa è stata confermata negli anni in molti linguaggi: la maggioranza di lingue europee, inglese americano, inglese americano orale, inglese americano orale "adult-oriented", cinese, giapponese, ...Una lista completa di referenze può essere consultata nel sito di W. Li della Rockefeller University.

Quindi la legge di Zipf concerne le lingue scritte/parlate dall'uomo. In altri termini, se un testo fosse scritto disponendo parole in modo casuale, senza voler trasmettere un significato, la legge di Zipf non sarebbe valida, a favore della legge gaussiana; questo è quanto accade in certi fenomeni naturali (ad esempio soddisfa legge gaussiana la distribuzione delle velocità tra gli atomi di un gas). Dunque stiamo parlando di una legge inerente l'attività umana in quanto presuppone l'esistenza di un messaggio da trasmettere. Essa si applica cioè ad insiemi contenenti tantissimi oggetti (ad esempio 19 milioni di occorrenze) solo apparentemente casuali, essendo in realtà stati estratti da testi, quindi vincolati da regole estetiche, di sintassi e grammatica [7].

È chiaro che in quest'ottica la legge di Zipf può assumere un valore più generale, potendo essere estesa ad ogni attività umana in cui ci sia un messaggio sottinteso: ad esempio, statistiche analoghe valgono nei modelli di crescita urbana (classificando le città in base alla loro popolazione), previsioni di terremoti, sistemi di catalogazione bibliotecaria, traffico di Internet, strategie di marketing, metodi per intercettare evasori fiscali,... (vedi sito di W. Li). Non c'è da stupirsi perciò se certi fenomeni naturali, emersi a partire dagli anni '60, avvengono secondo leggi di tipo Zipf: essi sono detti fenomeni di scala ed investono la fisica, la biologia, la chimica,..e si può dunque affermare che solo apparentemente avvengano casualmente, recando in realtà un significato "nascosto".

3.2 Ridondanza

Vale la pena introdurre un'altra caratteristica dei linguaggi, di cui tra breve parleremo a proposito del DNA, che è la ridondanza. Con questo termine, in teoria della comunicazione si intende la parte di un messaggio (lettere, parole,..) che può essere eliminata senza sostanziale perdita di informazione; può essere perciò vista come una "generalizzazione" dell'omonima figura retorica. La ridondanza essenzialmente misura la "flessibilità" del linguaggio essendo proprio quest'ultima che fa sì che noi capiamo un testo anche quando ad esempio ci sono errori di stampa. Ovviamente in un messaggio composto di parole scelte a caso non v'è informazione e quindi neanche ridondanza; è anche vero in ogni modo che non tutti i linguaggi che portano un significato sono ridondanti, tipici esempi essendo i linguaggi di programmazione o il formalismo matematico. Vedremo tra breve linguaggi ridondanti e non nelle sequenze di DNA.

4. L'Analisi [8]

Il lavoro che presentiamo è frutto di una collaborazione tra fisici, chimici, medici e biologi statunitensi ed è stato pubblicato sull'autorevole Physical Review Letters. L'obiettivo della ricerca, che nasce dall'ipotesi che le zone non codificanti celino un linguaggio ancora incomprensibile, è duplice:

1. Verificare la legge di Zipf nelle sequenze codificanti e non del DNA;
2. "Misurare" la ridondanza di quelle stesse sequenze.

Il lavoro consiste nell'inserire sequenze note di DNA (e presenti in Banche Dati condivisibili da tutti gli interessati) come stringhe di caratteri in potenti elaboratori, ed analizzarle "alla Zipf", cioè conteggiando tutte le ripetizioni di parole identiche. Ovviamente, nel caso di regioni codificanti le sole parole che vengono contate sono le triplette; nelle regioni non codificanti invece la lunghezza delle parole è lasciata variare da un minimo di 3 a un massimo di 8 basi. Come controllo degli algoritmi usati, è stata eseguita un conteggio su una sequenza "veramente" casuale [9]: il risultato è che - giustamente - la legge di Zipf non è soddisfatta e anzi, tutte le parole hanno (circa) lo stesso conteggio.

Il risultato delle analisi sul DNA comunque è molto chiaro e non lascia spazio a dubbi: le zone non codificanti si adattano meglio alla legge di Zipf che non le parti codificanti. In altri termini, queste porzioni "silenti" di DNA in realtà somigliano ad un linguaggio naturale più di quanto non faccia il codice genetico!

Un'ulteriore conferma è data dalla ridondanza, quantitativamente misurata secondo l'approccio di Shannon, il padre della teoria dell'informazione, che ne scrisse una precisa definizione matematica in termini dell'entropia di un testo [10]. Ebbene, il risultato è che le zone non codificanti hanno una ridondanza molto più grande delle porzioni codificanti che, viceversa, hanno una ridondanza prossima a zero cioè non sono ridondanti (come la sequenza di controllo). Quest'ultime osservazioni sulle parti codificanti erano attese, infatti il codice genetico deve essere rigido, tendente a ottimizzare le risorse dell'organismo con essenziali e puntuali affermazioni; la ripetizione di una parola o un "errore di stampa" non devono essere ammessi in quanto potrebbero condurre a situazioni patologiche dell'organismo. La vera e propria novità di queste ricerche è invece l'evidenza che le regioni non codificanti di DNA condividono simili proprietà dei linguaggi. Quindi queste osservazioni sono consistenti con l'ipotesi di esistenza di uno (o più) linguaggi strutturati in queste porzioni di DNA, solo apparentemente silenti.

5. Conclusione

Molto (quasi tutto, in verità!) resta da capire sul DNA; eppure questi studi, se da un lato certamente mancano un po'di concretezza, dall'altro spingono più di altre la ricerca verso territori finora inimmaginabili. Linguisti, biologi e fisici tutt'oggi si avventurano in queste direzioni sperando di intravedere, tra le parole di linguaggi sconosciuti, le risposte che ci riserva la Natura.

1. Per un commento breve ma efficace sull'argomento, vedi: F. Acerbi "Riflessi Condizionali", Punti Critici 4 (2001), 105-122.
[torna al testo]

2. Sono debitore alla prof.essa Silvia Morante per questa acuta osservazione.
[torna al testo]

3. Alanina e Triptofano sono due amminoacidi, cioè due dei venti mattoni fondamentali con cui sono costruite le proteine. Notare che il codice genetico è degenere, cioè più parole hanno lo stesso significato.
[torna al testo]

4. Questa, e le altre informazioni biografiche su G. K. Zipf sono tratte dall'articolo di A. Bogomolny "Benford's law and Zipf's law", consultabile al sito http://www.cut-the-knot.com/do_you_know/zipfLaw.html (link attivo nel 2001).
[torna al testo]

5. B. Mandelbrot "The Fractal Geometry of Nature", Freeman&Co, 1983.
[torna al testo]

6. I dati sono tratti da una ricerca consultabile al sito http://hobart.cs.umass.edu/~allan/cs646-f97/char_of_text.html (link attivo nel 2001). In quella sede giustamente si scrive una versione della legge di Zipf leggermente più complicata rispetto a quella su enunciata; il senso tuttavia della legge è esattamente lo stesso.
[torna al testo]

7. Alla luce di questo sarebbe interessante analizzare certi testi di letteratura aleatoria o di avanguardie novecentesche, in cui le regole grammaticali sono messe in crisi, al fine di esaminare possibili deviazioni dalla legge di Zipf. Ad esempio, l'uso depresso di articoli e preposizioni negli scritti futuristi crea certamente sostanziali differenze rispetto agli articoli di un quotidiano.
[torna al testo]

8. R. N. Mantegna et al. "Linguistic Features of Noncoding DNA Sequences" Phys. Rev. Lett. 73 (1994), 3169-3172.
[torna al testo]

9. Si tratta di una sequenza binaria di 0 e 1.
[torna al testo]

10. L'entropia è una funzione fondamentale della fisica, che interviene quando si studiano insiemi statistici, contenenti cioè molti oggetti; essa esprime, in pratica, il livello di disordine che c'è in questo insieme.
[torna al testo]

Leonardo Gnesi (Pisa, 1974) insegna Fisica e Matematica in un Liceo Scientifico di provincia. Dottore di ricerca in fisica teorica, si qualifica meglio come jazzista improvvisato, rugbista da poltrona, viaggiatore contromano.

Seguici sui nostri canali: Telegram | Facebook | Instagram