di Leonardo Gnesi
Nella categoria: HOME | Letteratura e... altro
Esiste una "sana" interdisciplinarietà, in cui specifiche metodologie e prassi sono condivise tra distinti settori delle conoscenze, ancora prima di improbabili corrispondenze di contenuti e significati purtroppo perseguite nei più recenti progetti di riforma scolastica [1]. Questo scambio di idee e metodi tra diverse discipline allo scopo di affrontare determinati problemi, generalmente provvede nuove chiavi di lettura e rischiara strade percorribili di cui difficilmente ci saremmo altrimenti immaginati l'esistenza. L'esempio che vogliamo considerare in questo scritto concerne la linguistica, la biologia e la fisica (o meglio, la biofisica, una scienza interdisciplinare, per l'appunto, unita dalla biologia, dalla chimica e dalla fisica) ed in particolare un recente studio (1994) volto ad approfondire il ruolo di circa il 95% del DNA umano.
Il DNA è un acido presente in ogni cellula di ogni
essere vivente, ed è il responsabile di ogni processo vitale che
si compie negli organismi. Esso è composto di 4 sostanze (dette
"basi") le cui iniziali sono A,T,C,G; per i nostri fini, possiamo immaginare
che esse siano disposte in sequenza, come una stringa di caratteri, ad
esempio:
....ATCGCGATGATGCGAT TTGATCATGAAAAATAGA TAGATAACCCATTAGGA....
In ogni molecola di DNA vi sono milioni di sequenze di questo tipo, il
cui significato è -eccezion fatta per organismi estremamente semplici,
come i batteri- pressoché ignoto. La difficoltà nel capire
il ruolo di una così enorme quantità di basi e di un loro
specifico allineamento può essere paragonato [2]
alla difficoltà che noi occidentali potremmo avere ad esempio volendo
tradurre l'intero Corano dall'arabo. Infatti, non saremmo mediamente in
grado di riconoscere l'alfabeto, né il significato delle parole,
né la grammatica e la sintassi del linguaggio.
Davanti all'enorme testo scritto che è il DNA i biologi, nell'intento
di tradurlo, devono dunque affrontare il problema di capire:
1. quali sono le "parole", cioè quante basi occorrono per fare
una sequenza con una certa pur minima funzione;
2. qual è la "grammatica", cioè come tali sequenze funzionali
interagiscano tra loro al fine di governare un certo processo vitale;
3. persino qual è l'alfabeto, cioè se ad ogni "lettera"
corrisponde una singola base A,T,C,G o piuttosto un gruppo (coppie, triplette...)
di basi.
La sequenza di basi del DNA è composta di parti "codificanti" e
parti "non codificanti": nelle prime figurano soltanto parole di 3 basi
e quindi tutte le possibili parole (sono 43 = 64) sono state
studiate dai biologi che ne hanno costruito il corrispondente dizionario,
più familiarmente noto come Codice Genetico. In esso si contemplano
le corrispondenze tra ogni tripletta di basi e la corrispondente funzione,
ad esempio:
GCC,GCA,GCG,GCT --> costruire l'Alanina;
TGG --> costruire il Triptofano; [3]
....
"Sfortunatamente", le zone codificanti negli organismi evoluti (certamente
l'uomo, ma anche un modestissimo lievito di birra!) sono soltanto una
piccola percentuale del DNA totale: nell'uomo, ad esempio, solo il 5%.
Il restante 95% di DNA è non-codificante: si tratta infatti di
sequenze che non vengono tradotte col meccanismo delle triplette di basi
e che perciò appare "silente". Attualmente, sul ruolo di queste
larghe porzioni di DNA sono state fatte varie ipotesi, sembrando strano
infatti che la Natura, altrove così parsimoniosa, possa aver fornito
- o quanto meno, dimenticato - una tale quantità di materia, energia,
informazioni. Una delle ipotesi più interessanti è che le
zone non codificanti celino un linguaggio "naturale" ancora sconosciuto.
Per verificare la correttezza di questa ipotesi, mostreremo tra breve
come alcuni scienziati abbiano cercato di capire se tali sequenze soddisfano
alcuni requisiti fondamentali comuni ad ogni linguaggio esistente. È
bene comunque ricordare, per tenere la discussione ad un livello concreto,
che l'obiettivo di tradurre il DNA è, dato lo stato delle conoscenze
e delle ricerche attuali, del tutto irraggiungibile.
George Kingsley Zipf (1902-1950), americano, è stato
una figura molto controversa, e non a torto, del mondo accademico del
suo tempo [4]. Esperto di filologia
germanica, durante i venti anni di insegnamento a Harvard amava definirsi
un "ecologista umano statistico". Egli morì subito dopo aver pubblicato,
pare a sue spese, "Human Behaviour and the Principle of Least Effort"
che, considerata la summa delle sue ricerche, è un testo in cui
la genialità di base delle sue osservazioni resta offuscata da
un'enorme quantità di nozioni triviali ed opinioni inopportune,
come l'indagine sulla forma degli organi sessuali o la giustificazione
dell'Anschlub dell'Austria in base ad un miglior accordo con le leggi
da lui scoperte.
I risultati innovativi ottenuti erano in forte contrapposizione con le
idee degli scienziati dell'epoca che non riconobbero mai il valore delle
sue ricerche, a maggior ragione perché nel suo libro Zipf non fu
in grado di interpretare tutte le osservazioni in un omogeneo quadro di
lettura. L'influenza di Zipf sarebbe dunque stata destinata a un ruolo
marginale, se non fosse che nei decenni successivi alla sua morte le scienze
naturali (dalla fisica alla biologia) e le discipline umanistiche (dalla
linguistica alla politica) hanno riconosciuto la veridicità delle
sue affermazioni. Come Mandelbrot [5]
ha giustamente fatto notare, in Zipf "si riconosce, in modo chiaro
ed anche caricaturale, la straordinaria difficoltà che soggiace
ad ogni approccio interdisciplinare".
Ma qual è stato dunque il lavoro di questo stravagante personaggio?
Zipf ha analizzato una mole di scritti in lingua inglese, conteggiando
le volte che ogni parola era ripetuta; poi ha classificato le parole in
ordine decrescente di conteggi ed infine ha rappresentato su un grafico
il numero di conteggi in funzione della posizione in classifica. Fu così
evidenziato che c'è una relazione ben precisa tra il punteggio
di ogni parola e la relativa posizione in classifica: con una certa approssimazione,
si può affermare che la seconda in classifica ha un numero di conteggi
che è la metà del punteggio della prima; la terza ha 1/3
dei conteggi della prima; la quarta, 1/4 e così via. Questa è
la celebre Legge di Zipf.
Ad esempio, un recente conteggio su un campione di 46449 articoli del
Wall Street Journal anno '87, per un totale di circa 19 milioni di occorrenze,
ha evidenziato che le prime 20 parole sono [6]:
the, of, to, a, in, and, that, for, is, said, it, on, by, as, at, mr,
with, from, he, million,......
La legge di Zipf fu contrastata in ambiente scientifico perché
appariva come uno schiaffo al cosiddetto "dogma gaussiano" che regnava
indisturbato in virtù dei secoli di prestigio di cui aveva goduto
grazie ai successi nelle scienze naturali (specialmente in fisica e chimica).
Tuttavia essa è stata confermata negli anni in molti linguaggi:
la maggioranza di lingue europee, inglese americano, inglese americano
orale, inglese americano orale "adult-oriented", cinese, giapponese, ...Una
lista completa di referenze può essere consultata nel sito di W.
Li della Rockefeller University.
Quindi la legge di Zipf concerne le lingue scritte/parlate dall'uomo.
In altri termini, se un testo fosse scritto disponendo parole in modo
casuale, senza voler trasmettere un significato, la legge di Zipf non
sarebbe valida, a favore della legge gaussiana; questo è quanto
accade in certi fenomeni naturali (ad esempio soddisfa legge gaussiana
la distribuzione delle velocità tra gli atomi di un gas). Dunque
stiamo parlando di una legge inerente l'attività umana in quanto
presuppone l'esistenza di un messaggio da trasmettere. Essa si applica
cioè ad insiemi contenenti tantissimi oggetti (ad esempio 19 milioni
di occorrenze) solo apparentemente casuali, essendo in realtà stati
estratti da testi, quindi vincolati da regole estetiche, di sintassi e
grammatica [7].
È chiaro che in quest'ottica la legge di Zipf può assumere
un valore più generale, potendo essere estesa ad ogni attività
umana in cui ci sia un messaggio sottinteso: ad esempio, statistiche analoghe
valgono nei modelli di crescita urbana (classificando le città
in base alla loro popolazione), previsioni di terremoti, sistemi di catalogazione
bibliotecaria, traffico di Internet, strategie di marketing, metodi per
intercettare evasori fiscali,... (vedi sito di W.
Li). Non c'è da stupirsi perciò se certi fenomeni naturali,
emersi a partire dagli anni '60, avvengono secondo leggi di tipo Zipf:
essi sono detti fenomeni di scala ed investono la fisica, la biologia,
la chimica,..e si può dunque affermare che solo apparentemente
avvengano casualmente, recando in realtà un significato "nascosto".
Vale la pena introdurre un'altra caratteristica dei linguaggi, di cui tra breve parleremo a proposito del DNA, che è la ridondanza. Con questo termine, in teoria della comunicazione si intende la parte di un messaggio (lettere, parole,..) che può essere eliminata senza sostanziale perdita di informazione; può essere perciò vista come una "generalizzazione" dell'omonima figura retorica. La ridondanza essenzialmente misura la "flessibilità" del linguaggio essendo proprio quest'ultima che fa sì che noi capiamo un testo anche quando ad esempio ci sono errori di stampa. Ovviamente in un messaggio composto di parole scelte a caso non v'è informazione e quindi neanche ridondanza; è anche vero in ogni modo che non tutti i linguaggi che portano un significato sono ridondanti, tipici esempi essendo i linguaggi di programmazione o il formalismo matematico. Vedremo tra breve linguaggi ridondanti e non nelle sequenze di DNA.
Il lavoro che presentiamo è frutto di una collaborazione
tra fisici, chimici, medici e biologi statunitensi ed è stato pubblicato
sull'autorevole Physical Review Letters. L'obiettivo della ricerca, che
nasce dall'ipotesi che le zone non codificanti celino un linguaggio ancora
incomprensibile, è duplice:
1. Verificare la legge di Zipf nelle sequenze codificanti e non del DNA;
2. "Misurare" la ridondanza di quelle stesse sequenze.
Il lavoro consiste nell'inserire sequenze note di DNA (e presenti in Banche
Dati condivisibili da tutti gli interessati) come stringhe di caratteri
in potenti elaboratori, ed analizzarle "alla Zipf", cioè conteggiando
tutte le ripetizioni di parole identiche. Ovviamente, nel caso di regioni
codificanti le sole parole che vengono contate sono le triplette; nelle
regioni non codificanti invece la lunghezza delle parole è lasciata
variare da un minimo di 3 a un massimo di 8 basi. Come controllo degli
algoritmi usati, è stata eseguita un conteggio su una sequenza
"veramente" casuale [9]: il risultato
è che - giustamente - la legge di Zipf non è soddisfatta
e anzi, tutte le parole hanno (circa) lo stesso conteggio.
Il risultato delle analisi sul DNA comunque è molto chiaro e non
lascia spazio a dubbi: le zone non codificanti si adattano meglio alla
legge di Zipf che non le parti codificanti. In altri termini, queste porzioni
"silenti" di DNA in realtà somigliano ad un linguaggio naturale
più di quanto non faccia il codice genetico!
Un'ulteriore conferma è data dalla ridondanza, quantitativamente
misurata secondo l'approccio di Shannon, il padre della teoria dell'informazione,
che ne scrisse una precisa definizione matematica in termini dell'entropia
di un testo [10]. Ebbene, il risultato
è che le zone non codificanti hanno una ridondanza molto più
grande delle porzioni codificanti che, viceversa, hanno una ridondanza
prossima a zero cioè non sono ridondanti (come la sequenza di controllo).
Quest'ultime osservazioni sulle parti codificanti erano attese, infatti
il codice genetico deve essere rigido, tendente a ottimizzare le risorse
dell'organismo con essenziali e puntuali affermazioni; la ripetizione
di una parola o un "errore di stampa" non devono essere ammessi in quanto
potrebbero condurre a situazioni patologiche dell'organismo. La vera e
propria novità di queste ricerche è invece l'evidenza che
le regioni non codificanti di DNA condividono simili proprietà
dei linguaggi. Quindi queste osservazioni sono consistenti con l'ipotesi
di esistenza di uno (o più) linguaggi strutturati in queste porzioni
di DNA, solo apparentemente silenti.
Molto (quasi tutto, in verità!) resta da capire sul DNA; eppure questi studi, se da un lato certamente mancano un po'di concretezza, dall'altro spingono più di altre la ricerca verso territori finora inimmaginabili. Linguisti, biologi e fisici tutt'oggi si avventurano in queste direzioni sperando di intravedere, tra le parole di linguaggi sconosciuti, le risposte che ci riserva la Natura.
Vuoi pubblicare un articolo o una recensione?
Scopri come collaborare con noi
Rosario Frasca
VAI AL BLOG
Rosella Rapa
VAI AL BLOG
Davide Morelli
VAI AL BLOG
Elio Ria
VAI AL BLOG
Anna Stella Scerbo
VAI AL BLOG
Anna Lattanzi
VAI AL BLOG