Se la tecnologia diventa più veloce dell'uomo - Fondazione PER
19534
post-template-default,single,single-post,postid-19534,single-format-standard,theme-bridge,bridge-core-2.0.5,woocommerce-no-js,ajax_fade,page_not_loaded,,qode-title-hidden,columns-4,qode-child-theme-ver-1.0.0,qode-theme-ver-21.0,qode-theme-bridge,qode_header_in_grid,wpb-js-composer js-comp-ver-6.0.5,vc_responsive,cookies-not-set

Se la tecnologia diventa più veloce dell’uomo

di Ernesto Hofmann

 

Nell’autunno del 2018 il noto editorialista del New York Times, e tre volte premio Pulitzer, Thomas Friedman,  aveva esaminato, in una Compton Lecture tenuta presso il Massachusetts Institute of Technology, i problemi e le opportunità derivanti da una società in continuo mutamento (sul questo tema esiste anche il libro dello stesso Friedman, Grazie per essere arrivato tardi)

Friedman aveva affermato  che  i rapidi e radicali cambiamenti nella vita moderna stanno imponendo nuove sfide alla società e al tempo stesso stanno  anche creando nuove opportunità, e aveva aggiunto come attualmente si sia nel mezzo di  potenti accelerazioni in tre fondamentali forze evolutive, che lo stesso Friedman  indicava come il mercato, Madre Natura e la legge di Moore.

Il mercato  è sostanzialmente la globalizzazione, ma non la globalizzazione di suo nonno, fatta di  container su navi e aerei. Cosa sta effettivamente unendo il mondo è la  globalizzazione digitale attuata attraverso sistemi quali  Facebook, MOOC, Twitter e PayPal…

Madre Natura per Friedman è il cambiamento climatico, è la perdita di biodiversità, è la vertiginosa crescita della popolazione nel mondo in via di sviluppo.

E, infine, l’ultima accelerazione è la ben nota legge di Moore, formulata oltre 50 anni fa, secondo la quale il numero di transistor su di un microchip sarebbe raddoppiato ogni due anni, sebbene il costo venisse dimezzandosi; legge che  tuttora sembra valida, anche se sono ripetutamente apparsi articoli secondo i quali essa sia  morente.

La tecnologia sta ora accelerando a un ritmo del quale l’essere umano medio non può tenere il passo”, aveva  aggiunto Friedman, sottolineando così il tema chiave del suo discorso.

Nell’intervento di Friedman, tuttora disponibile su Youtube, si nota un certo entusiasmo  e persino un cauto ottimismo, oserei dire quasi illuminista, qualcosa che potremmo indicare come una certa fiducia nel progresso.

Questo articolo esaminerà soprattutto gli aspetti legati alle probabili innovazioni nel campo dell’Information Technology (riprendendo anche il tema della legge di Moore) perché esse potrebbero giustificare, almeno in parte, tale ottimismo.

 

L’ineludibilità  della tecnologia

Quello che sembra emergere da quanto detto da Friedman è una sorta di ineludibilità della tecnologia che, pur evolvendosi ad apparente nostro vantaggio, può comunque presentare preoccupanti incognite di varia natura, dai cambiamenti climatici, alla riduzione delle risorse, a una diffusa disoccupazione.

Sembra che la tecnologia, come proposto dal titolo dell’articolo, abbia in sé qualcosa di inesorabile, quasi di incontrollabile, e che si diffonda persino al di là delle intenzioni della mente che ne ha progettato un particolare aspetto.

Qual è allora la natura della tecnologia e cosa la rende così “aggressiva” ?  Forse l’intimo rapporto che esiste tra lei e la biologia, della quale sembra essere quasi un’estensione.

Le più significative scoperte della biologia sono avvenute dopo le grandi rivoluzioni della fisica, da Newton, a Maxwell, alla relatività di Einstein, alla meccanica quantistica.

Dalla prima completa descrizione e interpretazione del DNA (molecola scoperta nel 1869 dal biologo Friedrich  Miescher), avvenuta nel 1953, si è cominciato a comprendere molto meglio come funzionino i meccanismi biologici.

Oggi noi sappiamo che una cellula biologica, come un computer, è costituita di molteplici moduli che in generale si scambiano un qualcosa che potremmo genericamente definire “informazione”.

Avremmo bisogno di conoscere molto bene i diversi modi in cui si comportano i vari moduli, unitamente alle leggi che li governano, soprattutto quando si aggregano per formare sistemi complessi. Basti pensare intuitivamente alle biomolecole che costituiscono una cellula biologica. E ciò per combatterne gli innumerevoli malfunzionamenti, spesso causa di gravi malattie.

Comunque fin da subito ci imbattiamo in una domanda ancora senza risposta: cos’è realmente la vita? Cosa distingue una macchina da un vivente? E perchè, poi, l’umanità sta costruendo macchine di ogni tipo? Domanda che poi si trasforma nel tema della natura della tecnologia.

Iniziamo la nostra breve analisi, come spesso si dice,  dal basso.

Al livello più basso, in un’ideale scala di  complessità, tutta la materia esistente nell’universo è un incommensurabile aggregato di atomi, di particelle che costituiscono gli atomi, e di radiazione. A sua volta questo enorme aggregato si può condensare, in qualche parte più e meno altrove, in aggregati più piccoli (stelle, pianeti, forme biologiche,…) per formare innumerevoli entità, di cui la più complessa è forse il cervello umano.

Un aspetto assolutamente fondamentale è che non si può comprendere il comportamento di tali aggregati di particelle elementari facendo soltanto riferimento alle leggi della fisica che governano particelle  considerate isolatamente.

Sembra ormai evidente che a ogni livello di complessità  di tali aggregati appaiano nuove proprietà e nuovi comportamenti.

La cosa più sorprendente è ovviamente l’apparizione della vita, perchè è tuttora un grande mistero  come essa possa nascere dalle attuali leggi della fisica.

Queste ultime descrivono come debbano comportarsi certe entità: ma in esse non c’è nulla di finalistico. Non c’è traccia di alcun progetto. Ciononostante dalla materia cosidetta inerte può nascere la vita,  che è intrinsecamente progettuale. Il cuore serve per far scorrere il sangue, che trasporta l’ossigeno, che serve alle cellule per scomporre lo zucchero e generare le molecole di ATP,  che sono la moneta biologica corrente per la gestione dell’energia.

La  manifestazione più misteriosa di questo apparente salto è proprio la coscienza umana, la quale finisce essa stessa col cercare i  principi che la generano, quasi come in un gioco di specchi.

Negli ultimi decenni si è poi compreso  che vi sono stati di aggregazione apparentemente molto diversi per i quali esiste un meccanismo che permette di passare dall’uno all’altro.

Dobbiamo ancora aggiungere che nella modularità delle cellule biologiche sono nascosti non solo i principi di funzionamento delle cellule stesse  ma anche quelli della loro replicazione, che però  mancano del tutto in una struttura complessa e modulare come il computer.

Nella replicazione è evidentemente celato il mistero della vita, tanto più che tale meccanismo non richiede particolari leggi fisiche diverse da quelle ben note, e quindi porre l’asticella della vita diventa ancora più complicato di quanto si immagini.

Un esempio eclatante è proprio la recente pandemia di Covid: il virus da solo non può sopravvivere ed è perennemente in cerca di cellule che gli possano fornire i moduli biologici che gli mancano per replicarsi. Ciononostante può dilagare.

E cosa  permette di fare questo salto dall’inanimato all’animato, dal senza scopo al finalistico? Non c’è ancora una risposta.

Però possiamo riflettere sul fatto che salti di complessità, non così vistosi come da inanimato ad animato, esistono già nel mondo inanimato.

Negli scorsi  decenni si è scoperto che nel passaggio da un livello di complessità fisica a un altro molto spesso  accade un qualcosa che è stato denominato “rottura della simmetria”.

La simmetria è un principio fondamentale per la comprensione e la descrizione dei fenomeni naturali. Le leggi di conservazione della fisica, come la conservazione della quantità di moto e dell’energia, discendono  da simmetrie nello spazio e nel tempo.

In generale il meccanismo che governa la rottura  della simmetria  facilita la comprensione di come un livello “superiore” di organizzazione dipenda da uno “inferiore”. 

Per capire più concretamente, e in modo abbastanza semplice,  come da uno stato di una certa complessità fisica si possa passare a un altro, apparentemente del tutto diverso, in funzione della rottura della simmetria, potremmo pensare alla magia dei  cristalli di neve.

Nell’acqua, allo stato liquido, le molecole sono disposte in modo disordinato ma omogeneo: comunque  noi ci dovessimo spostare, per esempio durante una nuotata in mare, ci troveremmo costantemente in un liquido che ha sempre  le stesse proprietà di simmetria. L’acqua intorno a noi, da qualunque angolo la guardassimo, apparirebbe identica: esiste perciò una simmetria per traslazione.

Quando però l’acqua si ghiaccia in un cristallo di neve nasce una diversa simmetria: nei cristalli di  di neve  le molecole d’acqua sono disposte secondo una simmetria esagonale. La simmetria originale si è quindi rotta. 

Ci sono rotture di simmetria molto più complesse, che richiedono rigorose analisi matematiche e che generano fenomeni quanto mai sorprendenti.

Accenneremo al computer quantistico e al fatto che Google e IBM abbiano adottato una strategia costruttiva basata sulla superconduttività, che nasce proprio da una rottura di simmetria nel comportamento degli elettroni,  rottura per la quale si modificano   le  potenziali correnti elettriche che  possono venirsi a costituire in un circuito superconduttivo a seguito della scomparsa della resistenza elettrica del circuito stesso.

Riprendiamo allora in esame la vita la quale, come i virus, è virulenta, ossia cerca di replicarsi nelle sue varie forme e utilizza quanto può,  ovunque e al meglio.

Questa sua virulenza ci fa sospettare che proprio nei meccanismi biologici si annidi quel qualcosa che rende le tecnologie così invasive, quasi che esse costituiscano un’estensione della stessa biologia.

Pensare alla rottura di una qualche simmetria che faccia trasformare la biologia in tecnologia  sarebbe fin troppo azzardato, ma non c’è dubbio che per diversi aspetti la tecnologia sembra replicare molti dei comportamenti della biologia, e tra questi soprattutto l’invasività, che abbiamo definito ineludibilità.

Indiscutibilmente la tecnologia in molte aree si sta evolvendo a un ritmo assai elevato. Ed è proprio la molteplicità delle innovazioni nei settori più disparati che ne rende difficile quella visione complessiva cui accennava Friedman.

Non è nemmeno il caso di fare un elenco delle innovazioni più significative, ma è fuor di dubbio che l’Information Technology, e la tecnologia in generale,  stiano vivendo, più che un’evoluzione, oseremmo dire una vera e propria trasformazione.

In un certo senso, poichè entrambe vivono di quella poliedrica entità che è l’informazione, è proprio nell’esplosività di nuove classi di dati che si annida un nuovo livello di invasività tecnologica.

 

Big Data, nuovi algoritmi e nuovi computer

Il neologismo Big Data proprio questo sta a indicare. Semplificando al massimo possiamo dire che i Big Data sono archivi di dati elettronici molto più grandi e complessi rispetto a quelli tradizionali, e così voluminosi che i tradizionali software di elaborazione non sono in grado di gestirli.

Il ruolo di Big Data nella comprensione di un meccanismo, sia esso biologico, economico o di fisica, non solo si sta rivelando fondamentale, ma lo è stato anche nel passato sebbene non se ne fosse realmente percepita l’importanza.

Il biologo, premio Nobel, Paul Nurse racconta in What is Life che nel 1981 era andato a visitare l’abbazia agostiniana di San Tommaso,  a Brno,  dove Gregor Mendel aveva eseguito le sue rivoluzionarie ricerche sull’ereditarietà nelle piante di  piselli.

Mendel aveva ben compreso che avrebbe avuto bisogno di una grande quantità di dati per scoprire se esistessero degli schemi (pattern) ereditari significativi.

Arrivò così a utilizzare fino a 10000 piante di piselli in un giardino che lo stesso Nurse vide e definì “surprisingly big”. Oggi potremmo dire che Mendel è stato anche un precursore di Big Data!

Il ruolo dei dati si sta dimostrando e si dimostrerà ancora più importante, soprattutto nelle sempre più complesse applicazioni di intelligenza artificiale, che vedremo meglio più avanti.

Non ci sono poi solo i dati; occorrono anche nuovi algoritmi e circuiti atti a eseguirli sempre più velocemente.

In sostanza potremmo dire che per quanto riguarda l’accelerazione tecnologica, cui  Friedman indirettamente accenna citando la legge di Moore, la parte relativa alla sola Information Technology si sviluppa in questo momento soprattutto lungo tre direttrici fondamentali: il computer quantistico, il Deep Learning, e nuove complesse tecniche costruttive dei chip.

 

– il computer quantistico

Non è questa la sede nella quale affrontare un tema impegnativo come il computer quantistico. L’idea di creare un simile computer risale ormai a oltre 40 anni fa e la sua costruibilità si è rivelata subito molto complicata.

Quello che è avvenuto alla fine del secolo scorso è stata la creazione di alcuni algoritmi che utilizzano la logica quantistica, apparentemente ambigua rispetto a quella classica, per ottenere (teoricamente) un tempo di elaborazione molto inferiore rispetto a quello di un algoritmo classico atto a risolvere lo stesso problema.

Occorreva peraltro un supporto fisico sul quale eseguire quantisticamente alcune operazioni e ciò si è rivelato molto più arduo da ottenere.

Comunque nel corso degli ultimi due decenni sono stati compiuti enormi progressi nella creazione di unità quantistiche di elaborazione che utilizzano differenti meccanismi tipici della meccanica quantistica.

Alcuni tra i leader dell’informatica, come Google e IBM, hanno deciso di puntare sulla superconduttività e stanno ottenendo significativi successi con i loro primi prototipi di computer quantistico.

Potremmo, in maniera forse azzardata, immaginare che entro l’attuale decennio alcuni di  questi computer saranno disponibili sul mercato per eseguire algoritmi abbastanza circoscritti dal punto di vista applicativo, ossia non di uso generale.

Intanto il computer tradizionale non dorme, anzi. Con i telefoni cellulari si è arrivati ormai a possedere nel palmo di una mano un computer più potente di quello che veniva utilizzato nel 1969 dal modulo di atterraggio lunare.

I supercomputer sono arrivati a eseguire una quantità di istruzioni apparentemente straordinaria,  ancorchè tuttora insufficiente per affrontare problemi che in Natura vengono risolti quasi istantaneamente.

 

– le esigenze applicative 

Se c’è un problema di fondamentale importanza che da tempo andava risolto, a beneficio dell’intera umanità, è quello del cosiddetto ripiegamento delle proteine.

Le proteine sono nanomacchine complesse che svolgono la maggior parte dei compiti negli esseri viventi interagendo costantemente tra loro, e una media cellula ne contiene diverse decine di  milioni.

Com’è ormai noto ai più, da un gene vengono estratte delle informazioni sotto forma di RNA che esce dal nucleo della cellula e viene intercettato nel citoplasma da un cosiddetto ribosoma, il quale ultimo, leggendo la sequenza molecolare dell’RNA, costruisce un’altra sequenza utilizzando gli aminoacidi presenti nel citoplasma stesso.

Ne nasce come un filo di perline, con gli aminoacidi che svolgono il ruolo delle perline. Tra tutte queste molecole nascono delle interazioni elettromagnetiche che fanno si che il filo si riavvolga in un modo molto complicato dando origine a una struttura tridimensionale, che è una proteina: un mattone fondamentale della vita. La forma della proteina è assolutamente determinante per le interazioni cui sarà soggetta.

Se tuttavia una proteina dovesse raggiungere la sua corretta configurazione campionando sequenzialmente tutte le possibili conformazioni, ciò richiederebbe un tempo più lungo dell’età dell’universo. E’ questo il senso del famoso paradosso di Levinthal, che nasce proprio dall’osservazione che la maggior parte delle proteine si ripiega spontaneamente in pochi millisecondi o addirittura microsecondi.

Comprendere i meccanismi del ripiegamento delle proteine ci permetterebbe di progettare nuove classi di farmaci che potrebbero persino sostituire le proteine che non funzionano correttamente o  arrivare a comprendere le cause di malattie che sono correlate a proteine deformi.

Teoricamente si potrebbero modellare le interazioni tra le varie molecole del filo e cercare di far costruire graficamente la proteina da un computer per verificarne la forma. Ma da decenni questo problema è stato al di là della capacità di calcolo dei più potenti supercomputer.

Eppure Google, quasi a sorpresa,  a dicembre 2020 ha annunciato di esserci riuscita. Come? Proprio usando un complesso algoritmo di Intelligenza Artificiale denominato AlphaFold.

Quest’ultimo, in molteplici test,  ha mostrato nelle previsioni sulle proteine umane  “un’elevata affidabilità” nel 36 % dei casi,  e un certo livello di affidabilità nel 58% dei casi.

Esistono ormai tecniche algoritmiche del tutto innovative, come il Deep Learning (cui accenneremo più avanti) che, con l’ausilio di un opportuno hardware (che poi è nient’altro che quello di gestione delle immagini dei videogiochi, ossia tipo Nvidia), possono far fare dei salti di qualità straordinari nell’elaborazione di specifici modelli previsionali.

Simili tecniche vengono oggi adottate anche in un contesto  al momento di cruciale importanza:  quello dei virus.

Uno dei motivi per cui è così difficile produrre vaccini efficaci contro alcuni virus, quale anche l’ormai tristemente noto SARS-CoV-2, è che questi virus possono mutare molto rapidamente e tale meccanismo di “fuga virale” consente loro di eludere gli anticorpi generati da un particolare vaccino.

Un complesso algoritmo, originariamente sviluppato per analizzare il linguaggio, frutto di una ricerca dell’MIT, potrebbe prevedere quali sezioni delle proteine di un virus abbiano maggiori probabilità di mutare in una forma tale  da permettere una fuga virale, e potrebbe anche identificarne le sezioni che hanno meno probabilità di mutare.

Affinché le mutazioni virali favoriscano l’evasione immunitaria, esse devono aiutare il virus a cambiare la forma delle sue proteine di superficie, così che gli anticorpi non possano più legarsi a esse. Tuttavia, la proteina non può modificarsi in un modo che alteri negativamente la sua funzione. 

Nelle più recenti tecniche di modellazione del linguaggio viene esaminata la frequenza con cui certe parole ricorrono insieme più spesso. Diventa così possibile prevedere quali parole potrebbero essere utilizzate per completare una specifica frase.

Si sa che Flaubert a volte impiegava anche tre giorni per perfezionare una sola frase trovando la parola perfetta: le mot juste. E anche il virus del Covid deve completare molto abilmente una specifica sequenza di nucleotidi per creare una proteina spike (quella ormai famosa per le sue punte), atta a eludere il sistema immunitario, ma ancorchè efficace.

La parola scelta (ossia il nucleotide) deve al tempo stesso essere grammaticalmente corretta (sintassi) ma anche mantenere il giusto significato (semantica), ossia consentire al virus di agire. I nucleotidi, ricordiamo, sono le unità ripetitive costitutive degli acidi nucleici (DNA e RNA). Pertanto, una mutazione che consenta la fuga virale deve mantenere la grammaticalità della sequenza, ma modificare la struttura della proteina in modo utile.

Il virus, in sostanza, deve preservare l’infettività e l’idoneità evolutiva, obbedendo a una vera e propria grammatica “di regole biologiche”.

Ecco allora emergere il ruolo degli algoritmi di Deep Learning, che nei test condotti dall’MIT hanno modellato, ossia simulato su computer, il modo in cui la fuga virale può essere ottenuta mediante mutazioni che, pur mantenendo la semantica biologica che crea l’infettività virale, alterano la sintassi del virus, il quale diventa così non più riconoscibile dal sistema immunitario.

Questa breve analisi ci porta quasi naturalmente al tema del Deep Learning.

 

– il Deep Learning 

Friedman enfatizza giustamente la legge di Moore, ma sembra dimenticare che in parallelo un’altra legge, in realtà inesistente,  potrebbe indicare un analogo percorso di crescita per gli algoritmi, che in definitiva sono il cuore della modellazione e quindi delle analisi di un fenomeno.

Il recondito obiettivo dell’Information Technology è quello di emulare, e persino perfezionare, le capacità del ragionamento umano. E i nostri neuroni, come i chip, sembrano proprio eseguire complessi algoritmi.

La cosiddetta Intelligenza Artificiale è nata con questo scopo, ossia creare modelli algoritmici in grado di risolvere quasi autonomamente un determinato problema. 

Per molto tempo tuttavia la creazione di  un sistema di apprendimento automatico ha richiesto una complessa  progettazione e anche grande esperienza nello specifico dominio conoscitivo,  per arrivare a creare algoritmi in grado trasformare i grezzi dati forniti al computer in un qualcosa che potesse poi essere utilizzato per formulare delle ipotesi utilizzabili, come per esempio il riconoscimento  di un  volto.  

Nel corso degli ultimi decenni il sempre più intenso susseguirsi di ricerche ha permesso però di costruire degli algoritmi di apprendimento automatico più efficienti, che da un’iniziale famiglia, complessivamente denominata machine learning, si è successivamente perfezionata in una metodologia molto più complessa, denominata Deep Learning.

Per spiegare in modo semplice cosa sia il Deep Learning iniziamo con un banale esempio di machine learning: dati due parametri (altezza e peso) individuare il sesso di una persona. Comprendendo l’essenza del machine learning sarà facile intuire cosa possa essere il Deep Learning.

Una rete neurale tipica del machine learning è costituita da neuroni artificiali e riceve in ingresso determinati valori dai quali deve estrarre una valutazione complessiva.

Supponiamo quindi che in ingresso alla nostra rete neurale  ci siano due neuroni che ricevono rispettivamente le due informazioni numeriche (in cm e kg), altezza e peso.

A loro volta questi due neuroni sono collegati con altri due, e ciascuno dei due primi neuroni ha un collegamento con ciascuno dei secondi due neuroni. A loro volta i secondi due neuroni si collegano con un neurone finale che produrrà la risposta: 1 per donna e 0 per uomo. 

In sostanza avremo quattro collegamenti tra le prime due coppie e due collegamenti della seconda coppia con il neurone finale. Non è difficile da immaginare.

I valori che transitano attraverso i collegamenti vengono moltiplicati ciascuno per un opportuno peso (numerico). Quindi i  valori in ingresso (altezza e peso) in modo incrociato, per ciascuna persona vengono sommati nei  due neuroni intermedi da cui escono attraverso una  cosiddetta funzione sigmoide, che ha il compito di limitare il valore ottenuto tra 0 e 1.

Ipotizziamo di scegliere all’inizio dei pesi a caso, e che i pesi scelti per i primi 4 collegamenti  siano p1, p2, p3, p4.

I valori che escono dalla seconda coppia di  neuroni entrano nell’ultimo neurone, dove vengono di nuovo sommati, dopo essere stati prima moltiplicati anch’essi ciascuno per un opportuno peso, pure scelto a caso (p5, p6).

Il risultato viene poi  normalizzato da una sigmoide. A questo punto otterremo un valore tra 0 e 1. Se avessimo allora una sequenza in ingresso del tipo “donna, uomo, uomo , donna” i quattro valori  successivamente in uscita dovrebbero essere 1,0,0,1.

Immaginiamo invece di ottenere, con i pesi scelti a caso, la sequenza:  0,0,0,0

Tale risultato è, in questo esempio, del tutto teorico. Non abbiamo eseguito alcun calcolo preciso con pesi e altezze, ma abbiamo solo immaginato che a fronte di pesi scelti a caso sorga una situazione come quella che descriviamo. Eseguendo i calcoli con vere altezze e veri pesi otterremmo certamente valori differenti. Ma questo esempio ci serve per introdurre il fondamentale meccanismo di retropropagazione.

Se usiamo il metodo del cosiddetto errore quadratico medio (mean squared error: MSE) , ossia la discrepanza quadratica media fra il reale tipo di sesso e quello stimato dall’algoritmo del nostro esempio, otteniamo un MSE = 0,5 e non a 0, come avremmo dovuto ottenere in caso di coincidenza tra vero e ottenuto. Che fare?

Tornare indietro e modificare i pesi tante volte fin quando lo MSE è molto vicino a zero. In questo modo la rete neurale incomincia ad imparare dai propri errori (che sono poi i pesi errati). Come modificare i pesi? A mano, ossia riprogrammando l’algoritmo? Giammai! Un algoritmo, descritto per la prima volta nel 1974 da Paul Werbos nella sua tesi di dottorato, e quindi perfezionato nel 1986 da Geoffrey Hinton (e altri), farà il lavoro per noi.

Durante l’addestramento di una rete neurale l’obiettivo, a questo punto facilmente intuibile, è quello di individuare i pesi che producano il minimo valore dell’errore quadratico medio, ossia che generino risposte della rete neurale corrispondenti alla realtà.

Tale meccanismo è stato denominato backpropagation (retropropagazione) perché nella rete neurale l’algoritmo procede all’indietro modificando i vari pesi partendo dagli ultimi e muovendosi verso i primi.

L’algoritmo di retropropagazione continuerà fino a quando non raggiungerà il punto in cui l’errore quadratico medio è al suo valore minimo.

A questo punto la rete è stata, per così dire, ben allenata e può essere utilizzata per effettive analisi.

Quanto descritto è ovviamente supersemplificato, ma può dare una prima idea intuitiva di come le reti neurali apprendano. E soprattutto può far intuire che sarà il computer a fare tutti i calcoli necessari, e sono tantissimi, per ottenere il minimo errore quadratico medio. Ma la funzione è ormai totalmente automatizzata.

E qui occorre aggiungere qualcosa di molto importante e che potrebbe sfuggire a una prima lettura. Abbiamo detto che per allenare la rete i risultati che produce devono essere confrontati con quelli veri, nel caso proposto due donne e due uomini, con la sequenza 1,0,0,1.

Detto in altri termini, se vengono introdotti i dati (altezza e peso) di una donna la rete deve produrre un 1, altrimenti uno 0.

Allora ci potremmo chiedere:  all’inizio dell’allenamento chi ha fornito alla rete i dati di confronto che serviranno poi a impostare i pesi con la retropropagazione?

Esistono essenzialmente due approcci. Le reti neurali supervisionate  costruiscono la conoscenza dai dati che vengono forniti per istruirle, e imparano stabilizzandosi progressivamente e aumentando così l’accuratezza delle loro previsioni.  Peraltro v’è  anche la possibilità di creare reti neurali non-supervisionate in grado di individuare direttamente delle  somiglianze all’interno di un insieme di dati in ingresso,  e creando così autonomamente dei modelli (pattern) con i quali poter fare delle previsioni.

Per  garantire una rappresentazione significativa è tuttavia necessario che le caratteristiche desiderate siano isolate e riorganizzate “in più livelli gerarchici di estrazione” (ossia più schiere di neuroni), motivo per cui sono necessarie reti profonde (deep) che, grazie ai molteplici strati (ovvero schiere di neuroni artificiali) e alla correzione sistematica dei pesi neurali, consentano di raggiungere classificazioni sufficientemente precise.

Per comprendere, almeno elementarmente, come funzioni una rete Deep Learning occorre fare alcune riflessioni.

Abbiamo detto che nel machine learning i dati in ingresso (altezza e peso, nel nostro semplice esempio) vengono moltiplicati per dei pesi, prima di essere passati alla prima schiera di neuroni artificiali, che nel nostro esempio sono due. Qui avviene una prima operazione lineare, ossia i dati in ingresso vengono moltiplicati per dei pesi opportunamente scelti,  e quindi sommati.

Linearità vuol dire che al variare dei dati in ingresso, ed eventualmente  dei pesi, i risultati si dispongono lungo una retta.

Poi il risultato viene “normalizzato” da una funzione sigmoide che ha il compito di limitare  il risultato stesso tra 0 e 1,  e che graficamente trasforma la retta, di cui sopra, in una curva che ha vagamente la forma di una s.

L’operazione sui dati in ingresso si è così trasformata in un’operazione non lineare: si può matematicamente dimostrare che la non linearità delle operazioni aumenta l’accuratezza del risultato finale.

In una rete neurale Deep Learning si viene così a creare come una gerarchia di informazioni  che si evolvono verso un qualcosa che potremmo definire come un’astrazione.

Per cercare di comprendere meglio questo fondamentale meccanismo pensiamo al riconoscimento di un’immagine, processo che avviene  anche nel nostro cervello.

Al computer che ospita l’applicazione di Deep Learning viene proposta un’immagine, ma come? Essa è in realtà un brutale aggregato  di numeri disposti secondo una matrice.

Le caratteristiche che una singola schiera di neuroni  estraggono più facilmente sono bordi e macchie. Con una sequenza di operazioni che avvengono nelle schiere successive si cominciano a distinguere sempre meglio i tratti di un volto.

Le diverse schiere sono opportunamente progettate (e anche denominate).

E attualmente tale metodologia di riconoscimento facciale viene anche utilizzata in diversi aeroporti internazionali in luogo del passaporto.

Ma ciò non deve stupire. 

Abbiamo detto che la tecnologia sta diventando un’estensione della biologia. Ebbene, sembra che il  cervello umano operi in modo non del tutto dissimile. La prima schiera di neuroni, che riceve informazioni nella corteccia visiva primaria, è sensibile a specifici bordi e macchie.

Da qui i segnali vengono trasmessi a strutture cerebrali più complesse in grado di identificare i volti.  

La corteccia visiva, inoltre, è connessa  con il centro dei ricordi visivi e con il centro della memoria uditiva, come anche con il centro del linguaggio.

Questa spiegazione molto semplificata del Deep Learning potrebbe far intravedere quale enorme potenziale applicativo esso abbia, soprattutto se accoppiato a Big Data e a una maggiore capacità di calcolo.

Diventa allora evidente il fatto che  sia stato  possibile ottenere un  risultato apparentemente prodigioso,  quale la soluzione del problema del ripiegamento delle proteine. 

 

– la sopravvivenza della legge di Moore

La fabbricazione dei chip è un complesso processo iterativo in cui un chip viene costruito, strato per strato, utilizzando una tecnica denominata fotolitografia.

Detto in maniera molto semplice, la fotolitografia è il processo di trasferimento di una serie di geometrie elementari (porte logiche,  contatti, metallizzazioni,…) da allineare attraverso un’opportuna maschera sulla  superficie di una piastra (wafer) di silicio monocristallino.

Si fa passare  (secondo le opportune fessure della maschera) una luce che inciderà selettivamente sul wafer (ricoperto di un materiale denominato photoresist): in tal modo le zone esposte alla luce si  modificheranno e potranno  essere rimosse con un’opportuno procedimento.

Attraverso molteplici passi si può creare una struttura multistrato, con complesse distribuzioni geometriche di silicio puro, oppure di silicio drogato con impurità, oppure ancora con opportune metallizzazioni che interconnettono specifici elementi circuitali.

In sostanza con un lungo processo, estremamente complesso, si arriva a popolare il wafer, che attualmente ha raggiunto le dimensioni di una tradizionale pizza napoletana, di un numero impressionante di transistor (fino a decine di migliaia di miliardi!) più o meno interconnessi tra loro, a seconda del progetto che ha pilotato le diverse maschere.

E’ intuibile che la lunghezza d’onda della luce incidente determinerà le dimensioni del particolare elemento del transistor e quindi la quantità complessiva di transistor realizzabili sul wafer.

Potenzialmente quindi, con la cosiddetta wafer scale integration (da decenni perseguita) si potrebbe costituire un mostruoso computer.  Ma nel processo di costruzione si manifestano tanti difetti costruttivi e molti circuiti vanno, come si dice,  in “corto circuito” e quindi devono essere eliminati.

Con il ben noto principio del “divide et impera” il wafer viene sezionato in frammenti (chip) che un tempo erano poco densi circuitalmente e quindi il computer finale ne doveva ospitare e interconnettere fino a migliaia.  Dal wafer vengono infatti estratti soltanto i chip funzionanti.

Gli odierni chip sono però arrivati a tali livelli di densità circuitale da costituire essi stessi un robusto microprocessore, e gli attuali più potenti supercomputer sono diventati alveari di microprocessori.

Però la fame di potenza di calcolo non è mai doma. E quindi si tenta di ottenere ancora maggiore capacità di calcolo riducendo ulteriormente la lunghezza d’onda della luce incidente sul wafer.

Ci sono dei dettagli che sarebbero interessanti da esaminare, almeno per comprendere quanto enormi debbano essere gli investimenti per costruire ex novo una catena di montaggio fotolitografica (ormai anche oltre 20 miliardi di dollari).

Un chip, come detto, è costituito da transistor e interconnessioni. I transistor, a loro volta,  funzionano come veri e propri interruttori, mentre le loro reciproche interconnessioni, che risiedono sulla parte superiore del transistor, sono costituite da microscopici fili di collegamento in rame che permettono ai  segnali elettrici di muoversi da un transistor a un altro.

Gli attuali chip hanno nella parte superiore  da 10 a 15 strati di interconnessioni in rame, disposte secondo gli assi x e y (si pensi alla viabilità di Manhattan, considerando anche la Subway).   

Per confrontare i livelli di densità della tecnologia di un chip si considera ormai da tempo  la minima distanza tra due linee di interconnessione, e ci si riferisce a essa come a un “nodo tecnologico”.

Se negli anni Settanta del XX secolo  il nodo tecnologico medio era di circa 10 micrometri, nel 2020, la tecnologia è arrivata a nodi di  5 nanometri, ossia mille volte più microscopica: questa è in sostanza la cosiddetta legge di Moore in azione.

Dagli anni Sessanta la fotolitografia è  migliorata costantemente fino ad arrivare a operare nello spettro elettromagnetico dell’ultravioletto estremo (EUV) che è la parte che va  da 100 a 10 nanometri, tra la radiazione dei raggi X (< 10 nm) e l’ultravioletto profondo  (da 100 a 200 nm).

L’ultravioletto estremo differisce così tanto dalle precedenti generazioni di tecnologie fotolitografiche perchè la radiazione EUV è molto difficile da generare in modo controllato, e poi perché essa viene rapidamente assorbita dall’aria e da altri gas.

La costruzione dei chip si sta comunque evolvendo anche attraverso l’adozione di nuove tecniche costruttive che prevedono un vero e proprio ridisegno dei transistor planari che sono l’ossatura degli odierni computer.

Per avere un’idea di cosa stia realmente “bollendo in pentola” basti considerare quanto recentemente annunciato da Intel e da IBM.

Allo IEEE International Electron Devices Meeting del 2019, Intel ha proposto  una cosiddetta “roadmap fotolitografica” che prevede, dal 2019 in poi, l’adozione di un significativo miglioramento ogni due anni.  Dopo i chip a 10 nm arrivati nel 2019, nel 2021 arrivano chip   costruiti con un nodo tecnologico  di 7 nm, nel 2023 di 5 nm, nel 2025 di 3 nm, nel 2027 di  2 nm e nel 2029 arriveranno di 1,7 nm, ossia  una dimensione equivalente a 12 atomi di silicio allineati.

A sua volta  l’IBM  (maggio 2021) ha annunciato  lo sviluppo di un  chip con un nodo tecnologico a 2 nanometri che consente al chip stesso di ospitare ben 50 miliardi di transistor.

Il primo microprocessore, l’INTEL 4004, nato 50 anni fa, conteneva 2300 transistor, ossia oltre 20 milioni di volte di meno. Occorre certamente prendere anche in considerazione le dimensioni del chip cresciute significativamente, come anche la quantità di calore prodotto. Ma è indubbio che l’incremento è stato semplicemente vertiginoso e ancora non si è arrestato.

Come si è potuti arrivare a simili risultati che proiettano la fotolitografia in avanti di molti anni di ulteriori miniaturizziazioni?  Non solo, come abbiamo visto,  con una lunghezza d’onda molto più breve (UV estremo),  ma anche con un complesso ridisegno degli stessi transistor di cui dobbiamo dare almeno un cenno per comprenderne le potenzialità.

Com’è noto, un transistor planare opera come un interruttore controllato da una porta logica (gate) che permette o meno o il passaggio di elettroni da una sorgente (source) a un pozzo (drain) attraverso un canale di scorrimento  degli elettroni stessi.

Con  la progressiva miniaturizzazione dei transistor   il  canale è  diventato sempre più corto e la carica sarebbe potuta filtrare   sotto la regione del canale. Il transistor avrebbe finito col risultare mai del tutto spento, generando quindi calore.

Per arginare il flusso indesiderato di cariche, la regione del canale doveva essere resa più sottile, limitando il percorso di infiltrazione delle cariche. E il cosiddetto gate  doveva circondare il canale su più lati. Così è nata la tecnologia FinFET nella quale   la regione del canale (FET) viene per così dire innalzata fino a formare come una piccola pinna (FIN)  che viene circondata su tre lati dal gate. Anche senza un disegno il lettore può immaginarne la struttura.

Il gate attiva il flusso di corrente e impedisce la fuoriuscita di elettroni quando il transistor è spento. Ma con  il nodo a 3 nm, i FinFET non sono più all’altezza del compito.

Sorvolando su altri potenziali problemi emersi negli ultimi anni,  possiamo rilevare che utilizzando dei nanofili di rame circondati dal gate resta in realtà  poco spazio nel corpo del filo per il flusso di elettroni quando il transistor è acceso, limitando la corrente e rallentando la commutazione.

Allora perchè non impilare più nanofili (tra loro separati) uno sopra l’altro e circondarli con un gate tridimensionale?

Si è però constatato in prove  di laboratorio  che  intorno ai 3  nm questo disegno non è funzionale. IBM ha allora pensato di sostituire i nanofili con nanofogli (nanosheet), creando un nuovo tipo di disegno, che consente di superare il nodo tecnologico dei 3 nm,  disegno costituito di tre fogli di silicio orizzontali impilati, ciascuno spesso solo pochi nanometri e completamente circondato da un gate.

L’idea era quella di aumentare la larghezza del canale in un transistor più piccolo, pur mantenendo uno stretto controllo sulla corrente di dispersione, e quindi fornire un dispositivo con prestazioni migliori e a bassa potenza.

Questi strati di nanofogli sono modellati fotolitograficamente per formare porte che avvolgono la giunzione tra la sorgente e il pozzo  incidendo via il materiale indesiderato.

I nanosheet di IBM possono variare da 8 a 50 nanometri di larghezza. La larghezza maggiore offre prestazioni migliori ma richiede più potenza, una larghezza inferiore riduce le prestazioni ma riduce il consumo di energia.

Con queste nuove soluzioni si è ora in grado di costruire con densità apparentemente prodigiose ed ecco allora che la terza accelerazione di Friedman, ossia la legge di Moore,  è coerente con gli attuali sviluppi nella costruzione dei chip.

Più transistor su di un chip offrono ai progettisti dei processori  più opzioni per realizzare  ulteriori innovazioni e soprattutto per migliorare le capacità di calcolo necessarie in realtà applicative come l’intelligenza artificiale, il cloud computing, e anche nuove opportunità per incrementare la sicurezza dei sistemi informatici, a partire dal telefono cellulare.

 

Conclusioni

In questo articolo abbiamo cercato di esaminare brevemente le attuali prospettive della civiltà umana soprattutto alla luce delle continue innovazioni tecnologiche.

E’ ben intuibile che il tema è non solo quanto mai complesso ma anche di enorme vastità.

La tecnologia si evolve ormai quasi autonomamente, mossa da un intrinseco dinamismo simile a quello della biologia, della quale ultima finisce per apparirne quasi come un’estensione.

Ci siamo limitati all’Information Technology, e anche in questo contesto abbiamo omesso molteplici linee di sviluppo che non sarebbe possibile esaminare, ancorché brevemente, nell’ambito delle dimensioni  di questo articolo.

Ma gli aspetti evolutivi che abbiamo esaminato, Big Data, computer quantistico, Deep Learning e nuove tecniche di costruzione dei chip, sono sufficienti per indicare che la strada da percorrere nei prossimi 10-20 anni sarà certamente in salita.

Friedman si domandava come fosse possibile avere una comprensione generale di tante contemporanee innovazioni tecnologiche.

Eppure un antico proverbio afferma che la strada in salita è sempre quella giusta.

Ernesto Hoffman
hoffman@per.it

Laureato in fisica presso l’Università di Roma, nel 1968 entra a far parte dell’IBM Italia nel Servizio di Calcolo Scientifico. Nel 1973 diventa manager del Servizio di Supporto Tecnico del Centro di Calcolo dell’IBM di Roma. Dal 1981 lavora per tre anni presso lo stabilimento IBM francese di Montpellier. Nel 1986 si trasferisce presso lo stabilimento di Corbeil Essonnes (Parigi) dove venivano realizzati i chip di logica. Nel 1988 lavora nel laboratorio di progettazione dei mainframe a Poughkeepsie, presso la IBM US. Da allora, ritorna ciclicamente negli stabilimenti USA di Poughkeepsie, di Somers e di Fishkill, quasi sempre nel ruolo di Country Announcement Manager, ossia responsabile per l’Italia di successivi annunci dei sistemi /370 e /390. Dal 1996 al 2000 è columnist IT per la rivista 01 di Mondadori. Dal 2001 al 2003 collabora con l’Università Bocconi nell’ambito di un progetto comune Bocconi-IBM. Nel 2004, lasciata la IBM, è docente a contratto per due anni presso l’Università Cattolica del Sacro Cuore di Milano.

Nessun commento

Rispondi con un commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.