Elaborazione neurale e altre parole senza senso
Capiamo assieme DLSS 5, la sigla alla base delle immagini e dei meme che potreste aver incrociato nelle ultime settimane, e che ha a che fare con l'intelligenza artificiale.
Dal 2009 esiste la GPU Technology Conference (GTC), ovvero una conferenza dedicata all’utilizzo della tecnologia delle GPU (Graphics Processing Unit) che, spiegata malamente, sono i processori che si sobbarcano il peso di elaborare l’immagine che finisce sullo schermo collegato a un computer o a una console, ma anche a quello integrato in un dispositivo smart. La GTC è organizzata da Nvidia e la spiegazione di GPU sarà l’ultima cosa dozzinale che si concederà questa puntata delle Parole dei videogiochi, almeno nelle intenzioni.
Per capire meglio cosa sia successo di importante nell’edizione della GTC tenuta nella seconda metà di marzo a San Jose (California - Stati Uniti), ho chiesto spiegazioni a Davide Giulivi, che si interessa del lato tecnologico/matematico dei videogiochi da sempre e che ne ha scritto per molto tempo su riviste come PC Zeta, Giochi per il Mio Computer e IGN. È una di quelle persone che ha interesse nelle demo tecnologiche e nei benchmark, eppure gli si vuole un po’ bene lo stesso.
È importante che sia chiaro che io, di questa roba, non ne so davvero nulla e ci capisco ancora meno. Sarà quindi una puntata utile a chiunque sia nella mia stessa situazione, sempre che tutto vada come sperato. Proverò anche ad aggiungere un po’ di note e ulteriori spiegazioni a sigle e concetti che Davide si aspetta che noialtri comprendiamo. Illuso.
Ma intanto, cos’è successo alla GTC di qualche settimana fa?
Se galleggiate negli stessi spazi social-virtuali frequentati da altri appassionati di videogiochi, avrete visto passare almeno uno degli innumerevoli meme ispirati alla tecnologia DLSS 5 di Nvidia. Tipo questo:
Su Santa Pazienza se ne è occupata anche Barili esplosivi, in una puntata in cui sono stati principalmente sottolineati sia gli effetti per alcuni versi deprecabili di questa tecnologia, che le modalità di presentazione della stessa. A Davide ho però chiesto se nel DLS55 ci sia qualcosa di più interessante, al di là dei meme e dell’alzata di scudi di una parte del pubblico e della stampa, che mi sembra sia già passata veloce come tutti i merdoni come tutte le fiammate da social network.
DLSS 5 è una tecnologia pensata per velocizzare lo sviluppo dei videogiochi, svilendone al contempo l’umanità di cui deve essere connotata la loro direzione artistica?
Partiamo dalla base, perché intanto serve intendersi sull’idea riassunta dalla sigla DLSS 5. Spiega Davide che:
Il DLSS 5 è l’ultima incarnazione del Deep Learning Super Sampling, introdotto da Nvidia nel 2018 insieme alle prime schede RTX dotate di Tensor Core dedicati ai calcoli dell’intelligenza artificiale. In realtà la sigla DLSS è utilizzata da Nvidia soprattutto per ragioni di marketing, perché la tecnologia — attivabile dall’utente all’interno dei moltissimi giochi che la supportano — è cambiata radicalmente nel tempo: se le versioni dalla 1 alla 3 si occupavano di migliorare la definizione dell’immagine dei giochi, la 3.5 migliorava le prestazioni del ray tracing, mentre la 4 genera fotogrammi aggiuntivi partendo da quelli effettivamente renderizzati, aumentando il framerate.
Dizionario minimo per la comprensione:
Ray tracing: sistema di calcolo della rifrazione della luce su vari materiali e in varie situazioni simulate all’interno dei videogiochi. Per farla facile: un sistema di illuminazione più realistico.
Renderizzati / framerate: ognuna delle molte immagini elaborate dall’hardware (renderizzata) che si susseguono in un secondo per dare l’illusione del movimento. Maggiore è il numero di immagini in un secondo (framerate), più alta è la sensazione di fluidità del movimento e più reattivi sono i sistemi di gioco.


Quindi il DLSS esiste da un po’ e, nel campo del miglioramento dell’immagine, ha già fatto cose abbastanza differenti tra di loro. “La quinta versione, annunciata sul palco della GTC, svolge un compito radicalmente diverso da tutte le precedenti”, continua Davide, “analizza l’immagine 2D finale del fotogramma e, tenendo conto dei vettori di movimento forniti dal motore di gioco (che conosce la direzione in cui si muovono il giocatore e gli NPC), sostituisce gran parte del modello 3D renderizzato con un’immagine generata da una rete neurale addestrata”.
Dizionario minimo per la comprensione:
Rete neurale: nella definizione utilizzata da quei furboni di Amazon, una rete neurale è “un metodo di intelligenza artificiale (IA) che insegna ai computer a elaborare i dati ispirandosi al funzionamento del cervello umano. Si tratta di un tipo di processo di machine learning (ML), chiamato deep learning, che utilizza nodi interconnessi o neuroni in una struttura stratificata che somiglia al cervello umano. Crea un sistema adattivo che i computer utilizzano per imparare dai loro errori e migliorare continuamente. Le reti neurali artificiali provano così a risolvere problemi complessi, come riassumere documenti o riconoscere volti, con una maggiore accuratezza”.
Da quanto mi pare di capire questa nuova versione della tecnologia DLSS permette di sostituire di fatto il risultato visibile sullo schermo di una buona parte dei modelli tridimensionali dei personaggi (controllati o meno dal giocatore). Ripasso la parola a Davide: “Nella demo mostrata alla GTC, il modello 3D con texture di Grace Ashcroft, protagonista di Resident Evil: Requiem, veniva sostituito da un modello neurale molto più ricco di dettagli anatomici del viso, vicino al fotorealismo (e all’uncanny valley). Lo stesso approccio veniva applicato agli ambienti e ai personaggi non controllati dal giocatore di Starfield e Hogwarts Legacy”.
Qui arriva la parte decisiva della spiegazione di Davide sul senso e sull’applicazione della tecnologia DLSS 5:
Si tratta di un approccio alla creazione di immagini 3D radicalmente diverso dal rendering classico, più simile all’intelligenza artificiale generativa offerta dai modelli di Google, OpenAI e Anthropic che alla lunga storia di tecniche sviluppate negli anni da programmatori e produttori di GPU per migliorare l’aspetto e l’illuminazione dei poligoni.
Non fermiamoci ora, sento quel leggero ma irresistibile friccicorio di quando sto per forse-circa-quasi iniziando a capire qualcosa! Perché quanto appena detto da Davide potrebbe essere importante per i videogiochi e il loro sviluppo? Sempre il nostro verboso ospite:
Il DLSS 5 ha le sue fondamenta nel neural rendering, un insieme di tecniche su cui l’intera industria informatica sta lavorando da anni. Durante il recente GDC Festival of Gaming, Microsoft ha introdotto DirectX 12 Ultimate, che integra un pacchetto di strumenti software di sviluppo volto a rendere queste tecniche utilizzabili su tutte le GPU di futura generazione. Con il neural rendering sarà possibile addestrare reti neurali sulle qualità dei materiali 3D, sfruttare nuovi livelli di compressione per ridurre drasticamente il quantitativo di memoria video utilizzato, accelerare i calcoli BVH utili al ray tracing e sfruttare i cooperative vectors, matrici particolarmente adatte all’elaborazione neurale.
Lo sapevo, tutti questi termini hanno soffocato quel friccicorio. Proviamo a mettere ordine con un altro po’ di…
Dizionario minimo per la comprensione:
Neural rendering: una tecnica che utilizza le reti neurali per generare immagini fotorealistiche.
Calcoli BVH: sta per Bounding Volume Hierarchy: c’è una pagina su Wikipedia ed è disponibile in sole quattro lingue, quindi è evidente che sia roba troppo complessa. Comunque è quel tipo di magia nera che serve per rendere più realistica l’illuminazione di elementi 3D.
Mi pare di poter dire che la chiave di volta, qui, sia l’elaborazione neurale, che di fatto dovrebbe poter aiutare a calcolare e anche a generare elementi tridimensionali e comportamenti della luce su di loro. Insomma, un modo per non dover fare tutto a mano e alleggerire pure il carico sull’hardware del proprio dispositivo.
Come collaborano le Direct X e le tecnologie di Nvidia e cosa porta agli sviluppatori di videogiochi, di nuovo Davide:
Come tutte le iterazioni delle DirectX, anche questa versione è stata sviluppata in concerto con i maggiori produttori di GPU — Nvidia, AMD, Intel e Qualcomm — ma alle API di Microsoft (che verranno seguite da Vulkan e da Metal di Apple) Nvidia affianca i suoi strumenti RTX, che gli sviluppatori possono scegliere se utilizzare o meno per facilitare il loro lavoro.
Partendo dalle stesse basi, Nvidia offre Neural Shaders, Neural Materials, Mega Geometry e molti altri strumenti che gli sviluppatori potranno decidere di adottare per migliorare l’aspetto del loro gioco esclusivamente sulle GeForce, oppure limitarsi a quanto offerto dalle DX12.
Dizionario min… dai che è chiaro ormai:
API: significa “Application Programming Interface”. Ancora da Amazon: “Le API sono meccanismi che consentono a due componenti software di comunicare tra loro usando una serie di definizioni e protocolli”, mentre nello specifico le DirectX è un set di componenti [software] in Windows che consente al software, soprattutto ai giochi, di funzionare direttamente con l’hardware video e audio.


Siamo arrivati al punto centrale del social-merdone delle ultime settimane. Ho chiesto a Davide quello che andava chiesto e cioè perché sembra che tutti detestino i risultati dell’applicazione della tecnologia DLSS 5 mostrati da Nvidia alla GTC. È venuto fuori che, tenetevi forte, potrebbe trattarsi di un’indignazione che non tiene conto di tutto il contesto. “La demo mostrata da Jen-Hsun Huang sostituiva l’aspetto originale dei protagonisti con quello generato da una rete neurale addestrata su un campione di modelli presumibilmente più ampio di quello ottenibile dalle sole immagini di gioco”, dice Davide. In pratica la generazione dei dettagli del volto di Grace Ashcroft da parte della DLSS 5 si è basata su quanto visto in tante altre immagini e sequenze video, non solo su quelle di Resident Evil: Requiem. Il che ha portato, secondo Davide, a “cambiare in modo evidente la fisionomia dei personaggi e, in alcuni casi, a snaturare l’illuminazione dell’ambiente”.
Questa, però, è la situazione attuale, cioè quella non ottimizzata. Dopotutto si trattava semplicemente di una dimostrazione sommaria da parte di Nvidia. Per Davide “la versione mostrata era un work in progress presumibilmente molto lontano da quella che vedremo sui nostri schermi. L’intento di Nvidia era chiaramente quello di suggerire il livello di dettaglio raggiungibile da una rete neurale, esattamente come decine di demo tecniche stilisticamente discutibili ma tecnologicamente notevoli hanno sempre accompagnato l’arrivo di nuove schede grafiche GeForce. La celebre fatina che preannunciava le GeForce 3 vent’anni fa non avrebbe mai trovato posto in un gioco, ma mostrava come fosse diventato possibile animare alucce translucide simili a quelle di Trilly in Peter Pan”.
Prosegue il nuovo CTO delle Parole dei videogiochi, Giulivi:
Allo stesso modo, una tecnologia che cambia i connotati di Kratos o Indiana Jones, vanificando contemporaneamente il realismo dell’illuminazione — a cui Nvidia tiene così tanto da aver introdotto per prima il path tracing — non avrebbe alcuno spazio nello sviluppo di un gioco. E gli ingegneri che hanno guidato l’intera industria grafica per quasi trent’anni, dallo Switch a Blackwell, lo sanno benissimo.
Dizionario minimo per smettere di piangere:
Path tracing: una tecnologia pensata per elaborare le rifrazioni della luce in un ambiente 3D in modo complesso e completo.
Per Davide i limiti degli esempi portati sono riconducibili a un utilizzo non ancora misurato sulle esigenze di un singolo videogioco, che è poi quanto spiegato da Nvidia dopo l’esplosione della tempesta di meme. Mi sento comunque di poter sostenere l’altra metà di Santa Pazienza, quando in Barili esplosivi ha scritto:
Che questa tecnologia a un certo punto aiuterà gli sviluppatori a ottenere ambientazioni pazzesche (e magari pure personaggi) senza aver bisogno di risorse enormi io lo posso anche capire, ma che al momento questa sia stata presentata come poco più di un “filtro AI” mi pare altrettanto evidente, così come lo scollamento dalla realtà da parte di NVIDIA, che ha pensato che fosse una buona idea, proprio in questo momento storico, presentare una cosa del genere in un maniera così sfacciata.
Poi forse siamo noi a non riuscire più a rallentare e a mettere in ordine le idee (e a raccogliere le informazioni per poterlo fare con cognizione di causa). Non escluderei nemmeno questa ipotesi. Lascio che a chiudere sia l’ottimismo di Davide:
La tecnologia DLSS 5, se non cambierà nome a causa dell’ostilità generata, arriverà sui nostri schermi in una versione più fedele all’originale, in cui i modelli generati saranno prodotti da reti neurali addestrate esclusivamente sui modelli in alta definizione forniti dagli sviluppatori, evitando “il tradimento degli artisti”. O almeno questo è ciò che tutti i produttori di GPU sperano, visto che la fedeltà e la consistenza temporale dei modelli generati sono ancora obiettivi su cui gli ingegneri stanno lavorando.
E qui chiudiamo e andiamo tutti a prenderci un Momendol.
Se questa insalata di definizioni e spiegazioni ti è sembrato utile, potresti condividerlo con altre persone degne di elevare le proprie conoscenze. Cioè, sì, che ne dici di spammare tu al posto mio?
Non hai ancora un’iscrizione o un abbonamento a Santa Pazienza? Cosa aspetti, che diventi di moda come i baffi dei venticinquenni? Fallo ora, prima che sia cool!






