L'arrivo dei modelli fondazionali nelle previsioni di serie

I nuovi sistemi di previsione Machine Learning

.

Strumenti Machine learning e Econometria

Storicamente, nella prima fase di utilizzo del Deep Learning per la previsione di serie temporali, sono stati sviluppati modelli progettati per dataset o contesti specifici, addestrati a cogliere solo le dinamiche del dominio di interesse (es. DeepAR, N-BEATS). Questi modelli hanno spesso superato le prestazioni di approcci statistici tradizionali come ARIMA, tuttavia non si adattano facilmente ad altri dataset e richiedono un nuovo addestramento per ogni serie.
A partire dal 2024, la ricerca si è progressivamente orientata verso lo sviluppo di modelli fondazionali, ossia modelli generalisti in grado di effettuare previsioni accurate su qualsiasi serie temporale senza necessità di un addestramento specifico.
In questo articolo, prima di approfondirne il funzionamento di questi modelli sul caso specifico del Prezzo Unico Nazionale (PUN) orario dell'energia elettrica, introdurremo una panoramica generale e una classificazione di riferimento.

I Modelli Fondazionali

Nel campo del Machine Learning, è utile distinguere tra due categorie principali di modelli:

  • Modelli "single-task": sono progettati per svolgere un unico compito specifico. Ad esempio, si può avere un modello addestrato a generare descrizioni di prodotti per un e-commerce, oppure uno che classifica le email come spam o non spam. Questi modelli tendono a ottenere ottime prestazioni nel dominio per cui sono stati sviluppati, ma non possono essere facilmente riutilizzati in altri contesti.
    Analogamente, nel caso delle serie temporali, un modello addestrato esclusivamente sui consumi elettrici di una città può imparare le fluttuazioni giornaliere e stagionali tipiche, ma difficilmente riuscirebbe a prevedere con la stessa efficacia le vendite giornaliere di un supermercato, poiché le dinamiche temporali sottostanti sono del tutto differenti.
  • Modelli fondazionali: sono modelli di Machine Learning pre-addestrati su grandi quantità di dati eterogenei, capaci di essere adattati a molteplici compiti senza la necessità di un nuovo addestramento da zero. Questi modelli sono generalmente di grandi dimensioni (in termini di parametri) e possono richiedere risorse computazionali anche molto elevate, ma offrono prestazioni accurate e una notevole capacità di generalizzazione.

Già da diversi anni, nel campo del Natural Language Processing (NLP)[1], si sono affermati i modelli fondazionali di grandi dimensioni (Large Language Models, o LLM), come GPT o LLaMA. Tali modelli sono addestrati su enormi quantità di testo e apprendono le regole implicite del linguaggio, consentendo di generare testo, tradurre lingue o rispondere a domande senza bisogno di ri-addestramento.
Il successo dei LLM ha successivamente ispirato lo sviluppo di modelli fondazionali anche in altri ambiti, come la visione artificiale, l’audio e il video, estendendo il paradigma ben oltre il linguaggio naturale. A partire dal 2024, la ricerca ha iniziato ad applicare questo approccio anche ai dati numerici, in particolare alle serie temporali, con l’obiettivo di realizzare modelli capaci di apprendere trend e pattern generali e di generare previsioni accurate su dati mai osservati prima, in modalità zero-shot. [2]

🎯 Modello Single-Task

🛠️ Addestrato per un solo compito

🚀 Alte prestazioni nel proprio dominio

🔄 Riaddestramento su nuovi dati

🚫 Limitata capacità di generalizzazione

🌐 Modello Fondazionale

📊 Pre-addestrato su dati eterogenei

🔧 Adattabile a molteplici compiti

🌀 Zero-shot e Fine-Tuning

⚙️ Elevata capacità di generalizzazione

La Tassonomia dei Modelli Fondazionali

I modelli fondazionali sono generalmente di grandi dimensioni, poiché progettati per garantire un’ampia applicabilità e, al tempo stesso, prestazioni elevate. Essendo concepiti per competere con modelli specializzati (single-task), richiedono in genere un numero maggiore di parametri e un’architettura più complessa. Per questo motivo, i modelli fondazionali vengono spesso indicati come Large X Models (LxM), dove la lettera X rappresenta il dominio di applicazione. Ad esempio, nel campo del linguaggio si parla di Large Language Models (LLM), mentre nella visione artificiale si utilizzano i Large Vision Models (LVM), e così via. Tuttavia, è importante sottolineare che non tutti i modelli fondazionali sono necessariamente “large”. In diversi ambiti sono emerse varianti più compatte ma che mantengono una natura fondazionale.
Per comprendere appieno la struttura dei modelli fondazionali, risulta utile proporre una classificazione in base alla natura degli input, ovvero in funzione del tipo di dati forniti al modello (testo, numeri, immagini, audio, video, ecc.).

Categoria Obiettivo generale Esempi principali
Testo Comprendere/generare linguaggio naturale LLM (GPT-3.5, LLaMA)
Immagini/Video Riconoscere/classificare/comprendere contenuti visivi LVM (ViT, CLIP)
Audio Interpretare/generare segnali sonori Whisper, AudioLM
Serie temporali Analizzare/prevedere andamenti o valori futuri TimeGPT, TimesFM, TTM
Decisione e controllo Apprendere strategie e azioni ottimali AlphaZero, Decision Transformer
Multimodali Integrare informazioni da più modalità GPT-4V, Gemini

Questa tassonomia permette di osservare come, partendo da un paradigma comune, siano nate diverse famiglie di modelli fondazionali, ciascuna sviluppata per un tipo di input specifco. Ognuna di esse affronta sfide proprie del dominio, come la comprensione del linguaggio, l’elaborazione di immagini o la previsione di dinamiche temporali, ma condivide la stessa logica di fondo: l’addestramento su grandi quantità di dati eterogenei e la capacità di generalizzare il sapere appreso a compiti nuovi. In questo modo, l’evoluzione dei modelli fondazionali non segue una sola direzione, ma si ramifica in più percorsi paralleli, che riflettono la diversità dei dati e degli obiettivi applicativi.

Verso i Modelli Fondazionali di Serie Temporali

Un modello fondazionale per le serie temporali è un modello di Machine Learning pre-addestrato su una grande quantità di dati numerici, in particolare serie storiche. Durante l'addestramento, il modello viene esposto a miliardi di punti temporali provenienti da migliaia di serie storiche diverse. L’obiettivo è imparare schemi generali dei fenomeni che evolvono nel tempo (stagionalità, trend, correlazioni, cicli economici ecc.), così da poterle riutilizzare su nuove serie, anche mai viste prima.
Dopo l’addestramento, il modello può essere utilizzato in "zero-shot" o con un "fine-tuning", un ulteriore addestramento su un dataset specifico selezionato dall'utente, che aggiorna i parametri del modello e permette una prestazione più accurata nel contesto d'interesse.

Perché un modello fondazionale per le serie temporali è emerso solo nel 2024, mentre in ambiti come il linguaggio, soluzioni come GPT sono disponibili da anni?
La risposta risiede nella complessità intrinseca dei dati temporali, sia dal punto di vista teorico che pratico. A differenza del linguaggio naturale, che si basa su un vocabolario definito e su regole grammaticali condivise, le serie temporali sono costituite da dati numerici, continui e spesso rumorosi. Ogni serie segue dinamiche proprie, con forme, intensità e ritmi variabili, e non esiste una struttura discreta paragonabile alla sintassi linguistica. Il modello deve quindi imparare a interpretare questi segnali senza poter contare su un “linguaggio” universale.

A rendere il compito ancora più arduo è la grande eterogeneità delle serie temporali: variano per lunghezza del contesto (cioè quanti dati passati sono disponibili), per orizzonte di previsione (quanti passi futuri bisogna stimare) e per frequenza temporale, che può spaziare dai minuti agli anni. Un modello fondazionale efficace deve quindi essere estremamente flessibile, capace di adattarsi a queste variabili e di mantenere accuratezza in scenari molto diversi tra loro.
Un ulteriore ostacolo è la disponibilità limitata di dati. Nel campo del linguaggio esistono enormi quantità di testi accessibili online, invece le serie temporali sono spesso frammentate, soggette a vincoli di privacy o circoscritte a domini industriali specifici. Costruire un dataset sufficientemente ampio e variegato per addestrare un modello generalista è, di conseguenza, molto più difficile.
Tutte queste sfide spiegano perché lo sviluppo di un sistema generalista universale per le serie temporali non fosse affatto scontato. Tuttavia, nel 2024 alcune di queste barriere sono state finalmente superate, aprendo la strada alla nascita dei modelli fondazionali.

Vuoi restare aggiornato sull’andamento dei mercati delle commodity?
Iscriviti gratuitamente alla newsletter PricePedia!

Il Primo Modello Fondazionale di Previsione: Il TimeGPT

TimeGPT è il primo modello fondazionale per la previsione di serie temporali, sviluppato nel 2024. Come GPT per il linguaggio o ViT per le immagini, anche TimeGPT si basa su un’architettura[3] Transformer, ma adattata per gestire dati numerici che evolvono nel tempo. L’architettura Transformer è un tipo di rete neurale introdotto da Vaswani et al. nel 2017[7], ed è ad oggi la base dei modelli più avanzati di intelligenza artificiale. TimeGPT utilizza una struttura encoder–decoder con self-attention, ogni sequenza temporale viene suddivisa in finestre (blocchi di valori storici), trasformata in embedding vettoriali e arricchita con positional encoding per rappresentare l’ordine temporale. Il modello quindi elabora tutti i punti della sequenza in modo globale, catturando sia le relazioni locali (tra valori vicini) sia quelle a lungo termine.[4]

Il modello è stato addestrato sul oltre 100 miliardi di dati provenienti da moltissimi settori. Questo dataset è estremamente eterogeneo: include serie con diverse frequenze (giornaliere, orarie, annuali), livelli di rumore, trend e stagionalità differenti. L’obiettivo era rendere il modello robusto e generalizzabile, capace di offrire prestazioni accurate nelle previsioni zero-shot e con un fine-tuning.

Un Modello "decoder-only": Il TimesFM

Il TimesFM (Time Series Foundation Model) è un modello "Open Source" di previsione di serie temporali sviluppato da Google Research. Questo modello utilizza un’architettura Transformer decoder-only, cioè un tipo di rete neurale che elabora le sequenze in modo causale: ogni elemento può “vedere” solo quelli che lo precedono. Nel contesto delle serie temporali, questo approccio è particolarmente adatto perché rispetta la logica naturale del tempo: il futuro dipende dal passato.
Invece di analizzare ogni singolo punto della serie temporale (es. ogni valore giornaliero o orario), TimesFM suddivide la sequenza in patch, cioè blocchi contigui di dati. Successivamente, ogni patch viene trasformata in un vettore numerico, chiamato token temporale, e viene poi passata al modello. Nel linguaggio naturale, un token può essere una parola o un carattere; nelle serie temporali, un token è un blocco di dati che rappresenta un segmento della serie. Il modello elabora questi token in sequenza e, basandosi solo sui token precedenti, prevede i valori futuri della serie.

Nonostante la complessità del compito, TimesFM è relativamente compatto rispetto ai grandi modelli linguistici: conta circa 200 milioni di parametri e viene addestrato su circa 100 miliardi di punti dati temporali, dimensioni molto inferiori a quelle tipiche di LLM come GPT-3 o LLaMA. Ciò dimostra che per le serie temporali è possibile costruire un modello fondazionale pratico ed efficiente, capace di ottenere prestazioni vicine ai modelli supervisionati specializzati, senza i costi elevati di modelli di grandi dimensioni generici.

Un Modello Fondazionale Alternativo: I Tiny Time Mixers

Nel progettare i Tiny Time Mixers (TTM), i ricercatori di IBM Research si sono posti l’obiettivo di sviluppare un sistema di previsione capace di offrire prestazioni comparabili a quelle dei grandi modelli fondazionali (es. TimeGPT, TimesFM), ma con un’architettura molto più leggera ed efficiente, basata su una versione semplificata del Transformer, chiamata TSMixer (Time Series Mixer).[5][6]
Mentre i grandi modelli fondazionali si basano su un’unica rete di dimensioni elevate, progettata per adattarsi a una vasta gamma di contesti previsivi, l’approccio dei TTM è di tipo modulare, sviluppando più varianti compatte (circa 1 milione di parametri ciascuna), ognuna pre-addestrata e ottimizzata per uno specifico scenario di previsione.

Il sistema dei Tiny Time Mixers non rientra totalmente nella definizione classica di modello di previsione fondazionale a causa della sua struttura innovativa. Può essere classificato come tale grazie al suo pre-addestramento su una vasta collezione di serie temporali eterogenee, variabili per dominio, frequenza e orizzonte. Di fatto ciascuna delle sue varianti è in grado di generare previsioni accurate in modalità zero-shot, affinabili con un fine-tuning. Questo è proprio il tratto distintivo dei modelli fondazionali.
Allo stesso tempo, il sistema dei TTM incorpora elementi tipici dei modelli "single-task", poiché ogni variante è calibrata per uno specifico contesto di previsione, con configurazioni diverse per lunghezza del contesto e orizzonte temporale. Nonostante questa specializzazione, la sua natura rimane principalmente fondazionale.

In sintesi, da un lato abbiamo il TimesFM e il TimeGPT, modelli fondazionali di grandi dimensioni (Large Time Series Models o LTSM), che riescono da soli ad eseguire previsioni accurate in zero-shot; dall'altro abbiamo il TTM, un sistema di modelli compatti, strutturato in molteplici varianti specializzate che prevedono in modo accurato nel contesto in cui sono state allenate.

🧠 TimeGPT
  • Architettura Transformer
  • LTSM (+200M parametri)
  • Zero-shot & fine-tuning
🔁 TimesFM
  • Architettura Transformer
  • LTSM (200M parametri)
  • Zero-shot & fine-tuning
🧩 Tiny Time Mixers
  • Architettura TSMixer
  • Compatti (1M parametri)
  • Zero-shot & fine-tuning

Conclusione

Lo sviluppo di modelli di Machine Learning in tutti i campi sta avanzando rapidamente, e persino gli esperti faticano a prevederne i limiti. I modelli per serie temporali analizzati in questo articolo dimostrano che realizzare architetture fondazionali capaci di fornire risultati competitivi, nonostante le difficoltà discusse, non è solo possibile, ma anche estremamente promettente.
L’evoluzione di questi sistemi nei prossimi anni è incerta, ma è plausibile aspettarsi un miglioramento continuo in termini di accuratezza e capacità di generalizzazione. Già oggi questi modelli raggiungono prestazioni paragonabili, e in alcuni casi superiori, ai migliori approcci econometrici tradizionali e ai modelli Deep Learning specializzati (single-task), specialmente dopo una fase di fine-tuning mirata. Considerando che i primi risultati di queste tecnologie sono stati rese disponibili agli utenti solo da poco (meno di due anni), il potenziale di crescita sembra elevato.

Guardando al futuro, sembrano delinearsi due possibili direzioni di sviluppo. La prima punta verso la creazione di modelli sempre più grandi, fondazionali e multimodali, in grado di affrontare un’ampia gamma di compiti partendo da qualunque tipo di input, dalla generazione di testi e immagini, fino alla previsione di serie temporali. Questi sistemi mirano a una forma di intelligenza sempre più generale e adattabile.
La seconda direzione, invece, privilegia l’efficienza e la sostenibilità computazionale, cercando di mantenere alte prestazioni con architetture compatte e ottimizzate. Modelli come i Tiny Time Mixer dimostrano che è possibile ridurre drasticamente i costi di calcolo senza sacrificare la precisione, evidenziando come la leggerezza possa diventare un vantaggio strategico in un contesto in cui le risorse hardware ed energetiche sono sempre più limitate.
Non è facile prevedere quale direzione verrà sviluppata, l'esito dipende strettamente dai risultati delle ricerche future ed entrambe le vie ad oggi mostrano dei limiti. Probabilmente entrambe le direzioni coesisteranno: da un lato modelli universali e multi-modali, dall’altro soluzioni leggere e specializzate, ognuna destinata a rispondere a esigenze diverse. Il futuro dell’intelligenza artificiale potrebbe quindi non essere dominato da una sola filosofia, ma dall’equilibrio dinamico tra potenza e efficienza.


[1] Il ramo della IA che si occupa di far comprendere, interpretare e generare il linguaggio umano ai computer.
[2] In questa modalità, le previsioni sono state generate sfruttando unicamente le conoscenze apprese durante la fase di pre-addestramento eseguita dagli sviluppatori, senza effettuare alcuna modifica o aggiornamento dei parametri tramite ulteriori fasi di training.
[3] La struttura interna di un modello, cioè il modo in cui sono organizzati e collegati i suoi componenti per elaborare i dati e apprendere dai pattern presenti. In altre parole, rappresenta come il modello “pensa” e trasforma gli input in output.
[4] Per approfondire il funzionamento del Transformer: Token & Transformer: il cuore dei moderni modelli di Machine Learning
[5] La struttura del TTM è descritta qui: Il Machine Learning nella previsione di serie storiche: arriva il TinyTime Mixers
[6] Per un confronto tra il TTM e modelli di previsioni tradizionali: Dall’econometria al Machine Learning: la sfida della previsione
[7] La definizione di Transformer (Vaswani et al., 2017): Attention Is All You Need