L'UNICA certezza, purtroppo, è che non sarà la nazionale italiana a sollevare la Coppa del Mondo sopra il cielo dello Stadio Lužniki di Mosca, il prossimo 15 luglio. Chi, dunque? Tra le squadre strafavorite - il Brasile di Neymar, la Germania di Neuer, l'Argentina di Messi - e outsider, la lotta sembra apertissima, e può succedere di tutto. Stando alle previsioni dei bookmaker, la squadra più quotata per aggiudicarsi il titolo sarebbe proprio il Brasile, con una probabilità di vittoria del 16,6%, tallonata da Germania (12,8%) e Spagna (12,5%). Ma nell'epoca dei Big Data e dei software sofisticati, si può certamente andare più in là rispetto alle stime del botteghino: a provarci è stata un'équipe di scienziati della Technical University di Dortmund, in Germania, che ha messo a punto un algoritmo di intelligenza artificiale basato sulla cosiddetta tecnica della foresta casuale (di seguito i dettagli) per simulare il mondiale di calcio e prevedere quale sarà la squadra vincitrice. Lo studio è stato caricato su ArXiv, il database della Cornell University che ospita i lavori scientifici prima della loro pubblicazione su riviste scientifiche ufficiali.

UNA FORESTA DI SQUADRE
Prima il dovere, poi il piacere: cominciamo dalla teoria. La tecnica della foresta casuale è un approccio matematico che permette di descrivere statisticamente scenari con molte variabili (in questo caso, per esempio, il ranking Fifa delle nazionali, l'età media dei calciatori, il loro valore di mercato, etc.) e molti possibili esiti (i risultati delle partite). Il termine "foresta" deriva dal fatto che si basa sui cosiddetti alberi di decisione: sostanzialmente, il computer tratta tutte le variabili sopra elencate come se fossero i punti al vertice di un ramo, e scegliendo uno tra i possibili esiti genera altri rami che partono dal precedente. è qui che entra in campo l'intelligenza artificiale, o, più precisamente, l'apprendimento automatico (machine learning): sostanzialmente, l'algoritmo "impara" a capire quali sono le variabili che contano (e quanto contano rispetto a ciascun'altra) studiando un database di allenamento, che in questo caso conteneva i dettagli di tutte le partite dei mondiali giocati tra il 2002 e il 2014. Più precisamente: l'algoritmo decide, a priori e casualmente (donde il nome "foresta casuale"), quanto "pesa" ciascuna variabile, e in base a questo costruisce un albero. Il processo viene iterato centinaia di migliaia di volte: alla fine gli alberi generati dal computer vengono comparati con quello contenente i risultati reali delle partite. Dal confronto, l'algoritmo comprende finalmente quali sono le variabili che, dal punto di vista statistico, sono più rilevanti.
 
fonte: Repubblica.it