Podcast: Play in new window | Download
Come capire quando sia il momento giusto per esplorare e cercare qualcosa di nuovo oppure rimanere ancorato allo status quo? Jeff Bezos ha sviluppato uno schema di ragionamento proprio per queste scelte difficili.
Supponiamo di entrare in un casinò: ci troviamo di fronte una serie di slot machines, ognuna con una differente probabilità di vincita. La strategia corretta per massimizzare i nostri guadagni sarebbe quella di iniziare a giocare su tutte le macchine per testarle (“esplorazione”) e successivamente focalizzarsi su quelle che ci sembrano più favorevoli (“sfruttamento”) sulla base delle informazioni che abbiamo raccolto.
Prendiamo il caso particolare in cui ci siano solo due slot machines: facciamo 15 tentativi con la prima, vincendo 9 volte; con la seconda tiriamo la leva 2 volte, e vinciamo 1. Su quale delle due macchine continuiamo a giocare? La percentuale di vittorie della prima è pari al 60% mentre è solo del 50% sulla seconda. Ma attenzione: possiamo sostenere che due tentativi siano sufficienti per stabilire quanto sia favorevole la seconda slot machine? No.
Il caso delle slot machines è conosciuto in computer science con il termine di “multi-armed bandit problem” (in termini colloquiali una slot machine viene anche definita “one-armed bandit”, il “bandito con un braccio solo”) e costituisce l’esempio più utilizzato dai ricercatori per analizzare la tensione tra esplorazione e sfruttamento (exploration vs exploitation). Per esplorazione si intende il processo di raccolta di nuove informazioni mentre lo sfruttamento consiste nell’utilizzare le informazioni in proprio possesso per ottenere dei risultati a noi favorevoli.
La tensione tra esplorazione e sfruttamento caratterizza ogni momento della nostra vita: preferiamo provare un nuovo ristorante o andare sul sicuro in uno già conosciuto? Andiamo al concerto di una nuova band emergente o preferiamo il tour della rockstar affermata? Ci piace uscire con gente nuova oppure frequentiamo sempre le stesse persone?
Anche in ambito aziendale occorre individuare il giusto il bilanciamento tra esplorazione e sfruttamento, tra le attività di ricerca e sviluppo, senza le quali la crescita futura non sarebbe sostenibile, e quelle commerciali finalizzate a raccogliere i risultati delle competenze già acquisite
L’orizzonte temporale
La decisione su quale delle due slot machines continuare a giocare dipende anche da quanto tempo abbiamo intenzione di rimanere nel casinò. L’attività di esplorazione, di ricerca di una nuova opportunità migliore di quella esistente, ha senso solo se abbiamo la possibilità ed il tempo di sfruttare le informazioni che andremo ad acquisire. Perché prendersi rischio di provare la seconda slot quando abbiamo solo pochi minuti a disposizione e possiamo essere già soddisfatti delle probabilità di vincita della prima?
I ricercatori Brian Christian e Tom Griffiths nel loro libro Algorithms to Live By, portano come esempio l’industria cinematografica di Hollywood. Nel 1981, tra i 10 film che hanno incassato di più ci sono stati solo 2 sequel. Nel 1991 sono stati 3; nel 2001, 5. Nel 2011, addirittura 8: e il trend è continuato anche negli anni successivi.
Dal punto di vista di uno studio di produzione, un sequel come Fast & Furious 6, The Hangover 3 o l’ennesimo film sugli X-Men, è un film con una “fan base” già esistente e quindi garantisce un incasso prevedibile. L’industria cinematografica è quindi entrata già da molti anni in una fase di sfruttamento puro, un approccio di breve termine che segnala la previsione che i giochi stiano per finire, che il tempo a disposizione per questo tipo di business sia ormai scaduto. E i dati sugli incassi delle sale già prima della pandemia, in crollo strutturale, non fanno che confermare questa previsione: gli studi di produzione stanno azionando le leve delle slot machine più profittevoli, per massimizzare i ricavi prima che il casinò li faccia uscire definitivamente.
Lo stesso principio può essere applicato alle strategie adottate dai manager in qualsiasi settore o azienda: un orizzonte temporale di breve periodo porta necessariamente a prediligere attività di sfruttamento finalizzate a massimizzare i risultati nell’immediato a discapito di attività innovative e di ricerca, più rischiose e con profili di rendimento a breve anche potenzialmente negativi.
La scelta di Jeff Bezos
In un’intervista del 2001 Jeff Bezos spiega come sia riuscito a prendere la decisione di lasciare un lavoro sicuro e ben remunerato presso un fondo d’investimento di Wall Street per dare inizio al progetto Amazon. La scelta di esplorare rispetto a rimanere al sicuro è stata guidata da un modello mentale che lui stesso ha definito “schema di minimizzazione del rimpianto” (“Regret Minimization Framework“). L’allora trentenne Bezos spiega di essersi proiettato nel se stesso di 80 anni che guarda indietro alla sua vita con il desiderio di avere meno rimpianti possibili: con questo approccio si rese subito conto che non avrebbe mai rimpianto il fatto di aver tentato di partecipare al quel fenomeno “internet” che in quegli anni stava nascendo e di cui aveva intuito le enormi potenzialità, neanche se avesse fallito. L’unica cosa che avrebbe rimpianto e che lo avrebbe tormentato tutta la vita, sarebbe stato il fatto di non averci provato. Utilizzando questo modello mentale, la scelta gli sembrò molto più semplice e Bezos decise di licenziarsi per dare inizio al progetto Amazon.
L’essenza dello schema consiste quindi nel cercare di astrarsi dalle considerazioni di breve periodo e di effettuare una valutazione che consenta di minimizzare il rimpianto in un’ottica di lungo periodo: da questo punto di vista, porsi nel se stesso a 80 anni che guarda indietro rappresenta un esercizio molto potente.
“Sapevo che se avessi fallito non avrei avuto rimpianti, ma sapevo per certo che avrei rimpianto di non averci provato. Sapevo che quel rimpianto sarebbe venuto a torturarmi ogni giorno, e quindi, con questo schema di pensiero, fu una decisione molto semplice.” (Jeff Bezos)
“Provare e fallire significa almeno imparare; rinunciare senza provare significa soffrire l’inestimabile perdita di quello che sarebbe potuto accadere.” (Chester Barnard)
L’algoritmo di minimizzazione del rimpianto
Il rimpianto deriva dal confrontare il risultato che abbiamo ottenuto rispetto a quello che sarebbe stato ottimale con il senno del poi. Utilizzando lo schema delle slot machines (multi-armed bandit), gli scienziati negli ultimi decenni sono andati alla ricerca di algoritmi per minimizzare il livello di rimpianto, cioè la differenza tra il payoff ottenuto adottando una particolare strategia per giocare alle slot e quella che sarebbe stata invece la strategia migliore. Di fatto hanno cercato di formalizzare l’intuizione di Bezos.
La famiglia di algoritmi più popolare ed efficace è conosciuta con il nome di Upper Confidence Bound algorithms (UCB): quando cerchiamo di valutare i possibili risultati di un fenomeno incerto, tendiamo ad individuare un intervallo di valori possibili in cui pensiamo con ragionevole fiducia che i risultati possano posizionarsi (anche definito “intervallo di confidenza”). L’intervallo di confidenza tende a restringersi man mano che acquisiamo dati e siamo in grado di stimare con maggiore precisione i possibili risultati.
Gli algoritmi UCB, suggeriscono di focalizzarsi sull’opzione dove il valore massimo dell’intervallo di confidenza è più alto. In sostanza, tornando all’esempio delle slot machine, non sono interessati alla macchina che ha performato meglio fino a quel momento ma a quella che potrebbe ragionevolmente performare meglio in futuro. Ritornando all’esempio precedente: tra la slot che ha pagato 9 volte su 15 e quella che ha pagato 1 su 2, un algoritmo UCB sceglierebbe di continuare a provare la seconda perché potenzialmente potrebbe avere un payoff superiore. Le opzioni potenzialmente più favorevoli vengono sempre esplorate.
Se non sei mai stato ad un ristorante prima, non puoi escludere che possa essere superlativo o comunque superiore al tuo preferito dove vai di solito. Anche un ristorante appena aperto con un paio di review negative potrebbe avere del potenziale: è chiaro che una volta che le review negative iniziano a moltiplicarsi, il nostro intervallo di confidenza sulla qualità del ristorante si restringe, e soprattutto il valore più alto di questo intervallo si riduce progressivamente.
Gli algoritmi UCB implementano quindi un principio che è stato definito “ottimismo di fronte all’incertezza” (“optimism in the face of uncertainty”): focalizzandosi sul risultato potenzialmente migliore, considerate le evidenze in nostro possesso, questi algoritmi ci spingono ad esplorare scelte che altrimenti non prenderemmo in considerazione, ci portano a valutare con entusiasmo nuove opzioni perché potrebbero portarci a risultati sorprendenti.
Non è un segreto che negli sport professionistici giovani di talento di 17/18 anni hanno spesso valutazioni significativamente superiori rispetto a giocatori forti e già affermati di 26/27 anni. Il giocatore più esperto è l’equivalente della slot machine che ha pagato 9 volte su 15: sappiamo ormai con una certa precisione quale sia il suo rendimento. Il giocatore di 17/18 anni è invece assimilabile alla slot con cui abbiamo giocato solo 2 volte: il suo rendimento è ancora incerto e soprattutto il suo potenziale massimo (Upper Bound Confidence) è ancora tutto da valutare.
La diffusione di questi algoritmi fornisce una giustificazione formale per il beneficio del dubbio: secondo questa impostazione dovremmo valutare con fiducia nuove opportunità in assenza di evidenze sul contrario. Ci dimostrano come l’ottimismo sia una strategia perfettamente razionale ed il miglior antidoto per evitare il rimpianto.
“Per quello che mi riguarda, io sono un ottimista. Non sarebbe molto utile essere altrimenti.” (Winston Churchill)
La lezione dei bambini
Uno degli aspetti particolari del genere umano è che, a differenza delle altre specie animali, è necessario un periodo di tempo piuttosto lungo per diventare autonomi e capaci di scegliere.
Alison Gopnik, professore di psicologia dello sviluppo all’Università di Berkeley, ritiene che un periodo di dipendenza così lungo, sia la soluzione trovata dal processo evolutivo al trade off tra esplorazione e sfruttamento negli umani. Gli algoritmi applicati al problema multi-armed bandit, prevedono una fase iniziale di esplorazione per poi sfruttare le informazioni in un fase successiva: lo svantaggio di questo approccio è che i risultati che otteniamo nella fase iniziale possono essere anche piuttosto negativi.
L’infanzia rappresenta una fase in cui i bambini possono esplorare senza preoccuparsi di ottenere dei risultati perché a quelli ci pensano i genitori. Secondo Gopnik quindi, il fatto che i bambini siano defocalizzati, non siano in grado di pianificare a lungo periodo ma passino velocemente da una cosa all’altra, scelgano a caso tra diverse opzioni, è perfettamente allineato con il loro obiettivo principale che è quello di esplorare.
Più generalmente, la nostra valutazione di razionalità è spesso attribuita a comportamenti connessi allo sfruttamento perché siamo quasi sempre focalizzati sui risultati immediati delle nostre scelte. Ma in alcune situazioni, come durante le prime fasi della nostra vita o quando come Bezos stiamo valutando un’opportunità che potremmo rimpiangere, è profondamente razionale porre enfasi sull’esplorazione, sul nuovo piuttosto che sul testato. Da questo punto di vista, il comportamento dei bambini è molto più razionale di quanto siamo abituati a pensare.
Bibliografia:
Christian, Brian; Griffiths Tom. Algorithms to Live By: The Computer Science of Human Decisions. William Collins, 2017.