Nell’articolo di oggi vediamo due concetti della statistica che sono molto utilizzati nel Machine Learning: percentili e quartili.

Percentili e quartili sono due concetti con cui ogni Data Scientist o Statistico si sarà più volte confrontato nella propria vita di studio o professionale. Questo perché, seppure si tratta di concetti molti semplici ed immediati, essi rivestono una grande importanza nell’analisi statistica. E, di conseguenza, nel Machine Learning.
Ma cosa sono di preciso percentili e quartili?
Oggi cerchiamo di spiegare cosa sono, a cosa servono e come possiamo usarli nel Machine Learning e nella Statistica in genere.
Cosa sono i percentili
I percentili sono una suddivisione in cento parti di una distribuzione di un fenomeno osservato. Li definiamo quindi come quei valori che dividono la distribuzione in cento parti di uguale numerosità.
Immaginiamo di avere 100 studenti, ognuno dei quali con un certo fenomeno osservato, per esempio il voto ad un esame. Quando abbiamo parlato della mediana, abbiamo detto che per calcolare il suo valore dovevamo mettere in ordine tutti i valori della variabile e prendere quello centrale. La mediana infatti non è altro che il 50-esimo percentile.
In modo inconsapevole (forse) stavamo già utilizzando il concetto di percentile. Se infatti suddivido in 100 parti la distribuzione dei voti (in questo caso, ogni voto), otterrò i percentili.
I percentili possono esserci molto utili quando dobbiamo studiare una distribuzione. Ci permettono infatti di capire per esempio l’80% dei dati (quindi la stragrande maggioranza dei dati) entro quali valori ricade. Ci basterà in questo caso prendere gli elementi che vanno dal percentile 10 al percentile 90 (in questo caso possiamo parlare anche di decile, che divide i dati in 10 parti).
Una versione più sofisticata di questa tecnica può essere usata anche per calcolare gli outlier (che spieghiamo qui cosa sono e come trattarli).
Cosa sono i quartili
Dalla definizione dei percentili, deriva direttamente quella dei quartili. I quartili rappresentano infatti dei percentili speciali.
Si tratta di quei percentili che dividono in quattro parti uguali il totale dei valori della distribuzione.
Si parla di primo quartile (Q1) il 25-esimo, di secondo quartile (Q2) il 50-esimo, che abbiamo scoperto essere la mediana, e di terzo quartile (Q3) il 75-esimo. Questi quartili dividono in quattro parti uguali i 100 percentili.
Solitamente quanto si studia una distribuzione, si prendono come riferimenti principali i valori che vanno dal quartile 1 (25-esimo) e il quartile 3 (75-esimo), che rappresentano il corpo della distribuzione.
Questo tipo di analisi è anche l’analisi che sta alla base di una delle rappresentazioni più utilizzate in ambito Data Analysis, ovvero il Boxplot.
Come si usano percentili e quartili nel machine learning
Percentili e quartili rivestono un ruolo importante non solo nella statistica, ma anche nel Machine Learning.
Uno degli aspetti più importanti è quello che abbiamo accennato dell’individuazione degli outlier: questa è una delle tecniche di preprocessing più importanti quando iniziamo un progetto di Machine Learning.
Inoltre è utilizzato per esempio per selezionare una porzione di individui su cui abbiamo fatto una predizione che hanno probabilità più alte di altri per un certo evento.
Immaginiamo di fare un modello di churn: faccio la mia prediction e per ogni cliente ho una percentuale di probabilità di churn. Se li metto in fila da quello che ha percentuale più bassa a quello che ha la percentuale più alta, posso poi decidere di fare un’azione di marketing sul terzo quartile, o magari sul nono decile o sul primo percentile.
Questo vorrebbe dire andare a prendere rispettivamente il 25% dei più a rischio churn, il 10% e l’1% dei più a rischio. Questo può rivelarsi un colpo davvero strabiliante!
Conclusioni
In questo articolo abbiamo esplorato due concetti molto importanti, ovvero percentili e quartili. Nel parlarne, abbiamo accennato anche ai decili.
Inoltre abbiamo visto come essi possano essere usati nel Machine Learning.
