correlazione

Cos'è la correlazione:

Correlazione significa una somiglianza o una relazione tra due cose, persone o idee . È una similitudine o equivalenza che esiste tra due diverse ipotesi, situazioni o oggetti.

Nel campo delle statistiche e della matematica, la correlazione si riferisce a una misura tra due o più variabili correlate.

Il termine correlazione è un sostantivo femminile che ha origine dal latino correlatiōne.

La correlazione delle parole può essere sostituita da sinonimi come: relazione, equazione, nesso, corrispondenza, analogia e connessione.

Coefficiente di correlazione

In statistica, il coefficiente di correlazione di Pearson (r), che è anche chiamato coefficiente di correlazione del momento del prodotto, misura la relazione tra due variabili all'interno della stessa scala metrica.

La funzione del coefficiente di correlazione è quella di determinare l'intensità della relazione esistente tra insiemi noti di dati o informazioni.

Il valore del coefficiente di correlazione può variare tra -1 e 1 e il risultato ottenuto definisce se la correlazione è negativa o positiva.

Per interpretare il coefficiente è necessario sapere che 1 significa che la correlazione tra le variabili è perfettamente positiva e -1 significa che è perfetta negativa . Se il coefficiente è uguale a 0 significa che le variabili non dipendono l'una dall'altra.

In statistica c'è anche il coefficiente di correlazione di Spearman, che porta questo nome in onore dello statistico Charles Spearman. La funzione di questo coefficiente è misurare l'intensità della relazione tra due variabili, che siano lineari o meno.

La correlazione di Spearman serve a valutare se l'intensità della relazione tra le due variabili analizzate può essere misurata mediante una funzione monotona (funzione matematica che conserva o inverte la relazione di ordine iniziale).

Calcolo del coefficiente di correlazione di Pearson

Metodo 1) Calcolo del coefficiente di correlazione di Pearson utilizzando covarianza e deviazione standard.

dove

S XY è covarianza;

S x e S y rappresentano rispettivamente la deviazione standard delle variabili x e y.

In questo caso, il calcolo prevede innanzitutto di trovare la covarianza tra le variabili e la deviazione standard di ciascuna di esse. Quindi, la covarianza viene divisa per la moltiplicazione delle deviazioni standard.

Spesso, la dichiarazione fornisce già le deviazioni standard delle variabili o la covarianza tra di esse, semplicemente applicando la formula.

Metodo 2) Calcolo del coefficiente di correlazione di Pearson con dati grezzi (senza covarianza o deviazione standard).

Con questo metodo, la formula più diretta è la seguente:

Ad esempio, supponendo di disporre di dati con n = 6 osservazioni di due variabili: livello di glucosio (y) ed età (x), il calcolo segue i seguenti passaggi:

Passo 1) Costruisci la tabella con i dati esistenti: i, x, ye aggiungi colonne vuote per xy, x² e y²:

Passaggio 2: moltiplicare xey per riempire la colonna "xy". Ad esempio, nella riga 1 avremo: x1y1 = 43 × 99 = 4257.

Passaggio 3: aumentare i valori della colonna x e registrare i risultati nella colonna x². Ad esempio, nella prima riga avremo x 1 2 = 43 × 43 = 1849.

Passaggio 4: eseguire la stessa operazione del passaggio 3, ora utilizzando la colonna y e registrare il quadrato dei valori nella colonna y². Ad esempio, nella prima riga avremo: y 1 2 = 99 × 99 = 9801.

Passaggio 5: ottenere la somma di tutti i numeri di colonna e posizionare il risultato nel piè di pagina della colonna. Ad esempio, la somma della colonna Età X è uguale a 43 + 21 + 25 + 42 + 57 + 59 = 247.

Passaggio 6: utilizzare la formula precedente per ottenere il coefficiente di correlazione:

Quindi, abbiamo:

Il coefficiente di correlazione di Spearman

Il calcolo del coefficiente di correlazione di Spearman è leggermente diverso. Per questo, abbiamo bisogno di organizzare i nostri dati nella seguente tabella:

1. Avendo enunciato 2 coppie di dati, dobbiamo presentarli nella tabella. Ad esempio:

2. Nella colonna "Classifica A" classificheremo le osservazioni che sono in "Data A" in modo crescente, con "1" come il valore più basso nella colonna, en (numero totale di osservazioni), il valore più alto nella colonna "Data A" ". Nel nostro esempio è:

3. Facciamo lo stesso per ottenere la colonna "Classifica B", ora usando le osservazioni nella colonna "Dati B":

4. Nella colonna "d" inseriamo la differenza tra le due Classifiche (A - B). Qui il segnale non ha importanza.

5. Aumentare ciascuno dei valori nella colonna "d" e registrare nella colonna d²:

6. Aggiungi tutti i dati dalla colonna "d²". Questo valore è Σd². Nel nostro esempio Σd² = 0 + 1 + 0 + 1 = 2

7. Ora usiamo la formula di Spearman:

Nel nostro caso, n è uguale a 4, poiché osserviamo il numero di righe di dati (che corrisponde al numero di osservazioni).

8. Infine, sostituiamo i dati nella formula precedente:

Regressione lineare

La regressione lineare è una formula utilizzata per stimare il possibile valore di una variabile (y) quando sono noti i valori di altre variabili (x). Il valore di "x" è la variabile indipendente o esplicativa e "y" è la variabile dipendente o la risposta.

La regressione lineare viene utilizzata per verificare come il valore di "y" può variare in funzione della variabile "x". La riga contenente i valori del controllo della varianza è chiamata linea di regressione lineare.

Se la variabile esplicativa "x" ha un valore singolo, la regressione si chiamerà regressione lineare semplice .