You are on page 1of 8

Państwowa Wyższa Szkoła Zawodowa im.

Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

KORELACJA I REGRESJA LINIOWA

Korelacja (zależność korelacyjna) w statystyce oznacza zależność


między cechami (współzależność cech). Zajmujemy się badaniem dwóch cech
jednocześnie. Sprawdzamy, czy istnieją zależności (związki) między tymi
dwiema cechami.
Korelacja występuje wtedy, gdy określonym wartościom jednej zmiennej
(cechy) przyporządkowane są ściśle określone średnie wartości drugiej zmiennej
(cechy). Średnie – bo może wystąpić czynnik losowy (zakłócający).
Do mierzenia siły i kierunku korelacji stosuje się następujący
współczynnik korelacji: współczynnik korelacji liniowej Pearsona.

Współczynnik korelacji liniowej Pearsona

1. Wzór:
n

C( X ,Y ) ∑ ( x − x )( y − y )
i i
C( X ,Y )
r XY = = i =1
=
2
S X ⋅S Y
2 n n S X ⋅S Y
∑ ( xi −x ) 2 ⋅ ∑ ( yi − y ) 2
i =1 i =1

gdzie:
C(X,Y) – kowariancja między cechami X i Y,
S X - wariancja cechy X,
2

S Y - wariancja cechy Y,
2

S X - odchylenie standardowe cechy X,


S Y - odchylenie standardowe cechy Y.

Powyższy wzór zawiera trzy warianty zapisu współczynnika korelacji Pearsona:


(a) Pierwszy zapis wykorzystujemy w sytuacji, gdy mamy już policzoną
kowariancję w zadaniu oraz dwie wariancje – cechy X i Y.
(b) Drugi zapis dotyczy sytuacji, gdy nic nie jest policzone, a tylko są dane
wartości w tabeli. Wówczas rozpisujemy tabelę na kolejne kolumny i
szukamy sum, które potem podstawiamy do wzoru środkowego.
(c) Trzeci wariant stosujemy wtedy, gdy mamy policzoną kowariancję oraz
odchylenia standardowe cech X i Y.

1
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

2. Współczynnik ten jest unormowany w przedziale [-1;1], tzn. może


przyjmować tylko wartości z tego przedziału. Wartości dodatnie oznaczają
korelację dodatnią, co oznacza, że wzrostowi wartości jednej cechy
odpowiada wzrost średnich wartości cechy drugiej.
Wartości ujemne oznaczają korelację ujemną, czyli wzrostowi wartości jednej
cechy odpowiada spadek średnich wartości cechy drugiej.

3. Interpretacja współczynnika korelacji:


♦ jeżeli r <0,2 - nie ma związku liniowego między cechami,
XY

♦ jeżeli 0,2 < r < 0,4 - niska (słaba) zależność liniowa,


XY

♦ jeżeli 0,4 < r < 0,7 - umiarkowana (średnia) zależność korelacyjna,


XY

♦ jeżeli 0,7 < r < 0,9 - znacząca (silna) zależność liniowa,


XY

♦ jeżeli r > 0,9 - bardzo silna zależność liniowa,


XY

♦ jeżeli r =1 - zależność funkcyjna (1 – funkcja liniowa rosnąca; -1 –


XY

funkcja liniowa malejąca),


♦ jeżeli r XY = 0 - brak jakiejkolwiek zależności między cechami.

REGRESJA LINIOWA

W każdym zadaniu, w którym mamy dwie zmienne X i Y możemy wyznaczyć


dwie linie regresji:

I linia regresji II linia regresji

x =a X ⋅ y + b y =a Y ⋅x + b

n n

C ( X ,Y )
∑( x i − x )( y i − y ) C ( X ,Y )
∑( x −x )( y − y )
i i
aX = 2
= i =1
n
aY = 2
= i =1
n
SY SX
∑( y − y ) ∑( x − x )
2 2
i i
i =1 i =1
b = x −a X ⋅ y b = y −a Y ⋅x

gdzie: gdzie:

2
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

x- zmienna objaśniana (zależna), x- zmienna objaśniająca (niezależna),


y – zmienna objaśniająca (niezależna),
a X – parametr linii regresji (współczynnik kierunkowy prostej),
b – drugi parametr linii regresji.
y – zmienna objaśniana (zależna),
a Y – parametr linii regresji,
b – drugi parametr linii regresji.

W pierwszej linii regresji mamy sytuację, w której zmienna y ma wpływ ma


kształtowanie się zmiennej x. Interpretacja parametrów a i b jest następująca:
Parametr a – jeżeli zmienna y wzrośnie o jednostkę, to zmienna x wzrośnie
lub spadnie o a.
Parametr b – nie interpretuje się tego parametru, gdyż nie ma on sensu
ekonomicznego.

Druga linia regresji:


Parametr a - jeżeli zmienna x wzrośnie o jednostkę, to zmienna y wzrośnie
lub spadnie o a.
Parametr b – nie interpretuje się tego parametru, gdyż nie ma on sensu
ekonomicznego.

Jeżeli w zadaniu wyznaczymy dwie linie regresji, a konkretnie dwa


współczynniki regresji a X oraz a Y , wówczas możemy obliczyć współczynnik
korelacji Pearsona, według wzoru:

r XY = a X ⋅a Y

Aby ocenić dopasowanie prostej regresji do punktów empirycznych


(danych z tabeli), należy obliczyć tzw. współczynnik determinacji, według
wzoru:
R 2 = ( r XY )
2

czyli należy podnieść do kwadratu obliczony wcześniej współczynnik korelacji.


Współczynnik determinacji R 2 jest unormowany w przedziale [0;1]. Im bliżej
1, tym lepsze dopasowanie modelu do rzeczywistości.

Przykład (zad. 1 z listy nr 3):

3
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

Pięć zakładów produkujących ten sam wyrób zbadano ze względu na wielkość


produkcji oraz koszty jednostkowe. Wyniki przedstawiono w tabeli:

X – produkcja w tys. sztuk 2 1 4 3 5


Y – koszty jednostkowe w zł 9 8 1 5 2

(a) Obliczyć współczynnik korelacji i zinterpretować go.


(b) Wyznaczyć prostą regresji kosztów jednostkowych względem produkcji.
(c) Zinterpretować parametr a prostej regresji kosztów jednostkowych
względem produkcji.
(d) Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.
(e) Ocenić dopasowanie prostych regresji do punktów empirycznych.

(a) Na początku należy obliczyć średnie arytmetyczne zmiennych X i Y. Każda


kolumna w tabeli jest traktowana osobno, jako szereg szczegółowy prosty, czyli
korzystamy z następujących wzorów:

1 1
x=
n
∑x i oraz y=
n
∑y i

1 1 1 1
czyli: x=
n
∑ x i = ⋅ 15 = 3
5
oraz y=
n
∑ y i = ⋅ 25 = 5
5

Aby obliczyć współczynnik korelacji Pearsona, korzystamy z zapisu


środkowego wzoru, gdyż musimy wyznaczyć odpowiednie sumy w tabeli:

∑ ( x − x )( y − y )
i i
r XY = i =1
n n

∑ ( x −x ) ⋅ ∑ ( y − y )
i =1
i
2

i =1
i
2

Rozszerzamy tabelę o odpowiednie kolumny:

X Y x i −x ( x i −x ) 2 y i −y ( y i −y ) 2 ( x i −x )( y i −y )
2 9 -1 1 4 16 -4

4
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

1 8 -2 4 3 9 -6
4 1 1 1 -4 16 -4
3 5 0 0 0 0 0
5 2 2 4 -3 9 -6
15 25 - 10 - 50 - 20

Podstawiamy sumy z tabeli do wzoru:


n

∑ ( x − x )( y − y )
i i
− 20 − 20
r XY = i =1
= = = −0,894
n n
10 ⋅ 50 500
∑ ( xi −x ) 2 ⋅ ∑ ( yi − y ) 2
i =1 i =1

r XY = −0,894

Interpretacja: otrzymany wynik wskazuje na silną ujemną korelację liniową,


co oznacza, że wzrostowi produkcji danego wyrobu odpowiada spadek jego
kosztów jednostkowych.

(b) Należy wyznaczyć prostą regresji kosztów jednostkowych względem


produkcji, czyli jak koszty jednostkowe (Y) zależą od produkcji (X), czyli druga
linia regresji:

y =a Y ⋅x + b

Obliczamy parametry tej linii regresji, według wzorów:


n

∑( x −x )( y − y ) i i
aY = i =1
n oraz b = y −a Y ⋅x
∑( x − x )
2
i
i =1

∑( x −x )( y − y )
i i
− 20
aY = i =1
n
= = −2 b = y −a Y ⋅x = 5 + 2 ⋅ 3 = 11
10
∑( x i − x ) 2
i =1
b = 11

a Y = −2

5
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

Wobec tego oszacowany model regresji ma postać:

yˆ = −2 ⋅ x +11

(c) Zinterpretować parametr a prostej regresji kosztów jednostkowych


względem produkcji.

Parametr a wynosi –2, czyli: jeżeli produkcja wzrośnie o 1000 sztuk (o


jednostkę), to koszty jednostkowe spadną o 2 zł (o a).

(d) Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.


Należy w tym celu skorzystać ze wzoru:

r XY = a X ⋅a Y

Współczynnik regresji a Y mamy już obliczony. Należy jeszcze wyznaczyć aX


z pierwszej linii regresji.
n

∑( x −x )( y − y )
i i
− 20
aX = i =1
n
= = −0,4
50
∑( y − y )
2
i
i =1

a X = −0,4

Podstawiamy do wzoru współczynniki regresji obu linii:

r XY = a X ⋅a Y = ( − 0,4) ⋅ ( − 2) = 0,8 = 0,894


r XY = 0,894

(e) Ocenić dopasowanie prostych regresji do punktów empirycznych.


Należy obliczyć współczynnik determinacji:

R 2 = ( r XY )2
R 2 = ( 0,894 ) = 0,799
2

R 2 = 0,799

Dopasowanie prostych regresji do punktów empirycznych jest dość duże,


na poziomie 79,9%, czyli około 80%.

6
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

Jeśli dodatkowo chcielibyśmy wyznaczyć prognozę, tzn. jak kształtowałaby się


wielkość produkcji, jeśli koszty jednostkowe danego wyrobu wynosiłyby 4 zł?

W tym celu należy się najpierw zastanowić, którą linię regresji trzeba
wyznaczyć. W tym przypadku mamy zależność x od y, czyli x= f(y) – I linia
regresji:
x =a X ⋅ y + b

Współczynnik regresji aX już obliczyliśmy, a jeszcze należy obliczyć drugi


parametr tej linii – b:

b = x −a X ⋅ y = 3 + 0,4 ⋅ 5 = 5
b =5

Wobec tego I linia regresji ma postać:

xˆ = −0,4 ⋅ y + 5

Aby wyznaczyć prognozę, należy do powyższego równania w miejsce y


wstawić 4 (zł) i w ten sposób otrzymamy wielkość produkcji (teoretyczną):

xˆ = −0,4 ⋅ y +5
xˆ = −0,4 ⋅ 4 +5 = −1,6 +5 =3,4
xˆ = 3,4

Jeśli koszty jednostkowe wyrobu wynosiłyby 4 zł, to teoretyczna wielkość


produkcji (prognostyczna) wyniosłaby 3,4 tys. sztuk, czyli 3400 sztuk.

STATYSTYKA I RACHUNEK PRAWDOPODOBIEŃSTWA –


ĆWICZENIA
LISTA ZADAŃ NR 3 – KORELACJA I REGRESJA LINIOWA

Zadanie 1. Pięć zakładów produkujących ten sam wyrób zbadano ze względu na wielkość produkcji
oraz koszty jednostkowe. Wyniki przedstawiono w tabeli:

X – produkcja w tys. sztuk 2 1 4 3 5


Y – koszty jednostkowe w zł 9 8 1 5 2

(a) Obliczyć współczynnik korelacji i zinterpretować go.


(b) Wyznaczyć prostą regresji kosztów jednostkowych względem produkcji.
(c) Zinterpretować parametr a prostej regresji kosztów jednostkowych względem produkcji.

7
Państwowa Wyższa Szkoła Zawodowa im. Witelona w Legnicy
Specjalność: Sterowanie Systemami Przemysłowymi
mgr Iwona Czerska
e-mail: iwona_czerska@op.pl

(d) Wyznaczyć współczynnik korelacji tylko na podstawie prostych regresji.


(e) Ocenić dopasowanie prostych regresji do punktów empirycznych.

Zadanie 2. Losowo wybrano 10 zakładów produkcyjnych i zbadano je ze względu na wartość


produkcji w mln PLN (Y) i zatrudnienie w dziesiątkach osób (X). Otrzymano następujące wyniki:

X 1 2 2 5 3 4 5 5 6 7
Y 2 4 4 6 7 7 8 7 8 9

(a) Obliczyć współczynnik korelacji liniowej i zinterpretować go.


(b) Oszacować parametry liniowego modelu regresji opisującego zależność produkcji od
zatrudnienia.
(c) Zinterpretować parametr a prostej regresji produkcji względem zatrudnienia.
(d) Ocenić dopasowanie prostej regresji do punktów empirycznych.

Zadanie 3. Losowo wybrano 10 studentów, którzy uzyskali następującą liczbę punktów na egzaminie
pośrednim (X) i końcowym (Y) z języka angielskiego:

X 8 8 9 7 8 8 5 10 7 10
Y 7 8 8 5 5 6 6 10 6 9

(a) Oszacować parametry liniowego modelu regresji opisującego zależność liczby punktów na
egzaminie końcowym od liczby punktów na egzaminie pośrednim.
(b) Zinterpretować parametr a.
(c) Jakiej liczby punktów na egzaminie końcowym może spodziewać się student, który na
egzaminie pośrednim uzyskał 6 punktów?

Zadanie 4. Dla losowo wybranych 20 rodzin (czteroosobowych) obliczono, że średnie spożycie


mięsa dla 20 rodzin wynosi 12 kg, a odchylenie standardowe wynosi 1,2 kg. Średni dochód natomiast
wyznaczony dla 20 rodzin wynosi 0,65 tys. zł, a wariancja wynosi 0,41 (tys. zł) 2. Obliczono, że
kowariancja między dochodami a spożyciem mięsa wynosi 0,7.

(a) Obliczyć i zinterpretować korelację między dochodami a spożyciem mięsa.


(b) Jeśli dochód w rodzinie będzie wynosił 1,3 tys. zł, to jak kształtowałoby się spożycie mięsa –
wyznaczyć na podstawie linii regresji.

You might also like