You are on page 1of 8

zadanie rozpoznawania z dwoma cechami (n=2) i z trzema klasami (M=3) dla algorytmu

rozpoznawania według wzoru (9) weźmy następujące funkcje klasyfikujące


g1(x) = (x1)^2+(x2)^2 ; g2(x)=2*x1; g3(x) = 2*x2;

wyznaczamy powierzchnie rozdzielające te obszary decyzyjne . w


[...]

analogicznie wyznaczamy równanie powierzchni s13


x21  x 2 −12=0
oraz x1 − x2 =0
---wynik obliczeń wykres 2 okręgi i linia prosta

powyższy opis stanowi opis idei klasyfikującej, ale nie jest przedstawieniem metody zawsze
użytecznej
przedstawienie metody wymaga podania:
sposobu wyznaczania funkcji klasyfikujących
sposobu dokonywania podziału na obszary decyzyjne

w następnej sekcji opisany zostanie jeden ze sposobów : probabilistyczny model niepewności

Probabilistyczny model niepewności

Stosowanie modelu statystycznego do zadania rozpoznawania oznacza założenie że wartości


elementów wektora cech x oraz numer klas j opisujemy używając metod właściwych dla statystyki
- traktujemy je jako zmienne losowe które oznaczamy odpowiednio % i J

Zmienna losowa % jest typu ciągłego a jej wartości pochodzą z przestrzeni X, natomiast zmienna
losowa J przyjmuje wartości dyskretne ze zbioru klas M = { 1,2..M}.

Aby losowość mogła być użyteczna należy jednak wstępnie coś wiedzieć o jej charakterze.
Dla zmiennej losowej J jest to jej rozkład scharakteryzowany prawdopodobieństwami wystąpień
klas
P  J = j= p j j ∈M

Z kole dla zmiennej losowej % dla każdej wartość j należy do M znana jest jej funkcja gęstości
prawdopodobieństwa
f  x / j= f j  x  x ∈X
jest to tak zwana gęstość cech w klasie
tzw bezwarunkowa funkcja gęstości
f  x =∑ j∈ M p j f j  x 
jest dodatnia dla wszystkich x∈ X

praktyczna interpretacja prawdopodobieństw(11) jest taka ze obiekty należące do rozważanych klas


pojawiają się z pewna znana(zbadana) statystyczna prawidłowością, o której mówią nam właśnie
prawdopodobieństwa(11)
obiekty jednych las występują częściej niż innych klas

występuje tez zmienność każdej cechy .


Przykład jedna z klas chorób będzie grypa jednym z symptomów jest podwyższona temperatura,
choć wiadomo ,ze grypa przebiega przy równych jej wartościach, bywa że i bez gorączki

warunkowa gęstość prawdopodobieństwa wystąpienia tej cechy (th temperatury) w omawianej


klasie choroby ma więc jakiś kształt (podobny rozkład jak Poissona temp od 36 do 41(dead))

gdy chcemy rozpoznawać obiekty(chorobę), to dokonujemy pomiarów wartości wszystkich


dostępnych(albo tylko istotnych) cech np. temperatura ciśnienie...
następnie w oparciu o te wartości odniesienie do ich gęstości prawdopodobieństw możemy określić
prawdopodobieństwo, ze badany obiekt należy do klas j;

p j  x=P  J = j / = x: x∈X : j ∈M (14)

prawdopodobieństwo a posteriori j-tej klasy

pytanie brzmi, jak można je policzyć


Wiadomo ze dysponujemy informacjami a priori(11), (12).

wzór bayesa
p f x
p j  x = j j (15)
f x
w którym f(x) liczymy z definicji (13)

przykład
w zadaniu rozpoznawania z dwoma lasami (dychotomia) prawdopodobieństwa klas wynoszą p1 i
p2

rozpatrzmy dwa przypadki w których skalarna cecha x ma warunkowe rozkłady w klasach


przedstawiona na rysunkach a) – b)

f1(x) f2(x)
2 garby wielbłąda na osi X gdzie szczyty garbów są x1 x2

przypadek 1 rys a
dla cechy x1 po zastosowaniu wzoru (15) otrzymamy następujące prawdopodobieństwa

p1(x1) = 1
p2(x1) = 0

z kolei dla cechy x2 otrzymamy odwrotne

widać ze jeśli ślady warunkowych gęstości(12) są rozłączne, to wartość cechy x jednoznacznie


wskazuje na klasę rozpoznawanego obiektu. Czyli znając wiemy na pewno jakiej klasy jest obiekt,
obo odpowiednie prawdopodobieństwa są albo 1, albo 0

przypadek 2 rys b

f1(x) = f2(x) = f(x)


znowu podobna krzywa do rozkładu Poissona x3 na środku(max) osi X

rys b warunkowe gęstości prawdopodobieństwa cech


teraz dla obiektu x3 mamy
p1(x3) = p1
p2(x3) = p2
czyli p1+p2=1

Jak widać dokonania pomiaru cechy byli bezcelowe. Jakąkolwiek wartość daje pomiar, to
prawdopodobieństwo wystąpienia klasy jest równe prawdopodobieństwo a prior tej klasy.
Postać warunkowych gęstości cechy oznacza w tym przypadku, ze zmienne losowe % oraz J są
statystycznie niezależne.
Dokonanie pomiaru nie zwiększa naszej wiedzy.

Sytuacje a) i b) są skrajne i stosowane stosunkowo rzadko spotykane w praktyce

Najczęściej ani gęstość cechy nie są jednakowe ani też ich klasy nie są rozłączne(rys).
Dwa rozkłady Poissona z częściom wspólną nakładające się (obszar sporny) obszary nienakładające się to
klasa1 i klasa2 zależnie do której cechy należą
przestrzeń cech(cala oś X)

Warunkowe gęstości cechy – przykład dychotomii.

Zadaniem algorytmu decyzyjnego jest rozstrzygniecie dotyczące zaliczenia sprawdzanego obiektu


do jednej z klas. rozstrzygniecie musi być możliwie najlepsze. Należy zatem zawsze określić
kryterium optymalności wdusi którego oceniamy jakość rozstrzygnięcia
wprowadźmy nieujemna i ograniczona funkcje dwóch argumentów

0≤Li , j≤∞ , i , j∈M

Funkcje ta nazywamy funkcja straty, a jej wartości miara straty. wprowadzimy zliczając obiekt j-tej
błędnie jako przynależny do klasy i-tej
Gdy rozpoznania są trafne to straty nie ma zatem
L i , j =0

Gdy i != j, co oznacza ze algorytm podjąć błędną decyzje to wartość funkcji jest tym większa im
większa jest odległość pomiędzy i j.
Jeśli następstwo błędnej decyzji jest trudne do oszacowania lub tylko chodzi nam o stwierdzenie
zaistnienia błędów to wygodniej jest przyjąć zero-jedynkową funkcje strat:

{
L i , j = 0 jeśli i = j
1 jeśli i != j

Zauważmy dalej ze skoro wartości cechy obiektu X są realizacja zmiennej losowej, to wynik
rozpoznawania czyli numer klasy i wskazany przez algorytm rozpoznawania Phi jest także
realizacja zmiennej losowej, niech ta zmienna będzie oznaczona litera I.

Jest to zmienna losowa dyskretna przyjmująca wartości ze zbioru numerów klas M


tak więc I = phi %  ;
Przyjmując że % jest zmienna losowa typu ciągłego reprezentacja wartości elementów wektora
cech x.

Interesuje nas prawdopodobieństwo zdarzenia, że wartości cech obiektu z klasy j-tej wpadną do i-
i
tego obszaru decyzyjnego D x algorytmu phi.
Równoważnie interesuje nas prawdopodobieństwo ze algorytm rozpoznawania phi zaliczy
niepoprawnie obiekt klasy j-tej dla klasy i-tej.
formalnie
q i , j=P  I =i / J = j =∫ f j  xdx (18)
i
Dx

Możemy to sobie wyobrazić jako całkowanie po obszarze Dix pod funkcja całka j
czyli obliczenie „powierzchni błędnych decyzji”.

W szczególności qi , j  jest prawdopodobieństwem poprawnej klasyfikacji obiektu klasy j-tej a


Pc[ phi ] liczone jak następuje

Pc phi = ∑ p j q j , j = ∑ p j ∫ f j  xdx (19)


j ∈M j∈M Dx
j

Oznacza średnie prawdopodobieństwo poprawnej klasyfikacji algorytmu rozpoznawania phi..


zauważmy ze we wzorze (19) całkujemy po obszarze j-tym czyli chodzi o j-te decyzje w j-tym
obszarze..

oznaczmy jeszcze Pe phi =1 – Pc  phi= ∑ p j ∑ q i , j  jako średnie


j ∈M i∈M , i! = j
prawdopodobieństwo błędu

wartość zmiennej losowej skokowej skośnej


n
E  X =∑ x i p i
i =1
skokowa zbiór wartości nieskończony
∞ ∞
E  X =∑ x i p i (jeśli szereg jest zbieżny i równocześnie ∑∣x I p i∣ jest tak zbieżny)
i =1 i=1

gdy zmienna losowa jest ciągła i jej gęstością jest funkcja f wówczas
−∞
E  X =∫ xf  xdx
∞
−∞ −∞
Jeśli ∫
∞
xf  x dx jest zbieżna i równocześnie ∣∫ xf  xdx∣
∞
jest zbieżna.
Gdy warunek ten nie jest spełniony to zmienna skokowa nie ma wartości oczekiwanej.

Z własność dowodzi się, że jeśli zmienne losowe X i Y są określone na tym samym zbiorze i obie
maja wartość oczekiwana to ma ja również suma zmiennych losowych X i Y oraz:
E  X Y =E  X  E Y 

Wróćmy co funkcji strat 0≤L i , j≤∞ gdzie i , j∈ M

pamiętając ze oba argument tej funkcji są wielkościami losowymi określimy wartośc oczekiwana
E I , J przypomnijmy ze I = phi % 

R[ phi ]=E i , j [ L I , J ]=E % , J [ L phi %, J ]

wielkości te nazywamy średnim ryzykiem lub po prostu ryzykiem reguły decyzyjnej czyli
algorytmu rozpoznawania phi
Dla przypadku pełnej informacji probabilistycznej oznaczającej znajomości prawdopodobieństwa
(11) i gęstości(12) należny dla przyjętej funkcji strat(17) wyznaczyć taki algorytm rozpoznania phi
postaci(9) który będzie minimalizował średnie ryzyko (21) czyli
R[ phi*]=min R [ phi ] (26)
phi

tak sformułowany problem optymalizacyjny w teorii decyzji statystycznych nazwę bayesowskiego


problemu decyzyjnego a sam algorytm jest nazywany algorytmem bayesa(beyesowska reguła
decyzyjna).

średnie ryzyko R [ phi]=E I , J [ L  I , J ]=E % ,J [ L  phi % , J ]


ryzyko warunkowe r j =E % , j [ L phi % , j ]=∫ Li , j  f j  xdx
x
średnie ryzyko R [ phi]= ∑ p j r j
j∈ M

¿
R[ phi ]=E % , J [ L phi   , J ]≝ ∫ ∑ L i , j  p j f j  xdx=
x ∈X j ∈M

= ∑ p j ∑ L i , j  ∫ f j x dx= (22)


j∈ M j ∈M Dx
i

= ∑ p j ∑ L i , j qi / j
j∈ M j ∈M

¿
r j =E %/ j [ L  phi % , j ]≝∫ L i , j  f j  xdx (23)
X

¿
r j =E J / x [ L phi % , j]≝ ∑ L i , j  p j  x (24)
j ∈M

tutaj p j  x jest prawdopodobieństwem a posteriori (15)

Bayesowski problem decyzyjny - Algorytm Bayesa.

Rozpoczynamy ze wzoru (26) R[ phi*]=min R [ phi ]


phi

Wyznaczenie reguły decyzyjnej to wyznaczenie optymalnej decyzji dla każdej ustalonej obserwacji
dla x∈ X przepis jest następujący.

phi∗ x=i , jezeli min r k  x


k∈ M

phi∗ x=i jesli ∑ L i , j  p j f j  x=min ∑ L i , j  p j f j  x tego nie jestem pewien.


j ∈M k ∈M j ∈M
Związek funkcyjny odznacza się tym ze każdej wartości jednej zmiennej niezależnej(X) odpowiada
tyko jedna, jednoznacznie określona wartość zmiennej zależnej(Y).
Wiadomo na przykład, ze obwód kwadratu jest funkcja jego boku (Ob=4a)

Związek statystyczny polega na tym, ze określonym wartościom jednej zmiennej odpowiadają


ściśle określone średnie wartości drugiej zmiennej. Można zatem obliczyć jak się zmieni wartość
zmiennej Y w odniesieniu do wartości niezależnej X.

Regresje – interpretacja.

[Średnia arytmetyczna ]

wartość oczekiwana E  X =∫ xf  xdx
−∞
f(x) funkcja gęstości rozkładu

Można narysować wykres zęby zobrazować zbiór danych i zależność między nimi(wykres rozrzutu)

liczba obserwacji n→ ∞ wykres


opisuje stopniami szarości obszarów w których jest ich mniej, więcej (współśrodkowe elipsy pod
jakimś kątem w którego kierunku zachodzi rozrzut)

Rozważanie wartości X(x1), szukamy wartości Y(?) → E(Y|X=x1)

Liczba wartości oczekiwanych też →inf(cała linia prosta w punkcie x1) , wiec wyznaczamy
wartość oczekiwana warunkową E(Y|X=x1) lub w skrócie E(Y|X)

postępując analogicznie dla wszystkich możliwych wartości zmiennej X otrzymamy pewna linie
którą nazywamy - linia regresji I rodzaju.
Jest ona zdefiniowana przez warunkowe wartości zmiennej Y(zmiennej zależnej) pod warunkiem,
że zmienna X(zmienna niezależna) przyjmuje wartości x, czyli
g(X)=E(Y|X=x) prostsza wersja tego samego→ g(x)=E(Y|X)

W przypadku skończonej liczby zmiennych losowych, konieczna jest znajomość tej zmiennej
losowej dwuwymiarowej(X,Y), jeśli się go nie zna zastępuje się linie regresji I rodzaju →

linia regresji II rodzaju


jest to funkcja f(x) jeżeli znany rozkład i jest normalny to g(x) = f(x), jeśli nie to f(x) != g(x)

Postać analityczna linii regresji II rodzaju


model regresji liniowej opisujący liniową zależność zmiennej Y do zmiennej X można zapisać w
postaci równania
Y = f(X) = Bo+B1X+e
Bo,B1 - parametry modelu(współczynniki regresji),
e – składnik losowy

Jest to równanie regresji liniowej


Należy zwrócić uwagę na obecność we wzorze tzw składnika losowego e. Występowanie składnika
losowego e w równaniu związane jest z brakiem pełnego dopasowania analitycznego postaci
funkcji regresji do rzeczywistego powiązania miedzy analizowanymi zmiennymi.
Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania miedzy wartościami
zmiennej zależnej, a wartościami zmiennej niezalanej
Składnik ten wyraża wpływ wszystkich czynników, które obok zmiennej Xi mogą wpływać na
zmienna objaśnianą Y
Należy pamiętać, że w rzeczywistości parametry Bo B1 nie za znane – są jedynie wartościami
teoretycznymi.

Oszacowanie funkcji regresji przyjmuje wówczas następującą postać


Y(z daszkiem) = b0, b1X+E
b0, b1 = współczynniki będące ocenami parametrów regresji B0,B1
E = [e1,e2,e3,...]T wektor reszt rożnie zdefiniowanych jako
ei = yi-y`i

Metody najmniejszych kwadratów.


Rozważając serie punktów (xi,yi) i=1,2,3... oraz funkcje
ydaszek =b 0 b 1 x

reszty będące realizacja składnika losowego, który jest zmienna losowa występująca w populacji
generalnej, możemy wyrazić następująco
ei = yi − y daszek ii = yi −b 0 b 1 x
parametry b0 b1 dobiera się tak aby zminimalizować sumę kwadratów reszt

reszty te możemy interpretować jako


błędy popełniane podczas oceny parametrów prostej, a co za tym idzie oceny wyznaczanej funkcji
regresji, albo
odległości punktów empirycznych od wyznaczonej linii regresji

graficznie reszty to punkty odległe od prostej linii regresji

parametry b0 b1 ,które minimalizacja funkcje postaci:


n n
S =∑ ei 2 = ∑ n  yi− y i daszek 2=∑  yi –b 0 b 1 xi 2 =min
i=1 i=1to i=1

we wzorze tym tylko b0 i b1 są parametrami pozostałe wartości SA znane zatem S jest funkcja
zmiennych b0 b1
S=f(b0,b1)

S S
przyrównanie do 0 =0 oraz =0
 b0  b1
n
S
=−2 ∑  yi – b 0 – b 1 x i 
 b0 i=1
n
S
=−2 ∑  yi – b 0 – b 1 xi ⋅x i
 b1 i=1
daje nam układ równań normalnych
n n

∑ y i n⋅b 0 – ∑ b 1⋅xi =0
i=1 i= 1
n n n

∑ yi⋅xi i b0⋅∑ xi −b1⋅∑ xi2=0


i=1 i=1 i=1
rozwiązanie tego układu równań z dwiema niewiadomymi przedstawia się następująco
n

∑  y i− y x i− x  Cov xy
i=1
b1= =
n
var x
∑  xi −x 2
i=1

b 0 = y −b 1⋅x

analiza korelacji
miara liniowej zależności między zmiennymi X oraz Y i wyraża się wzorem :
r(X,Y) = r(X,Y) = Cov(X,Y) / SXSY
Gdzie Cov(X,Y) kowiarancja X,Y
Cov  X ,Y =Cov Y , X =
∑  xi – x yi− y
n
n= liczba obserwacji
S
X i SY odchylenia standardowe zmiennej X,Y


2
 ∑ x i −x
SX =
n
S
Y = analogicznie

można podstawić do pierwszego wzoru i będzie ostateczny wzór

Zależność korelacyjna charakteryzuje się tym ze określonym wartością jednej zmiennej (X)
przyporządkowane są ściśle określone średnie wartości (Y))

wartości współczynnika korelacji Pearsona zawierają się w przedziale [-1,1]


gdy war + czyli rosnąca oba w górę
ujemny wzrost jednego → spadek drugiego

jeśli rozkład był równoległy do którejś z osi X, Y to nie ma korelacji

im współczynnik bliższy 1 to korelacja się silniejsza, bliżej 0 słabsza


od 1 do -1 pełny funkcyjny związek linowy
r(X,Y) =0 brak korelacji

współczynnik bliski zeru nie oznacza braku korelacji lecz braku korelacji liniowej

trzy pytania

You might also like