Analiza

zadanie rozpoznawania z dwoma cechami (n=2) i z trzema klasami (M=3) dla algorytmu
rozpoznawania według wzoru (9) weźmy następujące funkcje klasyfikujące

g1(x) = (x1)^2+(x2)^2 ; g2(x)=2*x1; g3(x) = 2*x2;
wyznaczamy powierzchnie rozdzielające te obszary decyzyjne . w

[...]
analogicznie wyznaczamy równanie powierzchni s13

x21  x 2 −12=0
oraz x1 − x2 =0
---wynik obliczeń wykres 2 okręgi i linia prosta
powyższy opis stanowi opis idei klasyfikującej, ale nie jest przedstawieniem metody zawsze
użytecznej
przedstawienie metody wymaga podania:
sposobu wyznaczania funkcji klasyfikujących
sposobu dokonywania podziału na obszary decyzyjne
w następnej sekcji opisany zostanie jeden ze sposobów : probabilistyczny model niepewności
Probabilistyczny model niepewności
Stosowanie modelu statystycznego do zadania rozpoznawania oznacza założenie że wartości

elementów wektora cech x oraz numer klas j opisujemy używając metod właściwych dla statystyki
- traktujemy je jako zmienne losowe które oznaczamy odpowiednio % i J
Zmienna losowa % jest typu ciągłego a jej wartości pochodzą z przestrzeni X, natomiast zmienna
losowa J przyjmuje wartości dyskretne ze zbioru klas M = { 1,2..M}.
Aby losowość mogła być użyteczna należy jednak wstępnie coś wiedzieć o jej charakterze.
Dla zmiennej losowej J jest to jej rozkład scharakteryzowany prawdopodobieństwami wystąpień
klas
P  J = j= p j j ∈M
Z kole dla zmiennej losowej % dla każdej wartość j należy do M znana jest jej funkcja gęstości
prawdopodobieństwa
f  x / j= f j  x  x ∈X
jest to tak zwana gęstość cech w klasie
tzw bezwarunkowa funkcja gęstości
f  x =∑ j∈ M p j f j  x 
jest dodatnia dla wszystkich x∈ X
praktyczna interpretacja prawdopodobieństw(11) jest taka ze obiekty należące do rozważanych klas

pojawiają się z pewna znana(zbadana) statystyczna prawidłowością, o której mówią nam właśnie
prawdopodobieństwa(11)
obiekty jednych las występują częściej niż innych klas
występuje tez zmienność każdej cechy .

Przykład jedna z klas chorób będzie grypa jednym z symptomów jest podwyższona temperatura,
choć wiadomo ,ze grypa przebiega przy równych jej wartościach, bywa że i bez gorączki
warunkowa gęstość prawdopodobieństwa wystąpienia tej cechy (th temperatury) w omawianej

klasie choroby ma więc jakiś kształt (podobny rozkład jak Poissona temp od 36 do 41(dead))
gdy chcemy rozpoznawać obiekty(chorobę), to dokonujemy pomiarów wartości wszystkich

dostępnych(albo tylko istotnych) cech np. temperatura ciśnienie...
następnie w oparciu o te wartości odniesienie do ich gęstości prawdopodobieństw możemy określić
prawdopodobieństwo, ze badany obiekt należy do klas j;
p j  x=P  J = j / = x: x∈X : j ∈M (14)
prawdopodobieństwo a posteriori j-tej klasy
pytanie brzmi, jak można je policzyć

Wiadomo ze dysponujemy informacjami a priori(11), (12).
wzór bayesa
p f x
p j  x = j j (15)
f x
w którym f(x) liczymy z definicji (13)
przykład
w zadaniu rozpoznawania z dwoma lasami (dychotomia) prawdopodobieństwa klas wynoszą p1 i
p2
rozpatrzmy dwa przypadki w których skalarna cecha x ma warunkowe rozkłady w klasach

przedstawiona na rysunkach a) – b)
f1(x) f2(x)
2 garby wielbłąda na osi X gdzie szczyty garbów są x1 x2
przypadek 1 rys a
dla cechy x1 po zastosowaniu wzoru (15) otrzymamy następujące prawdopodobieństwa
p1(x1) = 1
p2(x1) = 0
z kolei dla cechy x2 otrzymamy odwrotne
widać ze jeśli ślady warunkowych gęstości(12) są rozłączne, to wartość cechy x jednoznacznie

wskazuje na klasę rozpoznawanego obiektu. Czyli znając wiemy na pewno jakiej klasy jest obiekt,
obo odpowiednie prawdopodobieństwa są albo 1, albo 0
przypadek 2 rys b
f1(x) = f2(x) = f(x)

znowu podobna krzywa do rozkładu Poissona x3 na środku(max) osi X
rys b warunkowe gęstości prawdopodobieństwa cech

teraz dla obiektu x3 mamy
p1(x3) = p1
p2(x3) = p2
czyli p1+p2=1
Jak widać dokonania pomiaru cechy byli bezcelowe. Jakąkolwiek wartość daje pomiar, to
prawdopodobieństwo wystąpienia klasy jest równe prawdopodobieństwo a prior tej klasy.
Postać warunkowych gęstości cechy oznacza w tym przypadku, ze zmienne losowe % oraz J są
statystycznie niezależne.
Dokonanie pomiaru nie zwiększa naszej wiedzy.
Sytuacje a) i b) są skrajne i stosowane stosunkowo rzadko spotykane w praktyce
Najczęściej ani gęstość cechy nie są jednakowe ani też ich klasy nie są rozłączne(rys).
Dwa rozkłady Poissona z częściom wspólną nakładające się (obszar sporny) obszary nienakładające się to
klasa1 i klasa2 zależnie do której cechy należą
przestrzeń cech(cala oś X)
Warunkowe gęstości cechy – przykład dychotomii.
Zadaniem algorytmu decyzyjnego jest rozstrzygniecie dotyczące zaliczenia sprawdzanego obiektu

do jednej z klas. rozstrzygniecie musi być możliwie najlepsze. Należy zatem zawsze określić
kryterium optymalności wdusi którego oceniamy jakość rozstrzygnięcia
wprowadźmy nieujemna i ograniczona funkcje dwóch argumentów
0≤Li , j≤∞ , i , j∈M
Funkcje ta nazywamy funkcja straty, a jej wartości miara straty. wprowadzimy zliczając obiekt j-tej
błędnie jako przynależny do klasy i-tej
Gdy rozpoznania są trafne to straty nie ma zatem
L i , j =0
Gdy i != j, co oznacza ze algorytm podjąć błędną decyzje to wartość funkcji jest tym większa im
większa jest odległość pomiędzy i j.
Jeśli następstwo błędnej decyzji jest trudne do oszacowania lub tylko chodzi nam o stwierdzenie
zaistnienia błędów to wygodniej jest przyjąć zero-jedynkową funkcje strat:
{
L i , j = 0 jeśli i = j
1 jeśli i != j
Zauważmy dalej ze skoro wartości cechy obiektu X są realizacja zmiennej losowej, to wynik
rozpoznawania czyli numer klasy i wskazany przez algorytm rozpoznawania Phi jest także
realizacja zmiennej losowej, niech ta zmienna będzie oznaczona litera I.
Jest to zmienna losowa dyskretna przyjmująca wartości ze zbioru numerów klas M

tak więc I = phi %  ;
Przyjmując że % jest zmienna losowa typu ciągłego reprezentacja wartości elementów wektora
cech x.
Interesuje nas prawdopodobieństwo zdarzenia, że wartości cech obiektu z klasy j-tej wpadną do i-
i
tego obszaru decyzyjnego D x algorytmu phi.
Równoważnie interesuje nas prawdopodobieństwo ze algorytm rozpoznawania phi zaliczy
niepoprawnie obiekt klasy j-tej dla klasy i-tej.
formalnie
q i , j=P  I =i / J = j =∫ f j  xdx (18)
i
Dx
Możemy to sobie wyobrazić jako całkowanie po obszarze Dix pod funkcja całka j
czyli obliczenie „powierzchni błędnych decyzji”.
W szczególności qi , j  jest prawdopodobieństwem poprawnej klasyfikacji obiektu klasy j-tej a

Pc[ phi ] liczone jak następuje
Pc phi = ∑ p j q j , j = ∑ p j ∫ f j  xdx (19)

j ∈M j∈M Dx
j
Oznacza średnie prawdopodobieństwo poprawnej klasyfikacji algorytmu rozpoznawania phi..

zauważmy ze we wzorze (19) całkujemy po obszarze j-tym czyli chodzi o j-te decyzje w j-tym
obszarze..
oznaczmy jeszcze Pe phi =1 – Pc  phi= ∑ p j ∑ q i , j  jako średnie

j ∈M i∈M , i! = j
prawdopodobieństwo błędu
wartość zmiennej losowej skokowej skośnej

n
E  X =∑ x i p i
i =1
skokowa zbiór wartości nieskończony
∞ ∞
E  X =∑ x i p i (jeśli szereg jest zbieżny i równocześnie ∑∣x I p i∣ jest tak zbieżny)
i =1 i=1
gdy zmienna losowa jest ciągła i jej gęstością jest funkcja f wówczas
−∞
E  X =∫ xf  xdx
∞
−∞ −∞
Jeśli ∫
∞
xf  x dx jest zbieżna i równocześnie ∣∫ xf  xdx∣
∞
jest zbieżna.
Gdy warunek ten nie jest spełniony to zmienna skokowa nie ma wartości oczekiwanej.
Z własność dowodzi się, że jeśli zmienne losowe X i Y są określone na tym samym zbiorze i obie
maja wartość oczekiwana to ma ja również suma zmiennych losowych X i Y oraz:
E  X Y =E  X  E Y 
Wróćmy co funkcji strat 0≤L i , j≤∞ gdzie i , j∈ M
pamiętając ze oba argument tej funkcji są wielkościami losowymi określimy wartośc oczekiwana
E I , J przypomnijmy ze I = phi % 
R[ phi ]=E i , j [ L I , J ]=E % , J [ L phi %, J ]
wielkości te nazywamy średnim ryzykiem lub po prostu ryzykiem reguły decyzyjnej czyli
algorytmu rozpoznawania phi
Dla przypadku pełnej informacji probabilistycznej oznaczającej znajomości prawdopodobieństwa
(11) i gęstości(12) należny dla przyjętej funkcji strat(17) wyznaczyć taki algorytm rozpoznania phi
postaci(9) który będzie minimalizował średnie ryzyko (21) czyli
R[ phi*]=min R [ phi ] (26)
phi
tak sformułowany problem optymalizacyjny w teorii decyzji statystycznych nazwę bayesowskiego

problemu decyzyjnego a sam algorytm jest nazywany algorytmem bayesa(beyesowska reguła
decyzyjna).
średnie ryzyko R [ phi]=E I , J [ L  I , J ]=E % ,J [ L  phi % , J ]

ryzyko warunkowe r j =E % , j [ L phi % , j ]=∫ Li , j  f j  xdx
x
średnie ryzyko R [ phi]= ∑ p j r j
j∈ M
¿
R[ phi ]=E % , J [ L phi   , J ]≝ ∫ ∑ L i , j  p j f j  xdx=
x ∈X j ∈M
= ∑ p j ∑ L i , j  ∫ f j x dx= (22)

j∈ M j ∈M Dx
i
= ∑ p j ∑ L i , j qi / j
j∈ M j ∈M
¿
r j =E %/ j [ L  phi % , j ]≝∫ L i , j  f j  xdx (23)
X
¿
r j =E J / x [ L phi % , j]≝ ∑ L i , j  p j  x (24)
j ∈M
tutaj p j  x jest prawdopodobieństwem a posteriori (15)
Bayesowski problem decyzyjny - Algorytm Bayesa.
Rozpoczynamy ze wzoru (26) R[ phi*]=min R [ phi ]

phi
Wyznaczenie reguły decyzyjnej to wyznaczenie optymalnej decyzji dla każdej ustalonej obserwacji
dla x∈ X przepis jest następujący.
phi∗ x=i , jezeli min r k  x

k∈ M
phi∗ x=i jesli ∑ L i , j  p j f j  x=min ∑ L i , j  p j f j  x tego nie jestem pewien.

j ∈M k ∈M j ∈M
Związek funkcyjny odznacza się tym ze każdej wartości jednej zmiennej niezależnej(X) odpowiada
tyko jedna, jednoznacznie określona wartość zmiennej zależnej(Y).
Wiadomo na przykład, ze obwód kwadratu jest funkcja jego boku (Ob=4a)
Związek statystyczny polega na tym, ze określonym wartościom jednej zmiennej odpowiadają

ściśle określone średnie wartości drugiej zmiennej. Można zatem obliczyć jak się zmieni wartość
zmiennej Y w odniesieniu do wartości niezależnej X.
Regresje – interpretacja.
[Średnia arytmetyczna ]
∞
wartość oczekiwana E  X =∫ xf  xdx
−∞
f(x) funkcja gęstości rozkładu
Można narysować wykres zęby zobrazować zbiór danych i zależność między nimi(wykres rozrzutu)
liczba obserwacji n→ ∞ wykres

opisuje stopniami szarości obszarów w których jest ich mniej, więcej (współśrodkowe elipsy pod
jakimś kątem w którego kierunku zachodzi rozrzut)
Rozważanie wartości X(x1), szukamy wartości Y(?) → E(Y|X=x1)
Liczba wartości oczekiwanych też →inf(cała linia prosta w punkcie x1) , wiec wyznaczamy
wartość oczekiwana warunkową E(Y|X=x1) lub w skrócie E(Y|X)
postępując analogicznie dla wszystkich możliwych wartości zmiennej X otrzymamy pewna linie
którą nazywamy - linia regresji I rodzaju.
Jest ona zdefiniowana przez warunkowe wartości zmiennej Y(zmiennej zależnej) pod warunkiem,
że zmienna X(zmienna niezależna) przyjmuje wartości x, czyli
g(X)=E(Y|X=x) prostsza wersja tego samego→ g(x)=E(Y|X)
W przypadku skończonej liczby zmiennych losowych, konieczna jest znajomość tej zmiennej
losowej dwuwymiarowej(X,Y), jeśli się go nie zna zastępuje się linie regresji I rodzaju →
linia regresji II rodzaju

jest to funkcja f(x) jeżeli znany rozkład i jest normalny to g(x) = f(x), jeśli nie to f(x) != g(x)
Postać analityczna linii regresji II rodzaju

model regresji liniowej opisujący liniową zależność zmiennej Y do zmiennej X można zapisać w
postaci równania
Y = f(X) = Bo+B1X+e
Bo,B1 - parametry modelu(współczynniki regresji),
e – składnik losowy
Jest to równanie regresji liniowej

Należy zwrócić uwagę na obecność we wzorze tzw składnika losowego e. Występowanie składnika
losowego e w równaniu związane jest z brakiem pełnego dopasowania analitycznego postaci
funkcji regresji do rzeczywistego powiązania miedzy analizowanymi zmiennymi.
Składnik losowy reprezentuje losowe zakłócenia funkcyjnego powiązania miedzy wartościami
zmiennej zależnej, a wartościami zmiennej niezalanej
Składnik ten wyraża wpływ wszystkich czynników, które obok zmiennej Xi mogą wpływać na
zmienna objaśnianą Y
Należy pamiętać, że w rzeczywistości parametry Bo B1 nie za znane – są jedynie wartościami
teoretycznymi.
Oszacowanie funkcji regresji przyjmuje wówczas następującą postać

Y(z daszkiem) = b0, b1X+E
b0, b1 = współczynniki będące ocenami parametrów regresji B0,B1
E = [e1,e2,e3,...]T wektor reszt rożnie zdefiniowanych jako
ei = yi-y`i
Metody najmniejszych kwadratów.

Rozważając serie punktów (xi,yi) i=1,2,3... oraz funkcje
ydaszek =b 0 b 1 x
reszty będące realizacja składnika losowego, który jest zmienna losowa występująca w populacji
generalnej, możemy wyrazić następująco
ei = yi − y daszek ii = yi −b 0 b 1 x
parametry b0 b1 dobiera się tak aby zminimalizować sumę kwadratów reszt
reszty te możemy interpretować jako

błędy popełniane podczas oceny parametrów prostej, a co za tym idzie oceny wyznaczanej funkcji
regresji, albo
odległości punktów empirycznych od wyznaczonej linii regresji
graficznie reszty to punkty odległe od prostej linii regresji
parametry b0 b1 ,które minimalizacja funkcje postaci:

n n
S =∑ ei 2 = ∑ n  yi− y i daszek 2=∑  yi –b 0 b 1 xi 2 =min
i=1 i=1to i=1
we wzorze tym tylko b0 i b1 są parametrami pozostałe wartości SA znane zatem S jest funkcja
zmiennych b0 b1
S=f(b0,b1)
S S
przyrównanie do 0 =0 oraz =0
 b0  b1
n
S
=−2 ∑  yi – b 0 – b 1 x i 
 b0 i=1
n
S
=−2 ∑  yi – b 0 – b 1 xi ⋅x i
 b1 i=1
daje nam układ równań normalnych
n n
∑ y i n⋅b 0 – ∑ b 1⋅xi =0
i=1 i= 1
n n n
∑ yi⋅xi i b0⋅∑ xi −b1⋅∑ xi2=0

i=1 i=1 i=1
rozwiązanie tego układu równań z dwiema niewiadomymi przedstawia się następująco
n
∑  y i− y x i− x  Cov xy
i=1
b1= =
n
var x
∑  xi −x 2
i=1
b 0 = y −b 1⋅x
analiza korelacji
miara liniowej zależności między zmiennymi X oraz Y i wyraża się wzorem :
r(X,Y) = r(X,Y) = Cov(X,Y) / SXSY
Gdzie Cov(X,Y) kowiarancja X,Y
Cov  X ,Y =Cov Y , X =
∑  xi – x yi− y
n
n= liczba obserwacji
S
X i SY odchylenia standardowe zmiennej X,Y

2
 ∑ x i −x
SX =
n
S
Y = analogicznie
można podstawić do pierwszego wzoru i będzie ostateczny wzór
Zależność korelacyjna charakteryzuje się tym ze określonym wartością jednej zmiennej (X)
przyporządkowane są ściśle określone średnie wartości (Y))
wartości współczynnika korelacji Pearsona zawierają się w przedziale [-1,1]

gdy war + czyli rosnąca oba w górę
ujemny wzrost jednego → spadek drugiego
jeśli rozkład był równoległy do którejś z osi X, Y to nie ma korelacji
im współczynnik bliższy 1 to korelacja się silniejsza, bliżej 0 słabsza

od 1 do -1 pełny funkcyjny związek linowy
r(X,Y) =0 brak korelacji
współczynnik bliski zeru nie oznacza braku korelacji lecz braku korelacji liniowej
trzy pytania

Analiza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analiza

Uploaded by

Copyright:

Available Formats

zadanie rozpoznawania z dwoma cechami (n=2) i z trzema klasami (M=3) dla algorytmu

rozpoznawania według wzoru (9) weźmy następujące funkcje klasyfikujące

wyznaczamy powierzchnie rozdzielające te obszary decyzyjne . w

analogicznie wyznaczamy równanie powierzchni s13

w następnej sekcji opisany zostanie jeden ze sposobów : probabilistyczny model niepewności

Probabilistyczny model niepewności

Stosowanie modelu statystycznego do zadania rozpoznawania oznacza założenie że wartości

praktyczna interpretacja prawdopodobieństw(11) jest taka ze obiekty należące do rozważanych klas

występuje tez zmienność każdej cechy .

warunkowa gęstość prawdopodobieństwa wystąpienia tej cechy (th temperatury) w omawianej

gdy chcemy rozpoznawać obiekty(chorobę), to dokonujemy pomiarów wartości wszystkich

p j  x=P  J = j / = x: x∈X : j ∈M (14)

prawdopodobieństwo a posteriori j-tej klasy

pytanie brzmi, jak można je policzyć

rozpatrzmy dwa przypadki w których skalarna cecha x ma warunkowe rozkłady w klasach

z kolei dla cechy x2 otrzymamy odwrotne

widać ze jeśli ślady warunkowych gęstości(12) są rozłączne, to wartość cechy x jednoznacznie

f1(x) = f2(x) = f(x)

rys b warunkowe gęstości prawdopodobieństwa cech

Sytuacje a) i b) są skrajne i stosowane stosunkowo rzadko spotykane w praktyce

Warunkowe gęstości cechy – przykład dychotomii.

Zadaniem algorytmu decyzyjnego jest rozstrzygniecie dotyczące zaliczenia sprawdzanego obiektu

0≤Li , j≤∞ , i , j∈M

Jest to zmienna losowa dyskretna przyjmująca wartości ze zbioru numerów klas M

W szczególności qi , j  jest prawdopodobieństwem poprawnej klasyfikacji obiektu klasy j-tej a

Pc phi = ∑ p j q j , j = ∑ p j ∫ f j  xdx (19)

Oznacza średnie prawdopodobieństwo poprawnej klasyfikacji algorytmu rozpoznawania phi..

oznaczmy jeszcze Pe phi =1 – Pc  phi= ∑ p j ∑ q i , j  jako średnie

wartość zmiennej losowej skokowej skośnej

Wróćmy co funkcji strat 0≤L i , j≤∞ gdzie i , j∈ M

R[ phi ]=E i , j [ L I , J ]=E % , J [ L phi %, J ]

tak sformułowany problem optymalizacyjny w teorii decyzji statystycznych nazwę bayesowskiego

średnie ryzyko R [ phi]=E I , J [ L  I , J ]=E % ,J [ L  phi % , J ]

= ∑ p j ∑ L i , j  ∫ f j x dx= (22)

tutaj p j  x jest prawdopodobieństwem a posteriori (15)

Bayesowski problem decyzyjny - Algorytm Bayesa.

Rozpoczynamy ze wzoru (26) R[ phi*]=min R [ phi ]

phi∗ x=i , jezeli min r k  x

phi∗ x=i jesli ∑ L i , j  p j f j  x=min ∑ L i , j  p j f j  x tego nie jestem pewien.

Związek statystyczny polega na tym, ze określonym wartościom jednej zmiennej odpowiadają

liczba obserwacji n→ ∞ wykres

Rozważanie wartości X(x1), szukamy wartości Y(?) → E(Y|X=x1)

linia regresji II rodzaju

Postać analityczna linii regresji II rodzaju

Jest to równanie regresji liniowej

Oszacowanie funkcji regresji przyjmuje wówczas następującą postać

Metody najmniejszych kwadratów.

reszty te możemy interpretować jako

graficznie reszty to punkty odległe od prostej linii regresji

parametry b0 b1 ,które minimalizacja funkcje postaci:

∑ yi⋅xi i b0⋅∑ xi −b1⋅∑ xi2=0

można podstawić do pierwszego wzoru i będzie ostateczny wzór

wartości współczynnika korelacji Pearsona zawierają się w przedziale [-1,1]

jeśli rozkład był równoległy do którejś z osi X, Y to nie ma korelacji

im współczynnik bliższy 1 to korelacja się silniejsza, bliżej 0 słabsza

You might also like