Professional Documents
Culture Documents
powyższy opis stanowi opis idei klasyfikującej, ale nie jest przedstawieniem metody zawsze
użytecznej
przedstawienie metody wymaga podania:
sposobu wyznaczania funkcji klasyfikujących
sposobu dokonywania podziału na obszary decyzyjne
Zmienna losowa % jest typu ciągłego a jej wartości pochodzą z przestrzeni X, natomiast zmienna
losowa J przyjmuje wartości dyskretne ze zbioru klas M = { 1,2..M}.
Aby losowość mogła być użyteczna należy jednak wstępnie coś wiedzieć o jej charakterze.
Dla zmiennej losowej J jest to jej rozkład scharakteryzowany prawdopodobieństwami wystąpień
klas
P J = j= p j j ∈M
Z kole dla zmiennej losowej % dla każdej wartość j należy do M znana jest jej funkcja gęstości
prawdopodobieństwa
f x / j= f j x x ∈X
jest to tak zwana gęstość cech w klasie
tzw bezwarunkowa funkcja gęstości
f x =∑ j∈ M p j f j x
jest dodatnia dla wszystkich x∈ X
wzór bayesa
p f x
p j x = j j (15)
f x
w którym f(x) liczymy z definicji (13)
przykład
w zadaniu rozpoznawania z dwoma lasami (dychotomia) prawdopodobieństwa klas wynoszą p1 i
p2
f1(x) f2(x)
2 garby wielbłąda na osi X gdzie szczyty garbów są x1 x2
przypadek 1 rys a
dla cechy x1 po zastosowaniu wzoru (15) otrzymamy następujące prawdopodobieństwa
p1(x1) = 1
p2(x1) = 0
przypadek 2 rys b
Jak widać dokonania pomiaru cechy byli bezcelowe. Jakąkolwiek wartość daje pomiar, to
prawdopodobieństwo wystąpienia klasy jest równe prawdopodobieństwo a prior tej klasy.
Postać warunkowych gęstości cechy oznacza w tym przypadku, ze zmienne losowe % oraz J są
statystycznie niezależne.
Dokonanie pomiaru nie zwiększa naszej wiedzy.
Najczęściej ani gęstość cechy nie są jednakowe ani też ich klasy nie są rozłączne(rys).
Dwa rozkłady Poissona z częściom wspólną nakładające się (obszar sporny) obszary nienakładające się to
klasa1 i klasa2 zależnie do której cechy należą
przestrzeń cech(cala oś X)
Funkcje ta nazywamy funkcja straty, a jej wartości miara straty. wprowadzimy zliczając obiekt j-tej
błędnie jako przynależny do klasy i-tej
Gdy rozpoznania są trafne to straty nie ma zatem
L i , j =0
Gdy i != j, co oznacza ze algorytm podjąć błędną decyzje to wartość funkcji jest tym większa im
większa jest odległość pomiędzy i j.
Jeśli następstwo błędnej decyzji jest trudne do oszacowania lub tylko chodzi nam o stwierdzenie
zaistnienia błędów to wygodniej jest przyjąć zero-jedynkową funkcje strat:
{
L i , j = 0 jeśli i = j
1 jeśli i != j
Zauważmy dalej ze skoro wartości cechy obiektu X są realizacja zmiennej losowej, to wynik
rozpoznawania czyli numer klasy i wskazany przez algorytm rozpoznawania Phi jest także
realizacja zmiennej losowej, niech ta zmienna będzie oznaczona litera I.
Interesuje nas prawdopodobieństwo zdarzenia, że wartości cech obiektu z klasy j-tej wpadną do i-
i
tego obszaru decyzyjnego D x algorytmu phi.
Równoważnie interesuje nas prawdopodobieństwo ze algorytm rozpoznawania phi zaliczy
niepoprawnie obiekt klasy j-tej dla klasy i-tej.
formalnie
q i , j=P I =i / J = j =∫ f j xdx (18)
i
Dx
Możemy to sobie wyobrazić jako całkowanie po obszarze Dix pod funkcja całka j
czyli obliczenie „powierzchni błędnych decyzji”.
gdy zmienna losowa jest ciągła i jej gęstością jest funkcja f wówczas
−∞
E X =∫ xf xdx
∞
−∞ −∞
Jeśli ∫
∞
xf x dx jest zbieżna i równocześnie ∣∫ xf xdx∣
∞
jest zbieżna.
Gdy warunek ten nie jest spełniony to zmienna skokowa nie ma wartości oczekiwanej.
Z własność dowodzi się, że jeśli zmienne losowe X i Y są określone na tym samym zbiorze i obie
maja wartość oczekiwana to ma ja również suma zmiennych losowych X i Y oraz:
E X Y =E X E Y
pamiętając ze oba argument tej funkcji są wielkościami losowymi określimy wartośc oczekiwana
E I , J przypomnijmy ze I = phi %
wielkości te nazywamy średnim ryzykiem lub po prostu ryzykiem reguły decyzyjnej czyli
algorytmu rozpoznawania phi
Dla przypadku pełnej informacji probabilistycznej oznaczającej znajomości prawdopodobieństwa
(11) i gęstości(12) należny dla przyjętej funkcji strat(17) wyznaczyć taki algorytm rozpoznania phi
postaci(9) który będzie minimalizował średnie ryzyko (21) czyli
R[ phi*]=min R [ phi ] (26)
phi
¿
R[ phi ]=E % , J [ L phi , J ]≝ ∫ ∑ L i , j p j f j xdx=
x ∈X j ∈M
= ∑ p j ∑ L i , j qi / j
j∈ M j ∈M
¿
r j =E %/ j [ L phi % , j ]≝∫ L i , j f j xdx (23)
X
¿
r j =E J / x [ L phi % , j]≝ ∑ L i , j p j x (24)
j ∈M
Wyznaczenie reguły decyzyjnej to wyznaczenie optymalnej decyzji dla każdej ustalonej obserwacji
dla x∈ X przepis jest następujący.
Regresje – interpretacja.
[Średnia arytmetyczna ]
∞
wartość oczekiwana E X =∫ xf xdx
−∞
f(x) funkcja gęstości rozkładu
Można narysować wykres zęby zobrazować zbiór danych i zależność między nimi(wykres rozrzutu)
Liczba wartości oczekiwanych też →inf(cała linia prosta w punkcie x1) , wiec wyznaczamy
wartość oczekiwana warunkową E(Y|X=x1) lub w skrócie E(Y|X)
postępując analogicznie dla wszystkich możliwych wartości zmiennej X otrzymamy pewna linie
którą nazywamy - linia regresji I rodzaju.
Jest ona zdefiniowana przez warunkowe wartości zmiennej Y(zmiennej zależnej) pod warunkiem,
że zmienna X(zmienna niezależna) przyjmuje wartości x, czyli
g(X)=E(Y|X=x) prostsza wersja tego samego→ g(x)=E(Y|X)
W przypadku skończonej liczby zmiennych losowych, konieczna jest znajomość tej zmiennej
losowej dwuwymiarowej(X,Y), jeśli się go nie zna zastępuje się linie regresji I rodzaju →
reszty będące realizacja składnika losowego, który jest zmienna losowa występująca w populacji
generalnej, możemy wyrazić następująco
ei = yi − y daszek ii = yi −b 0 b 1 x
parametry b0 b1 dobiera się tak aby zminimalizować sumę kwadratów reszt
we wzorze tym tylko b0 i b1 są parametrami pozostałe wartości SA znane zatem S jest funkcja
zmiennych b0 b1
S=f(b0,b1)
S S
przyrównanie do 0 =0 oraz =0
b0 b1
n
S
=−2 ∑ yi – b 0 – b 1 x i
b0 i=1
n
S
=−2 ∑ yi – b 0 – b 1 xi ⋅x i
b1 i=1
daje nam układ równań normalnych
n n
∑ y i n⋅b 0 – ∑ b 1⋅xi =0
i=1 i= 1
n n n
∑ y i− y x i− x Cov xy
i=1
b1= =
n
var x
∑ xi −x 2
i=1
b 0 = y −b 1⋅x
analiza korelacji
miara liniowej zależności między zmiennymi X oraz Y i wyraża się wzorem :
r(X,Y) = r(X,Y) = Cov(X,Y) / SXSY
Gdzie Cov(X,Y) kowiarancja X,Y
Cov X ,Y =Cov Y , X =
∑ xi – x yi− y
n
n= liczba obserwacji
S
X i SY odchylenia standardowe zmiennej X,Y
2
∑ x i −x
SX =
n
S
Y = analogicznie
Zależność korelacyjna charakteryzuje się tym ze określonym wartością jednej zmiennej (X)
przyporządkowane są ściśle określone średnie wartości (Y))
współczynnik bliski zeru nie oznacza braku korelacji lecz braku korelacji liniowej
trzy pytania