sn14 08 DL

..
Deep learning
uczenie gbokich sieci neuronowych
Igor T. Podolak
Uniwersytet Jagielloski w Krakowie, Grupa Metod Uczenia Maszynowego GMUM
30 kwietnia, 7 maja 2014
dr Igor T. Podolak
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 1/43
...
1
/
43.
..
Deep
learning
.
czemu
gbokie
nauczanie?
.
.
pytkie
architektury
.
.
zmienno
i zoono
funkcji .
.
optymalizacja
i gener-
alizacja
.
.
reprezentacje
porednie
.
.
Neocgnitron
Kunihiko
Fukushimy
.
.
koncepcje
mechaniki
statystycznej
.
.
Maszyna
Boltzmanna
.
.
Logistic Belief
Network
.
.
Ograniczona
maszyna
Boltzmanna
.
.
uczenie
.
...
2
/
43.
Pytkie architektury
typy podej
..
ustalone
funkcje bazowe
.
suma waona
..
wzorce
.
suma waona
..
proste adaptowalne
funkcje bazowe
.
suma waona
1. szereg funkcji wykrywajcych konkretne wzorce
nie znamy wszystkich moliwych cech, to nie jest rozsdne rozwizanie
2. odpowiada architekturze z kernelami f(x) = b +
i
K(x, x
i
)
daje zwart reprezentacj
lokalne kernele s niewiele lepsze od predeniowanych cech
kernele globalne le ekstrapoluj
lokalne kernele wykorzystuj zaoenie o gadkoci, co jednak wymaga
denicji odlegoci
gadko jest niewystarczajca jeli funkcja ma du zmienno
3. podstawowe funkcje uczone w sposb nadzorowany
warstwowe sieci neuronowe, sieci RBF, boosting, adaptowalne kernele
...
3
/
43.
Problem gbokich modeli
kilka waniejszych faktw z historii
1. modele pytkie s znane od kilkudziesiciu lat
2. o gbokoci modelu mwi najdusza cieka modykowanych
parametrw
2.1 niech (. . . , k, t, . . . , q) bdzie ciek zdarze (aktywacji)
2.2 niech k bdzie pierwszym elementem z modykowalnym parametrem
(wag) do elementu t
2.3 tak ciek nazywamy credit assignment path CAP
2.4 najdusz ciek (t, . . . , q) nazywamy gbokoci modelu
2.5 od kiedy model przestaje by pytki i zaczyna by gboki?
2.6 model o ciece duszej od 10 jest na pewno bardzo gboki
3. przez wiele lat zasada brzytwy Occama faworyzowaa modele proste
3.1 regua Minimum Description Length MDL sugeruje dla sieci neuronowych
wykorzystanie modeli o niskich wagach
3.1.1 regularyzacja
...
4
/
43.
kilka waniejszych faktw z historii
1. modele gbokie okazay si bardzo trudne w uczeniu
1.1 w algorytmie wstecznej propagacji, bez dodatkowych heurystyk, gradient
potra bardzo szybko zanika lub eksplodowa
1.1.1 gradient maleje wykadniczo wraz z liczb warstw (dugoci cieki CAP)
1.1.2 gbokie systemy s nieodporne na szum
...
5
/
43.
rne drogi radzenia sobie z problemem uczenia gbokich modeli
1. uczenie nienadzorowane
1.1 potra generowa rozproszone i rzadkie reprezentacje
1.2 tworzy detektory cech przydatne w klasykacji
1.3 generuje proste kodowanie danych usuwajce uwikania
1.4 moe przyspieszy uczenie nadzorowane przez uproszczenie problemu
2. wykorzystanie procesorw gracznych GPU
2.1 pozwala na lepsze przeszukanie przestrzeni rozwiza
3. wykorzystywanie heurystyk w uczeniu
4. losowe przeszukiwanie przestrzeni rozwiza
5. wykorzystanie nowych algorytmw uczenia
5.1 Rectied Linear Unit, maxout, max-pooling, etc.
...
6
/
43.
najwaniejsze rozwizania
1. model Deep Belief Network DBN
1.1 stos ograniczonych maszyn Boltzmanna RBM
1.2 budowa coraz lepszych reprezentacji maksymalizujca log-likelihood danych
1.3 moliwo budowy modelu krok-po-kroku
1.4 pierwsza architektura, dla ktrej przyjo si pojcie Deep Learning DL
2. architektury oparte na auto-enkoderach
3. modele z wykorzystaniem nowych konstrukcji: ReLU, maxout, dropout,
etc.
...
7
/
43.
Neocognitron
pierwsza rzeczywicie gboka sie
.....................................................
1. nastpujce po sobie warstwy
1.1 konwolucyjne (simple) wykrywaj cechy w obrazie
1.2 prbkujce i uredniajce (complex) wprowadzaj odporno na
translacje
1.3 kocowa warstwa (typu konwolucyjnego) rozpoznajca klasy
2. pierwszy raz architektura zaproponowana przez
2.1 wikszo parametrw ustalona nie przez uczenie
2.2 wyjtkowo dobre wyniki rozpoznawania znakw
2.3 nowe modele ucz wszystkie parametry
2.4 dzielone wagi polepszaj generalizacj
2.5 Fukushima nie wspomina nic na temat gbokoci
...
8
/
43.
Neocognitron
..............................................................
1. pierwsza warstwa odpowiada obrazowi wejciowemu
1.1 jest prbkowana przesuwajcym si okienkiem obejmujcym obszar o
ustalonym rozmiarze
2. nastpna warstwa to komrki ekstrahujce cechy
2.1 komrki simple przypominajce komrki pierwotnej cechy wzrokowej w
mzgu
2.2 ich wejciowe poczenia podlegaj modykacji w trakcie uczenia
2.3 po uczeniu kada komrka jest w stanie wykrywa pojedyncze cechy
obrazu
2.4 na niszych poziomach wykrywane s proste cechy, jak linie czy brzegi
...
9
/
43.
Neocognitron
......................................................................
1. komrki complex pozwalaj na uniezalenienie od drobnych przesuni
i modykacji skali
1.1 kada pobiera sygna od grupy komrek wykrywajcych t sam cech,
chocia z rnych pozycji
1.2 komrka aktywuje si jeli co najmniej jedna z tych komrek wykrya cech
1.3 te komrki s mao zalene od pozycji
...
10
/
43.
Neocognitron
1. mae przesunicia s niwelowane przez C-komrki
2. S-komrki w wyszych warstwach aktywuj si mimo tych deformacji
wykrywajc cech
3. cechy mog by wykryte przy pewnych przesuniciach
4. zbyt due margines dopuszczalnego bdu moe jednak doprowadzi
do bdnego rozpoznania
5. C-komrki najwyszej warstwy dziaaj jak kocowe klasykatory
...
11
/
43.
Neocognitron
1. w procesie nauczania
ekstrahowane s lokalne
cechy a nastpnie
grupowane w cechy
globalne
...
12
/
43.
Neocognitron
...
13
/
43.
Neocognitron
samorganizacja
1. neocognitron tworzony przez uczenie lub predenicj
1.1 modykowalne s jedynie parametry S-komrek
1.1.1 w nowych sieciach konwolucyjnych wszystkie parametry s uczone
1.2 wszystkie komrki z pewnego maego obszaru tworz kolumn
1.2.1 tylko jedna z nich staje si zwycizc w trakcie uczenia i ma wzmocnione
poczenia
2. neocognitron ma zwykle cztery pary warstw S- i C-komrek
2.1 to daje ponad sto tysicy pocze dla zadania rozpoznawania znakw
2.2 komrki rozpoznajce identyczne cechy dziel wagi
2.3 liczba modykowalnych parametrw jest zmniejszona kilkadziesit razy
3. Neocognitron jako pierwsza architektura uzyska bardzo dobre wyniki
rozpoznawania rcznie pisanych liter na poziomie kilku procent bdu
...
14
/
43.
Czemu gbokie architektury?
1. porednie reprezentacje danych
1.1 statystyczne detektory cech dziki uczeniu nienadzorowanemu
1.2 minimalizacja szumu
1.3 rzadkie i rozproszone: rodzaj multi-klastrowania
2. problem gbokoci funkcji
2.1 dla zoonych funkcji pytkie architektury mog wymaga wykadniczej liczby
elementw obliczeniowych neuronw
2.2 obawa sabej generalizacji
2.2.1 SVM czy drzewa decyzyjne maj po 2 poziomy
3. przy duej zmiennoci funkcji metody pytkie zawodz
3.1 kada dodatkowa zmienno wymaga dodatkowej obsugi elementu
obliczeniowego
3.2 liczba elementw obliczeniowych ronie wykadniczo
...
15
/
43.
Gbokie architektury
organizacja warstw
h
k
= tanh(b
k
+W
k
h
k1
).
1. najwysza warstwa uczona z wykorzystaniem
algorytmu nadzorowanego
1.1 softmax albo na przykad
L(h
, y) = log P(Y = y|x) = log h
y
2. metody spadku le sobie radz przy
wielowarstwowych architekturach
2.1 czsto utykaj w pozornych minimach lub
plateau
2.2 im gbsza architektura, tym trudniej to wykry
2.3 gradient niesie coraz mniej informacji gdy jest
propagowany przez wiele warstw
2.4 wyniki dla gradientowo uczonych gbokich
architektur s czsto sabsze ni dla pytkich
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
...
16
/
43.
Elementy mechaniki statystycznej
1. rozpatruje makroskopowe cechy duych systemw
1.1 szuka termodynamicznych cech systemw wykorzystujc reguy
zachowania mikroskopowych czstek
1.2 liczba stopni swobody systemu jest olbrzymia
2. niech p
i
0 bdzie prawd. stanu i,

i
p
i
= 1
3. E
i
jest energi stanu i, wtedy
p
i
=
1
Z
exp
(
E
i
k
B
T
)
3.1 pseudotemperatura T w Kelvinach
3.2 staa Boltzmanna k
B
= 1.38 10
23
J/K
3.3 suma statystyczna (zustadsumme, partition function)
Z =

i
exp
(
E
i
k
B
T
)
3.4 rozkad p
i
to rozkad Gibbsa
...
17
/
43.
Elementy mechaniki statystycznej
p
i
=
1
Z
exp
(
E
i
T
)
Z =

i
exp
(
E
i
T
)
1. stany o niskiej energii maj wysze prawdopodobiestwo wystpienia
ni stany o wysokiej energii
1.1 budujc model oparty na energii, dymy do minimalizacji energii
2. zmniejszanie pseudotemperatury T powoduje skupianie si
prawdopodobiestwa na maym podzbiorze stanw o niskiej energii
...
18
/
43.
Gbokie architektury
problemy uczenia
prawdopodobnie problem wynika ze zej

inicjalizacji wag
przy bardzo duej liczbie pocze mamy du
liczb paskich minimw
lepsze wyniki mona osign przez wstpny

preprocessing w trybie nienadzorowanym
wyjcie jednego modelu staje si wejciem dla

kolejnego
ograniczona maszyna Boltzmanna
enkoderdekoder
kocowy model moe by dostrajamy w trybie

nadzorowanym
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
...
19
/
43.
Dowiadczenie
inicjalizacja losowa czy nienadzorowana?
0 1 2 3 4 5 6 7 8 9 10
x 10
6
10
4
10
3
10
2
10
1
10
0
10
1
Number of examples seen
O
n
l
i
n
e

c
l
a
s
s
i
f
i
c
a
t
i
o
n

e
r
r
o
r
3layer net, budget of 10000000 iterations
0 unsupervised + 10000000 supervised
2500000 unsupervised + 7500000 supervised
...
20
/
43.
Maszyna Boltzmanna
E(x, h) = b
T
x c
T
h h
T
Wx x
T
Ux h
T
Vh
P(x) =
1
Z
exp(E(x)/T) Z =

x
exp(E(x)/T)
L() = log
x
P(X = x) =

xT
log P(X = x)
.........
x
........
h
.
W
.
U
.
V
...
21
/
43.
Maszyna Boltzmanna
.. funkcja kosztu
..
L() = log
xD
P(X = x) =

xD
log P(X = x)
P(X = x) =
1
Z

h
exp(E(x, h)/T) Z =

x,h
exp(E(x, h)/T)
L() =

xD
log
h
exp
(
E(x, h)
T
)
log
x,h
exp
(
E(x, h)
T
)
.
.........
x
........
h
.
warstwa widzialna
.
warstwa ukryta
.
W
.
U
.
V
...
22
/
43.
Maszyna Boltzmanna
nauczanie
.. faza wiadoma .. faza snu
L(w)

=
1
T

xD
[
..
h
P(h|x)
E(x,h)

..
x,h
P(x, h)
E(x,h)

]
.
1. w fazie dodatniej (positive, wiadomej) wektor x jest przypisany
(clamped) do wektora obserwowalnego i prbkujemy h majc dane x;
urednionkorelacj
+
ij
=< x
j
x
i
>
+
midzy stanami przy ustalonym
wektorze widzialnym
2. w fazie ujemnej (negative, snu) oba x oraz h s prbkowane, najlepiej z
caego modelu; korelacja
ij
=< x
j
x
i
>
midzy stanami w
nieograniczonym przebiegu
L()
=
1
T
(
+
)
3. regua nauczania
ij
= (
+
ij

ij
) ze wspczynnikem = /T
...
23
/
43.
Gbokie architektury
optymalizacja czy generalizacja?
1. dla tego samego bdu nauczania
nienadzorowane przed-nauczanie poprawia
bd generalizacji
1.1 nienadzorowany preprocessing jest form
regularyzacji czy zaoonego prior na
parametrach
1.2 ewidentnie lepsza generalizacja ni prosta
optymalizacja
1.3 szczeglnie wydatne dla maych zbiorw
uczcych
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
...
24
/
43.
Gbokie architektury
optymalizacja czy generalizacja?
sabe niskie warstwy powoduj sabe wyniki

take bez preprocessingu
gbokie sieci z losow inicjalizacj radz sobie

gorzej na zbiorze trenujcym i testujcym gdy
wysokie warstwy s ograniczone
nienadzorowane przed-uczenie polepsza

generalizacj przez dostrojenie niskich warstw
nienadzorowane wstpne uczenie jest

ograniczone do wyszukiwania regularnoci w
rozkadach wejciowych
jeli P(Y|X) i P(X) s nieskorelowane, to dobre
modelowanie P(X) nie wspomoe dobrej
generalizacji
jeli s skorelowane, to pary (X, Y) daj
informacj zarwno o P(X) i o P(Y|X)
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
...
25
/
43.
Ekstrakcja cech
PCA i gboka sie
dwa pierwsze wymiary z PCA mapa znaleziona przez gbok sie
78410005002502
(za G.E. Hinton, R.R. Salakhutdinov, Reducing the dimensionality of data with neural
networks, Science, vol. 313, pp. 504507, 2006)
...
26
/
43.
Symulowane wyarzanie
nauczanie bardzo duych systemw
p
i
=
1
Z
exp
(
E
i
T
)
Z =

i
exp
(
E
i
T
)
1. wolna energia (Helmholtza) F = T log Z okrela t cz energii, ktra
moe by uwolniona
2. F =

i
p
i
E
i
+T
i
p
i
log p
i
=< E > TH
2.1 gdy T 0, wtedy F < E >
2.2 przy niskich temperaturach preferowane s stany o niskiej energii
2.3 czy wobec tego nauczanie (prbkowanie) naley przeprowadza w niskich
temperaturach?
2.4 zbieno prbkowania jest w niskich temperaturach bardzo powolna
2.5 lepiej
2.5.1 rozpocz stochastyczny proces w wysokich temperaturach gdzie zbieno jest
szybka
2.5.2 kontrolowa proces obniania temperatury
...
27
/
43.
nauczanie bardzo duych systemw
p
i
=
1
Z
exp
(
E
i
T
)
Z =

i
exp
(
E
i
T
)
1. wolna energia (Helmholtza) F = T log Z okrela t cz energii, ktra
moe by uwolniona
2. F =

i
p
i
E
i
+T
i
p
i
log p
i
=< E > TH
2.1 gdy T 0, wtedy F < E >
2.2 przy niskich temperaturach preferowane s stany o niskiej energii
2.3 czy wobec tego nauczanie (prbkowanie) naley przeprowadza w niskich
temperaturach?
2.4 zbieno prbkowania jest w niskich temperaturach bardzo powolna
2.5 lepiej
2.5.1 rozpocz stochastyczny proces w wysokich temperaturach gdzie zbieno jest
szybka
2.5.2 kontrolowa proces obniania temperatury
...
27
/
43.
simulated annealing
.
..
.
Optymalizujc bardzo duy i zoony system z wieloma stopniami
swobody, zamiast zawsze przechodzi do stanw o niszej energii, naley
przechodzi do nich przez w wikszoci przypadkw
1. algorytm nie musi si zablokowa, poniewa algorytmy prbkowania
pozwalaj na ucieczk z lokalnych minimw przy niezerowej
temperaturze
2. symulowane wyarzanie jest procesem adaptatywnym
2.1 najistotniejsze cechy stanu kocowego ujawniaj si w wysokich
temperaturach
2.2 cechy szczegowe s ustalane przy niskich temperaturach
...
28
/
43.
Prbkowanie
algorytm Metropolisa-Hastingsa
1. niech X
n
bdzie zmienn losow, X(n) = x
i
2. niech Y
n
bdzie inn zmienn losow
P(Y
n
= x
j
|X
n
= x
i
) = P(Y
n
= x
i
|X
n
= x
j
)
3. niech E bdzie rnic energii przy przejciu X
n
= x
i
Y
n
= x
j
3.1 jeli E < 0 (przejcie do stanu o niszej energii), to przejcie (tranzycja)
jest akceptowane i X
n+1
= Y
n
3.2 jeli E 0 (przejcie do stanu o wyszej energii), to niech = U(0, 1) i
3.2.1 jeli < exp(E/T), to przejcie jest akceptowane i X
n+1
= Y
n
3.2.2 w przeciwnym wypadku X
n+1
= X
n
4. przy odpowiednim wyborze i spadku T, ten algorytm gwarantuje dojcie
do stanu o minimalnej energii
...
29
/
43.
Prbkowanie
Algorytm Gibbsa
1. niech X = (X
1
, . . . , X
K
)
1.1 znamy P(X
i
|X
1
= x
1
, . . . , X
i1
= x
i1
, X
i+1
= x
i+1
, . . . , X
K
= x
K
)
1.2 jak oszacowa numerycznie rozkad brzegowy X
k
dla kadego k?
2. procedura Gibbsa rozpoczyna od [x
1
(0), . . . , x
K
(0)]
2.1 wylosuj x
1
(1) P(X
1
|x
2
(0), . . . , x
K
(0)),
2.2
2.3 wylosuj x
j
(1) P(X
j
|x
1
(1), x
2
(1), . . . , x
j1
(1), x
j+1
(0), . . . , x
K
(0)),
2.4 wylosuj x
K
(1) P(X
K
|x
1
(1), x
2
(1), . . . , x
K1
(1)),
3. skadniki X s przegldane w naturalnej kolejnoci niezalenej od
uzyskanych wynikw
4. X
k
jest zbiene do prawdziwego rozkadu; prdko zbienoci jest
geometryczna (obie pod warunkiem naturalnej kolejnoci przegldania)
...
30
/
43.
Algorytm Gibbsa
prbkowanie w maszynie Boltzmanna
1. w maszynie Boltzmanna wykorzystywane jest prbkowanie Gibbsa
1.1 neurony s stochastyczne i x
i
{1, +1}
1.2 aktywacja jest okrelona jako (v
i
) = 1/(1 +exp(v
i
)) gdzie
v
i
= 1/T
j=i
w
ij
x
j
2. przy wystarczajco dugim procesie, sie osignie stan stabilnoci dla T
2.1 proces moe by zbyt dugi
2.2 konieczny jest proces obniania temperatury
3. temperatura T powoduje spaszczenie sigmoidy
...
31
/
43.
schemat
1. temperatura T peni rol kontrolujcego parametru
1.1 jeli temperatura bdzie spada nie szybciej ni logarytmicznie, to mamy
gwarancj osignicia minimum energii
1.2 to jest zbyt wolno
1.3 konieczne jest pewne przyblienie jednak utrata gwarancji zbienoci
2. moliwy schemat
2.1 temperatura pocztkowa T
0
taka, by wszystkie stany byy osigalne
2.2 obnianie temperatury wykadnicze, ale bardzo powolne
T
k
= T
k1
,
gdzie (0.8, 0.99)
2.2.1 kada temperatura powinna akceptowa rednio co najmniej 10 przej
2.3 kocowa temperatura okrelona przez pierwszy etap, w ktrym przez
ostatnie trzy kroki nie byo wystarczajco wiele akceptowanych przej (lub
ich rednia frakcja bya zbyt maa)
...
32
/
43.
schemat
1. temperatura T peni rol kontrolujcego parametru
1.1 jeli temperatura bdzie spada nie szybciej ni logarytmicznie, to mamy
gwarancj osignicia minimum energii
1.2 to jest zbyt wolno
1.3 konieczne jest pewne przyblienie jednak utrata gwarancji zbienoci
2. moliwy schemat
2.1 temperatura pocztkowa T
0
taka, by wszystkie stany byy osigalne
2.2 obnianie temperatury wykadnicze, ale bardzo powolne
T
k
= T
k1
,
gdzie (0.8, 0.99)
2.2.1 kada temperatura powinna akceptowa rednio co najmniej 10 przej
2.3 kocowa temperatura okrelona przez pierwszy etap, w ktrym przez
ostatnie trzy kroki nie byo wystarczajco wiele akceptowanych przej (lub
ich rednia frakcja bya zbyt maa)
...
32
/
43.
Logistic Belief Network
Neal, 1992
1. symetryczne poczenia maszyny
Boltzmanna zamienione na skierowane
tworzc graf acykliczny
2. stochastyczne neurony
3. dla X
j
okrelony zbir rodzicw
pa(X
j
) {x
1
, . . . , X
N
}
3.1 w
ji
= 0 dla wszystkich X
i
pa(X
j
)
3.2 w
ji
= 0 dla i i
3.3 dla kadego X
j
jest okrelone
P(X
j
= x
j
|pa(X
j
))
......
ukryty
warunek
.......
ukryty
warunek
....
widzialny
wynik
1. neurony odpowiadaj zmiennym losowym
2. wagi powinny by takie, by generowa dane zgodne z obserwowanym
rozkadem
...
33
/
43.
uczenie
1. uczenie LBN
1.1 nauczanie przez stochastyczny wzrost
gradientu
w
ji
=

w
ji
L(w),
dla L(w) = log
xD
P(X = x) =
xD
log P(X = x)
1.2 moe mie bardzo wiele warstw
1.3 bardzo zoone poza prostymi
przypadkami (pleonazm, truizm)
......
widzialny
wynik
.......
ukryty
warunek
....
ukryty
warunek
1. problem niezalenoci ukrytych zmiennych: niezalene zmienne mog
sta si zalene gdy obserwujemy zdarzenie na ktre obie mog
wpywa (tzw. explaining away)
...
34
/
43.
Deep Belief Network
P(x, h
1
, . . . , h
) = P(h
1
, h
)
(
2
k=1
P(h
k
|h
k+1
)
)
P(x|h
1
)
1. pary warstw odpowiadaj uproszczonym
maszynom Boltzmanna
2. RBM w grnej warstwie odpowiada sieci o
nieskoczonej liczbie warstw
3. neurony w warstwie RBM s warunkowo
niezalene gdy dane widzialne
.
warunkowa niezaleno
..
.
Jeli P(a|b, c) = P(a|c) to a jest warunkowo
niezalene od b jeli jest dane c
1. RBM znajduje nie obarczon estymacj
rozkadu gdy dane widzialne
.......
x
.........
h
1
.........
h
2
.........
h
3
....
W
T
0

.
W
0

.
W
T
1

.
W
1

.
W
2

.
RBM P(h
2
, h
3
)
...
35
/
43.
Ograniczona maszyna Boltzmanna RBM
niezaleno x
ij
gdy dane h, oraz h
i
gdy dane x
E(x, h) = b
T
x c
T
h h
T
Wx
U = 0, V = 0, std P(h|x) =

i
P(h
i
|x) oraz P(x|h) =

i
P(x
j
|h)
P(h
i
= 1|x) =
exp(c
i
+W
i
x)
1+exp(c
i
+W
i
x)
= sigm(c
i
+W
i
x)
.........
v
........
h
.
W
1. aktywacje neuronw w ptli
1.1 ukrytych rwnolegle dla ustawionych (clamped) widzialnych P(h|x)
1.2 widzialnych dla danych ukrytych
2. uczenie
2.1 dla kadej wagi w
ij
korelacja

v
0
i
h
0
j

gdy przykady s zadane (clamped) na
warstwie widzialnej
2.2 prbkowanie Gibbsa a ukad osignie stan stabilny i korelacja

v
i
h
j

2.3 to daje gradient
log p(v
0
)
w
ij
=

v
0
i
h
0
j

i
h
j

...
36
/
43.
model generatywny
1. take zwana sigmoidal belief network
2. problem explaining away: wiele warstw
struktury moe pomc
3. w sigmoidal belief neurony w warstwie s od
siebie niezalene przy danych wartociach z
warstwy powyej
P(h
k
i
= 1|h
k+1
) = sigm(b
k
i
+
j
W
k+1
ij
h
k+1
j
)
P(x,h
1
, . . . , h
) = P(h
)
(
1
k=1
P(h
k
|h
k+1
)
)
P(x|h
1
)
......
v
0
.........
h
0
........
v
1
.........
h
1
........
v
2
.........
h
2
........
. . .
....
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
...
37
/
43.
sie o nieskoczonej gbokoci
1. dane s generowane od warstwy na
nieskoczonej gbokoci
log p(v
0
)
w
00
ij
=

h
0
j
(v
0
i
v
0
i
)
log p(v
0
)
w
00
ij
=

h
0
j
(v
0
i
v
1
i
)
2. poniewa wagi si powtarzaj

log p(v
0
)
w
00
ij
=

h
0
j
(v
0
i
v
1
i
)
+
+
v
1
i
(h
0
j
h
1
j
)
h
1
j
(v
1
i
v
2
i
)
+ . . .
3. wszystkie elementy redukuj si do postaci
maszyny Boltzmanna
......
v
0
.........
h
0
........
v
1
.........
h
1
........
v
2
.........
h
2
........
. . .
....
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
...
38
/
43.
nauczanie
E(x, h) = b
T
x c
T
h h
T
Wx
.........
v
........
h
.
W
1. zaproponowana wczeniej przez Smolenskyego jako harmonium
(1987)
1.1 na RBM przemianowa Hinton w 2006
2. prbkowanie Gibbsa penego modelu Boltzmanna jest bardzo powolne
3. w RBM nie ma potrzeby prbkowania fazy dodatniej, bo gradient moe
by podany analitycznie
4. prbkowanie:
x
1

P(x), h
1
P(h|x
1
), x
2
P(x|h
1
), h
2
P(h|x
2
), . . . , x
k+1
P(x|h
k
)
...
39
/
43.
wasnoci uczenia
.........
x
........
h
.
W
1. RBM uczy si bezporednio na danych, co pozwala stochastycznej
warstwie ukrytej na uchwycenie najwaniejszych aspektw danych
2. aktywacje znalezionych cech s traktowane jako dane wejciowe
kolejnego RBM
3. to proces uczenia cech dla cech
3.1 przypomina w tym model Pandemonium Selfridgea (1958)
4. proces powtarzany a do osignicia odpowiedniej liczby warstw
5. RBM mona wykorzysta w procesie uczenia nadzorowanego
5.1 podzia warstwy widzialnej na wejciow i wyjciow
...
40
/
43.
Pandemonium
Selfridge 1958
1. demony danych zbieraj i przechowuj dane
2. demony obliczeniowe przetwarzaj informacje
zawarte w danych
3. demony kognitywne oceniaj informacj
zawart w przetworzonych danych pod
swoim ktem i wydaj krzyk
4. demon decyzyjny nasuchuje krzykw i ocenia,
ktry demon kognitywny poda najwicej
przekonujcych argumentw i wybiera go
5. architektura cakowicie rwnolega
6. nauczanie przez modykacj pocze midzy
warstw obliczeniow a kognitywn, oraz
przez eliminacj i mutacj demonw
obliczeniowych
...
41
/
43.
Deep Belief Network
process generatywny
1. wagi do gry odzwierciedlaj uczenie cech
2. wagi do dou i obie miedzy warstwami na
szczycie opisuj model generatywny
2.1 wagi na szczycie stosu RBMw tworz
dwudzieln pami asocjacyjn
2.2 podczas generowania RBM na szczycie jest
inicjatorem
3. proces generatywny
3.1 pobierany jest stan rwnowagi RBMu na
szczycie
3.1.1 najpierw pojedyncza inferencja do gry
3.1.2 pniej potrzebny wystarczajco acuch
prbkowania Gibbsa
3.2 pniej pojedyncze generatywne przejcie w
d neuronami stochastycznymi
.......
x
.........
h
1
.........
h
2
.........
h
3
....
W
T
0

.
W
0

.
W
T
1

.
W
1

.
W
2

.
RBM P(h
2
, h
3
)
...
42
/
43.
Deep Belief Network
wasnoci
1. poza warstw asocjacyjn na szczycie, DBN
odpowiada wielowarstwowej Logistic Belief
Network
2. nienadzorowane uczenie warstwa po
warstwie z dou do gry
3. inferencja wymaga pojedynczego przejcia
do gry
4. DBN pozwalaj na bardzo wiele swobody
4.1 DBN moe by podstaw do gbokiego
uczenia nadzorowanego
4.2 swobod trzeba wykorzysta w kreatywny
sposb
.......
x
.........
h
1
.........
h
2
.........
h
3
....
W
T
0

.
W
0

.
W
T
1

.
W
1

.
W
2

.
RBM P(h
2
, h
3
)
...
43
/
43

sn14 08 DL

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

sn14 08 DL

Uploaded by

Copyright:

Available Formats

..

, y) = log P(Y = y|x) = log h

prawdopodobnie problem wynika ze zej

lepsze wyniki mona osign przez wstpny

wyjcie jednego modelu staje si wejciem dla

kocowy model moe by dostrajamy w trybie

sabe niskie warstwy powoduj sabe wyniki

gbokie sieci z losow inicjalizacj radz sobie

nienadzorowane przed-uczenie polepsza

nienadzorowane wstpne uczenie jest

2. poniewa wagi si powtarzaj

You might also like