You are on page 1of 45

..

Deep learning
uczenie gbokich sieci neuronowych
Igor T. Podolak
Uniwersytet Jagielloski w Krakowie, Grupa Metod Uczenia Maszynowego GMUM
30 kwietnia, 7 maja 2014
dr Igor T. Podolak
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 1/43
...
1
/
43.
..
Deep
learning
.
czemu
gbokie
nauczanie?
.
.
pytkie
architektury
.
.
zmienno
i zoono
funkcji .
.
optymalizacja
i gener-
alizacja
.
.
reprezentacje
porednie
.
.
Neocgnitron
Kunihiko
Fukushimy
.
.
koncepcje
mechaniki
statystycznej
.
.
Maszyna
Boltzmanna
.
.
Logistic Belief
Network
.
.
Ograniczona
maszyna
Boltzmanna
.
.
uczenie
.
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 2/43
...
2
/
43.
Pytkie architektury
typy podej
..
ustalone
funkcje bazowe
.
suma waona
..
wzorce
.
suma waona
..
proste adaptowalne
funkcje bazowe
.
suma waona
1. szereg funkcji wykrywajcych konkretne wzorce
nie znamy wszystkich moliwych cech, to nie jest rozsdne rozwizanie
2. odpowiada architekturze z kernelami f(x) = b +

i
K(x, x
i
)
daje zwart reprezentacj
lokalne kernele s niewiele lepsze od predeniowanych cech
kernele globalne le ekstrapoluj
lokalne kernele wykorzystuj zaoenie o gadkoci, co jednak wymaga
denicji odlegoci
gadko jest niewystarczajca jeli funkcja ma du zmienno
3. podstawowe funkcje uczone w sposb nadzorowany
warstwowe sieci neuronowe, sieci RBF, boosting, adaptowalne kernele
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 3/43
...
3
/
43.
Problem gbokich modeli
kilka waniejszych faktw z historii
1. modele pytkie s znane od kilkudziesiciu lat
2. o gbokoci modelu mwi najdusza cieka modykowanych
parametrw
2.1 niech (. . . , k, t, . . . , q) bdzie ciek zdarze (aktywacji)
2.2 niech k bdzie pierwszym elementem z modykowalnym parametrem
(wag) do elementu t
2.3 tak ciek nazywamy credit assignment path CAP
2.4 najdusz ciek (t, . . . , q) nazywamy gbokoci modelu
2.5 od kiedy model przestaje by pytki i zaczyna by gboki?
2.6 model o ciece duszej od 10 jest na pewno bardzo gboki
3. przez wiele lat zasada brzytwy Occama faworyzowaa modele proste
3.1 regua Minimum Description Length MDL sugeruje dla sieci neuronowych
wykorzystanie modeli o niskich wagach
3.1.1 regularyzacja
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 4/43
...
4
/
43.
Problem gbokich modeli
kilka waniejszych faktw z historii
1. modele gbokie okazay si bardzo trudne w uczeniu
1.1 w algorytmie wstecznej propagacji, bez dodatkowych heurystyk, gradient
potra bardzo szybko zanika lub eksplodowa
1.1.1 gradient maleje wykadniczo wraz z liczb warstw (dugoci cieki CAP)
1.1.2 gbokie systemy s nieodporne na szum
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 5/43
...
5
/
43.
Problem gbokich modeli
rne drogi radzenia sobie z problemem uczenia gbokich modeli
1. uczenie nienadzorowane
1.1 potra generowa rozproszone i rzadkie reprezentacje
1.2 tworzy detektory cech przydatne w klasykacji
1.3 generuje proste kodowanie danych usuwajce uwikania
1.4 moe przyspieszy uczenie nadzorowane przez uproszczenie problemu
2. wykorzystanie procesorw gracznych GPU
2.1 pozwala na lepsze przeszukanie przestrzeni rozwiza
3. wykorzystywanie heurystyk w uczeniu
4. losowe przeszukiwanie przestrzeni rozwiza
5. wykorzystanie nowych algorytmw uczenia
5.1 Rectied Linear Unit, maxout, max-pooling, etc.
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 6/43
...
6
/
43.
Problem gbokich modeli
najwaniejsze rozwizania
1. model Deep Belief Network DBN
1.1 stos ograniczonych maszyn Boltzmanna RBM
1.2 budowa coraz lepszych reprezentacji maksymalizujca log-likelihood danych
1.3 moliwo budowy modelu krok-po-kroku
1.4 pierwsza architektura, dla ktrej przyjo si pojcie Deep Learning DL
2. architektury oparte na auto-enkoderach
3. modele z wykorzystaniem nowych konstrukcji: ReLU, maxout, dropout,
etc.
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 7/43
...
7
/
43.
Neocognitron
pierwsza rzeczywicie gboka sie
.....................................................
1. nastpujce po sobie warstwy
1.1 konwolucyjne (simple) wykrywaj cechy w obrazie
1.2 prbkujce i uredniajce (complex) wprowadzaj odporno na
translacje
1.3 kocowa warstwa (typu konwolucyjnego) rozpoznajca klasy
2. pierwszy raz architektura zaproponowana przez
2.1 wikszo parametrw ustalona nie przez uczenie
2.2 wyjtkowo dobre wyniki rozpoznawania znakw
2.3 nowe modele ucz wszystkie parametry
2.4 dzielone wagi polepszaj generalizacj
2.5 Fukushima nie wspomina nic na temat gbokoci
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 8/43
...
8
/
43.
Neocognitron
..............................................................
1. pierwsza warstwa odpowiada obrazowi wejciowemu
1.1 jest prbkowana przesuwajcym si okienkiem obejmujcym obszar o
ustalonym rozmiarze
2. nastpna warstwa to komrki ekstrahujce cechy
2.1 komrki simple przypominajce komrki pierwotnej cechy wzrokowej w
mzgu
2.2 ich wejciowe poczenia podlegaj modykacji w trakcie uczenia
2.3 po uczeniu kada komrka jest w stanie wykrywa pojedyncze cechy
obrazu
2.4 na niszych poziomach wykrywane s proste cechy, jak linie czy brzegi
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 9/43
...
9
/
43.
Neocognitron
......................................................................
1. komrki complex pozwalaj na uniezalenienie od drobnych przesuni
i modykacji skali
1.1 kada pobiera sygna od grupy komrek wykrywajcych t sam cech,
chocia z rnych pozycji
1.2 komrka aktywuje si jeli co najmniej jedna z tych komrek wykrya cech
1.3 te komrki s mao zalene od pozycji
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 10/43
...
10
/
43.
Neocognitron
1. mae przesunicia s niwelowane przez C-komrki
2. S-komrki w wyszych warstwach aktywuj si mimo tych deformacji
wykrywajc cech
3. cechy mog by wykryte przy pewnych przesuniciach
4. zbyt due margines dopuszczalnego bdu moe jednak doprowadzi
do bdnego rozpoznania
5. C-komrki najwyszej warstwy dziaaj jak kocowe klasykatory
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 11/43
...
11
/
43.
Neocognitron
1. w procesie nauczania
ekstrahowane s lokalne
cechy a nastpnie
grupowane w cechy
globalne
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 12/43
...
12
/
43.
Neocognitron
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 13/43
...
13
/
43.
Neocognitron
samorganizacja
1. neocognitron tworzony przez uczenie lub predenicj
1.1 modykowalne s jedynie parametry S-komrek
1.1.1 w nowych sieciach konwolucyjnych wszystkie parametry s uczone
1.2 wszystkie komrki z pewnego maego obszaru tworz kolumn
1.2.1 tylko jedna z nich staje si zwycizc w trakcie uczenia i ma wzmocnione
poczenia
2. neocognitron ma zwykle cztery pary warstw S- i C-komrek
2.1 to daje ponad sto tysicy pocze dla zadania rozpoznawania znakw
2.2 komrki rozpoznajce identyczne cechy dziel wagi
2.3 liczba modykowalnych parametrw jest zmniejszona kilkadziesit razy
3. Neocognitron jako pierwsza architektura uzyska bardzo dobre wyniki
rozpoznawania rcznie pisanych liter na poziomie kilku procent bdu
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 14/43
...
14
/
43.
Czemu gbokie architektury?
1. porednie reprezentacje danych
1.1 statystyczne detektory cech dziki uczeniu nienadzorowanemu
1.2 minimalizacja szumu
1.3 rzadkie i rozproszone: rodzaj multi-klastrowania
2. problem gbokoci funkcji
2.1 dla zoonych funkcji pytkie architektury mog wymaga wykadniczej liczby
elementw obliczeniowych neuronw
2.2 obawa sabej generalizacji
2.2.1 SVM czy drzewa decyzyjne maj po 2 poziomy
3. przy duej zmiennoci funkcji metody pytkie zawodz
3.1 kada dodatkowa zmienno wymaga dodatkowej obsugi elementu
obliczeniowego
3.2 liczba elementw obliczeniowych ronie wykadniczo
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 15/43
...
15
/
43.
Gbokie architektury
organizacja warstw
h
k
= tanh(b
k
+W
k
h
k1
).
1. najwysza warstwa uczona z wykorzystaniem
algorytmu nadzorowanego
1.1 softmax albo na przykad
L(h

, y) = log P(Y = y|x) = log h

y
2. metody spadku le sobie radz przy
wielowarstwowych architekturach
2.1 czsto utykaj w pozornych minimach lub
plateau
2.2 im gbsza architektura, tym trudniej to wykry
2.3 gradient niesie coraz mniej informacji gdy jest
propagowany przez wiele warstw
2.4 wyniki dla gradientowo uczonych gbokich
architektur s czsto sabsze ni dla pytkich
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 16/43
...
16
/
43.
Elementy mechaniki statystycznej
1. rozpatruje makroskopowe cechy duych systemw
1.1 szuka termodynamicznych cech systemw wykorzystujc reguy
zachowania mikroskopowych czstek
1.2 liczba stopni swobody systemu jest olbrzymia
2. niech p
i
0 bdzie prawd. stanu i,

i
p
i
= 1
3. E
i
jest energi stanu i, wtedy
p
i
=
1
Z
exp
(

E
i
k
B
T
)
3.1 pseudotemperatura T w Kelvinach
3.2 staa Boltzmanna k
B
= 1.38 10
23
J/K
3.3 suma statystyczna (zustadsumme, partition function)
Z =

i
exp
(

E
i
k
B
T
)
3.4 rozkad p
i
to rozkad Gibbsa
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 17/43
...
17
/
43.
Elementy mechaniki statystycznej
p
i
=
1
Z
exp
(

E
i
T
)
Z =

i
exp
(

E
i
T
)
1. stany o niskiej energii maj wysze prawdopodobiestwo wystpienia
ni stany o wysokiej energii
1.1 budujc model oparty na energii, dymy do minimalizacji energii
2. zmniejszanie pseudotemperatury T powoduje skupianie si
prawdopodobiestwa na maym podzbiorze stanw o niskiej energii
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 18/43
...
18
/
43.
Gbokie architektury
problemy uczenia

prawdopodobnie problem wynika ze zej


inicjalizacji wag
przy bardzo duej liczbie pocze mamy du
liczb paskich minimw

lepsze wyniki mona osign przez wstpny


preprocessing w trybie nienadzorowanym

wyjcie jednego modelu staje si wejciem dla


kolejnego
ograniczona maszyna Boltzmanna
enkoderdekoder

kocowy model moe by dostrajamy w trybie


nadzorowanym
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 19/43
...
19
/
43.
Dowiadczenie
inicjalizacja losowa czy nienadzorowana?
0 1 2 3 4 5 6 7 8 9 10
x 10
6
10
4
10
3
10
2
10
1
10
0
10
1
Number of examples seen
O
n
l
i
n
e

c
l
a
s
s
i
f
i
c
a
t
i
o
n

e
r
r
o
r
3layer net, budget of 10000000 iterations
0 unsupervised + 10000000 supervised
2500000 unsupervised + 7500000 supervised
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 20/43
...
20
/
43.
Maszyna Boltzmanna
E(x, h) = b
T
x c
T
h h
T
Wx x
T
Ux h
T
Vh
P(x) =
1
Z
exp(E(x)/T) Z =

x
exp(E(x)/T)
L() = log
x
P(X = x) =

xT
log P(X = x)
.........
x
........
h
.
W
.
U
.
V
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 21/43
...
21
/
43.
Maszyna Boltzmanna
.. funkcja kosztu
..
L() = log
xD
P(X = x) =

xD
log P(X = x)
P(X = x) =
1
Z

h
exp(E(x, h)/T) Z =

x,h
exp(E(x, h)/T)
L() =

xD

log

h
exp
(

E(x, h)
T
)
log

x,h
exp
(

E(x, h)
T
)

.
.........
x
........
h
.
warstwa widzialna
.
warstwa ukryta
.
W
.
U
.
V
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 22/43
...
22
/
43.
Maszyna Boltzmanna
nauczanie
.. faza wiadoma .. faza snu
L(w)

=
1
T

xD
[
..

h
P(h|x)
E(x,h)


..

x,h
P(x, h)
E(x,h)

]
.
1. w fazie dodatniej (positive, wiadomej) wektor x jest przypisany
(clamped) do wektora obserwowalnego i prbkujemy h majc dane x;
urednionkorelacj
+
ij
=< x
j
x
i
>
+
midzy stanami przy ustalonym
wektorze widzialnym
2. w fazie ujemnej (negative, snu) oba x oraz h s prbkowane, najlepiej z
caego modelu; korelacja

ij
=< x
j
x
i
>

midzy stanami w
nieograniczonym przebiegu
L()

=
1
T
(
+

)
3. regua nauczania
ij
= (
+
ij

ij
) ze wspczynnikem = /T
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 23/43
...
23
/
43.
Gbokie architektury
optymalizacja czy generalizacja?
1. dla tego samego bdu nauczania
nienadzorowane przed-nauczanie poprawia
bd generalizacji
1.1 nienadzorowany preprocessing jest form
regularyzacji czy zaoonego prior na
parametrach
1.2 ewidentnie lepsza generalizacja ni prosta
optymalizacja
1.3 szczeglnie wydatne dla maych zbiorw
uczcych
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 24/43
...
24
/
43.
Gbokie architektury
optymalizacja czy generalizacja?

sabe niskie warstwy powoduj sabe wyniki


take bez preprocessingu

gbokie sieci z losow inicjalizacj radz sobie


gorzej na zbiorze trenujcym i testujcym gdy
wysokie warstwy s ograniczone

nienadzorowane przed-uczenie polepsza


generalizacj przez dostrojenie niskich warstw

nienadzorowane wstpne uczenie jest


ograniczone do wyszukiwania regularnoci w
rozkadach wejciowych
jeli P(Y|X) i P(X) s nieskorelowane, to dobre
modelowanie P(X) nie wspomoe dobrej
generalizacji
jeli s skorelowane, to pary (X, Y) daj
informacj zarwno o P(X) i o P(Y|X)
.......
x
.........
h
1
.........
h
2
.........
h
3
.....
h
4
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 25/43
...
25
/
43.
Ekstrakcja cech
PCA i gboka sie
dwa pierwsze wymiary z PCA mapa znaleziona przez gbok sie
78410005002502
(za G.E. Hinton, R.R. Salakhutdinov, Reducing the dimensionality of data with neural
networks, Science, vol. 313, pp. 504507, 2006)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 26/43
...
26
/
43.
Symulowane wyarzanie
nauczanie bardzo duych systemw
p
i
=
1
Z
exp
(

E
i
T
)
Z =

i
exp
(

E
i
T
)
1. wolna energia (Helmholtza) F = T log Z okrela t cz energii, ktra
moe by uwolniona
2. F =

i
p
i
E
i
+T

i
p
i
log p
i
=< E > TH
2.1 gdy T 0, wtedy F < E >
2.2 przy niskich temperaturach preferowane s stany o niskiej energii
2.3 czy wobec tego nauczanie (prbkowanie) naley przeprowadza w niskich
temperaturach?
2.4 zbieno prbkowania jest w niskich temperaturach bardzo powolna
2.5 lepiej
2.5.1 rozpocz stochastyczny proces w wysokich temperaturach gdzie zbieno jest
szybka
2.5.2 kontrolowa proces obniania temperatury
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 27/43
...
27
/
43.
Symulowane wyarzanie
nauczanie bardzo duych systemw
p
i
=
1
Z
exp
(

E
i
T
)
Z =

i
exp
(

E
i
T
)
1. wolna energia (Helmholtza) F = T log Z okrela t cz energii, ktra
moe by uwolniona
2. F =

i
p
i
E
i
+T

i
p
i
log p
i
=< E > TH
2.1 gdy T 0, wtedy F < E >
2.2 przy niskich temperaturach preferowane s stany o niskiej energii
2.3 czy wobec tego nauczanie (prbkowanie) naley przeprowadza w niskich
temperaturach?
2.4 zbieno prbkowania jest w niskich temperaturach bardzo powolna
2.5 lepiej
2.5.1 rozpocz stochastyczny proces w wysokich temperaturach gdzie zbieno jest
szybka
2.5.2 kontrolowa proces obniania temperatury
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 27/43
...
27
/
43.
Symulowane wyarzanie
simulated annealing
.
Symulowane wyarzanie
..
.
Optymalizujc bardzo duy i zoony system z wieloma stopniami
swobody, zamiast zawsze przechodzi do stanw o niszej energii, naley
przechodzi do nich przez w wikszoci przypadkw
1. algorytm nie musi si zablokowa, poniewa algorytmy prbkowania
pozwalaj na ucieczk z lokalnych minimw przy niezerowej
temperaturze
2. symulowane wyarzanie jest procesem adaptatywnym
2.1 najistotniejsze cechy stanu kocowego ujawniaj si w wysokich
temperaturach
2.2 cechy szczegowe s ustalane przy niskich temperaturach
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 28/43
...
28
/
43.
Prbkowanie
algorytm Metropolisa-Hastingsa
1. niech X
n
bdzie zmienn losow, X(n) = x
i
2. niech Y
n
bdzie inn zmienn losow
P(Y
n
= x
j
|X
n
= x
i
) = P(Y
n
= x
i
|X
n
= x
j
)
3. niech E bdzie rnic energii przy przejciu X
n
= x
i
Y
n
= x
j
3.1 jeli E < 0 (przejcie do stanu o niszej energii), to przejcie (tranzycja)
jest akceptowane i X
n+1
= Y
n
3.2 jeli E 0 (przejcie do stanu o wyszej energii), to niech = U(0, 1) i
3.2.1 jeli < exp(E/T), to przejcie jest akceptowane i X
n+1
= Y
n
3.2.2 w przeciwnym wypadku X
n+1
= X
n
4. przy odpowiednim wyborze i spadku T, ten algorytm gwarantuje dojcie
do stanu o minimalnej energii
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 29/43
...
29
/
43.
Prbkowanie
Algorytm Gibbsa
1. niech X = (X
1
, . . . , X
K
)
1.1 znamy P(X
i
|X
1
= x
1
, . . . , X
i1
= x
i1
, X
i+1
= x
i+1
, . . . , X
K
= x
K
)
1.2 jak oszacowa numerycznie rozkad brzegowy X
k
dla kadego k?
2. procedura Gibbsa rozpoczyna od [x
1
(0), . . . , x
K
(0)]
2.1 wylosuj x
1
(1) P(X
1
|x
2
(0), . . . , x
K
(0)),
2.2
2.3 wylosuj x
j
(1) P(X
j
|x
1
(1), x
2
(1), . . . , x
j1
(1), x
j+1
(0), . . . , x
K
(0)),
2.4 wylosuj x
K
(1) P(X
K
|x
1
(1), x
2
(1), . . . , x
K1
(1)),
3. skadniki X s przegldane w naturalnej kolejnoci niezalenej od
uzyskanych wynikw
4. X
k
jest zbiene do prawdziwego rozkadu; prdko zbienoci jest
geometryczna (obie pod warunkiem naturalnej kolejnoci przegldania)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 30/43
...
30
/
43.
Algorytm Gibbsa
prbkowanie w maszynie Boltzmanna
1. w maszynie Boltzmanna wykorzystywane jest prbkowanie Gibbsa
1.1 neurony s stochastyczne i x
i
{1, +1}
1.2 aktywacja jest okrelona jako (v
i
) = 1/(1 +exp(v
i
)) gdzie
v
i
= 1/T

j=i
w
ij
x
j
2. przy wystarczajco dugim procesie, sie osignie stan stabilnoci dla T
2.1 proces moe by zbyt dugi
2.2 konieczny jest proces obniania temperatury
3. temperatura T powoduje spaszczenie sigmoidy
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 31/43
...
31
/
43.
Symulowane wyarzanie
schemat
1. temperatura T peni rol kontrolujcego parametru
1.1 jeli temperatura bdzie spada nie szybciej ni logarytmicznie, to mamy
gwarancj osignicia minimum energii
1.2 to jest zbyt wolno
1.3 konieczne jest pewne przyblienie jednak utrata gwarancji zbienoci
2. moliwy schemat
2.1 temperatura pocztkowa T
0
taka, by wszystkie stany byy osigalne
2.2 obnianie temperatury wykadnicze, ale bardzo powolne
T
k
= T
k1
,
gdzie (0.8, 0.99)
2.2.1 kada temperatura powinna akceptowa rednio co najmniej 10 przej
2.3 kocowa temperatura okrelona przez pierwszy etap, w ktrym przez
ostatnie trzy kroki nie byo wystarczajco wiele akceptowanych przej (lub
ich rednia frakcja bya zbyt maa)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 32/43
...
32
/
43.
Symulowane wyarzanie
schemat
1. temperatura T peni rol kontrolujcego parametru
1.1 jeli temperatura bdzie spada nie szybciej ni logarytmicznie, to mamy
gwarancj osignicia minimum energii
1.2 to jest zbyt wolno
1.3 konieczne jest pewne przyblienie jednak utrata gwarancji zbienoci
2. moliwy schemat
2.1 temperatura pocztkowa T
0
taka, by wszystkie stany byy osigalne
2.2 obnianie temperatury wykadnicze, ale bardzo powolne
T
k
= T
k1
,
gdzie (0.8, 0.99)
2.2.1 kada temperatura powinna akceptowa rednio co najmniej 10 przej
2.3 kocowa temperatura okrelona przez pierwszy etap, w ktrym przez
ostatnie trzy kroki nie byo wystarczajco wiele akceptowanych przej (lub
ich rednia frakcja bya zbyt maa)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 32/43
...
32
/
43.
Logistic Belief Network
Neal, 1992
1. symetryczne poczenia maszyny
Boltzmanna zamienione na skierowane
tworzc graf acykliczny
2. stochastyczne neurony
3. dla X
j
okrelony zbir rodzicw
pa(X
j
) {x
1
, . . . , X
N
}
3.1 w
ji
= 0 dla wszystkich X
i
pa(X
j
)
3.2 w
ji
= 0 dla i i
3.3 dla kadego X
j
jest okrelone
P(X
j
= x
j
|pa(X
j
))
......
ukryty
warunek
.......
ukryty
warunek
....
widzialny
wynik
1. neurony odpowiadaj zmiennym losowym
2. wagi powinny by takie, by generowa dane zgodne z obserwowanym
rozkadem
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 33/43
...
33
/
43.
Logistic Belief Network
uczenie
1. uczenie LBN
1.1 nauczanie przez stochastyczny wzrost
gradientu
w
ji
=

w
ji
L(w),
dla L(w) = log
xD
P(X = x) =

xD
log P(X = x)
1.2 moe mie bardzo wiele warstw
1.3 bardzo zoone poza prostymi
przypadkami (pleonazm, truizm)
......
widzialny
wynik
.......
ukryty
warunek
....
ukryty
warunek
1. problem niezalenoci ukrytych zmiennych: niezalene zmienne mog
sta si zalene gdy obserwujemy zdarzenie na ktre obie mog
wpywa (tzw. explaining away)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 34/43
...
34
/
43.
Deep Belief Network
P(x, h
1
, . . . , h

) = P(h
1
, h

)
(
2

k=1
P(h
k
|h
k+1
)
)
P(x|h
1
)
1. pary warstw odpowiadaj uproszczonym
maszynom Boltzmanna
2. RBM w grnej warstwie odpowiada sieci o
nieskoczonej liczbie warstw
3. neurony w warstwie RBM s warunkowo
niezalene gdy dane widzialne
.
warunkowa niezaleno
..
.
Jeli P(a|b, c) = P(a|c) to a jest warunkowo
niezalene od b jeli jest dane c
1. RBM znajduje nie obarczon estymacj
rozkadu gdy dane widzialne
.......
x
.........
h
1
.........
h
2
.........
h
3
....
W
T
0

.
W
0

.
W
T
1

.
W
1

.
W
2

.
RBM P(h
2
, h
3
)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 35/43
...
35
/
43.
Ograniczona maszyna Boltzmanna RBM
niezaleno x
ij
gdy dane h, oraz h
i
gdy dane x

E(x, h) = b
T
x c
T
h h
T
Wx

U = 0, V = 0, std P(h|x) =

i
P(h
i
|x) oraz P(x|h) =

i
P(x
j
|h)

P(h
i
= 1|x) =
exp(c
i
+W
i
x)
1+exp(c
i
+W
i
x)
= sigm(c
i
+W
i
x)
.........
v
........
h
.
W
1. aktywacje neuronw w ptli
1.1 ukrytych rwnolegle dla ustawionych (clamped) widzialnych P(h|x)
1.2 widzialnych dla danych ukrytych
2. uczenie
2.1 dla kadej wagi w
ij
korelacja

v
0
i
h
0
j

gdy przykady s zadane (clamped) na
warstwie widzialnej
2.2 prbkowanie Gibbsa a ukad osignie stan stabilny i korelacja

v

i
h

j

2.3 to daje gradient
log p(v
0
)
w
ij
=

v
0
i
h
0
j

i
h

j

Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 36/43
...
36
/
43.
Logistic Belief Network
model generatywny
1. take zwana sigmoidal belief network
2. problem explaining away: wiele warstw
struktury moe pomc
3. w sigmoidal belief neurony w warstwie s od
siebie niezalene przy danych wartociach z
warstwy powyej
P(h
k
i
= 1|h
k+1
) = sigm(b
k
i
+

j
W
k+1
ij
h
k+1
j
)
P(x,h
1
, . . . , h

) = P(h

)
(
1

k=1
P(h
k
|h
k+1
)
)
P(x|h
1
)
......
v
0
.........
h
0
........
v
1
.........
h
1
........
v
2
.........
h
2
........
. . .
....
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 37/43
...
37
/
43.
Logistic Belief Network
sie o nieskoczonej gbokoci
1. dane s generowane od warstwy na
nieskoczonej gbokoci
log p(v
0
)
w
00
ij
=

h
0
j
(v
0
i
v
0
i
)

log p(v
0
)
w
00
ij
=

h
0
j
(v
0
i
v
1
i
)

2. poniewa wagi si powtarzaj


log p(v
0
)
w
00
ij
=

h
0
j
(v
0
i
v
1
i
)

+
+

v
1
i
(h
0
j
h
1
j
)

h
1
j
(v
1
i
v
2
i
)

+ . . .
3. wszystkie elementy redukuj si do postaci
maszyny Boltzmanna
......
v
0
.........
h
0
........
v
1
.........
h
1
........
v
2
.........
h
2
........
. . .
....
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
.
W
T

.
W
.
W
.
W
T
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 38/43
...
38
/
43.
Ograniczona maszyna Boltzmanna RBM
nauczanie
E(x, h) = b
T
x c
T
h h
T
Wx
.........
v
........
h
.
W
1. zaproponowana wczeniej przez Smolenskyego jako harmonium
(1987)
1.1 na RBM przemianowa Hinton w 2006
2. prbkowanie Gibbsa penego modelu Boltzmanna jest bardzo powolne
3. w RBM nie ma potrzeby prbkowania fazy dodatniej, bo gradient moe
by podany analitycznie
4. prbkowanie:
x
1


P(x), h
1
P(h|x
1
), x
2
P(x|h
1
), h
2
P(h|x
2
), . . . , x
k+1
P(x|h
k
)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 39/43
...
39
/
43.
Ograniczona maszyna Boltzmanna RBM
wasnoci uczenia
.........
x
........
h
.
W
1. RBM uczy si bezporednio na danych, co pozwala stochastycznej
warstwie ukrytej na uchwycenie najwaniejszych aspektw danych
2. aktywacje znalezionych cech s traktowane jako dane wejciowe
kolejnego RBM
3. to proces uczenia cech dla cech
3.1 przypomina w tym model Pandemonium Selfridgea (1958)
4. proces powtarzany a do osignicia odpowiedniej liczby warstw
5. RBM mona wykorzysta w procesie uczenia nadzorowanego
5.1 podzia warstwy widzialnej na wejciow i wyjciow
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 40/43
...
40
/
43.
Pandemonium
Selfridge 1958
1. demony danych zbieraj i przechowuj dane
2. demony obliczeniowe przetwarzaj informacje
zawarte w danych
3. demony kognitywne oceniaj informacj
zawart w przetworzonych danych pod
swoim ktem i wydaj krzyk
4. demon decyzyjny nasuchuje krzykw i ocenia,
ktry demon kognitywny poda najwicej
przekonujcych argumentw i wybiera go
5. architektura cakowicie rwnolega
6. nauczanie przez modykacj pocze midzy
warstw obliczeniow a kognitywn, oraz
przez eliminacj i mutacj demonw
obliczeniowych
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 41/43
...
41
/
43.
Deep Belief Network
process generatywny
1. wagi do gry odzwierciedlaj uczenie cech
2. wagi do dou i obie miedzy warstwami na
szczycie opisuj model generatywny
2.1 wagi na szczycie stosu RBMw tworz
dwudzieln pami asocjacyjn
2.2 podczas generowania RBM na szczycie jest
inicjatorem
3. proces generatywny
3.1 pobierany jest stan rwnowagi RBMu na
szczycie
3.1.1 najpierw pojedyncza inferencja do gry
3.1.2 pniej potrzebny wystarczajco acuch
prbkowania Gibbsa
3.2 pniej pojedyncze generatywne przejcie w
d neuronami stochastycznymi
.......
x
.........
h
1
.........
h
2
.........
h
3
....
W
T
0

.
W
0

.
W
T
1

.
W
1

.
W
2

.
RBM P(h
2
, h
3
)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 42/43
...
42
/
43.
Deep Belief Network
wasnoci
1. poza warstw asocjacyjn na szczycie, DBN
odpowiada wielowarstwowej Logistic Belief
Network
2. nienadzorowane uczenie warstwa po
warstwie z dou do gry
3. inferencja wymaga pojedynczego przejcia
do gry
4. DBN pozwalaj na bardzo wiele swobody
4.1 DBN moe by podstaw do gbokiego
uczenia nadzorowanego
4.2 swobod trzeba wykorzysta w kreatywny
sposb
.......
x
.........
h
1
.........
h
2
.........
h
3
....
W
T
0

.
W
0

.
W
T
1

.
W
1

.
W
2

.
RBM P(h
2
, h
3
)
Igor T. Podolak, WMiI UJ igor.podolak@uj.edu.pl uczenie gbokich sieci neuronowych 43/43
...
43
/
43

You might also like