Professional Documents
Culture Documents
1. Wstp
Obszarem zainteresowania teorii gier s problemy zwizane z decyzjami w ukadach z wieloma uczestnikami
(agentami, graczami), z ktrych kady ma pewne swoje preferencje, okrelajce jego sposb dziaania (w ramach
ustalonych regu), od ktrych zaley jego wypata. Zakada si, e wszyscy uczestnicy zachowuj si racjonalnie, co w
jzyku teorii gier oznacza, e kady z uczestnikw stara si zmaksymalizowa swoj wasn wypat, niezalenie od
tego, co robi inni uczestnicy. Zatem kady gracz podejmuje decyzje o ruchach, ktre s zgodne z zasadami gry i ktre
maksymalizuj jego wypat. Niektrzy teoretycy uwaaj, e teoria gier dostarcza podstaw wyjaniajcych mylenie
strategiczne, podczas gdy inni interpretuj teori gier jedynie jako narzdzie, ktre moe doradza graczom co robi w
grze, aby zmaksymalizowa wypat wedle okrelonych preferencji. Rnica ta jest natury filozoficznej i jako taka nie
bdzie nas interesowa. Bardziej istotny jest fakt, e teoria gier znalaza szerokie zastosowania w ekonomii, biologii
ewolucyjnej, socjologii, naukach politycznych, oraz (ostatnio) w informatyce. We wszystkich tych dziedzinach teoria ta
suy w roli narzdzia do rozpatrywania modeli podejmowania optymalnych decyzji (strategii) w sytuacjach z udziaem
co najmniej dwch graczy. Czsto w takich sytuacjach poszczeglni gracze nie s pewni dziaania jakie podejm
pozostali gracze. Teoria gier dziaa rwnie w sytuacjach w ktrych wystpuje tylko jeden gracz, ktry dziaa w
warunkach niepewnoci (lub posiadania niepenych danych). W zwizku z tym mona j oglnie scharakteryzowa
jako teori podejmowania optymalnych decyzji w warunkach nieokrelonoci.
Przykad 1
Gra w wybieranie strony monety: Dwch graczy wybiera niezalenie ora lub reszk i informuje o swoim wyborze
sdziego. Jeli obydwaj wybior tak sam stron monety, to wygrywa gracz pierwszy, w innym przypadku wygrywa
gracz drugi. Tak okrelona gra ma nastpujce skadniki:
1.
Zbir graczy: W tej grze uczestniczy dwch graczy, ktrzy razem tworz zbir {P1, P2}.
2.
Zbir zasad: Istniej pewne zasady, ktre gracze musz respektowa w trakcie gry. Kady z graczy moe
bezpiecznie zaoy, e inni stosuj si do tych regu. W grze w wybieranie strony monety kady gracz moe
wybra ora lub reszk. Musi on zachowywa si niezalenie od wyboru innego gracza oraz dokona tylko
jednego wyboru. Gracz P1 wygrywa jeli wybory obydwu graczy s takie same, a jeli nie s, to wygrywa
gracz P2. Te zasady stanowi zbir R regu gry.
3.
Zbir strategii: Zbir strategii to zbir moliwych ruchw (dziaa) jakie gracz moe zastosowa w trakcie
gry. W przypadku tej gry zbiory strategii Si obydwu graczy Pi s okrelone jako S1 = S2 = {Orze, Reszka}.
Oznacza to, e kady z nich moe wybra albo ora, albo reszk. Orze lub reszka staje si wwczas strategi
tego gracza.
4.
Zbir wynikw: W zadanej sytuacji zbir wynikw dla obydwu graczy jest taki sam i wynosi W = {Wygrana,
Przegrana}. Moliwe wyniki s wartociami funkcji okrelonych na zbiorze strategii. W naszym przypadku
wszystkie moliwe strategie obydwu graczy wzite razem to S1 x S2 = {(Orze, Orze), (Orze, Reszka),
(Reszka, Orze), (Reszka, Reszka)}, gdzie pierwszy skadnik kadej pary oznacza strategi wybran przez
pierwszego gracza, za drugi skadnik pary strategi obran przez gracza drugiego. Taki zbir jest czasem
nazywany profilem (moliwych ukadw) strategii. Wida, e pierwszy i ostatni przypadek w powyszym
profilu strategii jest sytuacj Wygranej dla pierwszego gracza (i Przegranej dla drugiego), za dwa rodkowa
s sytuacjami Wygranej dla drugiego (i Przegranej dla pierwszego).
5.
Wypata: Wypatami nazywamy wielko korzyci jak gracz wyniesie, jeli otrzyma okrelony wynik w
grze. W oglnoci wypaty mog by rne dla rnych graczy. Przykadowo, okrelmy nastpujce wypaty
w naszym przykadzie gry w wybieranie strony monety:
u1(Wygrana) = 100,
u1(Przegrana) = 0,
u2(Wygrana) = 100,
u2(Przegrana) = 0.
Zgodnie z zaoeniem o racjonalnoci, obywaj gracze bd chcieli zmaksymalizowa ich wypaty, zatem
obydwaj bd chcieli wygra. Rozwamy teraz nieco inny przypadek. Zredefiniujemy wypaty nastpujco:
Niech pierwszy gracz bdzie nastawiony nadal na absolutne zwycistwo:
u1(Wygrana) = 100,
u1(Przegrana) = 0,
podczas gdy gracz P2 jest przede wszystkim zainteresowany ucieszeniem gracza P1 (ktry jest modszym
braciszkiem gracza P2). Zatem dla gracza P2:
u2(Wygrana) = 10,
u2(Przegrana) = 100.
W tej sytuacji tylko gracz P1 bdzie zdecydowanie dy do wygranej, gdy tymczasem gracz P2 bdzie
prbowa przegra. Warto zwrci uwag, e kady gracz prbujezmaksymalizowa swoj wypat (wygran),
wic dy do osigania takich wynikw, ktre dadz mu maksymaln wypat.
Wan rol w teorii gier peni pojcie gry o sumie zerowej. Jest to taka gra, w ktrej suma wypat wszystkich
uczestnikw dla kadego wyniku w grze wynosi zero. Powysza gra byaby gr o sumie zerowej jeli okrelilibymy:
u1(Wygrana) = 1,
u1(Przegrana) = -1,
u2(Wygrana) = 1,
u2(Przegrana) = -1.
Gry o sumie zerowej s zawsze grami opisujcymi pewien konflikt (rywalizacj czy te konkurencj): kada strategia
zwikszajca zysk (wypat) jednego gracza zmniejsza wypat pozostaych graczy. Przypomina to podzia tortu (lub
oglnie zagadnienie podziau skoczonych i wymiernych dbr): rozmiar tortu nie ulega zmianie, niezalenie od tego
jak go dzieli. Porwnujc pierwsz wersj wypat w powyszym przykadzie z ostatni, mona atwo zobaczy
podobiestwo. W oglnoci moemy mwi o sytuacjach konfliktowych jako grach o staej sumie. Jednake poniewa
od nas (jako stosujcych aparat teorii gier do rozwaania poszczeglnych problemw) zaley, przynajmniej do
pewnego stopnia, jakie wartoci wypat przypiszemy poszczeglnym wynikom, to moemy niejednokrotnie okrelon
gr o staej sumie przepisa do postaci gry o sumie zerowej. Gry bez wsppracy o sumie zerowej z udziaem dwch
graczy nazywane s grami antagonistycznymi.
Przykad 2
Innym przykadem gry o sumie zerowej s szachy. W grze tej uczestniczy dwch graczy, z ktrych jeden gra Biaymi
figurami, a drugi Czarnymi. Ta gra ma trzy moliwe wyniki W = {Czarne wygrywaj, Biae wygrywaj, Remis}.
Zdefiniujmy teraz wypaty nastpujco:
Czarne
wygrywaj
Biae
wygrywaj
Remis
UCzarne
UBiae
Dla kadego z wynikw, suma wypat wszystkich graczy jest staa (i wynosi 1), wic jest to gra o staej sumie. Jeli
Biae zwikszyyby swoj wypat otrzymywan w wyniku zwycistwa, to Czarne straciyby cz wypaty i vice
versa.
Przykad 3
Przykadem gry ktra nie jest gr o staej sumie jest synny Dylemat Winia: Dwch ludzi popenio przestpstwo, lecz
brak na to dowodw, za policja zapaa ich i umiecia w dwch osobnych celach. Poniewa nie ma dowodw
popenienia przez nich przestpstwa, nie mona im udowodni winy. Dlatego policja stara si nakoni ich do zezna
przeciwko sobie. Kademu z winiw dano dwie moliwoci: przyzna si do popenienia przestpstwa, albo
zaprzeczy. Jeli wizie I si przyzna, lecz wizie II zaprzeczy, to wwczas wizie I bdzie wystpowa w roli
wiadka przeciwko drugiemu i nie zostanie ukarany wizieniem, natomiast wwczas drugi wizie dostanie peny
wyrok 10 lat wizienia (i vice versa). Jeli obaj si przyznaj, to obydwaj dostan po 5 lat odsiadki, poniewa wwczas
policja bdzie miaa dowody przeciwko obydwu. Jeli obydwaj zaprzecz oskareniu, e popenili przestpstwo, to nie
bdzie na to dowodw, wic dostan tylko po roku wizienia, za brawurow ucieczk samochodem przed policj.
Sytuacj t mona przedstawi przy pomocy nastpujcej tabelki (macierzy):
I \ II
Przyzna si
Zaprzeczy
Przyzna si
5,5
0,10
Zaprzeczy
10,0
1,1
Taka tabelka jest typowym sposobem przedstawiania gry, w ktrej uczestniczy dwch graczy posiadajcych skoczon
liczb strategii. Pierwsza liczba przed przecinkiem oznacza wypat (wyrok) dla gracza I, za druga liczba oznacza
wypat dla gracza II. Kady wiersz reprezentuje strategi gracza I, za kada kolumna okrela pewn strategi gracza
II. Zatem prawa dolna komrka oznacza, e jeli gracz I zaprzeczy oraz gracz II zaprzeczy, to wyrok (wypata) dla
obydwu graczy wynosi 1 rok.
Przeprowadmy teraz analiz tej gry z perspektywy gracza I. Chce on zminimalizowa wyrok, ale nie wie, czy gracz II
zamierza przyzna si, czy te zaprzeczy. W zwizku z tym gracz I rozwaa dwie sytuacje:
a) Jeli gracz II si przyzna: W tej sytuacji przyznanie si przez gracza I daje 5 lat
wizienia, podczas zaprzeczanie doprowadzi do 10 lat wizienia. Zatem lepiej si
przyzna.
b) Jeli gracz II zaprzeczy: W tej sytuacji przyznanie si przez gracza I daje 0 lat wizienia
(wolno za bycie wiadkiem oskarenia), podczas gdy zaprzeczanie spowoduje 1 rok
wizienia. Zatem w tej sytuacji rwnie lepiej si przyzna.
Poniewa gracz I jest graczem racjonalnym i chce zminimalizowa swoj wypat, przyzna si do winy. Co ciekawe,
poniewa gracz II jest rwnie graczem racjonalnym, za sytuacja jest symetryczna (co jest wyraone w symetrii
powyszej tabelki), to rwnie on si przyzna. Paradoks tej sytuacji polega na tym, e jeli obydwaj postpi zgodnie ze
swoj racjonalnoci, to dostan po pi lat, za gdyby obydwaj zaprzeczyli, to dostaliby tylko po roku. Jednak aden z
nich nie wie, jak postpi drugi, dlatego te wybr kadego z nich by najbardziej racjonalny. Dylemat winia jest
dobrym przykadem gry bez wsppracy tylko w sytuacji wsppracy pomidzy obydwoma graczami w tej grze mog
oni osign cakowite minimum wyroku. Natomiast bez wsppracy nie mog oni rozwaa wsplnej strategii, a
jedynie indywidualne, w ramach ktrych wybieraj najlepsz dla siebie opcj, w warunkach braku wiedzy o wyborze
strategii dokonanym przez drugiego gracza.
Korzystajc teraz z teorii prawdopodobiestwa, moemy policzy ile wynosi oczekiwana liczba lat odsiadki w
wizieniu, w zalenoci od prawdopodobiestwa przypisywanego przez jednego gracza poszczeglnym decyzjom ktre
moe dokona drugi gracz. Jeli gracz I zakada, e s rwne szanse na przyznanie si lub zaprzeczenie przez gracza II
oraz przez samego siebie, to obydwu decyzjom kadego z nich przypisze prawdopodobiestwo 0.5. Wwczas moe
policzy oczekiwan liczb lat swojej odsiadki jako:
szansa, e I si przyzna * szansa, e II si przyzna * wypata dla gracza I + szansa, e I si
nie przyzna * szansa, e II si przyzna * wypata dla gracza I + szansa, e I si przyzna *
szansa, e II si nie przyzna * wypata dla gracza I + szansa, e I si nie przyzna * szansa,
e II si nie przyzna * wypata dla gracza I, czyli:
0.5 * 0.5 * 5 + 0.5 * 0.5 * 10 + 0.5 * 0.5 * 1 + 0.5 * 0.5 * 0 = 0.5 * 0.5 * (5+10+1+0) = 4.
Jeli jednak gracz I zakada, e jest 60% szans na to zaprzeczy i 40% na to, e si przyzna,
to (przyjmujc 50% szans obydwu moliwociom decyzji II gracza) oczekiwana liczba lat
odsiadki I gracza wynosi:
0.5 * 0.4 * 5 + 0.5 * 0.6 * 10 + 0.5 * 0.4 * 0 + 0.5 * 0.6 * 1 = 4.3.
Wida wyranie, e im bardziej gracz I chce zaprzeczy, tym bardziej jego oczekiwany wyrok ronie, i odwrotnie: jego
wyrok maleje tym bardziej, im jest wiksza szansa, e si przyzna.
Dylemat winia fascynuje ludzi zajmujcych si teori gier, poniewa jest prostym przykadem sytuacji, w ktrych
dostpne strategie okreli mona jako dziaanie na rzecz wsplnego dobra oraz dziaanie na wasn korzy.
Obejmuje to wiele sytuacji ktre s rozpatrywane w ekonomii. Przykadowo, zbudowanie mostu suy kademu, lecz
rwnie kady by wola, eby most zbudowa kto inny. Innym przykadem jest sytuacja w ktrej mamy dwie
konkurujce firmy, za dostpnymi strategiami jest da wysok cen oraz da nisk cen. Oczywicie, dla kadej
firmy jest najlepsze, jeli obydwie dadz wysokie ceny, lecz dla kadej z osobna jest lepsze da cen nisz ni
konkurencja. W sytuacji gier, w ktrych jedna strategia okrelonego gracza jest zdecydowanie lepsza od wszystkich
innych moliwych jego strategii niezalenie od tego jakie dziaania (decyzje, strategie) wybior inni gracze, mwimy,
e strategia ta cile dominuje nad pozostaymi moliwymi strategiami tego gracza. Okrelona strategia jest
zdecydowanie lepsza, jeli wypata dla tej strategii jest wiksza od wypat dla wszystkich innych moliwych strategii.
W dylemacie winia przyznanie si do winy cile dominuje nad zaprzeczaniem.
Przykad 4
wiata na przejciu. Zachowanie si kierowcy na skrzyowaniu ze wiatami moe by modelowane przy pomocy
teorii gier w sposb czciowo podobny do dylematu winia. Kiedy kierowca w porannym korku dojeda do
skrzyowania i napotyka czerwone wiato, ma dwie moliwoci ruchu:
a) poczeka na zielone wiato,
b) przeskoczy na czerwonym wietle.
W tej grze uczestniczy dwch graczy pierwszym graczem jest kierowca, za drugim s wszyscy pozostali kierowcy
czekajcy obok niego na tym samym skrzyowaniu i rwnie chccy jak najszybciej dojecha. Jeli kierowca poczeka i
inni rwnie poczekaj, to bdzie on musia czeka czas d, ktry jest potrzebny to zmiany wiata z czerwonego na
zielone. Jeli nasz kierowca przeskoczy podczas gdy inni poczekaj, to jego opnienie wyniesie 0. W sytuacji w ktrej
wszyscy zami prawo cakowite opnienie kierowcy wyniesie D (wskutek zatoru i zajedana niemiych kierowcw z
boku), natomiast jeli nasz kierowca poczeka, za inni przeskocz, to jego opnienie bdzie wynosio d+D. Moemy
zapisa wypaty kierowcy w postaci tabelki (macierzy) i, podobnie do dylematu winia, znale najlepsz strategi dla
kierowcy.
kierowca:
\ pozostali:
czekanie na zielone
przeskok na czerwonym
czekanie na zielone
d+D
przeskok na czerwonym
Gr nazywa si wszystkie sytuacje, w ktrych przynajmniej jeden uczestnik (agent, gracz) dziaa wycznie w celu
maksymalizacji swoich korzyci poprzez antycypowanie (jawne, lub wynikajce z jego zachowania) reakcji na swoje
dziaania ze strony innych uczestnikw. Jeli wszyscy uczestnicy podejmuj najkorzystniejsze dziaania niezalenie od
tego co robi inni gracze, tak jak w przypadku monopolu na pewien towar, moemy t sytuacj modelowa bez uycia
teorii gier. W pozostaych przypadkach teoria gier staje si niezbdna.
W ramach tej teorii zakadamy, e gracze s racjonalni (w sensie ekonomicznym), co oznacza, e gracz:
a) jest w stanie okrela moliwe wyniki w grze,
b) jest w stanie okrela decyzje ktre prowadz do okrelonych wynikw,
c) podejmuje dziaania ktre prowadz do najbardziej preferowanych wynikw w zalenoci od dziaa innych
graczy.
Tego rodzaju racjonalno nie musi by zwizana z jakkolwiek wewntrzn wiadomoci gracza. Moe ona zawiera
si w pewnych warunkach okrelonych przez naturaln, kulturow czy ekonomiczn selekcj (wybr). W
szczeglnoci, mwic o pewnym dziaaniu jako wybranym nie zakadamy, e byo ono podjte po jakimkolwiek
wiadomym namyle. Istotne jest tylko to, e pewne okrelone dziaanie zostao podjte w sytuacji, w ktrej byo
moliwe rwnie inne dziaanie (lub dziaania).
Kady gracz w grze ma bowiem do wyboru co najmniej dwie moliwe strategie (sposoby dziaania). Strategia okrela,
jakie dziaania podj w odpowiedzi na wszystkie moliwe dziaania (strategie) innych graczy. Kluczowym aspektem
okrelajcym gr jest to, jak informacj dysponuj gracze w momencie podejmowania decyzji. Najprostszymi grami s
takie, w ktrych gracze dysponuj pen informacj, co oznacza, e przy kadej decyzji gracz wie wszystko, co si stao
do tego momentu w grze. Przykadem takiej gry s szachy. Natomiast gry ze ciganym i cigajcym s najczciej
grami o niepenej informacji, gdy zarwno cigany, jak i cigajcy, nie wiedz wszystkiego o ruchach ju podjtych w
grze. Oczywicie, charakter informacji ktrym si dysponuje w grze istotnie okrela zachowanie gracza w grze i
zmienia wyranie logik podejmowanych decyzji.
Drzewa s uywane do reprezentacji gier o naprzemiennej sekwencji dziaa, poniewa pokazuj kolejno dziaa
podejmowanych przez graczy. Do reprezentacji (matematycznego modelowania) gier stosuje si rwnie macierze, w
ktrych nie podaje si informacji o sekwencji ruchw, ale wygrane (wypaty) otrzymywane na skutek wybrania przez
graczy okrelonej kombinacji strategii. Przykadem takiej reprezentacji jest oczywicie macierzowy zapis dylematu
winia:
I \ II
Przyznanie si
Zaprzeczenie
Przyznanie si
3,3
0,4
Zaprzeczenie
4,0
2,2
Gry wyraane przy pomocy macierzy nazywane s grami w postaci normalnej albo w postaci strategicznej, natomiast
zapisane przy pomocy drzewa nazywane s grami w postaci rozwinitej lub ekstensywnej. Te dwie postacie nie s sobie
rwnowane. Gry ekstensywne zawieraj w sobie informacj o kolejnoci ruchw, oraz o stopniu w jakim gracze w
poszczeglnych ruchach s poinformowani na temat struktury gry, podczas gdy w grach o postaci strategicznej nie
mamy dostpu do takiej informacji. Zatem jeli kolejno ruchw w grze jest nieistotna dla wyniku gry, mona bada t
gr w reprezentacji (zapisie) macierzowym, natomiast jeli kolejno gry jest istotna, to trzeba koniecznie okreli
posta ekstensywn danej gry.
Podczas zapisu gry w postaci ekstensywnej mamy do czynienia z nastpujcymi obiektami:
Rozwamy teraz dylemat winia w postaci ekstensywnej. Zamy, e gracze I i II nie poruszaj si rwnoczenie,
czyli kady z graczy podejmuje decyzj po zaobserwowaniu dziaania drugiego gracza. Zamy, e przed wsadzeniem
do wizienia (i koniecznoci podjcia decyzji) umwili si oni na strategi wsplnego nieprzyznawania si do winy.
W zwizku z tym w sytuacji gry obydwaj gracze mog wsppracowa, wierzchoki grafu s wierzchokami
kocowymi. Kady w wierzchokw kocowych przypisuje kademu graczowi pewien wynik, ktry przy pomocy
funkcji wypaty zamienia si w konkretn liczb. W sytuacji ekstensywnej postaci dylematu winia mamy wic do
czynienia z przypisaniem do kadego kocowego wierzchoka grafu pary liczb odpowiadajcej wypatom (liczbie lat
odsiadki) obydwu graczy. Drzewo tej gry pokazane jest na powyszym rysunku. Wida, e rwnoczesna
(symultaniczna) oraz naprzemienna (sekwencyjna) posta tej gry s sobie rwnowane (z dokadnoci do arbitralnie
okrelonych wartoci funkcji wypaty). W przypadku dowolnej gry nie jest to jednak prawd!
5. Klasyfikacja gier
Gry mog by klasyfikowane wedug kilku kryteriw. Czsto spotyka si nastpujce klasyfikacje:
Wedug liczby graczy: 1, 2 lub wicej graczy. W przypadku co najmniej dwch graczy naley wzi pod uwag
moliwo powstania koalicji, czyli wsppracy. Wwczas dokonujemy podziau na gry ze wspprac
(kooperacyjne) i gry bez wsppracy (niekooperacyjne).
Wedug inteligencji graczy: Inteligentny gracz jest to gracz, ktry zawsze zachowuje si racjonalnie, czyli uywa
najlepszych logicznie strategii (tzw. strategii optymalnych). Nieinteligentny gracz wybiera strategi drog
losowania lub sam zachowuje si jak mechanizm losowy nieprzewidywalny dla drugiego gracza.
Wreszcie p-inteligentny gracz to gracz, ktry czasami uywa zych strategii, gdzie parametr p jest
prawdopodobiestwem uycia przez niego strategii optymalnej. Wwczas 0-inteligentny gracz to po
prostu gracz nieinteligentny, za 1-inteligentny gracz jest graczem inteligentnym.
Wedug waciwoci zbioru strategii: Dla przykadu gra skoczona jest gr, w ktrej zbir strategii jest
skoczony (dla gier o penej informacji jest to gra o formie macierzowej), za gra nieskoczona to taka
dla ktrej zbir strategii jest nieskoczony.
Wedug sumy wypat: Wanym podziaem gier jest podzia na gry o sumie staej (w szczeglnym przypadku s to
gry o sumie zerowej; zreszt czsto mwic o nich ma si na myli gry o sumie staej), gdzie mamy do
czynienia z konfliktem, gdy wypata jednego gracza moe si zwikszy jedynie kosztem wypaty innych
graczy, oraz gry o sumie niezerowej, w przypadku ktrych wypaty dla graczy niekoniecznie musz mie
rne znaki, za gra nie musi by konfliktem (kady gracz moe zyska w tej grze).
Wedug reprezentacji: Jest to ju wczeniej omwiony podzia na gry ekstensywne (o postaci rozwinitej czyli
drzewa) oraz gry strategiczne (o postaci normalnej czyli macierzy).
Wedug dostpnej informacji: S to omawiane wyej gry w ktrych gracze dysponuj pen (kompletn) lub
niepen (niekompletn) informacj.
(0,2)
(3,5)
(4,8)
(2,4)
(8,-3)
(3-5)
Zgodnie z definicj, szukamy takich par strategii graczy, e dowolna zmiana strategii przez jednego spord graczy
(przy rwnoczesnym braku zmiany strategii przez drugiego gracza) nie spowoduje wzrostu wygranej tego gracza.
Wida, e w grze tej istniej dwie pary strategii bdcych w rwnowadze Nasha (bdcych strategiami Nasha):
A) para (0,2), poniewa 0 < 2 w pierwszej kolumnie (czyli jest to najlepsza strategia gracza grajacego
wierszami przy ustalonej strategii gracza grajcego kolumnami) oraz 2 < 5 i 2 < 8 w pierwszym
wierszu (czyli jest to najlepsza strategia gracza grajcego kolumnami przy ustalonej strategii gracza
grajcego wierszami).
B) para (3,-5), poniewa 3 < 4 oraz -5 < -3 i -5 < 4 (analogicznie).
Z tego przykadu wida, jaka jest prosta metoda wykrywania strategii rwnowagowych Nasha. Rozwamy dowolny
element macierzy wypat (pozytywnych). Jeli pierwszy skadnik tej pary jest maksymaln liczb w danej kolumnie,
za drugi skadnik pary jest maksymaln liczb w danym wierszu, to wwczas dana komrka reprezentuje strategi
rwnowagow. Oczywicie, jest tak w sytuacji w ktrej mamy do czynienia z nagrodami. Jeli mamy do czynienia z
macierz wyraajc gr w terminach kar, to gracze d do minimalizacji kar, wskutek czego powysza procedura
zamienia si w poszukiwanie minimw. W typowych sytuacjach, jeli spotyka si macierz gry bez podanej interpretacji,
naley zaoy, e jest to macierz wypat pozytywnych, czyli inaczej ni w dylemacie winia.
Aby wybra jedno rozwizanie spord kilku dostpnych strategii Nasha trzeba odwoa si do dodatkowych kryteriw,
ktre przynajmniej po czci mog by arbitralne. Jeli dana gra nie posiada strategii Nasha, to mwimy, e nie istnieje
rwnowaga Nasha w czystych strategiach. W tym przypadku aby znale rozwizanie mona stosowa strategie
mieszane.
6. Strategie mieszane
Warto rozrnia pomidzy strategiami czystymi i mieszanymi. Elementy zbioru strategii Si, nazywamy strategiami
czystymi (de facto wszystkie strategie omawiane w zeszym tygodniu byy strategiami czystymi). Natomiast strategia
mieszana polega na poczeniu (wymieszaniu) poszczeglnych strategii czystych poprzez wybieranie kadej z
dostpnych strategii czystych z pewnym prawdopodobiestwem (oczywicie, kada czysta strategia moe by
rozwaana jako szczeglny przypadek strategii mieszanej, dla ktrej wybiera si okrelon czyst strategi z
prawdopodobiestwem rwnym 1, za pozostae z prawdopodobiestwem rwnym 0). Niejednokrotnie gry, ktre nie
posiadaj rwnowagi Nasha w strategiach czystych, posiadaj takow w strategiach mieszanych.
Przykad
Rozwamy nastpujc gr. Kady z dwch graczy podaje w tej samej chwili jedn z liczb: jeden lub dwa. Gracz I
wygrywa jeli suma podanych liczb jest nieparzysta, natomiast gracz II wygrywa jeli suma podanych liczb jest
parzysta. Przegrywajcy musi zapaci wygrywajcemu tak liczb zotych, ile wynosi suma podanych liczb. Zbiory
strategii w tej grze to SI = {1, 2}, SII = {1, 2}, natomiast funkcja wypaty uI dana jest przez macierz
gracz II: 1
gracz II: 2
gracz I: 1
-2
+3
gracz I: 2
+3
-4
gracz II: 2
gracz I: 1
(-2,2)
(+3,-3)
gracz I: 2
(+3,-3)
(-4,+4)
Okazuje si, e jeden z graczy ma wiksz korzy z tej gry. Zanalizujmy teraz t gr z perspektywy gracza I. Zamy,
e na pi losowa trzy razy losuje on 1, a dwa razy 2, w kolejnoci przypadkowej. W takiej sytuacji:
a) jeli gracz II powie 1, to gracz I traci 2 zote w 3/5 przypadkw i wygrywa 3 zote
w 2/5 przypadkw. rednio wygrywa on 3/5*(2 z) + 2/5*(3 z) = 0 z.
b) jeli gracz II powie 2, to gracz I zyskuje 3 zote w 3/5 przypadkw i traci 4 zote
w 2/5 przypadkw: rednio wygrywa wic 3/5*(3 z) + 2/5*(4 z) = 1/5 z.
Oznacza to, e jeli gracz I wymiesza swoje strategie (wybory strategii) w powyszy sposb, to gra jest sprawiedliwa za
kadym razem kiedy gracz II powie 1, ale jeli gracz II powie 2, to rednio rzecz biorc gracz I wygrywa 20
groszy. Rodzi si pytanie, czy w tej sytuacji gracz I moe wybra tak strategi, ktra zagwarantuje mu niezerow
wygran niezalenie od tego co zrobi drugi gracz?
Niech p oznacza prawdopodobiestwo tego, e gracz I wybiera 1. Znajdziemy teraz takie p, dla ktrego gracz I
wygrywa rednio tak sam ilo pienidzy niezalenie od tego, czy gracz II wybierze 1 czy 2. rednia warto
wygranej gracza I w przypadku kiedy gracz II powie 1 wynosi
p*(2) + (1p)*3,
za jego rednia wygrana kiedy gracz II powie 2 wynosi
p*3 + (1p)*(4).
Szukamy zatem takiego p, e
2p + 3(1p) = 3p 4(1p),
Co po przeksztaceniu daje
p = 7/12.
Oznacza to, e gracz I powinien wybiera opcj 1 z prawdopodobiestwem 7/12, za 2 z prawdopodobiestwem
5/12. Przy zaoeniu tej strategii gracz I wygrywa rednio
2*(7/12) + 3*(5/12),
czyli 81/3 grosza, niezalenie od tego, co zrobi gracz II. Taka strategia mieszana, ktra daje te same rednie wygrane
niezalenie od tego, co robi przeciwnik nazywa si strategi wyrwnujc.
W tej sytuacji powstaje pytanie, czy gracz II moe miesza z pewnym prawdopodobiestwem swoje strategie tak, eby
gracz I nie osign wikszy zysk ni powyszy. Korzystajc z tej samej metody, mona atwo policzy, e gracz II
moe zapewni sobie sta redni przegran nie wiksz ni 1/12 zotego, podczas gdy gracz I moe zapewni sobie
sta redni wygran nie mniejsz ni 1/12 zotego. W takiej sytuacji 1/12 zotego nazywa si wartoci gry, za
strategia, ktr kady z graczy uywa w celu uzyskania tej redniej wartoci, jest strategi minimaxu.
Grupa graczy grajca w dylemat winia wedug zasady wet za wet nigdy nie dowiadczy adnego przyznania si do
winy, czyli zdrady. Z tego wynika, e wet za wet jest dugoterminow strategi rwnowagow Nasha w populacji, w
ktrej wszyscy graj wedug strategii wet za wet.
Rwnowagowo tej strategii opiera si na istotnym zaoeniu, e gracze musz by niepewni tego, kiedy zakocz si
ich wsplne gry. Zamy, e gracze wiedz, kiedy nadejdzie ostatnia runda. W tej rundzie ju nie musz obawia si
kary, zatem racjonalnym dziaaniem dla graczy bdzie zdrada (przyznanie si do winy), poniewa po ostatniej rundzie
nie ma ju adnej moliwoci poniesienia kary za to dziaanie. Rozwamy teraz przedostatni rund. Gracze nie
ponios rwnie adnej kary za przyznanie si w tej rundzie, gdy i tak przyznaj si w ostatniej, zatem w
przedostatniej rundzie rwnie zdradz. To rozumowanie mona w analogiczny sposb kontynuowa a do pierwszej
rundy, wskutek czego strategia wet za wet traci (racjonalny) sens, za rwnowagow strategi w tej sytuacji staje si,
tak samo jak w jednokrotnym dylemacie winia, obustronne przyznanie si do winy. Oznacza to, e wsppraca w
wielokrotnym dylemacie winia jest moliwa tylko jeli liczba powtrze gry jest nieznana. Ten wniosek stosuje si
rwnie do bardziej skomplikowanych gier granych przez ludzi w sytuacjach ycia codziennego.
gracz I: Prawo
(A, a)
(C, b)
gracz II: D
(B, c)
(D, d)
Powyej opisana sytuacja wsppracy oznacza, e wypaty gracza II s opisane nierwnociami A > B oraz D > C, za
wypaty gracza I speniaj warunki a > b oraz d > c. W tej grze istniej dwa profile strategii, ktre s rwnowagami
Nasha: {Lewo, Gra} oraz {Prawo, D}. W grach ze wspprac mona rwnie rozwaa strategie mieszane i
rwnowagi Nasha w strategiach mieszanych.
Przykad
By moe najsynniejszym przykadem gry ze wspprac jest tzw. walka pci. W tej grze mamy do czynienia z dwoma
graczami. Pierwszym graczem jest kobieta, ktra lubi chodzi do zakupy (Z), za graczem drugim jest mczyzna,
ktry lubi chodzi na mecze pikarskie (P). Przede wszystkim jednak obydwoje chcieliby by razem (lub po prostu
spotka si). Jeli nie wemiemy pod uwag moliwoci wsppracy przy podejmowaniu decyzji w drodze umowy (np.
porozumienia si przez telefon), to mamy do czynienia z gr, ktr mona opisa przy pomocy nastpujcej macierzy:
: Z
: P
: Z
11, 10
0, 0
: P
1, 1
10, 11
Rwnowagami Nasha s tu pary decyzji (Z,Z) i (P,P) - bo jeli wiadomo, e ona (on) pjdzie na zakupy (na mecz
pikarski), to lepiej odpowiednio dostosowa swoj decyzj. Jeli jest to gra powtarzalna i ma sens rozpatrywanie
strategii mieszanych (prawdopodobiestw pjcia na zakupy i na mecz pierwszego i drugiego gracza), to mona
wyznaczy jeszcze jedn rwnowag w strategiach mieszanych. Odpowiada ona prawdopodobiestwom (w tym
przypadku) 11/20 pjcia na rozrywk preferowan oraz jednakowym wartociom oczekiwanym wypaty dla obu
graczy. Wartoci te s jednak niskie w porwnaniu z dwoma rwnowagami w strategiach czystych; w dodatku,
rwnowaga w strategiach mieszanych jest niestabilna (jakiekolwiek odchylenie od strategii rwnowagowych powoduje
zwikszenie tego odchylenia i przejcie do ktrej z rwnowag w strategiach czystych). Z przykadu tego nie wynika
bynajmniej, e w tej sytuacji jedna ze stron musi ustpi i niemoliwe jest rozsdne rozwizanie symetryczne. Przykad
ten ilustruje tylko ograniczenia teorii gier w zastosowaniu do negocjacji: rozsdnym rozwizaniem jest bowiem
zrzucenie pychy z serca i umwienie si przez telefon, e jutro idziemy oboje na zakupy, a nastpnym razem oboje na
mecz.
aden osobnik nie moe zwikszy swojego dostosowania (rozrodczego) poprzez zmian strategii na inn,
aden mutant korzystajcy z innej strategii nie ma szans dokonania inwazji na badan populacj.
Przykad
Rozwamy populacj skadajc si z trzech rodzajw osobnikw, ktrzy si czsto spotykaj parami i musz wtedy
podzieli si zasobami rodowiska:
Uczciwych, ktrzy chc zawsze poow zasobw;
Zachannych, ktrzy zawsze chc wicej ni poow zasobw. Kiedy jeden zachanny spotyka innego zachannego,
to obydwaj trac zasoby wskutek walki o nie;
Skromnych, ktrzy chc zawsze mniej ni poow zasobw. Kiedy jeden skromny spotyka innego skromnego,
wwczas korzystaj oni tylko z czci zasobw, i pewna cz zasobw si marnuje.
Zamy teraz, e zachanni wymagaj 2/3 zasobw, natomiast skromni wymagaj 1/3 zasobw. Wwczas nastpujce
dwie proporcje populacji s strategiami stabilnymi ewolucyjnie:
1.
Poowa populacji to zachanni, a druga poowa to skromni. Policzmy redni wypat w tej sytuacji. Skromni
otrzymuj 1/3 zasobw w kadym spotkaniu. Zachanny dostaje 2/3 kiedy spotyka skromnego, za nic jeli
spotyka innego zachannego. Zatem rednia wypata zachannego wynosi rwnie 1/3. Jest to ESS, poniewa
sprawiedliwy mutant nie moe dokona inwazji na t populacj. Gdyby jaki sprawiedliwy dosta si do tej
populacji, to w przypadku spotkania skromnego otrzymaby on 1/2 zasobw, natomiast w przypadku spotkania
zachannego uczciwy nie dostaby nic. Zatem rednia wypata uczciwego wynosiaby 1/4. W tej sytuacji aden
zachanny ani skromny nie miaby zysku ze zmiany swojej strategii, wic pojedynczy uczciwy w tej populacji
dostaby najmniej i jego strategia nie miaaby szans na propagacj.
2.
Wszyscy gracze s uczciwi. Kady dostaje poow zasobw i nikt nie moe polepszy swojego bytu przez
zmian swojej strategii. Gdyby w tej populacji pojawi si zachanny, to dostaby on redni wypat rwn
zero. Natomiast dokonujcy inwazji skromny dostaby rednio 1/3, co wynosi mniej ni rednia wypata
uczciwych, wskutek czego jego strategia nie miaaby szans na propagacj.
Warto zauway, e pierwsza rwnowaga jest nieefektywna, poniewa rednia wypata w caej populacji jest mniejsza
ni rednia wypata dla populacji w drugiej moliwej rwnowadze. Jednake, tak samo jak w przypadku pojedynczych
gier, nie ma oglnego rodka, ktry uniemoliwiaby wyboru (ustabilizowania si) nieefektywnych pooe rwnowagi.
Co ciekawe, wybr okrelonego pooenia rwnowagi w grze zaley od warunkw pocztkowych gry, czyli od
proporcji w jakiej dane strategie wystpoway na pocztku gry. Jeli populacja rozpoczyna gr z wicej ni jednym
uczciwym, wwczas istnieje pewne niezerowe prawdopodobiestwo, e uczciwi spotkaj si i otrzymaj najwiksz
moliw wypat. Skromni nie powstrzymaj wzrostu liczby uczciwych. Tylko zachanni mog zablokowa wzrost
liczby uczciwych, ale z drugiej strony liczba zachannych zaley od dostpnoci odpowiedniej liczby skromnych.
Zatem im wicej jest uczciwych w danej populacji wzgldem par zachanny-skromny, tym wyszy wynik redni
otrzymaj uczciwi. Jeli liczba uczciwi w populacji spadnie poniej 33,(3)%, to rozpocznie si ich wymieranie,
poniewa nie bd si wystarczajco czsto spotyka. Z drugiej strony, jeli ich liczba w populacji przekroczy 33,(3)%,
to zaczn oni dy do zdominowania caej populacji. Mona to wyranie zobaczy zauwaajc, e w sytuacji, w ktrej
kada ze strategii jest stosowana przez 1/3 (czyli 33,(3)%) populacji, to kada strategia ma oczekiwan redni wypat
rwn 1/3 zasobw. Zatem przekroczenie tego punktu krytycznego w ktrkolwiek ze stron spowoduje denie do
ustalenia si jednej z dwch moliwych rwnowag ESS, osignitej kosztem wyginicia uczciwych lub wszystkich
pozostaych.
Bardzo ciekawe jest to, w jaki sposb teoria gier tumaczy altruizm, czyli takie zachowanie organizmu, ktre obnia
jego wasne dostosowanie na rzecz wzrostu dostosowania innego gracza. Tego rodzaju zachowanie jest do czsto
spotykane w przyrodzie. Rodzi si wic pytanie, jak jest ono moliwe w warunkach darwinowskiej walki o byt?
Rozwamy seri dylematw winia rozgrywanych w populacji, skadajcej si ze zdrajcw (agresorw) i
wsppracujcych ze sob (altruistw). Wypaty w tej grze, jak zawsze w przypadku dynamicznych gier, s mierzone
przy pomocy oczekiwanej liczby kopii danej strategii w nastpnym pokoleniu.
Niech U(A) bdzie rednim dostosowaniem strategii A w danej populacji, za U niech oznacza rednie przystosowanie
w caej populacji (tzn. sum U(A) po wszystkich A podzielon przez liczb moliwych strategii). Wwczas proporcja
strategii A w nastpnym pokoleniu wynosi po prostu U(A)/U. W tej sytuacji jeli A ma wiksze dostosowanie ni
rednie dostosowanie w populacji, to liczba A ronie w nastpny pokoleniu. Natomiast jeli U(A) < U, to liczba A w
nastpnym pokoleniu maleje.
W dynamicznym dylemacie winia, w ktrym oddziaywanie pomidzy osobnikami jest przypadkowe (bez korelacji),
agresorzy maj lepsze wyniki ni rednia populacji, dopki w pobliu s jacy altruici. Wynika to z tego, e w
pojedynczym (statycznym) dylemacie winia agresja (zdrada) jest zawsze strategi dominujc. Zatem w
dynamicznym dylemacie winia bez korelacji zdrada jest strategi ewolucyjnie stabiln.
Jednak moliwo korelacji istotnie zmienia t sytuacj. Wwczas musimy liczy rednie dostosowanie danej strategii
przy danym prawdopodobiestwie spotkania przez ni kadej moliwej strategii. W dynamicznym dylemacie winia
altruici, ktrzy maj due prawdopodobiestwo spotkania si nawzajem, radz sobie lepiej ni agresorzy majcy takie
samo prawdopodobiestwo spotkania si. Wynika z tego, e korelacja faworyzuje kooperacj :)
Wyobramy sobie teraz sytuacj, w ktrej gracze musz gra z graczami dowolnie (przypadkowo) wybranymi spord
najbliszych graczy (jest to do realistyczne zaoenie ze wzgldu na genetyczn lub kulturow blisko). Jeli mamy
do czynienia z populacj o skoczonych rozmiarach, ktr moemy schematycznie przedstawi na jednej linii, to
otrzymamy nastpujc dynamik:
pojedynczy wsppracujcy gracze (altruici), ktrzy s otoczeni przez zdrajcw (agresorw), wygin;
czonkowie grup zoonych z dwch wsppracujcych ze sob graczy maj 50% szans na oddziaywanie
pomidzy sob i 50% szans na oddziaywanie ze zdrajcami. W rezultacie ich oczekiwane dopasowanie okazuje
si mniejsze ni dopasowanie otaczajcych ich zdrajcw, wic te prawdopodobnie wygin;
czonkowie grup zoonych z trzech wsppracujcych ze sob graczy, maj takie same dopasowanie jak
otaczajcy ich zdrajcy, lecz jest to sytuacja niestabilna, ktra moe obrci si zarwno w kierunku rozwoju
tej grupy, jak i jej wyginicia;
grupy zoone z czterech lub wicej wsppracujcych ze sob graczy radz sobie lepiej ni otaczajcy ich
zdrajcy, wskutek czego zwikszaj oni swoje dostosowanie (liczebno w ramach populacji). W rezultacie
altruici mog prawie cakowicie wyprze agresorw (zdrajcw). Przy yciu mog utrzyma si tylko
pojedynczy zdrajcy lub ich grupy istniejce na peryferiach populacji.
Wida wic, e istnienie altruizmu moe by uzasadnione przez dynamik gier ewolucyjnych, za w sytuacji korelacji
altruizm moe sta si nawet gwn strategi w populacji. Warto jednak zauway, e tego rodzaju wniosku s
uzasadnione tylko w sytuacji, w ktrej poszczeglne osobniki trzymaj si swoich naturalnych lub kulturowych
uwarunkowa i nie mog zmienia same swoich funkcji wypat. Jeli gracze bd zbyt sprytni i zbyt skorzy do zmiany
wasnej strategii zgodnie z wasnym indywidualnym interesem, to na skutek obserwacji, e znajduj si w dylemacie
winia, wybior zdrad jako najkorzystniejsz dla nich osobicie strategi. Wskutek tego szybko doprowadz si do
zagady chyba e wytworz stabilne i efektywne normy, ktre ponownie odtworz wspprac.
Na zakoczenie opiszmy zagadnienie strategii ewolucyjnie stabilnych od strony matematycznej. Przypomnijmy jeszcze
raz, e rwnowaga Nasha jest takim profilem strategii w grze, e, przy ustalonych strategiach wszystkich pozostaych
graczy, aden gracz nie moe polepszy swojej wypaty przez zmian swojej strategii. Jeli gracz wybierze strategi x
w populacji, gdzie wszyscy inni gracze korzystaj ze strategii y, to otrzyma on wypat u(x,y). W takiej sytuacji jeli x
jest strategi rwnowagi Nasha, to mona to zapisa pod postaci warunku:
u(x,x) u(y,x) dla kadego y.
Natomiast jeli x jest strategi ewolucyjnie stabiln, to speniony jest nastpujcy warunek:
{ u(x,x) > u(y,x) } lub { [ u(x,x) = u(y,x) oraz u(x,y) > u(y,y) ] dla kadego x y }.
Oznacza to, e wypata kadego gracza grajcego strategi x w sytuacji, kiedy inni graj t sam strategi, musi by
wiksza od wypaty, ktr otrzymuje on grajc jakkolwiek inn strategi, lub wypaty te mog by takie same, ale
wtedy wypata w sytuacji, kiedy jego strategia jest grana przeciw innym strategiom, musi by wiksza od wypaty, ktr
by uzyska grajc t sam strategi co przeciwnik. Drugi z tych warunkw wyklucza moliwo dokonania inwazji
przez mutanta, dlatego, e mwi on, i adnemu graczowi nie opaca si zmieni jego dotychczasowej strategii na inn.
Dziki takiemu matematycznemu sformuowaniu mamy proste kryterium okrelajce, ktry profil strategii w danej grze
jest strategi ewolucyjnie stabiln. Warto zauway, e pierwszy z dwch czonw powyszej alternatywy jest bardzo
podobny do warunku rwnowagi Nasha, lecz jest od niego mocniejszy. Czasem nazywa si go cis rwnowag
Nasha.
s wyraone przez poszczeglne wiersze. Para liczb w okrelonej komrce okrela wypaty jakie otrzymaj ci gracze
grajc strategiami, na ktrych przeciciu jest ta komrka. Pierwsza liczba okrela wypat, ktr otrzyma gracz grajcy
strategiami wyraonymi przez wiersze, za druga liczba okrela wypat, ktr otrzyma gracz grajcy strategiami
wyraonymi przez kolumny.
strategia cile dominujca W sytuacji gier, w ktrych jedna strategia okrelonego gracza jest zdecydowanie lepsza
od wszystkich innych moliwych jego strategii niezalenie od tego jakie dziaania (decyzje, strategie) wybior inni
gracze, mwimy, e strategia ta cile dominuje nad pozostaymi moliwymi strategiami tego gracza. Okrelona
strategia jest zdecydowanie lepsza, jeli wypata dla tej strategii jest wiksza od wypat dla wszystkich innych
moliwych strategii. W praktyce oznacza to, e szukamy u danego gracza takiej strategii (wiersza lub kolumny
macierzy), ktra niezalenie od strategii przeciwnika zawsze daje najwiksz moliw wypat.
profil strategii zbir strategii, bdcy rezultatem wyboru przez kadego gracza jednej strategii. Poszczeglne profile
strategii s w reprezentacji macierzowej gry wyraane przez komrki macierzy (tabeli).
gry ze wspprac gry, w ktrych wypaty obydwu graczy s okrelone tak, e obydwu graczom opaca si wybiera
strategie zgodne ze sob. S to gry, w ktrych wszystkie rwnowagowe czyste strategie Nasha s sytuacjami, w ktrych
gracze wybieraj te same, lub odpowiadajce sobie strategie.
rwnowaga Nasha Rwnowaga Nasha jest takim profilem strategii w grze, e, przy ustalonych strategiach
wszystkich pozostaych graczy, aden gracz nie moe polepszy swojej wypaty przez zmian swojej strategii. Oznacza
to, e w praktyce szukamy takiej pary strategii dwch graczy (komrki macierzy), e, bdc w danym wierszu (=
ustalona strategia drugiego gracza) gracz grajcy kolumnami nie moe polepszy wypaty zmieniajc swojej strategii
(kolumny), a gracz grajcy wierszami przy ustalonej kolumnie nie moe poprawi swojej wypaty przez zmian
wierszy. Matematycznie biorc, wyraa si to wzorem
u(x,x) u(y,x) dla kadego y,
gdzie u(A,B) oznacza wypat gracza grajcego strategi A dla profilu strategii (A,B). Jest to tak zwana rwnowaga
Nasha w strategiach czystych. Rwnowaga Nasha dla gier mieszanych oblicza si poprzez poszukiwanie takich
prawdopodobiestw wyboru strategii przez kadego gracza, e kady z graczy osiga rwnowag, polegajc na tym,
e (dla ustalonego gracza oraz ustalonych strategii pozostaych graczy) prawdopodobiestwo wyboru dowolnej strategii
pomnoone przez wypat z ni zwizan daje t sam warto, niezalenie od wyboru strategii. Przykadowo, jeli
mamy dwuosobow gr, w ktrej kady z graczy (I, II) ma dwie moliwe strategie (odpowiednio: A,B oraz X,Y) ktre
moe wybiera z pewnym prawdopodobiestwem (odpowiednio: p, (1-p), q, (1-q)), to warunek rwnowagi Nasha w
strategiach mieszanych dla gracza I wynosi
q*u(A,X)+(1-q)*u(A,Y) = q*u(B,X)+(1-q)*u(B,X),
gdzie u(A,X) jest wypat gracza I dla profilu strategii (A,X).
strategie mieszane strategiami czystymi nazywa si strategie wystpujce w definicji pojcia gry, oraz w definicji
innych poj tej teorii. Strategie mieszane, s to strategie czyste wymnoone przez prawdopodobiestwa wyboru danej
strategii przez gracza. Kada gra moe (lecz nie musi) mie dodatkowe rwnowagi Nasha w strategiach czystych.
strategia ewolucyjnie stabilna Jest to taki profil strategii w grze, e wypata kadego gracza grajcego strategi x w
sytuacji, kiedy inni graj t sam strategi, musi by wiksza od wypaty, ktr otrzymuje on grajc jakkolwiek inn
strategi, lub wypaty te mog by takie same, ale wtedy wypata w sytuacji, kiedy jego strategia jest grana przeciw
innym strategiom, musi by wiksza od wypaty, ktr by uzyska grajc t sam strategi co przeciwnik. Aby znale
strategi ewolucyjnie stabiln, musimy dla kadego moliwego profilu strategii (komrek macierzy) przeprowadzi
nastpujc procedur: Dla kadego gracza porwnujemy jego wypat przy danej strategii z wypatami, ktre moe
otrzyma przy zmianie strategii na inn. Musi ona by wiksza od wszystkich innych moliwych lub, jeli jest rwna,
zmiana strategii musi dawa wypat wiksz od wypat wszystkich innych gracz. Wyraa si to wzorem
{ u(x,x) > u(y,x) } lub { [ u(x,x) = u(y,x) oraz u(x,y) > u(y,y) ] dla kadego x y }.
Ten wzr jest bardzo podobny do wzoru definiujcego rwnowag Nasha. Rnica polega na tym, e dla strategii
ewolucyjnie stabilnej mamy ostr nierwno >, a w przypadku rwnowagi Nasha mamy . Oznacza to, e aby znale
strategie ewolucyjnie stabilne, postpujemy oglnie tak samo jak w przypadku poszukiwania rwnowagi Nasha, z tym
e jeli wypaty s rwne, to musimy sprawdzi jeszcze dodatkowy warunek: mianowicie u(x,y) > u(y,y), czyli czy
zmiana strategii na inn da wiksz wypat.
Bibliografia
1.
2.
3.
4.
5.