You are on page 1of 15

Wprowadzenie do teorii gier

Ryszard Pawe Kostecki

1. Wstp
Obszarem zainteresowania teorii gier s problemy zwizane z decyzjami w ukadach z wieloma uczestnikami
(agentami, graczami), z ktrych kady ma pewne swoje preferencje, okrelajce jego sposb dziaania (w ramach
ustalonych regu), od ktrych zaley jego wypata. Zakada si, e wszyscy uczestnicy zachowuj si racjonalnie, co w
jzyku teorii gier oznacza, e kady z uczestnikw stara si zmaksymalizowa swoj wasn wypat, niezalenie od
tego, co robi inni uczestnicy. Zatem kady gracz podejmuje decyzje o ruchach, ktre s zgodne z zasadami gry i ktre
maksymalizuj jego wypat. Niektrzy teoretycy uwaaj, e teoria gier dostarcza podstaw wyjaniajcych mylenie
strategiczne, podczas gdy inni interpretuj teori gier jedynie jako narzdzie, ktre moe doradza graczom co robi w
grze, aby zmaksymalizowa wypat wedle okrelonych preferencji. Rnica ta jest natury filozoficznej i jako taka nie
bdzie nas interesowa. Bardziej istotny jest fakt, e teoria gier znalaza szerokie zastosowania w ekonomii, biologii
ewolucyjnej, socjologii, naukach politycznych, oraz (ostatnio) w informatyce. We wszystkich tych dziedzinach teoria ta
suy w roli narzdzia do rozpatrywania modeli podejmowania optymalnych decyzji (strategii) w sytuacjach z udziaem
co najmniej dwch graczy. Czsto w takich sytuacjach poszczeglni gracze nie s pewni dziaania jakie podejm
pozostali gracze. Teoria gier dziaa rwnie w sytuacjach w ktrych wystpuje tylko jeden gracz, ktry dziaa w
warunkach niepewnoci (lub posiadania niepenych danych). W zwizku z tym mona j oglnie scharakteryzowa
jako teori podejmowania optymalnych decyzji w warunkach nieokrelonoci.

2. Czym jest gra? Przykady gier


W skrcie, gra skada si ze:
1.
2.
3.
4.
5.

Zbioru graczy D = { Pi }, gdzie kade Pi (dla i = 1, 2, 3...) oznacza pewnego gracza,


Zbioru regu gry R,
Zbioru moliwych strategii Si dla kadego gracza Pi,
Zbioru moliwych wynikw W,
Wypat ui(w) dla kadego gracza Pi i dla kadego wyniku w ze zbioru W. ui(w) nazywa si czsto funkcj
uytecznoci lub funkcj wypaty.

Przykad 1
Gra w wybieranie strony monety: Dwch graczy wybiera niezalenie ora lub reszk i informuje o swoim wyborze
sdziego. Jeli obydwaj wybior tak sam stron monety, to wygrywa gracz pierwszy, w innym przypadku wygrywa
gracz drugi. Tak okrelona gra ma nastpujce skadniki:
1.

Zbir graczy: W tej grze uczestniczy dwch graczy, ktrzy razem tworz zbir {P1, P2}.

2.

Zbir zasad: Istniej pewne zasady, ktre gracze musz respektowa w trakcie gry. Kady z graczy moe
bezpiecznie zaoy, e inni stosuj si do tych regu. W grze w wybieranie strony monety kady gracz moe
wybra ora lub reszk. Musi on zachowywa si niezalenie od wyboru innego gracza oraz dokona tylko
jednego wyboru. Gracz P1 wygrywa jeli wybory obydwu graczy s takie same, a jeli nie s, to wygrywa
gracz P2. Te zasady stanowi zbir R regu gry.

3.

Zbir strategii: Zbir strategii to zbir moliwych ruchw (dziaa) jakie gracz moe zastosowa w trakcie
gry. W przypadku tej gry zbiory strategii Si obydwu graczy Pi s okrelone jako S1 = S2 = {Orze, Reszka}.
Oznacza to, e kady z nich moe wybra albo ora, albo reszk. Orze lub reszka staje si wwczas strategi
tego gracza.

4.

Zbir wynikw: W zadanej sytuacji zbir wynikw dla obydwu graczy jest taki sam i wynosi W = {Wygrana,
Przegrana}. Moliwe wyniki s wartociami funkcji okrelonych na zbiorze strategii. W naszym przypadku
wszystkie moliwe strategie obydwu graczy wzite razem to S1 x S2 = {(Orze, Orze), (Orze, Reszka),
(Reszka, Orze), (Reszka, Reszka)}, gdzie pierwszy skadnik kadej pary oznacza strategi wybran przez
pierwszego gracza, za drugi skadnik pary strategi obran przez gracza drugiego. Taki zbir jest czasem
nazywany profilem (moliwych ukadw) strategii. Wida, e pierwszy i ostatni przypadek w powyszym
profilu strategii jest sytuacj Wygranej dla pierwszego gracza (i Przegranej dla drugiego), za dwa rodkowa
s sytuacjami Wygranej dla drugiego (i Przegranej dla pierwszego).

5.

Wypata: Wypatami nazywamy wielko korzyci jak gracz wyniesie, jeli otrzyma okrelony wynik w

grze. W oglnoci wypaty mog by rne dla rnych graczy. Przykadowo, okrelmy nastpujce wypaty
w naszym przykadzie gry w wybieranie strony monety:
u1(Wygrana) = 100,
u1(Przegrana) = 0,
u2(Wygrana) = 100,
u2(Przegrana) = 0.
Zgodnie z zaoeniem o racjonalnoci, obywaj gracze bd chcieli zmaksymalizowa ich wypaty, zatem
obydwaj bd chcieli wygra. Rozwamy teraz nieco inny przypadek. Zredefiniujemy wypaty nastpujco:
Niech pierwszy gracz bdzie nastawiony nadal na absolutne zwycistwo:
u1(Wygrana) = 100,
u1(Przegrana) = 0,
podczas gdy gracz P2 jest przede wszystkim zainteresowany ucieszeniem gracza P1 (ktry jest modszym
braciszkiem gracza P2). Zatem dla gracza P2:
u2(Wygrana) = 10,
u2(Przegrana) = 100.
W tej sytuacji tylko gracz P1 bdzie zdecydowanie dy do wygranej, gdy tymczasem gracz P2 bdzie
prbowa przegra. Warto zwrci uwag, e kady gracz prbujezmaksymalizowa swoj wypat (wygran),
wic dy do osigania takich wynikw, ktre dadz mu maksymaln wypat.
Wan rol w teorii gier peni pojcie gry o sumie zerowej. Jest to taka gra, w ktrej suma wypat wszystkich
uczestnikw dla kadego wyniku w grze wynosi zero. Powysza gra byaby gr o sumie zerowej jeli okrelilibymy:
u1(Wygrana) = 1,
u1(Przegrana) = -1,
u2(Wygrana) = 1,
u2(Przegrana) = -1.
Gry o sumie zerowej s zawsze grami opisujcymi pewien konflikt (rywalizacj czy te konkurencj): kada strategia
zwikszajca zysk (wypat) jednego gracza zmniejsza wypat pozostaych graczy. Przypomina to podzia tortu (lub
oglnie zagadnienie podziau skoczonych i wymiernych dbr): rozmiar tortu nie ulega zmianie, niezalenie od tego
jak go dzieli. Porwnujc pierwsz wersj wypat w powyszym przykadzie z ostatni, mona atwo zobaczy
podobiestwo. W oglnoci moemy mwi o sytuacjach konfliktowych jako grach o staej sumie. Jednake poniewa
od nas (jako stosujcych aparat teorii gier do rozwaania poszczeglnych problemw) zaley, przynajmniej do
pewnego stopnia, jakie wartoci wypat przypiszemy poszczeglnym wynikom, to moemy niejednokrotnie okrelon
gr o staej sumie przepisa do postaci gry o sumie zerowej. Gry bez wsppracy o sumie zerowej z udziaem dwch
graczy nazywane s grami antagonistycznymi.
Przykad 2
Innym przykadem gry o sumie zerowej s szachy. W grze tej uczestniczy dwch graczy, z ktrych jeden gra Biaymi
figurami, a drugi Czarnymi. Ta gra ma trzy moliwe wyniki W = {Czarne wygrywaj, Biae wygrywaj, Remis}.
Zdefiniujmy teraz wypaty nastpujco:
Czarne
wygrywaj

Biae
wygrywaj

Remis

UCzarne

UBiae

Dla kadego z wynikw, suma wypat wszystkich graczy jest staa (i wynosi 1), wic jest to gra o staej sumie. Jeli
Biae zwikszyyby swoj wypat otrzymywan w wyniku zwycistwa, to Czarne straciyby cz wypaty i vice
versa.
Przykad 3
Przykadem gry ktra nie jest gr o staej sumie jest synny Dylemat Winia: Dwch ludzi popenio przestpstwo, lecz
brak na to dowodw, za policja zapaa ich i umiecia w dwch osobnych celach. Poniewa nie ma dowodw
popenienia przez nich przestpstwa, nie mona im udowodni winy. Dlatego policja stara si nakoni ich do zezna
przeciwko sobie. Kademu z winiw dano dwie moliwoci: przyzna si do popenienia przestpstwa, albo

zaprzeczy. Jeli wizie I si przyzna, lecz wizie II zaprzeczy, to wwczas wizie I bdzie wystpowa w roli
wiadka przeciwko drugiemu i nie zostanie ukarany wizieniem, natomiast wwczas drugi wizie dostanie peny
wyrok 10 lat wizienia (i vice versa). Jeli obaj si przyznaj, to obydwaj dostan po 5 lat odsiadki, poniewa wwczas
policja bdzie miaa dowody przeciwko obydwu. Jeli obydwaj zaprzecz oskareniu, e popenili przestpstwo, to nie
bdzie na to dowodw, wic dostan tylko po roku wizienia, za brawurow ucieczk samochodem przed policj.
Sytuacj t mona przedstawi przy pomocy nastpujcej tabelki (macierzy):

I \ II

Przyzna si

Zaprzeczy

Przyzna si

5,5

0,10

Zaprzeczy

10,0

1,1

Taka tabelka jest typowym sposobem przedstawiania gry, w ktrej uczestniczy dwch graczy posiadajcych skoczon
liczb strategii. Pierwsza liczba przed przecinkiem oznacza wypat (wyrok) dla gracza I, za druga liczba oznacza
wypat dla gracza II. Kady wiersz reprezentuje strategi gracza I, za kada kolumna okrela pewn strategi gracza
II. Zatem prawa dolna komrka oznacza, e jeli gracz I zaprzeczy oraz gracz II zaprzeczy, to wyrok (wypata) dla
obydwu graczy wynosi 1 rok.
Przeprowadmy teraz analiz tej gry z perspektywy gracza I. Chce on zminimalizowa wyrok, ale nie wie, czy gracz II
zamierza przyzna si, czy te zaprzeczy. W zwizku z tym gracz I rozwaa dwie sytuacje:
a) Jeli gracz II si przyzna: W tej sytuacji przyznanie si przez gracza I daje 5 lat
wizienia, podczas zaprzeczanie doprowadzi do 10 lat wizienia. Zatem lepiej si
przyzna.
b) Jeli gracz II zaprzeczy: W tej sytuacji przyznanie si przez gracza I daje 0 lat wizienia
(wolno za bycie wiadkiem oskarenia), podczas gdy zaprzeczanie spowoduje 1 rok
wizienia. Zatem w tej sytuacji rwnie lepiej si przyzna.
Poniewa gracz I jest graczem racjonalnym i chce zminimalizowa swoj wypat, przyzna si do winy. Co ciekawe,
poniewa gracz II jest rwnie graczem racjonalnym, za sytuacja jest symetryczna (co jest wyraone w symetrii
powyszej tabelki), to rwnie on si przyzna. Paradoks tej sytuacji polega na tym, e jeli obydwaj postpi zgodnie ze
swoj racjonalnoci, to dostan po pi lat, za gdyby obydwaj zaprzeczyli, to dostaliby tylko po roku. Jednak aden z
nich nie wie, jak postpi drugi, dlatego te wybr kadego z nich by najbardziej racjonalny. Dylemat winia jest
dobrym przykadem gry bez wsppracy tylko w sytuacji wsppracy pomidzy obydwoma graczami w tej grze mog
oni osign cakowite minimum wyroku. Natomiast bez wsppracy nie mog oni rozwaa wsplnej strategii, a
jedynie indywidualne, w ramach ktrych wybieraj najlepsz dla siebie opcj, w warunkach braku wiedzy o wyborze
strategii dokonanym przez drugiego gracza.
Korzystajc teraz z teorii prawdopodobiestwa, moemy policzy ile wynosi oczekiwana liczba lat odsiadki w
wizieniu, w zalenoci od prawdopodobiestwa przypisywanego przez jednego gracza poszczeglnym decyzjom ktre
moe dokona drugi gracz. Jeli gracz I zakada, e s rwne szanse na przyznanie si lub zaprzeczenie przez gracza II
oraz przez samego siebie, to obydwu decyzjom kadego z nich przypisze prawdopodobiestwo 0.5. Wwczas moe
policzy oczekiwan liczb lat swojej odsiadki jako:
szansa, e I si przyzna * szansa, e II si przyzna * wypata dla gracza I + szansa, e I si
nie przyzna * szansa, e II si przyzna * wypata dla gracza I + szansa, e I si przyzna *
szansa, e II si nie przyzna * wypata dla gracza I + szansa, e I si nie przyzna * szansa,
e II si nie przyzna * wypata dla gracza I, czyli:
0.5 * 0.5 * 5 + 0.5 * 0.5 * 10 + 0.5 * 0.5 * 1 + 0.5 * 0.5 * 0 = 0.5 * 0.5 * (5+10+1+0) = 4.
Jeli jednak gracz I zakada, e jest 60% szans na to zaprzeczy i 40% na to, e si przyzna,
to (przyjmujc 50% szans obydwu moliwociom decyzji II gracza) oczekiwana liczba lat
odsiadki I gracza wynosi:
0.5 * 0.4 * 5 + 0.5 * 0.6 * 10 + 0.5 * 0.4 * 0 + 0.5 * 0.6 * 1 = 4.3.
Wida wyranie, e im bardziej gracz I chce zaprzeczy, tym bardziej jego oczekiwany wyrok ronie, i odwrotnie: jego
wyrok maleje tym bardziej, im jest wiksza szansa, e si przyzna.
Dylemat winia fascynuje ludzi zajmujcych si teori gier, poniewa jest prostym przykadem sytuacji, w ktrych
dostpne strategie okreli mona jako dziaanie na rzecz wsplnego dobra oraz dziaanie na wasn korzy.
Obejmuje to wiele sytuacji ktre s rozpatrywane w ekonomii. Przykadowo, zbudowanie mostu suy kademu, lecz
rwnie kady by wola, eby most zbudowa kto inny. Innym przykadem jest sytuacja w ktrej mamy dwie

konkurujce firmy, za dostpnymi strategiami jest da wysok cen oraz da nisk cen. Oczywicie, dla kadej
firmy jest najlepsze, jeli obydwie dadz wysokie ceny, lecz dla kadej z osobna jest lepsze da cen nisz ni
konkurencja. W sytuacji gier, w ktrych jedna strategia okrelonego gracza jest zdecydowanie lepsza od wszystkich
innych moliwych jego strategii niezalenie od tego jakie dziaania (decyzje, strategie) wybior inni gracze, mwimy,
e strategia ta cile dominuje nad pozostaymi moliwymi strategiami tego gracza. Okrelona strategia jest
zdecydowanie lepsza, jeli wypata dla tej strategii jest wiksza od wypat dla wszystkich innych moliwych strategii.
W dylemacie winia przyznanie si do winy cile dominuje nad zaprzeczaniem.
Przykad 4
wiata na przejciu. Zachowanie si kierowcy na skrzyowaniu ze wiatami moe by modelowane przy pomocy
teorii gier w sposb czciowo podobny do dylematu winia. Kiedy kierowca w porannym korku dojeda do
skrzyowania i napotyka czerwone wiato, ma dwie moliwoci ruchu:
a) poczeka na zielone wiato,
b) przeskoczy na czerwonym wietle.
W tej grze uczestniczy dwch graczy pierwszym graczem jest kierowca, za drugim s wszyscy pozostali kierowcy
czekajcy obok niego na tym samym skrzyowaniu i rwnie chccy jak najszybciej dojecha. Jeli kierowca poczeka i
inni rwnie poczekaj, to bdzie on musia czeka czas d, ktry jest potrzebny to zmiany wiata z czerwonego na
zielone. Jeli nasz kierowca przeskoczy podczas gdy inni poczekaj, to jego opnienie wyniesie 0. W sytuacji w ktrej
wszyscy zami prawo cakowite opnienie kierowcy wyniesie D (wskutek zatoru i zajedana niemiych kierowcw z
boku), natomiast jeli nasz kierowca poczeka, za inni przeskocz, to jego opnienie bdzie wynosio d+D. Moemy
zapisa wypaty kierowcy w postaci tabelki (macierzy) i, podobnie do dylematu winia, znale najlepsz strategi dla
kierowcy.
kierowca:

\ pozostali:

czekanie na zielone

przeskok na czerwonym

czekanie na zielone

d+D

przeskok na czerwonym

3. Podstawy teorii gier: Gracze, preferencje i uyteczno


Agent, czyli gracz, jest z definicji uczestnikiem gry posiadajcym pewne preferencje. Teoretycy gier, tacy jak
ekonomici lub filozofowie studiujcy podejmowanie racjonalnych decyzji, opisuj owe preferencje przy pomocy
abstrakcyjnej koncepcji uytecznoci, okrelajcej ilo korzyci (czy te dobrobytu) ktr gracz wynosi lub osiga
dla danego wyniku gry. Przykadowo, w ekonomii moemy okrela wzgldny dobrobyt rnych pastw (ktre dla
pewnych celw moemy modelowa jako graczy) przy pomocy redniego dochodu na gow mieszkaca, za w
biologii moemy okrela wzgldny dobrobyt zwierzcia przy pomocy jego dostosowania (fitness), czyli zdolnoci
przekazywania materiau genetycznego kolejnym pokoleniom. W przypadku gier z udziaem ludzi, najczstsz praktyk
w zastosowaniach teorii gier jest okrelanie dobrobytu graczy na podstawie ich wasnych sdw na ten temat. Zatem
osoba ktra lubi czerenie lecz nie lubi wini bdzie preferowaa (czyli przypisywaa wiksz uyteczno) takie
sytuacje, w ktrych moe je wicej czereni i mniej wini, nad takimi, w ktrych musi je wicej wini i mniej
czereni.
Poniewa teoria gier jest teori matematyczn, musimy dysponowa jakim sposobem ujcia zagadnienia
maksymalizacji uytecznoci w terminach matematycznych. W tym wanie celu okrelamy funkcj uytecznoci zwan
te funkcj wypaty lub po prostu wypat, jako odwzorowanie przypisujce liczby rzeczywiste elementom
uporzdkowanego zbioru preferencji danego gracza. Przykadowa funkcja uytecznoci wyglda nastpujco:
preferencja a -> 3
preferencja b -> 2
preferencja c -> 1.
Jedyn cech preferencji zachowywan przez to odwzorowanie jest uporzdkowanie preferencji. Wartoci
przypisywanych liczb s a priori dowolne tzn. nie jest istotne to, e warto przypisywana preferencji a jest trzy razy
wiksza od wartoci przypisywanej preferencji c. W zwizku z tym moglibymy skonstruowa podobn funkcj
wypaty dokonujc przypisania:
preferencja a -> 4632
preferencja b -> 3,14159
preferencja c -> - 300000.

Gr nazywa si wszystkie sytuacje, w ktrych przynajmniej jeden uczestnik (agent, gracz) dziaa wycznie w celu
maksymalizacji swoich korzyci poprzez antycypowanie (jawne, lub wynikajce z jego zachowania) reakcji na swoje
dziaania ze strony innych uczestnikw. Jeli wszyscy uczestnicy podejmuj najkorzystniejsze dziaania niezalenie od
tego co robi inni gracze, tak jak w przypadku monopolu na pewien towar, moemy t sytuacj modelowa bez uycia
teorii gier. W pozostaych przypadkach teoria gier staje si niezbdna.
W ramach tej teorii zakadamy, e gracze s racjonalni (w sensie ekonomicznym), co oznacza, e gracz:
a) jest w stanie okrela moliwe wyniki w grze,
b) jest w stanie okrela decyzje ktre prowadz do okrelonych wynikw,
c) podejmuje dziaania ktre prowadz do najbardziej preferowanych wynikw w zalenoci od dziaa innych
graczy.
Tego rodzaju racjonalno nie musi by zwizana z jakkolwiek wewntrzn wiadomoci gracza. Moe ona zawiera
si w pewnych warunkach okrelonych przez naturaln, kulturow czy ekonomiczn selekcj (wybr). W
szczeglnoci, mwic o pewnym dziaaniu jako wybranym nie zakadamy, e byo ono podjte po jakimkolwiek
wiadomym namyle. Istotne jest tylko to, e pewne okrelone dziaanie zostao podjte w sytuacji, w ktrej byo
moliwe rwnie inne dziaanie (lub dziaania).
Kady gracz w grze ma bowiem do wyboru co najmniej dwie moliwe strategie (sposoby dziaania). Strategia okrela,
jakie dziaania podj w odpowiedzi na wszystkie moliwe dziaania (strategie) innych graczy. Kluczowym aspektem
okrelajcym gr jest to, jak informacj dysponuj gracze w momencie podejmowania decyzji. Najprostszymi grami s
takie, w ktrych gracze dysponuj pen informacj, co oznacza, e przy kadej decyzji gracz wie wszystko, co si stao
do tego momentu w grze. Przykadem takiej gry s szachy. Natomiast gry ze ciganym i cigajcym s najczciej
grami o niepenej informacji, gdy zarwno cigany, jak i cigajcy, nie wiedz wszystkiego o ruchach ju podjtych w
grze. Oczywicie, charakter informacji ktrym si dysponuje w grze istotnie okrela zachowanie gracza w grze i
zmienia wyranie logik podejmowanych decyzji.

4. Matematyczne modele gier: drzewa i macierze


Rnica pomidzy grami z pen i niepen informacj jest zbliona (lecz nie rwnowana!) do rnicy pomidzy
sposobami reprezentowania gier. Podzielmy gry na takie w ktrych gracze dokonuj ruchw naprzemiennych i takie, w
ktrych gracze dokonuj ruchw symultanicznych (rwnoczesnych), przy czym rwnoczesno mierzymy tutaj nie w
terminach jakiego obiektywnego, zewntrznego czasu, ale w terminach przepywu informacji. Innymi sowy, istotne
jest to, kiedy gracze dowiaduj si o dziaaniach innych graczy. Przykadowo, jeli dwie firmy planuj strategie
rynkowe, to jedna z nich moe okreli swoj strategi kilka miesicy przed drug, lecz adna nie zna strategii drugiej
firmy podczas podejmowania decyzji o wasnej strategii, zatem taka gra jest przykadem gry rwnoczesnej. Z drugiej
strony prostym przykadem gry z posuniciami naprzemiennymi s szachy.
Podzia na gry z posuniciami rwnoczesnymi (gry symultaniczne) i naprzemiennymi (gry pozycyjne) nie jest do koca
rwnowany podziaowi na gry z pen i niepen informacj. Z pewnoci wszystkie gry rwnoczesne s grami z
niepen informacj. Jednak niektre gry mog czy w sobie elementy rwnoczesne i naprzemienne. Przykadowo,
wspomniane dwie firmy mog wprawdzie okreli swoje strategie niezalenie, nie informujc si o nich nawzajem, po
czym jednak zaczynaj je realizowa, wchodzc we wspzawodnictwo cenowe, co jest ju elementem naprzemiennym
w grze. Gry, ktre dopuszczaj strategie mieszane, s grami o niepenej informacji, za gry z pen informacj
wystpuj w przypadkach, kiedy adne ruchy nie s rwnoczesne (oraz kiedy aden gracz nie zapomina o czymkolwiek
co si dziao w przeszoci).
Gry z pen informacj s najprostszym rodzajem gier, poniewa o ile gra koczy si po skoczonej liczbie ruchw
gracze i analitycy mog uy konkretnych procedur do przewidywania wynikw gry. Racjonalny gracz (a tylko takich
tu rozwaamy) wybiera swoje pierwsze dziaanie rozwaajc kad z sekwencji reakcji i kontr-reakcji, jakie bd
konsekwencjami danego wybranego dziaania. Nastpnie gracz okrela, ktry z moliwych wynikw takich sekwencji
jest najbardziej dla niego uyteczny (ma dla niego najwiksz warto = jest najbardziej preferowany) i wybiera
dziaanie, ktre rozpoczyna sekwencj dziaa prowadzc do okrelonego rezultatu. Taki proces nazywa si indukcj
wsteczn, poniewa wnioskowanie dziaa wstecz, zaczynajc od ewentualnych wynikw sekwencji decyzji. Z tak
opisanym procesem wie si sposb reprezentacji gier pod postaci drzewa. Jest to sposb alternatywny do
przedstawiana gier pod postaci macierzy (tabelki). Drzewo gry jest przykadem matematycznego obiektu nazywanego
grafem skierowanym. Skada si on z wierzchokw, oraz czcych je linii, przy czym graf ten, jako cao, ma
okrelony kierunek. Drzewa gier rysuje si zazwyczaj z gry do dou, lub te z lewa na prawo. Pooone wyej (lub
bardziej na lewo) wierzchoki s rozumiane jako wczeniejsze od tych, ktre s pooone niej (lub bardziej na prawo).

Przykadowe drzewo gry wyglda nastpujco:

Drzewa s uywane do reprezentacji gier o naprzemiennej sekwencji dziaa, poniewa pokazuj kolejno dziaa
podejmowanych przez graczy. Do reprezentacji (matematycznego modelowania) gier stosuje si rwnie macierze, w
ktrych nie podaje si informacji o sekwencji ruchw, ale wygrane (wypaty) otrzymywane na skutek wybrania przez
graczy okrelonej kombinacji strategii. Przykadem takiej reprezentacji jest oczywicie macierzowy zapis dylematu
winia:
I \ II

Przyznanie si

Zaprzeczenie

Przyznanie si

3,3

0,4

Zaprzeczenie

4,0

2,2

Gry wyraane przy pomocy macierzy nazywane s grami w postaci normalnej albo w postaci strategicznej, natomiast
zapisane przy pomocy drzewa nazywane s grami w postaci rozwinitej lub ekstensywnej. Te dwie postacie nie s sobie
rwnowane. Gry ekstensywne zawieraj w sobie informacj o kolejnoci ruchw, oraz o stopniu w jakim gracze w
poszczeglnych ruchach s poinformowani na temat struktury gry, podczas gdy w grach o postaci strategicznej nie
mamy dostpu do takiej informacji. Zatem jeli kolejno ruchw w grze jest nieistotna dla wyniku gry, mona bada t
gr w reprezentacji (zapisie) macierzowym, natomiast jeli kolejno gry jest istotna, to trzeba koniecznie okreli
posta ekstensywn danej gry.
Podczas zapisu gry w postaci ekstensywnej mamy do czynienia z nastpujcymi obiektami:

Wierzchoki: s to punkty w ktrych gracz podejmuje


decyzje (dziaa).

Wierzchoek pocztkowy: jest to punkt w ktrym zachodzi


pierwsze zdarzenie (decyzja) w grze.

Wierzchoki kocowe: s to takie punkty, ktrych


osignicie koczy gr. Kady wierzchoek kocowy ma
przypisany pewien okrelony wynik.

Podgra: dowolny zbir wierzchokw i czcych je


krawdzi, ktre wychodz (zgodnie z kierunkiem drzewa) z
okrelonego wierzchoka.

Strategia: sposb okrelajcy decyzje danego gracza w


kadym z wierzchokw drzewa, w ktrym moe on podj
jak decyzj.

Rozwamy teraz dylemat winia w postaci ekstensywnej. Zamy, e gracze I i II nie poruszaj si rwnoczenie,
czyli kady z graczy podejmuje decyzj po zaobserwowaniu dziaania drugiego gracza. Zamy, e przed wsadzeniem
do wizienia (i koniecznoci podjcia decyzji) umwili si oni na strategi wsplnego nieprzyznawania si do winy.
W zwizku z tym w sytuacji gry obydwaj gracze mog wsppracowa, wierzchoki grafu s wierzchokami
kocowymi. Kady w wierzchokw kocowych przypisuje kademu graczowi pewien wynik, ktry przy pomocy
funkcji wypaty zamienia si w konkretn liczb. W sytuacji ekstensywnej postaci dylematu winia mamy wic do
czynienia z przypisaniem do kadego kocowego wierzchoka grafu pary liczb odpowiadajcej wypatom (liczbie lat
odsiadki) obydwu graczy. Drzewo tej gry pokazane jest na powyszym rysunku. Wida, e rwnoczesna
(symultaniczna) oraz naprzemienna (sekwencyjna) posta tej gry s sobie rwnowane (z dokadnoci do arbitralnie
okrelonych wartoci funkcji wypaty). W przypadku dowolnej gry nie jest to jednak prawd!

5. Klasyfikacja gier
Gry mog by klasyfikowane wedug kilku kryteriw. Czsto spotyka si nastpujce klasyfikacje:
Wedug liczby graczy: 1, 2 lub wicej graczy. W przypadku co najmniej dwch graczy naley wzi pod uwag
moliwo powstania koalicji, czyli wsppracy. Wwczas dokonujemy podziau na gry ze wspprac
(kooperacyjne) i gry bez wsppracy (niekooperacyjne).
Wedug inteligencji graczy: Inteligentny gracz jest to gracz, ktry zawsze zachowuje si racjonalnie, czyli uywa
najlepszych logicznie strategii (tzw. strategii optymalnych). Nieinteligentny gracz wybiera strategi drog
losowania lub sam zachowuje si jak mechanizm losowy nieprzewidywalny dla drugiego gracza.
Wreszcie p-inteligentny gracz to gracz, ktry czasami uywa zych strategii, gdzie parametr p jest
prawdopodobiestwem uycia przez niego strategii optymalnej. Wwczas 0-inteligentny gracz to po
prostu gracz nieinteligentny, za 1-inteligentny gracz jest graczem inteligentnym.
Wedug waciwoci zbioru strategii: Dla przykadu gra skoczona jest gr, w ktrej zbir strategii jest
skoczony (dla gier o penej informacji jest to gra o formie macierzowej), za gra nieskoczona to taka
dla ktrej zbir strategii jest nieskoczony.
Wedug sumy wypat: Wanym podziaem gier jest podzia na gry o sumie staej (w szczeglnym przypadku s to
gry o sumie zerowej; zreszt czsto mwic o nich ma si na myli gry o sumie staej), gdzie mamy do
czynienia z konfliktem, gdy wypata jednego gracza moe si zwikszy jedynie kosztem wypaty innych
graczy, oraz gry o sumie niezerowej, w przypadku ktrych wypaty dla graczy niekoniecznie musz mie
rne znaki, za gra nie musi by konfliktem (kady gracz moe zyska w tej grze).
Wedug reprezentacji: Jest to ju wczeniej omwiony podzia na gry ekstensywne (o postaci rozwinitej czyli
drzewa) oraz gry strategiczne (o postaci normalnej czyli macierzy).
Wedug dostpnej informacji: S to omawiane wyej gry w ktrych gracze dysponuj pen (kompletn) lub
niepen (niekompletn) informacj.

6. Strategie i rwnowaga w grach bez wsppracy


Teoria gier bada strategie, ktre mog by realizowane przez graczy w zalenoci od przyjtych przez nich preferencji.
Oczywicie najbardziej interesujcym jest zagadnienie wyboru strategii optymalnej. Przy rozwaaniu dylematu winia
okrelilimy obustronne przyznanie si do winy jako strategi optymaln a zarazem jako rozwizanie gry. Zgodnie z
ogln praktyk w ekonomii, teoretycy gier okrelaj rozwizania gier (przynajmniej w przypadku gier bez
wsppracy) jako stany rwnowagi. Innymi sowy, podstawow zasad optymalnego dziaania jest zasada osigania
celu (= rozwizania) ktrym jest sytuacja rwnowagi. Termin rwnowaga w fizyce i ekonomii oznacza, e dany
system jest w stanie stabilnym, czyli wszystkie siy dziaajce wewntrz ukadu rwnowa si i pozostawiaj system w
niezmienionym stanie, a do momentu zadziaania jakiej siy zewntrznej. Analogicznie w teorii gier przez
rwnowag rozumiemy taki wybr strategii dokonany przez graczy, e dowolna zmiana strategii przez jednego gracza
(przy rwnoczesnym braku zmiany strategii przez pozostaych graczy) nie spowoduje wzrostu wygranej tego gracza.
Tak zdefiniowan rwnowag nazywa si rwnowag Nasha (zostaa ona wprowadzona przez Johna Nasha, noblist
sportretowanego fabularnie w filmie Pikny umys). Jeli gra posiada tylko jedn strategi rwnowagow Nasha, tak
jak w przypadku dylematu winia, gdzie rwnowag Nasha jest wsplne przyznanie si do winy, to jest to jedyne
rozwizanie tej gry. Gry maj czsto wicej ni jedn strategi Nasha (rwnowag Nasha) i dlatego dylemat winia
uwaany jest za atw (i nietypow) gr.
Moemy okreli klas gier w ktrych rwnowaga Nasha jest nie tylko koniecznym, ale take wystarczajcym
warunkiem podania rozwizania. S to gry o sumie zerowej (lub staej) z pen informacj. Jak ju mwilimy, w grze o
sumie zerowej (lub staej) gracz moe polepszy swoj sytuacj jedynie poprzez pogorszenie sytuacji pozostaych
graczy. Wwczas, jeli gracze graj najlepiej jak potrafi, to wszyscy mog jedynie zmaksymalizowa swoje
minimalne wygrane (czyli zastosowa procedur maxmin), wskutek czego nie ma innego rozwizania ni jedno
pooenie rwnowagowe Nasha. Jednake wiele gier nie ma tej wasnoci i moe istnie kilka rnych pooe
rwnowagowych Nasha. W szczeglnoci jest tak dla gier o sumie niezerowej.
Dwuosobowa gra o sumie niezerowej to taka gra, w ktrej wynik gry nie jest ju wygran jednego gracza i przegran
drugiego lub ma warto sta (co w efekcie moe by sprowadzone do zera), lecz ma warto niezerow oraz niesta, i
zaley od wyboru strategii przez graczy. Zbiory strategii obu graczy s skoczone i stae. Cele graczy nie s ju w tym
przypadku przeciwstawne. Obaj gracze mog na przykad minimalizowa lub maksymalizowa jednoczenie rne
wielkoci, co prowadzi zawsze do niezerowego wyniku w grze. Dla takich gier moe istnie kilka pooe rwnowagi
Nasha. Znajdmy teraz wszystkie strategie rwnowagowe Nasha dla nastpujcej gry wyraanej w postaci macierzy kar
(negatywnych wypat):

(0,2)

(3,5)

(4,8)

(2,4)

(8,-3)

(3-5)

Zgodnie z definicj, szukamy takich par strategii graczy, e dowolna zmiana strategii przez jednego spord graczy
(przy rwnoczesnym braku zmiany strategii przez drugiego gracza) nie spowoduje wzrostu wygranej tego gracza.
Wida, e w grze tej istniej dwie pary strategii bdcych w rwnowadze Nasha (bdcych strategiami Nasha):
A) para (0,2), poniewa 0 < 2 w pierwszej kolumnie (czyli jest to najlepsza strategia gracza grajacego
wierszami przy ustalonej strategii gracza grajcego kolumnami) oraz 2 < 5 i 2 < 8 w pierwszym
wierszu (czyli jest to najlepsza strategia gracza grajcego kolumnami przy ustalonej strategii gracza
grajcego wierszami).
B) para (3,-5), poniewa 3 < 4 oraz -5 < -3 i -5 < 4 (analogicznie).
Z tego przykadu wida, jaka jest prosta metoda wykrywania strategii rwnowagowych Nasha. Rozwamy dowolny
element macierzy wypat (pozytywnych). Jeli pierwszy skadnik tej pary jest maksymaln liczb w danej kolumnie,
za drugi skadnik pary jest maksymaln liczb w danym wierszu, to wwczas dana komrka reprezentuje strategi
rwnowagow. Oczywicie, jest tak w sytuacji w ktrej mamy do czynienia z nagrodami. Jeli mamy do czynienia z
macierz wyraajc gr w terminach kar, to gracze d do minimalizacji kar, wskutek czego powysza procedura
zamienia si w poszukiwanie minimw. W typowych sytuacjach, jeli spotyka si macierz gry bez podanej interpretacji,
naley zaoy, e jest to macierz wypat pozytywnych, czyli inaczej ni w dylemacie winia.
Aby wybra jedno rozwizanie spord kilku dostpnych strategii Nasha trzeba odwoa si do dodatkowych kryteriw,
ktre przynajmniej po czci mog by arbitralne. Jeli dana gra nie posiada strategii Nasha, to mwimy, e nie istnieje
rwnowaga Nasha w czystych strategiach. W tym przypadku aby znale rozwizanie mona stosowa strategie
mieszane.

6. Strategie mieszane
Warto rozrnia pomidzy strategiami czystymi i mieszanymi. Elementy zbioru strategii Si, nazywamy strategiami
czystymi (de facto wszystkie strategie omawiane w zeszym tygodniu byy strategiami czystymi). Natomiast strategia
mieszana polega na poczeniu (wymieszaniu) poszczeglnych strategii czystych poprzez wybieranie kadej z
dostpnych strategii czystych z pewnym prawdopodobiestwem (oczywicie, kada czysta strategia moe by
rozwaana jako szczeglny przypadek strategii mieszanej, dla ktrej wybiera si okrelon czyst strategi z
prawdopodobiestwem rwnym 1, za pozostae z prawdopodobiestwem rwnym 0). Niejednokrotnie gry, ktre nie
posiadaj rwnowagi Nasha w strategiach czystych, posiadaj takow w strategiach mieszanych.
Przykad
Rozwamy nastpujc gr. Kady z dwch graczy podaje w tej samej chwili jedn z liczb: jeden lub dwa. Gracz I
wygrywa jeli suma podanych liczb jest nieparzysta, natomiast gracz II wygrywa jeli suma podanych liczb jest
parzysta. Przegrywajcy musi zapaci wygrywajcemu tak liczb zotych, ile wynosi suma podanych liczb. Zbiory
strategii w tej grze to SI = {1, 2}, SII = {1, 2}, natomiast funkcja wypaty uI dana jest przez macierz
gracz II: 1

gracz II: 2

gracz I: 1

-2

+3

gracz I: 2

+3

-4

Natomiast posta macierzowa gry jest nastpujca:


gracz II: 1

gracz II: 2

gracz I: 1

(-2,2)

(+3,-3)

gracz I: 2

(+3,-3)

(-4,+4)

Okazuje si, e jeden z graczy ma wiksz korzy z tej gry. Zanalizujmy teraz t gr z perspektywy gracza I. Zamy,
e na pi losowa trzy razy losuje on 1, a dwa razy 2, w kolejnoci przypadkowej. W takiej sytuacji:

a) jeli gracz II powie 1, to gracz I traci 2 zote w 3/5 przypadkw i wygrywa 3 zote
w 2/5 przypadkw. rednio wygrywa on 3/5*(2 z) + 2/5*(3 z) = 0 z.
b) jeli gracz II powie 2, to gracz I zyskuje 3 zote w 3/5 przypadkw i traci 4 zote
w 2/5 przypadkw: rednio wygrywa wic 3/5*(3 z) + 2/5*(4 z) = 1/5 z.
Oznacza to, e jeli gracz I wymiesza swoje strategie (wybory strategii) w powyszy sposb, to gra jest sprawiedliwa za
kadym razem kiedy gracz II powie 1, ale jeli gracz II powie 2, to rednio rzecz biorc gracz I wygrywa 20
groszy. Rodzi si pytanie, czy w tej sytuacji gracz I moe wybra tak strategi, ktra zagwarantuje mu niezerow
wygran niezalenie od tego co zrobi drugi gracz?
Niech p oznacza prawdopodobiestwo tego, e gracz I wybiera 1. Znajdziemy teraz takie p, dla ktrego gracz I
wygrywa rednio tak sam ilo pienidzy niezalenie od tego, czy gracz II wybierze 1 czy 2. rednia warto
wygranej gracza I w przypadku kiedy gracz II powie 1 wynosi
p*(2) + (1p)*3,
za jego rednia wygrana kiedy gracz II powie 2 wynosi
p*3 + (1p)*(4).
Szukamy zatem takiego p, e
2p + 3(1p) = 3p 4(1p),
Co po przeksztaceniu daje
p = 7/12.
Oznacza to, e gracz I powinien wybiera opcj 1 z prawdopodobiestwem 7/12, za 2 z prawdopodobiestwem
5/12. Przy zaoeniu tej strategii gracz I wygrywa rednio
2*(7/12) + 3*(5/12),
czyli 81/3 grosza, niezalenie od tego, co zrobi gracz II. Taka strategia mieszana, ktra daje te same rednie wygrane
niezalenie od tego, co robi przeciwnik nazywa si strategi wyrwnujc.
W tej sytuacji powstaje pytanie, czy gracz II moe miesza z pewnym prawdopodobiestwem swoje strategie tak, eby
gracz I nie osign wikszy zysk ni powyszy. Korzystajc z tej samej metody, mona atwo policzy, e gracz II
moe zapewni sobie sta redni przegran nie wiksz ni 1/12 zotego, podczas gdy gracz I moe zapewni sobie
sta redni wygran nie mniejsz ni 1/12 zotego. W takiej sytuacji 1/12 zotego nazywa si wartoci gry, za
strategia, ktr kady z graczy uywa w celu uzyskania tej redniej wartoci, jest strategi minimaxu.

7. Gry powtarzane (iterowane)


Dotd zajmowalimy si grami jednorazowymi, tzn. takimi, w ktrych strategiczne decyzje poszczeglnych graczy nie
maj konsekwencji sigajcych dalej ni okrelony wynik w grze. Jednak gry s czsto grane wielokrotnie, za gracz
grajc w konkretnej instancji (edycji) gry musi mie na uwadze kolejne gry przy podejmowaniu decyzji na temat swojej
strategii.
Wrmy do dylematu winia. Jedyn rwnowag Nasha w tej grze jest obustronne przyznanie si do winy. Jednak ta
strategia moe przesta by najlepsz strategi w wypadku wielokrotnej koniecznoci powtarzania tej gry. Wyobramy
sobie cztery firmy produkujce ten sam rodzaj produktu, ktre dogaduj si, aby podwyszy cen na ich produkt
poprzez wsplne ograniczenie dostaw (w ten sposb formujc kartel). Dla kadej firmy z osobna najlepsz strategi
byoby zamanie umowy przy zaoeniu, e pozostae firmy pozostan przy swoich cenach. Dlatego, jeli ta gra miaaby
by rozgrywana jednokrotnie, to powyszy kartel nie miaby racji bytu. Jednake, firmy spodziewaj si, e bd
musiay istnie wsplnie na rynku przez duszy czas. W zwizku z tym kada z nich wie, e jeli zamie ona umow
kartelu, to pozostae firmy ukarz j poprzez dugotrwae obnienie swoich produktw, powodujc wiksze straty ni
dana firma moe wynie ze zamania umowy. Oczywicie, obnienie cen wykonane przez pozostae firmy nie jest dla
nich bezporednio zyskowne z perspektywy krtkoterminowej, lecz z perspektywy dugoterminowej utworzenie kartelu
dyktujcego ceny moe by tego warte.
Prost i synn (lecz niekoniecznie zawsze optymaln) strategi wsppracy w powtarzanym (iterowanym) dylemacie

winia jest zasada zwana wet za wet:


a) Zawsze wsppracuj w pierwszej rundzie,
b) Nastpnie, postpuj dokadnie tak, jak postpi twj przeciwnik w poprzedniej rundzie.
Pomimo prostoty, strategia ta jest zaskakujco wydajna, poniewa spenia najwaniejsze kryteria:
1.
2.
3.
4.
5.

przyjazno nie zrywa wsppracy jako pierwsza


natychmiastowa obrona na atak odpowiada odwetem
przewidywalno przeciwnik moe atwo przewidzie jej zachowanie i dostosowa si do niego
skonno do wybaczania jeli przeciwnik zmieni swoje postpowanie potrafi wybaczy
ma gwarancje, e nie da wyniku gorszego ni wynik przeciwnika o wicej ni rnica jednej rundy, przez co
odporna jest nie tylko na graczy racjonalnych, ktrym zaley na jak najwyszym wyniku wasnym, ale te na
graczy zazdrosnych, ktrym zaley na jak najwikszej rnicy wynikw.

Grupa graczy grajca w dylemat winia wedug zasady wet za wet nigdy nie dowiadczy adnego przyznania si do
winy, czyli zdrady. Z tego wynika, e wet za wet jest dugoterminow strategi rwnowagow Nasha w populacji, w
ktrej wszyscy graj wedug strategii wet za wet.
Rwnowagowo tej strategii opiera si na istotnym zaoeniu, e gracze musz by niepewni tego, kiedy zakocz si
ich wsplne gry. Zamy, e gracze wiedz, kiedy nadejdzie ostatnia runda. W tej rundzie ju nie musz obawia si
kary, zatem racjonalnym dziaaniem dla graczy bdzie zdrada (przyznanie si do winy), poniewa po ostatniej rundzie
nie ma ju adnej moliwoci poniesienia kary za to dziaanie. Rozwamy teraz przedostatni rund. Gracze nie
ponios rwnie adnej kary za przyznanie si w tej rundzie, gdy i tak przyznaj si w ostatniej, zatem w
przedostatniej rundzie rwnie zdradz. To rozumowanie mona w analogiczny sposb kontynuowa a do pierwszej
rundy, wskutek czego strategia wet za wet traci (racjonalny) sens, za rwnowagow strategi w tej sytuacji staje si,
tak samo jak w jednokrotnym dylemacie winia, obustronne przyznanie si do winy. Oznacza to, e wsppraca w
wielokrotnym dylemacie winia jest moliwa tylko jeli liczba powtrze gry jest nieznana. Ten wniosek stosuje si
rwnie do bardziej skomplikowanych gier granych przez ludzi w sytuacjach ycia codziennego.

8. Gry ze wspprac (kooperacj)


W teorii gier grami ze wspprac (albo grami kooperatywnymi) nazywa si takie gry, w ktrych wszystkie
rwnowagowe czyste strategie Nasha s sytuacjami, w ktrych gracze wybieraj te same, lub odpowiadajce sobie
strategie. Gra ze wspprac jest zatem tak gr, w ktrej funkcja wypaty dwch lub wikszej liczby graczy jest
zmaksymalizowana kiedy obydwaj robi to samo i kiedy to, e obydwaj robi to samo, jest dla nich waniejsze od tego
co robi. Przykadem gry koordynacyjnej jest gra w kierunek ruchu drogowego: zarwno rozwizanie wszyscy
jed lew stron, jak i wszyscy jed praw stron, jest rwnowag Nasha, ale adne nie jest lepsze od innego.
Jednak w realnej sytuacji zostaje ostatecznie wybrana tylko jedna z tych strategii, wskutek dopasowywania si
(uzgadniania, kooperacji, koordynacji) pomidzy graczami.
Przykadem gry ze wspprac jest gra z dwoma graczami, gdzie pierwszy z nich dysponuje strategiami {Lewo,
Prawo}, za dostpne strategie drugiego to {Gra, D}, przy czym strategia Lewo jest okrelona jako
wsppracujca ze strategi Gra, za strategia Prawo jako wsppracujca ze strategi D. W takiej sytuacji
macierz tej gry wyglda nastpujco:
gracz I: Lewo

gracz I: Prawo

gracz II: Gra

(A, a)

(C, b)

gracz II: D

(B, c)

(D, d)

Powyej opisana sytuacja wsppracy oznacza, e wypaty gracza II s opisane nierwnociami A > B oraz D > C, za
wypaty gracza I speniaj warunki a > b oraz d > c. W tej grze istniej dwa profile strategii, ktre s rwnowagami
Nasha: {Lewo, Gra} oraz {Prawo, D}. W grach ze wspprac mona rwnie rozwaa strategie mieszane i
rwnowagi Nasha w strategiach mieszanych.
Przykad
By moe najsynniejszym przykadem gry ze wspprac jest tzw. walka pci. W tej grze mamy do czynienia z dwoma
graczami. Pierwszym graczem jest kobieta, ktra lubi chodzi do zakupy (Z), za graczem drugim jest mczyzna,
ktry lubi chodzi na mecze pikarskie (P). Przede wszystkim jednak obydwoje chcieliby by razem (lub po prostu

spotka si). Jeli nie wemiemy pod uwag moliwoci wsppracy przy podejmowaniu decyzji w drodze umowy (np.
porozumienia si przez telefon), to mamy do czynienia z gr, ktr mona opisa przy pomocy nastpujcej macierzy:
: Z

: P

: Z

11, 10

0, 0

: P

1, 1

10, 11

Rwnowagami Nasha s tu pary decyzji (Z,Z) i (P,P) - bo jeli wiadomo, e ona (on) pjdzie na zakupy (na mecz
pikarski), to lepiej odpowiednio dostosowa swoj decyzj. Jeli jest to gra powtarzalna i ma sens rozpatrywanie
strategii mieszanych (prawdopodobiestw pjcia na zakupy i na mecz pierwszego i drugiego gracza), to mona
wyznaczy jeszcze jedn rwnowag w strategiach mieszanych. Odpowiada ona prawdopodobiestwom (w tym
przypadku) 11/20 pjcia na rozrywk preferowan oraz jednakowym wartociom oczekiwanym wypaty dla obu
graczy. Wartoci te s jednak niskie w porwnaniu z dwoma rwnowagami w strategiach czystych; w dodatku,
rwnowaga w strategiach mieszanych jest niestabilna (jakiekolwiek odchylenie od strategii rwnowagowych powoduje
zwikszenie tego odchylenia i przejcie do ktrej z rwnowag w strategiach czystych). Z przykadu tego nie wynika
bynajmniej, e w tej sytuacji jedna ze stron musi ustpi i niemoliwe jest rozsdne rozwizanie symetryczne. Przykad
ten ilustruje tylko ograniczenia teorii gier w zastosowaniu do negocjacji: rozsdnym rozwizaniem jest bowiem
zrzucenie pychy z serca i umwienie si przez telefon, e jutro idziemy oboje na zakupy, a nastpnym razem oboje na
mecz.

9. Ewolucyjna teoria gier


Teoria gier znalaza owocne zastosowanie w biologii ewolucyjnej. Jako graczy w ramach tej dziedziny traktuje si
czsto poszczeglne gatunki lub/i geny, natomiast reguy gry okrelone s przez naturaln selekcj, ktra okrela
zmienianie si i wymieranie gatunkw. Przy zadanym rodowisku kady osobnik danego gatunku ma tym wiksz
wypat, im wiksz liczb potomkw spodzi dziki swoim cechom. Wskutek tego jego cechy rozprzestrzeni si
bardziej w ramach populacji. W niektrych sytuacjach jego cechy mog rozprzestrzeni si na ca populacj, za w
innych przypadkach jedynie na stabilny procent populacji (np. 60%).
Jednym z najwaniejszych aspektw rodowiska, w ktrym yje dany organizm lub gatunek, s zachowania innych
organizmw. Jest zatem sensowne badanie takich sytuacji, w ktrych kady linea (linia rodowa osobnikw o
okrelonych cechach) stara si zmaksymalizowa swoje dostosowanie (oczekiwan liczb potomkw) poprzez
wybieranie strategii, ktre s optymalne przy okrelonych strategiach innych lineay.
W ewolucyjnej teorii gier (zwanej rwnie dynamiczn teori gier) nie rozwaamy ju osobnikw wybierajcych
okrelone strategie, ani rwnowagowych pooe pojedynczych gier. Teoria ta rozwaa gr poszczeglnych strategii
grajcych przeciwko sobie (lub oglnie wzgldem siebie). W tej sytuacji dana strategia jest lepsza od innej, jeli
pozostawia wicej kopii siebie samej w nastpnym pokoleniu, kiedy gra jest rozgrywana jeszcze raz. Ewolucyjna teoria
gier bada zmiany rozkadu rnych strategii w populacji wraz z kolejnymi grami.
Dla tak okrelonej dynamicznej teorii gier Maynard Smith wprowadzi nowe pojcie rwnowagi. Zbir strategii
(wzitych w okrelonych proporcjach zawsze sumujcych si do jednoci, np. 1/3:1/2, 50%:50%, 1/3:1/3:1/6:1/6) jest
nazywany strategi ewolucyjnie stabiln (ESS), jeli:
1.
2.

aden osobnik nie moe zwikszy swojego dostosowania (rozrodczego) poprzez zmian strategii na inn,
aden mutant korzystajcy z innej strategii nie ma szans dokonania inwazji na badan populacj.

Przykad
Rozwamy populacj skadajc si z trzech rodzajw osobnikw, ktrzy si czsto spotykaj parami i musz wtedy
podzieli si zasobami rodowiska:
Uczciwych, ktrzy chc zawsze poow zasobw;
Zachannych, ktrzy zawsze chc wicej ni poow zasobw. Kiedy jeden zachanny spotyka innego zachannego,
to obydwaj trac zasoby wskutek walki o nie;
Skromnych, ktrzy chc zawsze mniej ni poow zasobw. Kiedy jeden skromny spotyka innego skromnego,
wwczas korzystaj oni tylko z czci zasobw, i pewna cz zasobw si marnuje.
Zamy teraz, e zachanni wymagaj 2/3 zasobw, natomiast skromni wymagaj 1/3 zasobw. Wwczas nastpujce
dwie proporcje populacji s strategiami stabilnymi ewolucyjnie:

1.

Poowa populacji to zachanni, a druga poowa to skromni. Policzmy redni wypat w tej sytuacji. Skromni
otrzymuj 1/3 zasobw w kadym spotkaniu. Zachanny dostaje 2/3 kiedy spotyka skromnego, za nic jeli
spotyka innego zachannego. Zatem rednia wypata zachannego wynosi rwnie 1/3. Jest to ESS, poniewa
sprawiedliwy mutant nie moe dokona inwazji na t populacj. Gdyby jaki sprawiedliwy dosta si do tej
populacji, to w przypadku spotkania skromnego otrzymaby on 1/2 zasobw, natomiast w przypadku spotkania
zachannego uczciwy nie dostaby nic. Zatem rednia wypata uczciwego wynosiaby 1/4. W tej sytuacji aden
zachanny ani skromny nie miaby zysku ze zmiany swojej strategii, wic pojedynczy uczciwy w tej populacji
dostaby najmniej i jego strategia nie miaaby szans na propagacj.

2.

Wszyscy gracze s uczciwi. Kady dostaje poow zasobw i nikt nie moe polepszy swojego bytu przez
zmian swojej strategii. Gdyby w tej populacji pojawi si zachanny, to dostaby on redni wypat rwn
zero. Natomiast dokonujcy inwazji skromny dostaby rednio 1/3, co wynosi mniej ni rednia wypata
uczciwych, wskutek czego jego strategia nie miaaby szans na propagacj.

Warto zauway, e pierwsza rwnowaga jest nieefektywna, poniewa rednia wypata w caej populacji jest mniejsza
ni rednia wypata dla populacji w drugiej moliwej rwnowadze. Jednake, tak samo jak w przypadku pojedynczych
gier, nie ma oglnego rodka, ktry uniemoliwiaby wyboru (ustabilizowania si) nieefektywnych pooe rwnowagi.
Co ciekawe, wybr okrelonego pooenia rwnowagi w grze zaley od warunkw pocztkowych gry, czyli od
proporcji w jakiej dane strategie wystpoway na pocztku gry. Jeli populacja rozpoczyna gr z wicej ni jednym
uczciwym, wwczas istnieje pewne niezerowe prawdopodobiestwo, e uczciwi spotkaj si i otrzymaj najwiksz
moliw wypat. Skromni nie powstrzymaj wzrostu liczby uczciwych. Tylko zachanni mog zablokowa wzrost
liczby uczciwych, ale z drugiej strony liczba zachannych zaley od dostpnoci odpowiedniej liczby skromnych.
Zatem im wicej jest uczciwych w danej populacji wzgldem par zachanny-skromny, tym wyszy wynik redni
otrzymaj uczciwi. Jeli liczba uczciwi w populacji spadnie poniej 33,(3)%, to rozpocznie si ich wymieranie,
poniewa nie bd si wystarczajco czsto spotyka. Z drugiej strony, jeli ich liczba w populacji przekroczy 33,(3)%,
to zaczn oni dy do zdominowania caej populacji. Mona to wyranie zobaczy zauwaajc, e w sytuacji, w ktrej
kada ze strategii jest stosowana przez 1/3 (czyli 33,(3)%) populacji, to kada strategia ma oczekiwan redni wypat
rwn 1/3 zasobw. Zatem przekroczenie tego punktu krytycznego w ktrkolwiek ze stron spowoduje denie do
ustalenia si jednej z dwch moliwych rwnowag ESS, osignitej kosztem wyginicia uczciwych lub wszystkich
pozostaych.
Bardzo ciekawe jest to, w jaki sposb teoria gier tumaczy altruizm, czyli takie zachowanie organizmu, ktre obnia
jego wasne dostosowanie na rzecz wzrostu dostosowania innego gracza. Tego rodzaju zachowanie jest do czsto
spotykane w przyrodzie. Rodzi si wic pytanie, jak jest ono moliwe w warunkach darwinowskiej walki o byt?
Rozwamy seri dylematw winia rozgrywanych w populacji, skadajcej si ze zdrajcw (agresorw) i
wsppracujcych ze sob (altruistw). Wypaty w tej grze, jak zawsze w przypadku dynamicznych gier, s mierzone
przy pomocy oczekiwanej liczby kopii danej strategii w nastpnym pokoleniu.
Niech U(A) bdzie rednim dostosowaniem strategii A w danej populacji, za U niech oznacza rednie przystosowanie
w caej populacji (tzn. sum U(A) po wszystkich A podzielon przez liczb moliwych strategii). Wwczas proporcja
strategii A w nastpnym pokoleniu wynosi po prostu U(A)/U. W tej sytuacji jeli A ma wiksze dostosowanie ni
rednie dostosowanie w populacji, to liczba A ronie w nastpny pokoleniu. Natomiast jeli U(A) < U, to liczba A w
nastpnym pokoleniu maleje.
W dynamicznym dylemacie winia, w ktrym oddziaywanie pomidzy osobnikami jest przypadkowe (bez korelacji),
agresorzy maj lepsze wyniki ni rednia populacji, dopki w pobliu s jacy altruici. Wynika to z tego, e w
pojedynczym (statycznym) dylemacie winia agresja (zdrada) jest zawsze strategi dominujc. Zatem w
dynamicznym dylemacie winia bez korelacji zdrada jest strategi ewolucyjnie stabiln.
Jednak moliwo korelacji istotnie zmienia t sytuacj. Wwczas musimy liczy rednie dostosowanie danej strategii
przy danym prawdopodobiestwie spotkania przez ni kadej moliwej strategii. W dynamicznym dylemacie winia
altruici, ktrzy maj due prawdopodobiestwo spotkania si nawzajem, radz sobie lepiej ni agresorzy majcy takie
samo prawdopodobiestwo spotkania si. Wynika z tego, e korelacja faworyzuje kooperacj :)
Wyobramy sobie teraz sytuacj, w ktrej gracze musz gra z graczami dowolnie (przypadkowo) wybranymi spord
najbliszych graczy (jest to do realistyczne zaoenie ze wzgldu na genetyczn lub kulturow blisko). Jeli mamy
do czynienia z populacj o skoczonych rozmiarach, ktr moemy schematycznie przedstawi na jednej linii, to
otrzymamy nastpujc dynamik:

pojedynczy wsppracujcy gracze (altruici), ktrzy s otoczeni przez zdrajcw (agresorw), wygin;

czonkowie grup zoonych z dwch wsppracujcych ze sob graczy maj 50% szans na oddziaywanie
pomidzy sob i 50% szans na oddziaywanie ze zdrajcami. W rezultacie ich oczekiwane dopasowanie okazuje
si mniejsze ni dopasowanie otaczajcych ich zdrajcw, wic te prawdopodobnie wygin;
czonkowie grup zoonych z trzech wsppracujcych ze sob graczy, maj takie same dopasowanie jak
otaczajcy ich zdrajcy, lecz jest to sytuacja niestabilna, ktra moe obrci si zarwno w kierunku rozwoju
tej grupy, jak i jej wyginicia;
grupy zoone z czterech lub wicej wsppracujcych ze sob graczy radz sobie lepiej ni otaczajcy ich
zdrajcy, wskutek czego zwikszaj oni swoje dostosowanie (liczebno w ramach populacji). W rezultacie
altruici mog prawie cakowicie wyprze agresorw (zdrajcw). Przy yciu mog utrzyma si tylko
pojedynczy zdrajcy lub ich grupy istniejce na peryferiach populacji.

Wida wic, e istnienie altruizmu moe by uzasadnione przez dynamik gier ewolucyjnych, za w sytuacji korelacji
altruizm moe sta si nawet gwn strategi w populacji. Warto jednak zauway, e tego rodzaju wniosku s
uzasadnione tylko w sytuacji, w ktrej poszczeglne osobniki trzymaj si swoich naturalnych lub kulturowych
uwarunkowa i nie mog zmienia same swoich funkcji wypat. Jeli gracze bd zbyt sprytni i zbyt skorzy do zmiany
wasnej strategii zgodnie z wasnym indywidualnym interesem, to na skutek obserwacji, e znajduj si w dylemacie
winia, wybior zdrad jako najkorzystniejsz dla nich osobicie strategi. Wskutek tego szybko doprowadz si do
zagady chyba e wytworz stabilne i efektywne normy, ktre ponownie odtworz wspprac.
Na zakoczenie opiszmy zagadnienie strategii ewolucyjnie stabilnych od strony matematycznej. Przypomnijmy jeszcze
raz, e rwnowaga Nasha jest takim profilem strategii w grze, e, przy ustalonych strategiach wszystkich pozostaych
graczy, aden gracz nie moe polepszy swojej wypaty przez zmian swojej strategii. Jeli gracz wybierze strategi x
w populacji, gdzie wszyscy inni gracze korzystaj ze strategii y, to otrzyma on wypat u(x,y). W takiej sytuacji jeli x
jest strategi rwnowagi Nasha, to mona to zapisa pod postaci warunku:
u(x,x) u(y,x) dla kadego y.
Natomiast jeli x jest strategi ewolucyjnie stabiln, to speniony jest nastpujcy warunek:
{ u(x,x) > u(y,x) } lub { [ u(x,x) = u(y,x) oraz u(x,y) > u(y,y) ] dla kadego x y }.
Oznacza to, e wypata kadego gracza grajcego strategi x w sytuacji, kiedy inni graj t sam strategi, musi by
wiksza od wypaty, ktr otrzymuje on grajc jakkolwiek inn strategi, lub wypaty te mog by takie same, ale
wtedy wypata w sytuacji, kiedy jego strategia jest grana przeciw innym strategiom, musi by wiksza od wypaty, ktr
by uzyska grajc t sam strategi co przeciwnik. Drugi z tych warunkw wyklucza moliwo dokonania inwazji
przez mutanta, dlatego, e mwi on, i adnemu graczowi nie opaca si zmieni jego dotychczasowej strategii na inn.
Dziki takiemu matematycznemu sformuowaniu mamy proste kryterium okrelajce, ktry profil strategii w danej grze
jest strategi ewolucyjnie stabiln. Warto zauway, e pierwszy z dwch czonw powyszej alternatywy jest bardzo
podobny do warunku rwnowagi Nasha, lecz jest od niego mocniejszy. Czasem nazywa si go cis rwnowag
Nasha.

10. May sowniczek poj teorii gier


gra co, co skada si ze zbioru regu, zbioru co najmniej dwch graczy, z ktrych kady dysponuje pewnym zbiorem
strategii, oraz moliwymi wynikami na skutek postpowania. Wynikom tym przypisujemy okrelone wypaty, czyli
liczbowe wartoci okrelajce zyski, jakie kady gracz otrzyma dla danego wyniku gry.
strategia okrelone dziaanie/decyzja, ktre podejmuje gracz w ramach gry, zgodnie z jej reguami. Dokonanie
nieodwoalnego wyboru strategii przez wszystkich graczy okrela wynik gry. Taki wybr jest wyborem okrelonego
profilu strategii i prowadzi do okrelonego zbioru wypat dla poszczeglnych graczy. W postaci macierzowej oznacza
to wybr okrelonej komrki, w ktrej zapisane s wypaty otrzymywane przez poszczeglnych graczy.
wypata (take: funkcja wypaty, wygrana, wzgldnie kara) przypisanie wartoci liczbowej okrelonemu wynikowi w
grze, jaki moe otrzyma gracz na skutek uycia, przez wszystkich uczestnikw gry, okrelonych strategii. W
przypadku gry dwch graczy, reprezentowanej w postaci macierzowej, wypaty obydwu graczy reprezentowane s
przez par liczb w komrce znajdujcej si na przeciciu kolumny i wiersza okrelajcych strategi obydwu graczy.
reprezentacja (posta) gry wizualny, matematyczny sposb zapisu gry, a mwic dokadniej: strategii, ktrymi
dysponuj gracze, oraz wypat otrzymywanych przez nich w wyniku grania okrelonymi strategiami. Najczciej
spotyka si dwa sposoby reprezentowania gry: przy pomocy drzewa lub macierzy. W przypadku reprezentacji (postaci)
macierzowej, strategie jednego z graczy s wyraone przez poszczeglne kolumny, natomiast strategie drugiego gracza

s wyraone przez poszczeglne wiersze. Para liczb w okrelonej komrce okrela wypaty jakie otrzymaj ci gracze
grajc strategiami, na ktrych przeciciu jest ta komrka. Pierwsza liczba okrela wypat, ktr otrzyma gracz grajcy
strategiami wyraonymi przez wiersze, za druga liczba okrela wypat, ktr otrzyma gracz grajcy strategiami
wyraonymi przez kolumny.
strategia cile dominujca W sytuacji gier, w ktrych jedna strategia okrelonego gracza jest zdecydowanie lepsza
od wszystkich innych moliwych jego strategii niezalenie od tego jakie dziaania (decyzje, strategie) wybior inni
gracze, mwimy, e strategia ta cile dominuje nad pozostaymi moliwymi strategiami tego gracza. Okrelona
strategia jest zdecydowanie lepsza, jeli wypata dla tej strategii jest wiksza od wypat dla wszystkich innych
moliwych strategii. W praktyce oznacza to, e szukamy u danego gracza takiej strategii (wiersza lub kolumny
macierzy), ktra niezalenie od strategii przeciwnika zawsze daje najwiksz moliw wypat.
profil strategii zbir strategii, bdcy rezultatem wyboru przez kadego gracza jednej strategii. Poszczeglne profile
strategii s w reprezentacji macierzowej gry wyraane przez komrki macierzy (tabeli).
gry ze wspprac gry, w ktrych wypaty obydwu graczy s okrelone tak, e obydwu graczom opaca si wybiera
strategie zgodne ze sob. S to gry, w ktrych wszystkie rwnowagowe czyste strategie Nasha s sytuacjami, w ktrych
gracze wybieraj te same, lub odpowiadajce sobie strategie.
rwnowaga Nasha Rwnowaga Nasha jest takim profilem strategii w grze, e, przy ustalonych strategiach
wszystkich pozostaych graczy, aden gracz nie moe polepszy swojej wypaty przez zmian swojej strategii. Oznacza
to, e w praktyce szukamy takiej pary strategii dwch graczy (komrki macierzy), e, bdc w danym wierszu (=
ustalona strategia drugiego gracza) gracz grajcy kolumnami nie moe polepszy wypaty zmieniajc swojej strategii
(kolumny), a gracz grajcy wierszami przy ustalonej kolumnie nie moe poprawi swojej wypaty przez zmian
wierszy. Matematycznie biorc, wyraa si to wzorem
u(x,x) u(y,x) dla kadego y,
gdzie u(A,B) oznacza wypat gracza grajcego strategi A dla profilu strategii (A,B). Jest to tak zwana rwnowaga
Nasha w strategiach czystych. Rwnowaga Nasha dla gier mieszanych oblicza si poprzez poszukiwanie takich
prawdopodobiestw wyboru strategii przez kadego gracza, e kady z graczy osiga rwnowag, polegajc na tym,
e (dla ustalonego gracza oraz ustalonych strategii pozostaych graczy) prawdopodobiestwo wyboru dowolnej strategii
pomnoone przez wypat z ni zwizan daje t sam warto, niezalenie od wyboru strategii. Przykadowo, jeli
mamy dwuosobow gr, w ktrej kady z graczy (I, II) ma dwie moliwe strategie (odpowiednio: A,B oraz X,Y) ktre
moe wybiera z pewnym prawdopodobiestwem (odpowiednio: p, (1-p), q, (1-q)), to warunek rwnowagi Nasha w
strategiach mieszanych dla gracza I wynosi
q*u(A,X)+(1-q)*u(A,Y) = q*u(B,X)+(1-q)*u(B,X),
gdzie u(A,X) jest wypat gracza I dla profilu strategii (A,X).
strategie mieszane strategiami czystymi nazywa si strategie wystpujce w definicji pojcia gry, oraz w definicji
innych poj tej teorii. Strategie mieszane, s to strategie czyste wymnoone przez prawdopodobiestwa wyboru danej
strategii przez gracza. Kada gra moe (lecz nie musi) mie dodatkowe rwnowagi Nasha w strategiach czystych.
strategia ewolucyjnie stabilna Jest to taki profil strategii w grze, e wypata kadego gracza grajcego strategi x w
sytuacji, kiedy inni graj t sam strategi, musi by wiksza od wypaty, ktr otrzymuje on grajc jakkolwiek inn
strategi, lub wypaty te mog by takie same, ale wtedy wypata w sytuacji, kiedy jego strategia jest grana przeciw
innym strategiom, musi by wiksza od wypaty, ktr by uzyska grajc t sam strategi co przeciwnik. Aby znale
strategi ewolucyjnie stabiln, musimy dla kadego moliwego profilu strategii (komrek macierzy) przeprowadzi
nastpujc procedur: Dla kadego gracza porwnujemy jego wypat przy danej strategii z wypatami, ktre moe
otrzyma przy zmianie strategii na inn. Musi ona by wiksza od wszystkich innych moliwych lub, jeli jest rwna,
zmiana strategii musi dawa wypat wiksz od wypat wszystkich innych gracz. Wyraa si to wzorem
{ u(x,x) > u(y,x) } lub { [ u(x,x) = u(y,x) oraz u(x,y) > u(y,y) ] dla kadego x y }.
Ten wzr jest bardzo podobny do wzoru definiujcego rwnowag Nasha. Rnica polega na tym, e dla strategii
ewolucyjnie stabilnej mamy ostr nierwno >, a w przypadku rwnowagi Nasha mamy . Oznacza to, e aby znale
strategie ewolucyjnie stabilne, postpujemy oglnie tak samo jak w przypadku poszukiwania rwnowagi Nasha, z tym
e jeli wypaty s rwne, to musimy sprawdzi jeszcze dodatkowy warunek: mianowicie u(x,y) > u(y,y), czyli czy
zmiana strategii na inn da wiksz wypat.

Bibliografia
1.
2.
3.
4.
5.

Ferguson T.S., Game theory (2005).


Garg R., An introduction to game theory (2004).
Kauski J., Teoria gier, (2002).
Ross D., Game theory (2006).
Wierzbicki A.P., Sztuka i techniki negocjacji (2003).

You might also like