Gagolewski

Uogólniony indeks Hirscha a dwupróbkowe testy
dla rodziny rozkładów Pareto II rodzaju
Marek Gągolewski 1,2 , Przemysław Grzegorzewski 2,1

{gagolews,pgrzeg}@ibspan.waw.pl
XXXV Konferencja Statystyka Matematyczna

Wisła, 7–11 grudnia 2009 r.
1 Instytut Badań Systemowych 2 Wydział Matematyki

Polska Akademia Nauk i Nauk Informacyjnych
Politechnika Warszawska
Plan referatu
• Ogólny problem oceny twórców

• Wskaźniki bibliometryczne
• Problem oceny w interpretacji statystycznej
• κ-pozycje i ich estymacja
• Testy do porównywania dwóch prób
• Podsumowanie i problemy otwarte
2 / 69
Ogólny problem oceny twórców
Problem oceny twórców
j4
j2
j3
j1 j5
J
Przeliczalny zbiór jednostek (dzieł, produktów): J = {j1 , j2 , . . . }.
3 / 69
j4
j2
v(j1 ) = 7
j3
j1 j5
J

Funkcja oceny jednostek v : J → [0, ∞).
4 / 69
A1 j4
j2
j3 A2
j1 j5
J

Zbiór twórców (autorów, producentów) A = {A1 , . . . , Am }
— pewna rodzina podzbiorów J: (A1 , . . . , Am ⊆ J).
Modelem opisywanej rzeczywistości jest trójka (J, A, v).
5 / 69
A1 j4
j2
j3 A2
j1 j5
J

Zbiór twórców (autorów, producentów) A = {A1 , . . . , Am }
— pewna rodzina podzbiorów J: (A1 , . . . , Am ⊆ J).
Modelem opisywanej rzeczywistości jest trójka (J, A, v).
6 / 69
1 • J — artykuły w recenzowanych czasopismach,

• A — pracownicy naukowi,
• v — liczba cytowań,

• A — instytucje naukowe,
• v — punkty z listy czasopism punktowanych MNiSW,
3 • J — strony internetowe,
• A — portale (serwisy WWW),
• v — liczba odwiedzin,
4 • J — dzieła sztuki,
• A — artyści,
• v — cena dzieła na aukcji.
7 / 69


• A — artyści,
8 / 69


• A — artyści,
9 / 69


• A — artyści,
10 / 69


• A — artyści,
11 / 69
Problem
Na podstawie informacji zawartych w (J, A, v) dokonać „oceny”
twórców z A.
Co oceniać?
• jakość wytworów
• produktywność
Rozpatrujemy twórców cechujących się tą samą produktywnością.
ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

następujące warunki (zob. Grabisch i in., 2009):
• ω(n) (0, . . . , 0) = 0,
• jest niemalejąca ze względu na każdą zmienną.
12 / 69
Problem
twórców z A.
Co oceniać?
• produktywność

• ω(n) (0, . . . , 0) = 0,
13 / 69
Problem
twórców z A.
Co oceniać?
• produktywność

• ω(n) (0, . . . , 0) = 0,
14 / 69
Problem
twórców z A.
Co oceniać?
• produktywność

• ω(n) (0, . . . , 0) = 0,
15 / 69
Problem
twórców z A.
Co oceniać?
• produktywność

• ω(n) (0, . . . , 0) = 0,
16 / 69
Problem
twórców z A.
Co oceniać?
• produktywność

• ω(n) (0, . . . , 0) = 0,
17 / 69
Wskaźniki bibliometryczne
Przykładowe funkcje agregujące („wskaźniki bibliometryczne”):

• łączna liczba dzieł,
• średnia ocena jakości dzieł,
• indeks h (Hirsch, 2005)
• indeks g (Egghe, 2006)
• indeks w (Woeginger, 2008)
• indeksy „geometryczne” (Gągolewski, Grzegorzewski, 2009)
• ......
18 / 69
Przykładowe funkcje agregujące („wskaźniki bibliometryczne”):

• łączna liczba dzieł,
• średnia ocena jakości dzieł,
• indeks h (Hirsch, 2005)
• indeks g (Egghe, 2006)
• indeks w (Woeginger, 2008)
• indeksy „geometryczne” (Gągolewski, Grzegorzewski, 2009)
• ......
19 / 69
Indeks Hirscha
„Autor n prac ma indeks o wartości h, jeżeli h jego prac otrzymało

co najmniej h cytowań, a pozostałe z jego n − h prac otrzymało co
najwyżej h cytowań.”
Definicja
Indeksem Hirscha nazywamy funkcję h : [0, ∞)n → [0, ∞) taką, że

max{i : xn+1−i:n > i, i = 1, 2, . . . , n} gdy xn:n > 0,
h(x) =
0 w p.p.
Np. h(5, 4, 3, 3, 3, 1) = 3.
Np. h(10, 10, 10, 10, 0, 0, 0, 0) = 4.
20 / 69
Indeks Hirscha

Definicja

h(x) =
0 w p.p.
Np. h(5, 4, 3, 3, 3, 1) = 3.
Np. h(10, 10, 10, 10, 0, 0, 0, 0) = 4.
21 / 69
Indeks Hirscha

Definicja

h(x) =
0 w p.p.
Np. h(5, 4, 3, 3, 3, 1) = 3.
Np. h(10, 10, 10, 10, 0, 0, 0, 0) = 4.
22 / 69
Problem oceny w interpretacji statystycznej
Interpretacja statystyczna
Rozważmy X = (X1 , . . . , Xn ) i.i.d. F, gdzie F – dystrybuanta ciągła,
ściśle rosnąca na [0, ∞), F(x) = 0 dla x < 0.
Interpretacja:
Xi — ocena jakości i-tego dzieła
F określa zdolności do wytwarzania dzieł o jakości właściwej każdemu
twórcy
Przykład
Dla P2(k, s), k > 0, s > 1
k
s
F(x) = 1 −
s+x
dla x > 0 (Burrell, 2008; Glänzel, 2008).

23 / 69
Interpretacja:
twórcy
Przykład
Dla P2(k, s), k > 0, s > 1
k
s
F(x) = 1 −
s+x

24 / 69
Interpretacja:
twórcy
Przykład
Dla P2(k, s), k > 0, s > 1
k
s
F(x) = 1 −
s+x

25 / 69
Definicja
Komplementarną funkcją kwantylową zmiennej losowej
o dystrybuancie F nazywamy funkcję K : (0, 1) → [0, ∞) daną
wzorem
K(x) = (1 − F(x))−1 .
Oczywiście K(x) = R−1 (x).
Definicja
Funkcją kontrolną nazywamy dowolną funkcję κ : [0, 1] → R, która
jest ciągła, niemalejąca i taka, że κ(0) 6 0, κ(1) > 0.
26 / 69
Definicja
wzorem
K(x) = (1 − F(x))−1 .
Definicja
27 / 69
Definicja
wzorem
K(x) = (1 − F(x))−1 .
Definicja
28 / 69
κ-pozycje i ich estymacja
κ-pozycje
Definicja
κ-pozycją dla rozkładu danego dystrybuantą F przy funkcji kontrolnej
κ nazywamy liczbę pκ ∈ (0, 1) będącą rozwiązaniem równania
κ(pκ ) = K(pκ ).
29 / 69
Równoważne definicje κ-pozycji:
• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

pκ ∈ (0, 1) będącą rozwiązaniem równania
ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).

1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
Przy podanych założeniach κ-pozycja zawsze istnieje i jest
wyznaczona jednoznacznie.
30 / 69

ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).

1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
31 / 69

ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).

1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
32 / 69

ozn.
1 − pκ = F(κ(pκ )) = F ◦ κ(pκ ).

1 − pκ = P(κ−1 (Xi ) 6 pκ ).
Uwaga
33 / 69
Przykład
Dla P2(1, 1) i κ(x) = x zachodzi
√
5−1 1
pκ = = = ϕ − 1 ' 0,618034.
2 ϕ
Przykład
Dla dowolnego F i κ ≡ F−1 zachodzi
pκ = 0,5.
34 / 69
Przykład
Dla P2(1, 1) i κ(x) = x zachodzi
√
5−1 1
pκ = = = ϕ − 1 ' 0,618034.
2 ϕ
Przykład
Dla dowolnego F i κ ≡ F−1 zachodzi
pκ = 0,5.
35 / 69
Estymacja κ-pozycji
Definicja
Dyskretnym κ-indeksem pozycyjnym nazywamy statystykę
1
p
bκ (X) = arg max {Xn−i+1:n > κ(i/n)}
n i=0,...,n
1
= arg max {#{Xk : Xk > κ(i/n)} > i} .
n i=0,...,n
36 / 69
Definicja
Dyskretnym κ-indeksem pozycyjnym nazywamy statystykę
1
p
bκ (X) = arg max {Xn−i+1:n > κ(i/n)}
n i=0,...,n
1
= arg max {#{Xk : Xk > κ(i/n)} > i} .
n i=0,...,n
37 / 69
Lemat 1
Rozkład p
bκ opisany jest dystrybuantą
X
n h
n ii h in−i
Fpb κ (p) = 1− 1 − F ◦ κ bpn+1c
n F ◦ κ bpn+1c
n
i
i=bpn+1c

= I F ◦ κ bpn+1c
n ; n − bpnc, bpnc + 1
dla p ∈ (0, 1), przy czym I(p; a, b) oznacza regularyzowaną

niekompletną funkcję beta, natomiast bxc = max{i ∈ Z : i 6 x}.
38 / 69
Stwierdzenie 2
bκ jest estymatorem asymptotycznie nieobciążonym pκ oraz
p
bκ → 0.
Var p
Lemat 3
Niech X = (X1 , . . . , Xn ) i.i.d. F. Wówczas dla funkcji kontrolnej
κ(x) = xn zachodzi
bκ (X) = max{i = 0, . . . , n : Xn−i+1:n > i}.

h(X) = n p
39 / 69
Stwierdzenie 2
bκ jest estymatorem asymptotycznie nieobciążonym pκ oraz
p
bκ → 0.
Var p
Lemat 3
Niech X = (X1 , . . . , Xn ) i.i.d. F. Wówczas dla funkcji kontrolnej
κ(x) = xn zachodzi
bκ (X) = max{i = 0, . . . , n : Xn−i+1:n > i}.

h(X) = n p
40 / 69
Stwierdzenie 4 (O aproksymacji)
Jeśli F ◦ κ jest funkcją analityczną w punkcie pκ i dla każdego p
w dowolnie małym otoczeniu pκ zachodzi (p − pκ )2 (F ◦ κ) 00 (p) ' 0
oraz (p − pκ ) δ (1 − 2pκ + (p − pκ ) δ) ' 0, to dla n → ∞
 
p − pκ 
Fpb κ (p) ' Φ  q ,
pκ (1−pκ )
n (1+δ)2
gdzie δ := (F ◦ κ) 0 (pκ ) = f(κ(pκ )) κ 0 (pκ ), a Φ jest dystrybuantą

N(0, 1).
41 / 69
Testy do porównywania dwóch prób
X — n-elementowa próba i.i.d. F.

Y — n-elementowa próba i.i.d. G.
Jesteśmy zainteresowani konstrukcją (nieparametrycznego) testu ϕ

na poziomie istotności α do weryfikacji
H0 : F = G
względem
K : F G.
42 / 69
X — n-elementowa próba i.i.d. F.

Y — n-elementowa próba i.i.d. G.
Jesteśmy zainteresowani konstrukcją (nieparametrycznego) testu ϕ

na poziomie istotności α do weryfikacji
H0 : F = G
względem
K : F G.
43 / 69
Dla F = G i dostatecznie dużych n mamy

n
r
T= (b bκ (Y)) ∼ N (0, 1) ,
pκ (X) − p
2σ2κ,F
gdzie
pκ,F (1 − pκ,F )
σ2κ,F =
(1 + δκ,F )2
oraz δκ,F := (F ◦ κ) 0 (pκ,F ).
H0 odrzucamy, gdy T > z1−α .
44 / 69
Dalej F — dystrybuanta P2(k1 , s), G — dystrybuanta P2(k2 , s).

s > 1 — ustalone (znane).
Mamy k1 < k2 ⇒ F G.
κ(x) = nx („indeks Hirscha”).
45 / 69

46 / 69

47 / 69
Testy do porównania:
1 Test Manna-Whitney’a-Wilcoxona,
2 Test Kołmogorowa-Smirnowa,
3 Test parametryczny oparty na ilorazie wiarogodności.

Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
T = Pi=1n ∼ F .
i=1 ln (s + Yi ) − nln s
[2n,2n]
H0 odrzucamy, gdy T > F1−α .
48 / 69

Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
T = Pi=1n ∼ F .
[2n,2n]
49 / 69

Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
T = Pi=1n ∼ F .
[2n,2n]
50 / 69

Statystyka testowa
Pn
ln (s + Xi ) − nln s H0 [2n,2n]
T = Pi=1n ∼ F .
[2n,2n]
51 / 69
k1=1, s=2, n=10, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
1.0 1.5 2.0 2.5 3.0
k2
52 / 69
k1=1, s=2, n=20, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
1.0 1.5 2.0 2.5 3.0
k2
53 / 69
k1=1, s=2, n=50, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
1.0 1.5 2.0 2.5 3.0
k2
54 / 69
k1=1, s=2, n=100, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
1.0 1.5 2.0 2.5 3.0
k2
55 / 69
k1=1, s=2, n=250, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
1.0 1.5 2.0 2.5 3.0
k2
56 / 69
k1=0.3, s=5, n=10, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
0.5 1.0 1.5 2.0
k2
57 / 69
k1=0.3, s=5, n=20, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
0.5 1.0 1.5 2.0
k2
58 / 69
k1=0.3, s=5, n=50, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
0.5 1.0 1.5 2.0
k2
59 / 69
k1=0.3, s=5, n=100, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
0.5 1.0 1.5 2.0
k2
60 / 69
k1=0.3, s=5, n=250, MC=10000, alpha=0.05

1.0
0.8
0.6
Power
0.4
Hirsch
0.2
Mann−Whitney
K−S
LR−param
0.0
0.5 1.0 1.5 2.0
k2
61 / 69
Podsumowanie i problemy otwarte
• Jakie własności statystyczne miałyby estymatory κ-pozycji

zbudowane dla innych funkcji kontrolnych κ?
• Czy testy budowane na tych estymatorach miałyby lepszą moc
niż test wykorzystujący estymator rozważany w tej pracy?
• Dla jakiej funkcji kontrolnej (być może z określonej rodziny
funkcji) otrzymalibyśmy test o maksymalnej mocy?
• ......
62 / 69

• ......
63 / 69

• ......
64 / 69

• ......
65 / 69

• ......
66 / 69
Dziękujemy za uwagę.
67 / 69
Literatura
• Q. Burrell. On the h-index, the size of the Hirsch core and Jin’s
A-index. Journal of Informetrics 1, 170–177.
• Q. Burrell (2008). Extending Lotkaian informetrics. Information
Processing & Management 44, 1794–1807.
• A. DasGupta (2008). Asymptotic theory of statistics and
probability. Springer Verlag, New York.
• W. Glänzel (2008). On some new bibliometric applications of
statistics related to the h-index. Scientometrics 77(1), 187–196.
• L. Egghe (2006). Theory and practise of the g-index.
Scientometrics 69(1), 131–152.
68 / 69
• M. Gągolewski, P. Grzegorzewski (2009). A geometric approach

to the construction of scientific impact indices. Scientometrics
81(3), 617–634.
• M. Grabisch, E. Pap, J. Marichal, R. Mesiar (2009).
Aggregation Functions, Cambridge.
• J. E. Hirsch (2005). An index to quantify individual’s scientific
research output. PNAS 102(46), 16569–16572.
• R. J. Hyndman, Y. Fan (1996). Sample quantiles in statistical
packages. American Statistician, 50(4), 361–365.
• G. J. Woeginger (2008). An axiomatic characterization of the
Hirsch-index. Mathematical Social Sciences 56(2), 224–232.
69 / 69

Gagolewski

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Gagolewski

Uploaded by

Copyright:

Available Formats

Uogólniony indeks Hirscha a dwupróbkowe testy

dla rodziny rozkładów Pareto II rodzaju

Marek Gągolewski 1,2 , Przemysław Grzegorzewski 2,1

XXXV Konferencja Statystyka Matematyczna

1 Instytut Badań Systemowych 2 Wydział Matematyki

• Ogólny problem oceny twórców

Problem oceny twórców

Przeliczalny zbiór jednostek (dzieł, produktów): J = {j1 , j2 , . . . }.

Problem oceny twórców

Przeliczalny zbiór jednostek (dzieł, produktów): J = {j1 , j2 , . . . }.

Problem oceny twórców

Przeliczalny zbiór jednostek (dzieł, produktów): J = {j1 , j2 , . . . }.

Modelem opisywanej rzeczywistości jest trójka (J, A, v).

Problem oceny twórców

Przeliczalny zbiór jednostek (dzieł, produktów): J = {j1 , j2 , . . . }.

Modelem opisywanej rzeczywistości jest trójka (J, A, v).

1 • J — artykuły w recenzowanych czasopismach,

2 • J — artykuły w recenzowanych czasopismach,

1 • J — artykuły w recenzowanych czasopismach,

2 • J — artykuły w recenzowanych czasopismach,

1 • J — artykuły w recenzowanych czasopismach,

2 • J — artykuły w recenzowanych czasopismach,

1 • J — artykuły w recenzowanych czasopismach,

2 • J — artykuły w recenzowanych czasopismach,

1 • J — artykuły w recenzowanych czasopismach,

2 • J — artykuły w recenzowanych czasopismach,

Rozpatrujemy twórców cechujących się tą samą produktywnością.

ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

Rozpatrujemy twórców cechujących się tą samą produktywnością.

ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

Rozpatrujemy twórców cechujących się tą samą produktywnością.

ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

Rozpatrujemy twórców cechujących się tą samą produktywnością.

ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

Rozpatrujemy twórców cechujących się tą samą produktywnością.

ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

Rozpatrujemy twórców cechujących się tą samą produktywnością.

ω(n) : [0, ∞)n → [0, ∞) jest funkcją agregującą, jeśli spełnia

Przykładowe funkcje agregujące („wskaźniki bibliometryczne”):

Przykładowe funkcje agregujące („wskaźniki bibliometryczne”):

„Autor n prac ma indeks o wartości h, jeżeli h jego prac otrzymało

„Autor n prac ma indeks o wartości h, jeżeli h jego prac otrzymało

„Autor n prac ma indeks o wartości h, jeżeli h jego prac otrzymało

dla x > 0 (Burrell, 2008; Glänzel, 2008).

dla x > 0 (Burrell, 2008; Glänzel, 2008).

dla x > 0 (Burrell, 2008; Glänzel, 2008).

Oczywiście K(x) = R−1 (x).

Oczywiście K(x) = R−1 (x).

Oczywiście K(x) = R−1 (x).

Równoważne definicje κ-pozycji:

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

Równoważne definicje κ-pozycji:

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

Równoważne definicje κ-pozycji:

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

Równoważne definicje κ-pozycji:

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

• κ-pozycją dla rozkładu danego dystrybuantą F nazywamy liczbę

dla p ∈ (0, 1), przy czym I(p; a, b) oznacza regularyzowaną

bκ (X) = max{i = 0, . . . , n : Xn−i+1:n > i}.

bκ (X) = max{i = 0, . . . , n : Xn−i+1:n > i}.