Analiza Dźwięku Violi Da Gamba I Głosu Ludzkiego Oraz Próba Porównania Ich Brzmienia Za Pomocą Różnych Technik Cyfrowej Analizy Sygnałów

Uniwersytet Adama Mickiewicza w Poznaniu
Wydział Fizyki
Informatyka Stosowana
Praca magisterska
Analiza dźwięku violi da gamba

i głosu ludzkiego
oraz próba porównania
ich brzmienia
za pomocą różnych technik
cyfrowej analizy sygnałów
Jacek Salamon
Promotor: prof. dr hab inż. Ryszard Stasiński
Poznań, 2008
”[...] nie można zaprzeczyć, że żaden
z instrumentów nie zbliżył się nigdy tak bardzo
do głosu ludzkiego jak viola, która różni się od głosu
tylko tym, że nie artykułuje słów”
- J. Rousseau (1644 - 1699)

Spis treści
Spis treści i
Oświadczenie o autorstwie v
Podziękowania vii
Streszczenie pracy ix
Abstract xi
1 Wprowadzenie 1
1.1 Muzyka a informatyka. Informatyka muzyczna . . . . . . . . . . . 1
1.2 Viola da gamba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Głos ludzki a muzyka instrumentalna . . . . . . . . . . . . . . . . . 8
1.4 Viola da gamba a głos ludzki . . . . . . . . . . . . . . . . . . . . . 12
2 Podstawy teoretyczne 15
2.1 Dźwięk w muzyce . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Powstawanie fali stojącej . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Odpowiedź rezonansowa. Splot sygnałów . . . . . . . . . . . . . . . 19
2.4 Cechy jakościowe dźwięku w muzyce . . . . . . . . . . . . . . . . . 21
2.5 Analiza częstotliwościowa dźwięku . . . . . . . . . . . . . . . . . . 22
2.5.1 Rys historyczny . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5.2 Transformacja Fouriera. Widmo dźwięku . . . . . . . . . . 23
2.5.3 Dyskretna Transformacja Cosinusowa (DCT) . . . . . . . . 26
2.5.4 Okna czasowe . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.5 Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.6 Kepstralnie wygładzone widmo . . . . . . . . . . . . . . . . 31
2.5.7 Widmo długoterminowe LTAS . . . . . . . . . . . . . . . . 33
2.5.8 Odnajdywanie tonu podstawowego . . . . . . . . . . . . . . 35
2.6 Automatyczna klasyfikacja danych . . . . . . . . . . . . . . . . . . 36
i
ii SPIS TREŚCI
2.7 Akustyczne cechy violi da gamba . . . . . . . . . . . . . . . . . . . 38

2.7.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.7.2 Wpływ wieku drewna na akustyczne cechy instrumentu . . 38
2.7.3 Główne źródła formantów w dźwięku violi da gamba . . . . 39
2.8 Akustyczne cechy głosu ludzkiego . . . . . . . . . . . . . . . . . . . 41
2.8.1 Naturalne rezonatory ludzkiego ciała . . . . . . . . . . . . . 41
2.8.2 Rejestry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.8.3 Formant śpiewaczy . . . . . . . . . . . . . . . . . . . . . . . 46
2.8.4 Barwa wokalna i pozawokalna . . . . . . . . . . . . . . . . . 47
2.8.5 Głoski a rezonans . . . . . . . . . . . . . . . . . . . . . . . . 48
2.8.6 Krycie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.8.7 Pola czuciowe . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.8.8 Vibrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3 Część eksperymentalna 53
3.1 Charakterystyka i cel eksperymentu . . . . . . . . . . . . . . . . . 53
3.2 Uczestnicy nagrań . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 Dźwięki violi da gamba i głosów śpiewaczych w gamach diatonicznych 56
3.3.1 Analiza widmowa dźwięków gamy wykonanej na violi da
gamba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3.2 Analiza widmowa dźwięków gamy w wykonaniu głosu ludz-
kiego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.3 Analiza jasności barwy dźwięku głosu ludzkiego i violi . . . 63
3.4 Analiza wykonania arii Ombra mai fu z opery Kserkses G. F. Ha-
endla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4.1 Wykonanie przez śpiewaka . . . . . . . . . . . . . . . . . . 65
3.4.2 Wykonanie na violi da gamba . . . . . . . . . . . . . . . . . 68
3.5 Analiza wykonania arii O servi volate z oratorium Juditha Trium-
phans A. Vivaldiego . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.5.1 Wykonanie przez śpiewaczkę . . . . . . . . . . . . . . . . . 70
3.6 Analiza wykonania recytatywu O voi del mio poter z opery Orlan-
do G. F. Haendla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.6.1 Wykonanie przez śpiewaka . . . . . . . . . . . . . . . . . . 79
3.7 Analiza wykonania arii Domine Deus rex coelestis z Glorii A. Vi-
valdiego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.7.1 Wykonanie przez śpiewaczkę . . . . . . . . . . . . . . . . . 84
3.8 Analiza widm długoterminowych (LTAS) wykonywanych utworów
i związanych z nimi współczynników SPR, ER, α − 1 i α − 2 . . . 86
3.9 Analiza współczynników SPR, ER, α − 1 i α − 2 wykonywanych gam 91
SPIS TREŚCI iii
3.10 Porównanie dźwięków violi do głosu ludzkiego na podst. wektorów

wsp. kepstralnych za pomocą automatycznych klasyfikatorów . . . 94
4 Wnioski i zakończenie 99
Bibliografia 103
A Program do analizy spektralnej 109

A.1 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
A.2 Instrukcja obsługi programu . . . . . . . . . . . . . . . . . . . . . . 110
A.2.1 Okno główne . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A.2.2 Okno przebiegu czasowego . . . . . . . . . . . . . . . . . . . 111
A.2.3 Okno analizy częstotliwościowej . . . . . . . . . . . . . . . . 111
A.3 Wybrane zagadnienia konstrukcji programu . . . . . . . . . . . . . 113
A.3.1 Format WAVE . . . . . . . . . . . . . . . . . . . . . . . . . 113
A.3.2 Biblioteka FFTW . . . . . . . . . . . . . . . . . . . . . . . 114
A.3.3 Kepstralne wygładzanie widma . . . . . . . . . . . . . . . . 116
A.3.4 Odnajdywanie tonu podstawowego . . . . . . . . . . . . . . 116
B Kody w MatLabie opisywanych przykładów 119

B.1 Wstęp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
B.2 Funkcje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
B.2.1 Dyskretna transformacja cosinusowa (DCT) . . . . . . . . . 119
B.2.2 Wygładzanie widma . . . . . . . . . . . . . . . . . . . . . . 119
B.2.3 Okno Blackmana . . . . . . . . . . . . . . . . . . . . . . . . 120
B.2.4 Tablica częstotliwości . . . . . . . . . . . . . . . . . . . . . 120
B.2.5 PSD (Power Spectral Distribution) . . . . . . . . . . . . . . 120
B.2.6 Konwersja częstotliwości na numer próbki . . . . . . . . . . 120
B.3 Skrypty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
B.3.1 Liczenie widma, widma wygładzonego za pomocą DCT,
widma logarytmicznego, rysowanie wykresów . . . . . . . . 121
B.3.2 Liczenie widma długoterminowego (Long-Term Average Spec-
trum) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
B.3.3 Obliczanie jasności barwy dźwięku . . . . . . . . . . . . . . 123
C Słownik pojęć muzycznych 125
Spis symboli i skrótów 127
Spis rysunków 128
Spis tabel 132
Skorowidz 133
Oświadczenie
Poznań, dnia 24.09.2008
Ja, niżej podpisany Jacek Salamon, student Wydziału Fizyki Uniwersytetu

im. Adama Mickiewicza w Poznaniu oświadczam, że przedkładaną pracę dyplo-
mową pt. ”Analiza dźwięku violi da gamba i głosu ludzkiego oraz próba po-
równania ich brzmienia za pomocą różnych technik cyfrowej analizy sygnałów”
napisałem samodzielnie. Oznacza to, że przy pisaniu pracy, poza niezbędnymi
konsultacjami, nie korzystałem z pomocy innych osób, a w szczególności nie zle-
całem opracowania rozprawy lub jej części innym osobom, ani nie odpisywałem
tej rozprawy lub jej części od innych osób.
Oświadczam również, że egzemplarz pracy dyplomowej w formie wydruku

komputerowego jest zgodny z egzemplarzem pracy dyplomowej w formie elektro-
nicznej.
Jednocześnie przyjmuję do wiadomości, że gdyby powyższe oświadczenie oka-

zało się nieprawdziwe, decyzja o wydaniu mi dyplomu zostanie cofnięta.
Jacek Salamon
............................................
v
Podziękowania
Serdecznie dziękuję mojemu promotorowi, panu prof. dr hab inż. Ryszardowi

Stasińskiemu, oraz pani dr inż. Ewie Łukasik z Politechniki Poznańskiej za nie-
ocenioną pomoc w napisaniu tej pracy.
Dziękuję również śpiewakom i śpiewaczkom: Maciejowi Stępińskiemu, Annie

Gotfryd, Karolinie Roman i Marii Penc oraz gambiście Krzysztofowi Dąbrow-
skiemu za uczestnictwo w zorganizowanych przeze mnie sesjach nagraniowych i
dostarczenie materiału do badań; Annie Sudzie za kierowanie techniczną stroną
nagrań oraz Jarosławowi Weidnerowi za użyczenie potrzebnego sprzętu, a także
chórowi Dominicantes Wyższej Szkoły Bankowej za udostępnienie sali do nagrań.
Dziękuję także mojemu nauczycielowi śpiewu, mgr Eugeniuszowi Zdańskiemu,

za udostępnienie literatury o głosie ludzkim, na której oparłem większość swoich
tez badawczych, oraz mgr Łukaszowi Kozakowi z Instytutu Historycznego UW
za konsultacje w dziedzinie historii instrumentów muzycznych.
vii
Streszczenie pracy
Niniejsza praca stanowi przyczynek do analizy brzmienia dawnych instrumentów

muzycznych, dziedziny często pomijanej w zastosowaniach współczesnej informa-
tyki muzycznej, w przeciwieństwie do analizy ludzkiego głosu, która doczekała
się dużej ilości publikacji. Przedstawiono w niej przegląd zagadnień związanych
z akustycznymi cechami głosu ludzkiego i dźwięku violi da gamba oraz próbę
porównania ich brzmień metodami cyfrowej analizy sygnałów, w myśl stwierdzeń
XVII-wiecznych muzyków o rzekomym podobieństwie dźwięków violi do brzmie-
nia ludzkiego głosu.
Rozdział 1 przybliża historię rozwoju violi da gamba i głosu ludzkiego. Opo-

wiada o wzajemnym przenikaniu się idiomu instrumentalnego i wokalnego oraz
tendencjach do porównywania dźwięku instrumentów muzycznych do brzmienia
głosu ludzkiego, obecnych na gruncie popularnych w okresie renesansu i baroku
idei humanizmu.
Rozdział 2 opisuje aparat matematyczny wykorzystany w dalszej części pra-

cy. Definiuje podstawowe pojęcia związane z cyfrową analizą sygnałów, takie
jak szybka transformacja Fouriera (FFT), dyskretna transformacja cosinusowa
(DCT), kepstralnie wygładzone widmo, widmo długoterminowe (Long-Term Ave-
rage Spectrum) oraz techniki analizy sygnałów: wygładzanie widma, wyszukiwa-
nie tonu podstawowego i automatyczna klasyfikacja sygnałów dźwiękowych na
podstawie wektorów współczynników kepstralnych. W rozdziale tym omówione
są również akustyczne właściwości głosu ludzkiego i violi da gamba pod kątem
charakterystycznych zjawisk występujących w widmie ich dźwięku.
W rozdziale 3 przedstawiona jest analiza nagrań trzech głosów kobiecych i

dwóch męskich oraz jednej basowej violi da gamba. Podjęta zostaje próba po-
równania głosu ludzkiego z dźwiękiem violi na podstawie analizy formantowej,
analizy jasności dźwięku oraz automatycznej klasyfikacji nagrań w oparciu o wek-
tory współczynników kepstralnych.
ix
Abstract
This thesis presents the review of issues connected with acoustic features of the
human voice and viola da gamba and attempts to compare the timbres of their
sound by means of digital signal analysis according to the opinions of XVIIth
century musicians about the alleged similarity of viola da gamba sound to the
timbre of human voice.
Chapter 1 describes the history of viola da gamba and human voice. It tells
about vocal and instrumental idiom and their mutual infiltration. It also tells
about tendencies to compare the sound of musical instruments to the human vo-
ice according to the ideas of renaissance and baroque humanism.
Chapter 2 describes the mathematical apparatus used in further experiments.

It defines basic conceptions of digital signal analysis, such as Fast Fourier Trans-
form, Discrete Cosine Transform, cepstrally smoothed spectrum and Long-Term
Average Spectrum. It also describes the techniques for finding fundamental fre-
quency, cepstral smoothing and automatic data classification based on feature
vectors of cepstral coefficients. In this chapter there are also described the aco-
ustical features of human voice and viola da gamba sound.
Chapter 3 presents the analysis of the recordings of three female voices, two
male voices and one bass viol. There is a discussion about the possible similarity
beetween human voice and viola da gamba sound according to certain features
of their spectra and the results provided by automatic classifiers.
xi
Rozdział 1
Wprowadzenie
1.1 Muzyka a informatyka. Informatyka muzyczna

Rozwój informatyki doprowadził ostatnimi czasy do rewolucji w wielu naukach,
wprowadzając nowe metody badawcze oraz sposoby przechowywania i wyszu-
kiwania informacji. Udogodnienia te nie ominęły również muzyki. Ogół technik
i narzędzi informatycznych, wykorzystywanych do analizowania i przetwarzania
muzyki, nazywamy informatyką muzyczną.
Jednym z przejawów działania informatyki muzycznej jest, powstała w latach
90-tych XX wieku, nowa dziedzina informatyki zwana Wyszukiwaniem Informacji
Muzycznej (Music Information Retrieval - MIR) [8]. Polem zainteresowań tej in-
terdyscyplinarnej dziedziny wiedzy jest muzyka zarejestrowana w różnej postaci,
np.:
• na papierze w formie nut, tabulatur i publikacji na temat muzyki,
• na różnego rodzaju nośnikach w formie nagrań,
• w formie sygnału dźwiękowego przetwarzanego na żywo.
Celem MIR jest automatyczna analiza tych źródeł i wyciągnięcie z nich istotnych
informacji, nadających się do późniejszego przetwarzania. Aby było to możliwe,
w pierwszej kolejności zadaniem MIR jest konwersja danych z postaci analogo-
wej na cyfrową. W przypadku publikacji i nut drukowanych na papierze konwer-
sję taką można przeprowadzić za pomocą automatycznych metod rozpoznawania
tekstu i nut (OCR). Konwersję nagrań zapisanych w postaci analogowej przepro-
wadza się natomiast przez spróbkowanie sygnału i zapisanie go w formacie pliku
dźwiękowego.
Dysponując danymi w postaci cyfrowej, można przetwarzać je na różne spo-
soby w celu uzyskania konkretnych informacji: na podstawie cech akustycznych
1
2 ROZDZIAŁ 1. WPROWADZENIE
dźwięków (wysokość tonu podstawowego, kształt widma, natężenie) można uzy-

skać informacje o ich cechach muzycznych (wysokość, barwa, dynamika) i na ich
podstawie automatycznie określić cechy muzyczne całego utworu, takie jak: plan
harmoniczny, tempo, tonacja, itp. Cechy te bada się w oparciu o wiele metod
analizy sygnałów, które zostaną opisane w rozdziałach 2 i 3 tej pracy. Zebrane
informacje można przetwarzać na wiele różnych sposobów, np. do celów automa-
tycznej analizy dzieła muzycznego (określanie formy utworu, instrumentacji, itp.)
albo sporządzania katalogów bibliotecznych w oparciu o incypity utworów lub o
”odciski palców”, zawierające ich charakterystyczne cechy.
Informatykę muzyczną wykorzystuje się również w dziedzinie kompozycji. Wę-
gierski kompozytor György Ligeti (1923-2006) w artykule z 1990 roku ”Moje sta-
nowisko jako kompozytora współczesnego” wymienił informatykę muzyczną jako
jeden z czterech silnych wpływów, pod jakimi pozostawał przez ostatnie lata,
twierdząc że ”wartość muzyki na niej opartej pojawi się wraz z prawdziwymi
indywidualnościami artystycznymi, które opanują niezbędną technikę” [35].
W zastosowaniach informatyki do wyszukiwania i analizowania informacji mu-
zycznych często pomija się jednak muzykę dawną. Autor ma nadzieję, że niniejsza
praca, której celem jest analiza nagrań dźwięku violi da gamba i głosu ludzkiego
pod kątem ewentualnego podobieństwa zachodzącego między nimi, rzuci nowe
światło na zastosowania metod informatycznych do analizy muzyki tworzonej w
okresie od XVI do XVIII wieku.
1.2 Viola da gamba

Bezpośrednim przodkiem instrumentów zaliczanych do grupy viol była średnio-
wieczna viella† . Nazwa ta wywodzi się być może od ludowego, łacińskiego wyrazu
”vitulari”, co znaczy ”brykać, podskakiwać jak cielak” lub też od terminu ”fidel”,
którego pochodzenie jest niejasne [39]. Z początku instrumenty te odróżniały się
od innych instrumentów smyczkowych tej epoki - liry i rebec - ”tylko oddzieloną
wyraźnie od korpusu szyjką (kształt ten zachował się w turkiestańskich skrzyp-
cach), podczas gdy kształt korpusu vielli (pierwotnie żłobionego), wielkość i liczba
strun nie były jeszcze jednakowe” [14]. Około roku 1300 liczba strun vielli ustaliła
†
W różnych źródłach pojawiają się również określenia średniowieczna wiola (np. u Drobnera
[6] i Haraschina [14]) i średniowieczna fidel (np. u Sachsa [39]), jednak nazwy te są nieprecyzyjne.
Określenie wiola przywodzi na myśl skojarzenia z violami da gamba i da braccio (instrumenty
powstałe dużo później), natomiast słowo fidel obejmuje swym znaczeniem również instrumenty
ludowe i pochodzące z kultur pozaeuropejskich. Określenie viella stosowane jest natomiast w
większości źródeł łacińskich (np. w traktatach Hieronima z Moraw i Iohannesa de Grocheo)
w kontekście konkretnego instrumentu o konkretnych cechach [28]. Słowo fidel przeniknęło do
polskiej literatury muzykologicznej ze źródeł niemieckich (np. Sachs [39]) jako zbyt dosłowne
tłumaczenie średnio-wysoko-niemieckiego terminu fiedel, oznaczającego zarówno różne instru-
menty typu fidel, jak i konkretnie viellę. Niekiedy używa się też nazwy vihuela lub vihuela de
arco [51], która jest określeniem vielli w języku kastylijskim. Szarpana odmiana vihueli (vihuela
de mano) to instrument późniejszy w stosunku do wersji smyczkowej.
1.2. VIOLA DA GAMBA 3
się na pięć lub cztery struny w stroju kwart-kwintowo-oktawowym, spośród któ-

rych jedna odgrywała często rolę struny burdonowej. Kołki, na które nawinięte
były struny, osadzano w płaskiej płycie kołkowej na zakończeniu szyjki.
Z biegiem czasu viella podlegała ewolucji, w wyniku której wyodrębiły się z
niej trzy rodziny instrumentów: wiole kolanowe (viola da gamba), liry ramienne
(lira da braccio) i wiole ramienne (viola da braccio). Instrumenty z rodziny viol
da gamba wcześniej niż viole da braccio utworzyły odrębną klasę instrumentów
[39], ale zostały zarzucone już w XVIII wieku, natomiast rodzina viol da braccio z
biegiem czasu ewoluowała i wywarła niemały wpływ na powstanie współczesnych
instrumentów smyczkowych: skrzypiec, altówki, wiolonczeli i kontrabasu.
Viole da gamba Viole da braccio
płyta spodnia płaska płyta spodnia wypukła
płyta spodnia w górnej części płyta spodnia bez nachylenia

nachylona ku szyjce (tzw. daszek)
boczki wysokie boczki niskie
górne boczki spadziste w stosunku górne boczki prostopadłe do szyjki

do szyjki
krawędzie płyt nie wystające poza krawędzie płyt wystające poza
boczki boczki
poprzeczki wzmacniające wewnątrz podłużna belka basowa wewnątrz

instrumentu instrumentu
otwory w kształcie litery C otwory w kształcie ”efów”

lub płomieniste
szeroka szyjka wąska szyjka
komora kołkowa zakończona głową komora kołkowa zakończona

ludzką lub zwierzęcą ślimakiem
progi jelitowe, zawiązywane wokół szyjka bez progów

szyjki i podstrunnicy
sześć lub siedem cienkich strun cztery grube struny strojone
w stroju terc-kwartowym w kwintach
brzmienie płaskie brzmienie ”pełne i soczyste”
Tabela 1.1: Zestawienie charakterystycznych cech viol da gamba i da braccio, wg

C. Sachsa i St. Haraschina [14, 39]
Jak już wcześniej wspomniano, przodkiem renesansowej i barokowej violi była

średniowieczna viella. Z uwagi na niewygodną grę na większych viellach, spowo-
dowaną dużą rozpiętością chwytów na podstrunnicy, należało wprowadzić udo-
Rysunek 1.1: Różne instrumenty smyczkowe okresu renesansu i baroku: 1,2,3 -

różne wielkości viol da gamba, 4 - viola bastarda, 5 - lira da braccio. Il. z Syntagma
Musicum Praetoriusa [32]
Rysunek 1.2: Różne wielkości viol da gamba - ilustracja z traktatu Syntagma

Musicum Praetoriusa [32]
godnienie mające na celu zmniejszenie rozpiętości chwytów. Udogodnieniem tym

było wprowadzenie stroju lutniowego (zwykle wiolista był też lutnistą [14]), ba-
zującego na mniejszych interwałach pomiędzy strunami. Strój wiol oparto więc,
zamiast na interwale‡ kwinty, na kwarcie i tercji wielkej (między strunami środ-
kowymi). Aby nie zawężać przy tym skali instrumentu, zwiększono liczbę strun
do sześciu (zamiast dotychczasowych pięciu lub czterech), a w XVII wieku do
siedmiu. ”Jednocześnie dla sprostania zwiększonemu napięciu dłuższych i bardzo
mocnych strun, płytę z prosto osadzonymi kołkami zastąpiono odgiętą lekko do
tyłu komorą kołkową z kołkami bocznymi (wpływ rebecu)” [14]. Wprowadzono
również progi, na początku jelitowe, a później wbudowane w instrument.
W ten sposób rozwinęła się cała rodzina wiol, której pierwszym przedstawi-
cielem była wiola basowa [39] (wg innej nomenklatury ten typ wioli nazywany
był wiolą tenorową lub altowo-tenorową - patrz tabela 1.2). Już w pierwszych
dziesięcioleciach XVI wieku zaczęły powstawać inne rozmiary instrumentów tej
rodziny.
Wysokość Najniższa Nazwa dawna, Nazwa nowa,

(cm) struna ok. 1500 ok. 1600
ok. 70 d Dyszkant Mały dyszkant (Dy-
szkant)
ok. 100 A Alt-tenor Dyszkant (Alt)
ok. 130 D Bas Alt-tenor (Tenor)
ok. 140 G1 Mały bas
ok. 190 E1 Wielki bas
ok. 210 Subbas
Tabela 1.2: Rozmiary viol da gamba, wg St. Haraschina [14]
Wiole basowe mają korpus rezonansowy o długości od 61 do 76 cm i posiadają

następujące struny: D, G, c, e, a, d1 . Wiole tenorowe posiadają korpus o długości
50-58 cm i struny A, D, g, h, e1 , a1 , a dyszkantowe od 32 do 45 cm długości i strój
d, g, c1 , e1 , a1 , d2 [39]. Różnice w rozmiarach viol w obrębie danej kategorii mają
wpływ na barwę dźwięku instrumentu, co wynika zapewne głównie z rozmiesz-
czenia formantu rezonansu powietrza zamkniętego w pudle rezonansowym. Curt
Sachs podaje za ”Briefe Introduction to the Skill of Musick” Johna Playforda,
że ”wiola basowa przeznaczona dla consortu§ musi być największa i odpowiednio
dłuższe mieć struny. Wiola basowa przeznaczona do wykonania divisions¶ powin-
na mieć mniejsze rozmiary i odpowiednio krótsze struny (patrz rys. 1.3 i 1.4 -
przypis autora). Wiola basowa do gry na sposób liry, tj. z tabulatury, musi być
nieco mniejsza od dwóch poprzednich i z odpowiednio krótszym naciągiem strun”
‡
Interwał - muzyczne określenie stosunku wysokości dwóch dźwięków. Patrz słownik pojęć
muzycznych: dodatek C
§
Zespołu viol.
¶
Dyminucje, figuracje melodyczne.
Rysunek 1.3: Dwa rodzaje wioli basowej przeznaczonej do wykonywania divisions.

Ilustracja z traktatu Christophera Simpsona [27]
Rysunek 1.4: Sposób trzymania division viol. Ilustracja z traktatu Christophera

Simpsona [27]
[39]. Wynika stąd, że najlepiej wzmocnione dolne dźwięki skali instrumentu po-
trzebne są w violach przeznaczonych do gry w consorcie, a viole przeznaczone do
gry solowej nie potrzebują tak dobrze wzmocnionych dołów. Związek wielkości
pudła rezonansowego instrumentu z jego właściwościami akustycznymi i strojem
jego strun opisano dokładniej w rozdziałach 2.7.3 i 3.3.1.
Z biegiem czasu wynaleziono wiele instrumentów, bazujących na konstrukcji
violi da gamba, ale przeznaczonych do specjalnych zastosowań i łączących cechy
violi z cechami innych, ówcześnie występujących, instrumentów muzycznych. Do
takich instrumentów należą m.in.:
• Viola bastarda (ang. lyro-viol) - viola tenorowa, która przejęła pewne cechy
liry da braccio. Posiadała otwory rezonansowe w kształcie litery C lub F
oraz rozetkę poniżej podstrunnicy, charakterystyczną dla lir i wogóle in-
strumentów szarpanych. Struny strojono w stroju kwart-kwintowym. Od
początku XVII wieku dodano struny rezonansowe, wzbogacające swą cha-
rakterystyką odpowiedzi rezonansowej barwę instrumentu. Viole bastarda z
początku posiadały na zwieńczeniu komory kołkowej, podobnie jak viole da
braccio, ślimaka, jednak później zastąpiono go charakterystyczną dla gamb
rzeźbioną głową. Z czasem instrument ten upodobnił się do violi da gamba
również pod względem stroju. W solowej grze na violi bastarda stosowano
często scordaturę (zmianę stroju strun) [51].
• Baryton (wł. viola di bardone) - instrument wynaleziony w Niemczech,

wykształcił sie z violi bastarda. Posiada od sześciu do siedmiu strun w stro-
ju gambowym oraz pewną liczbę strun rezonansowychk . Struny te, oprócz
spełniania funkcji rezonansowej, były również zarywane kciukiem lewej ręki.
Baryton nie znalazł szerszego zastosowania ze względu na wiele niedogod-
ności, takich jak trudne chwyty, uciążliwa do trzymania szeroka szyjka oraz
konieczność strojenia dużej ilości strun. Dużą liczbę utworów na baryton
napisał Haydn dla księcia Mikołaja Esterhazego.
• Viola d’amore (zwana amorką lub - błędnie - altówką miłosną∗∗ ) - instru-

ment pokrewny barytonowi, powstały w połowie XVIII wieku. Posiada
”oprócz pięciu do siedmiu strun melodycznych, siedem do czternastu dia-
tonicznie lub chromatycznie nastrojonych strun rezonansowych, które prze-
biegały poprzez podstawek i pod podstrunnicą” [14]. Otwory rezonansowe w
kształcie płomienistym. Viola d’amore wychodzi z użycia pod koniec XVIII
wieku.
k
Wg Haraschina [14] od siedmiu do czterdziestu czterech
∗∗
Wskazuje to na rzekomą przynależność violi d’amore do rodziny skrzypiec, co nie jest
prawdą.
Ok. roku 1750 viole da gamba wyszły z użycia. Najdłużej utrzymała się naj-
dawniejsza, basowa viola da gamba, będąca cenionym instrumentem koncerto-
wym aż do drugiej połowy XVIII wieku, kiedy wyparta została przez wiolonczelę.
Odrodzenie popularności violi da gamba zawdzięczamy tendencjom do ponow-
nego odkrywania muzyki dawnej, rozpoczętym w II połowie XIX wieku. Przywró-
cono wtedy wiele dawnych instrumentów, takich jak obój d’amore, rożek baseto-
wy, viola d’amore, viola da gamba, violino piccolo, klawesyn, klawikord, cynki i
wysokie trąbki [39]. W odtwarzaniu dawnych instrumentów rzadko kierowano się
jednak prawdą historyczną. W ”Historii instrumentów muzycznych” [39] z 1940
r. Curt Sachs stwierdza:
U większości współczesnych gambistów sposób trzymania instru-

mentu i sposób gry pokrywa się z techniką wiolonczelową; gamby ze
zbyt długimi podstrunnicami, w dodatku bez progów, ze zbyt wyso-
kimi i wypukłymi podstawkami, wyposażone we współczesnego typu
struny i smyczki, tak nieznacznie różnią się w brzmieniu od wiolon-
czeli, iż słuchacze zastanawiali się, po co instrumentalista zadaje sobie
tyle trudu grając na sześciu lub siedmiu strunach, zamiast na czterech.
Od czasu powstania pracy Sachsa aż do napisania niniejszej pracy magister-

skiej minęło jednak 68 lat i wykonawstwo muzyki dawnej przeszło radykalne
reformy. Współcześni wykonawcy i lutnicy kierują się zasadą HIP (Historically-
Informed Practice), starając się jak najlepiej oddać prawdę historyczną w wy-
konawstwie utworów i budownictwie instrumentów. Współczesne gamby mają
napewno dużo więcej wspólnego z historycznymi odpowiednikami, a technika gry
na nich jest bardziej zbliżona do techniki sprzed 300 lat, jednak stuprocentowe
odwzorowanie budowy instrumentów i techniki gry jest niemożliwe.
1.3 Głos ludzki a muzyka instrumentalna

Omawianie historii rozwoju ludzkiego głosu rozpoczniemy od historii naturalnej.
Jednym z najważniejszych organów uczestniczących w procesie fonacji, czyli
powstawania głosu, jest krtań. Narząd ten pełnił u prymitywnych zwierząt (patrz
rys. 1.5) pierwotnie funkcję ochronną przed wtargnięciem do płuc ciał obcych,
głównie wody. Krtań ogranicza się u nich do zwieracza mięśniowego, który kurczy
się, gdy zwierze oddycha pod wodą za pomocą skrzeli, a rozluźnia, gdy zwierzę
przechodzi na oddychanie powietrzem atmosferycznym za pomocą płuc [54].
Zdolność krtani do wydawania dźwięków wiąże się z wykształceniem chrzą-
stek krtaniowych. Duże chrząstki krtaniowe, stanowiące całkowite odgraniczenie
szpary głośni, występują u ptaków. Dają one możliwość wydawania głosu, jednak
głos ten posiada mały ambitus† i możliwości techniczne. Zdolność do wydawania
†
Ambitus - rozpiętość interwałowa pewnej sekwencji dźwięków, patrz słownik (dodatek C).
1.3. GŁOS LUDZKI A MUZYKA INSTRUMENTALNA 9
Rysunek 1.5: Prapłetwiec abisyński (Protopterus aethiopicus) - ryba dwudyszna

[7]
głosu rozwija się wraz z rozwojem kory mózgowej, stąd najbardziej rozwinięta
funkcja głosotwórcza występuje u człowieka [54].
Poprzez możliwość wydawania dźwięków, krtań uzyskała funkcję komunika-
cyjną. Proste, nieartykułowane dźwięki z biegiem czasu przekształciły się w ar-
tykułowaną mowę, a następnie śpiew. W ten sposób głos ludzki, obok swej pier-
wotnej funkcji komunikacyjnej, uzyskał również funkcję artystyczną, stając się
podstawowym narzędziem do tworzenia muzyki.
W muzyce europejskiej od czasów starożytnych do XVI wieku śpiew wiódł
niekwestionowany prym, a instrumenty muzyczne budowano głównie dla akom-
paniowania głosowi lub wspomagania go poprzez zdwajanie jego dźwięków. Mu-
zyka przeznaczona na instrumenty posiadała cechy wokalne i często stanowiła
dosłowne transkrypcje dzieł przeznaczonych do wykonania wokalnego.
Ten stan rzeczy zmienił się w epoce dojrzałego renesansu. Ewolucja instru-
mentów muzycznych, prowadząca do znacznego zwiększenia ich możliwości tech-
nicznych, oraz działalność wybitnych wirtuozów-instrumentalistów, doprowadziły
do powstania tzw. idiomu instrumentalnego (czyli sposobu gry charakterystycz-
nego dla konkretnego instrumentu, z uwzględnieniem jego budowy i możliwości
wykonawczych) oraz faktury instrumentalnej. O przeobrażeniach fakturalnych w
muzyce XVI wieku pisze Józef Chomiński w ”Historii harmonii i kontrapunktu”
[3]:
Podczas gdy w utworach organowych i przeznaczonych na instru-

menty klawiszowe oraz na zespoły instrumentalne sprawa głosów jest
aktualna i koncypowanie głosami utrzymuje się [...], to w muzyce lut-
niowej już od samego początku układ głosowy jest zjawiskiem mało
realnym [...], nie odpowiadającym założeniom muzyki lutniowej z racji
specyficznych właściwości wykonawczo-technicznych gry lutniowej.
Fakt zachodzenia przemian fakturalnych spowodowanych przez rozwój idio-

mu instrumentalnego potwierdza XVII-wieczny kompozytor Christoph Bernhard,
prowadząc rozważania na temat zasad kontrapunktu:
Jednakże, skoro kwarta nie została jeszcze przez praktyków uzna-

na całkowicie za konsonans, to nie wiem jak usprawiedliwić jej skok, a
tym bardziej sekundę, której [wprowadzenie] sprawia, że na nieparzy-
stej mierze pojawiają się dwa dysonanse, jeden nad drugim. Chociaż,
jeśli ktoś miałby zamiar wprowadzić szałamaje, trąbki, etc., czegoś
takiego nie poczytano by mu za złe, widząc, iż w ten sposób tym wy-
raźniej podkreśliłby on charakterystyczne zastosowanie tych instru-
mentów [2].
Rozwój idiomu instrumentalnego w XVI wieku nie ominął również violi da

gamba. Jednym z pierwszych teoretyków, którzy zapoczątkowali powstanie idio-
mu tego instrumentu, był Diego Ortiz - autor traktatu ”Tratado sobre clausulas
y ostros generos depuntos en la musica de violones muevamente puestos en luz”
z 1553 r. [3]
Począwszy od II połowy XVI wieku muzyka instrumentalna zaczęła się więc
uniezależniać od muzyki wokalnej. W twórczości kompozytorów XVII-wiecznych
i póżniejszych, a także w dziełach słynnych lutników oraz w licznych traktatach
poświęconych teorii muzyki, grze na instrumentach i nauce kompozycji, widoczna
jest jednak wzajemna fascynacja tych dwóch gałęzi muzyki: głos ludzki próbuje
naśladować misterne zdobnictwo i wirtuozowską figurację charakterystyczną dla
muzyki instrumentalnej, a instrumenty starają się naśladować emocje tkwiące w
ludzkim głosie, jego charakterystyczną barwę i manierę śpiewaczą.
Porównywanie brzmienia instrumentów muzycznych do brzmienia ludzkiego
głosu było bardzo powszechne, począwszy od XVI wieku, na fali popularnych
ówcześnie idei humanizmu. Zdolność instrumentów do naśladowania głosu była
bardzo ceniona i pożądana. Tak Marin Mersenne, XVII-wieczny teoretyk, pisze
o puzonie:
Powinien na nim grać dobry muzyk, aby nie naśladować głosu

trąbki, ale raczej upodobnić jego dźwięk do słodkości ludzkiego głosu,
ażeby nie wydawać wojowniczych zamiast spokojnych dźwięków‡ .
Niemiecki flecista, wytwórca fletów i kompozytor, Johann Joachim Quantz

(1697-1773) pisze na temat fletu traverso:
Ogólnie mówiąc, najbardziej zadowalającym dźwiękiem na flecie

jest ten, który bardziej zbliżony jest do kontraltu niż sopranu, czyli
taki, który naśladuje tony piersiowe ludzkiego głosu. [...] Wiele zależy
‡
Przekład własny autora z tłumaczenia angielskiego: ”It should be blown by a skillful mu-
sician so that it may not imitate the sounds of the trumpet, but rather assimilate itself to the
sweetness of the human voice, lest it should emit a warlike rather than a peaceful sound”
1.3. GŁOS LUDZKI A MUZYKA INSTRUMENTALNA 11
Rysunek 1.6: Śpiew przy akompaniamencie basso continuo realizowanym przez

violę da gamba i lutnię. Drzeworyt Abrahama Bosse [17]
Rysunek 1.7: Marin Mersenne [52]

od samego fletu i tego, czy jego dźwięk wykazuje niezbędne podobień-

stwo do głosu ludzkiego. Jeśli tego podobieństwa nie posiada, nikt nie
jest w stanie poprawić jakości jego dźwięku§ .
Opinie Quantza są w świetle współczesnej nauki bardzo dojrzałe - opisuje on

bowiem pożądane cechy barwy dźwięku, która ma być podobna do barwy rejestru
piersiowego głosu kobiecego, unikając przy tym pustej retoryki i nie odwołując
się do subiektywnych skojarzeń i wieloznacznych określeń.
1.4 Viola da gamba a głos ludzki

Wspomniana idea brzmieniowa dotyczyła również violi da gamba. Instrument ten
ma bardzo rozbudowany idiom: posiada rozległą skalę, duże możliwości w zakresie
gry polifonicznej i akordowej oraz rozległe pole manewru dla technicznej wirtuoze-
rii w zakresie ornamentacji i figuracji. Mimo tych wielu typowo instrumentalnych
własności, viola da gamba była przez licznych XVII- i XVIII-wiecznych muzyków
uznawana za instrument szczególnie nadający się do naśladowania głosu ludzkie-
go. Francuski kompozytor, teoretyk i wiolista, Jean Rousseau(1644 - 1699), w
traktacie Traite de la Viole (1687) stwierdza:
[...] nie można zaprzeczyć, że żaden z instrumentów nie zbliżył się

nigdy tak bardzo do głosu ludzkiego jak viola, która różni się od głosu
tylko tym, że nie artykułuje słów† .
oraz:
Prawdą jest, że francuscy violiści, z ich wyczuciem imitacji ludz-

kiego głosu, są znakomitsi niż Anglicy, którzy rozrzutnie stosują akor-
dy i dyminucje, będąc godnymi pochwały raczej za ich biegłość, niż
wyczucie dobrego smaku [...]‡
W podobnym tonie wypowiada się Marin Mersenne w swym traktacie Har-

monie Universelle:
§
Przekład własny autora z języka angielskiego: ”In general, the most pleasing tone quality
(sonus) on the flute is that which more nearly resembles a contralto than a soprano, or which
imitates the chest tones of the human voice. [...] Much depends upon the flute itself, and whether
its tone has the necessary similarity to the human voice. If it lacks this, no one can improve the
tone quality [...]” [33].
†
Przekład własny autora z tłumaczenia angielskiego: ”[...]it cannot be contested that no
instrument has ever approached it (the human voice) more closely than the Viol, which differs
from the human Voice only in that it does not articulate the words” [44].
‡
Przekład własny autora z tłumaczenia angielskiego: ”It is true that the French viol players,
in their feeling imitation of the human voice, are superior to the profuse chords and amazing
diminutions of the English players, more admirable for their skill than for their good taste [...]”
[42].
1.4. VIOLA DA GAMBA A GŁOS LUDZKI 13
Z pewnością, jeśli instrumenty ceni się za ich zdolność do imitacji

ludzkiego głosu, a najbardziej podziwianą ze sztuk jest ta, która najle-
piej naśladuje Naturę, wtedy poskąpić nie powinniśmy szacunku wioli,
skoro imituje ona ludzki głos we wszystkich jego modulationes, nawet
w najgłębszych wyrazach smutku i radości. Smyczek bowiem, który
wydobywa efekt do którego się odnieśliśmy, jest ciągnięty po strunie
w takich samych, w przybliżeniu, odstępach czasu, jak prawidłowy
oddech śpiewającego człowieka, którego radość, smutek, biegłość, de-
likatność i siłę potrafi naśladować przez żywość, ospałość, zwinność,
łagodność i emfazę. Podobnie tremola i delikatne palcowanie lewej
ręki zmyślnie naśladują jego [głosu] manierę i urok§ .
Z przytoczonego fragmentu wynika, że podobieństwo do głosu ludzkiego osią-

gnąć można za pomocą odpowiedniego smyczkowania i artykulacji. Różnicując
prędkość ruchów smyczka i siłę jego nacisku można naśladować ludzkie emocje.
Mersenne wskazuje również na możliwość osiągnięcia efektu wibrata¶ , które na-
śladuje naturalne wibrato ludzkiego głosu (patrz 2.8.8).
Ponieważ niniejsza praca traktuje głównie o analizie spektralnej, autor posta-
ra się określić czy wyżej wspomniana technika gry, mająca zbliżyć dźwięk violi
da gamba do głosu ludzkiego, pozostawia jakiś ślad w widmie dźwięku i daje
rezultaty wykrywalne za pomocą metod analizy częstotliwościowej.
§
Tłumaczenie własne autora z przekładu angielskiego: ”Certainly, if instruments are prized
to the extent that they imitate the human voice, and if the most admired of all artifice is that
which most closely represents Nature, then the viol should not be denied our esteem, since it
mimics the human voice in all its modulations, even in its profoundest accents of sadness and
joy: because the bow, which produces the effect to which we have referred, is drawn across the
strings in approximately the same length of time as the normal breath of the human voice,
whose joy, sadness, agility, gentleness, and strength it can imitate by means of its vivaciousness,
languor, rapidity, ease, and emphasis. Similarly, the tremolos and delicate fingering of the left
hand ingenuously represent its manner and its charm” [42].
¶
Terminy artykulacyjne w XVII-wiecznej literaturze stosowane były w sposób niekonse-
kwentny i zależny od upodobań konkretnego autora. Należy przyjąć, że jeśli Mersenne stosuje
termin tremolo do opisania ruchów lewej ręki, to chodzi tutaj o technikę, którą w terminologii
związanej z grą na skrzypcach, określamy nazwą vibrato. Być może termin tremolo jest jednak
bardziej odpowiedni dla instrumentu posiadającego progi, co sprawia że technika ta wywołuje
w większym stopniu modulację amplitudy, niż częstotliwości. Autor użył jednak nazwy vibrato
aby uniknąć porównania z tremolem wokalnym, będącym zjawiskiem patologicznym.
Rozdział 2
Podstawy teoretyczne
2.1 Dźwięk w muzyce

W muzyce wykorzystywane są następujące zjawiska dźwiękowe:
1. Ton - sygnał elementarny, reprezentowany przez sinusoidę, odpowiadającą

drganiu o określonej częstotliwości. Wysokość tonu jest rozpoznawana przez
ludzkie ucho. Patrz rys. 2.1.
1
Amplituda
−1
Czas
Rysunek 2.1: Ton - przykład
2. Szum - sygnał o zrównoważonym widmie dźwięku, w którym żadna skła-

dowa częstotliwościowa nie posiada znacząco większej amplitudy od reszty
15
16 ROZDZIAŁ 2. PODSTAWY TEORETYCZNE
składowych sygnału. Szumy uzyskiwane są w muzyce za pomocą większości

instrumentów perkusyjnych, stroików instrumentów dętych, na tzw. wardze
w piszczałkach wargowych, przy pocieraniu smyczkiem o strunę, itp. i mo-
gą być zjawiskiem pozytywnym lub niepożądanym. W zależności od energii
przenoszonej przez poszczególne pasma częstotliwości mówimy o szumie
białym, różowym, czerwonym, itp. (analogia do fal świetlnych).
3. Wieloton harmoniczny∗ - sygnał dźwiękowy, składający się z tonu podsta-

wowego i jego składowych harmonicznych, czyli sinusoid o kolejnych cał-
kowitych wielokrotnościach jego częstotliwości (patrz rys. 2.2). Wysokość
tonu podstawowego i (przy odpowiednim treningu) pewnych jego składo-
wych harmonicznych (alikwotów) również jest rozpoznawana przez ludzkie
ucho. Zjawisko wielotonu harmonicznego zasługuje na szczególną uwagę -
jest to bowiem jedno z najczęściej występujących zjawisk w muzyce, będące
istotą działania większości instrumentów.
Amplituda
Czas
Rysunek 2.2: Wieloton harmoniczny - przykład. Obecne pierwsze 4 alikwoty.
4. Wieloton nieharmoniczny - sygnał dźwiękowy zawierający nieharmonicz-

ne składowe częstotliwości, czyli takie, które nie pozostają wobec siebie
w stosunkach wyrażonych kolejnymi liczbami naturalnymi (2:1, 3:2, 4:3,
itp.). Wytwarzany przez niektóre instrumenty muzyczne z grupy idiofo-
nów. ”Ucho ludzkie przyjmuje wieloton nieharmoniczny także jako jedno,
łączne zjawisko; ucho nie wyróżnia jednak żadnej częstotliwości jako głów-
nej i brzmienie z punktu widzenia wysokości może być określone jedynie w
przybliżeniu” [6].
∗
Zwany również dźwiękiem muzycznym.
2.1. DŹWIĘK W MUZYCE 17
Amplituda
Czas
Rysunek 2.3: Wieloton nieharmoniczny - przykład.
W praktyce dźwięk wytwarzany przez instrumenty muzyczne (lub głos ludzki) jest
wypadkową powyższych rodzajów zjawisk dźwiękowych. Wytworzenie wielotonu
harmonicznego jest zasadniczym celem działania instrumentu muzycznego, ale o
końcowej barwie dźwięku decyduje wiele czynników:
• Szumy: szum stroika, szum smyczka pocieranego o strunę, odgłos zamyka-

nych klap, odgłos palców przesuwających się po strunach, odgłos skoczków
w klawesynie, itp.
• Sztuczne węzły drgań, które w sposób mechaniczny usuwają z sygnału pew-

ne częstotliwości. Rozmieszczenie sztucznych węzłów drgań zależy w instru-
mentach dętych od budowy piszczałki (otwarta, zamknięta), a w instrumen-
tach strunowych od miejsca smyczkowania (przy podstawku, przy szyjce,
itp.) lub miejsca zarywania strun.
• Odpowiedź rezonansowa układu. Odpowiedzialne są za nią elementy re-

zonacyjne instrumentu (lub naturalne rezonatory ciała w przypadku śpie-
wu). Odpowiedź rezonansowa powoduje wzmocnienie lub wytłumienie pew-
nych częstotliwości w pierwotnym sygnale. Częstotliwości, które podlegają
wzmocnieniu na skutek odpowiedzi rezonansowej, nazywane są formantami.
Dźwięki w muzyce powstają więc zazwyczaj w kilkuetapowym procesie:
1. Pobudzenie. Wibrator instrumentu wytwarza sygnał x(t) rozpatrywany

jako cykl impulsów (pobudzeń) w czasie. Sygnał ten jest zależny od rodzaju
wibratora zastosowanego w instrumencie (stroik, struna, membrana, struny
głosowe, itp.) i ma on zwykle charakter szumu.
2. Utworzenie fali stojącej. Na skutek wytworzenia fali stojącej (na strunie

lub piszczałce) zostają w sygnale wzmocnione częstotliwości harmoniczne,
czyli ton podstawowy (zależny od długości struny lub piszczałki) i jego
całkowite wielokrotności. Powstaje właściwy dźwięk muzyczny.
3. Odpowiedź rezonansowa. Sygnał dźwiękowy jest filtrowany przez sygnał

filtrujący h(t), będący odpowiedzią impulsową układu. W wyniku tej filtra-
cji niektóre składowe częstotliwościowe pierwotnego sygnału x(t) zostają
wzmoznione lub przytłumione i powstaje wyjściowy sygnał y(t). W tym
etapie uczestniczą głównie elementy rezonacyjne instrumentu (pudło rezo-
nansowe, korpus piszczałki, itp.) lub naturalne rezonatory ciała ludzkiego
(w przypadku śpiewu).
2.2 Powstawanie fali stojącej

Fala stojąca powstaje przy nałożeniu się dwóch fal poruszających się w prze-
ciwnych kierunkach. Zjawisko to powstaje zwykle wtedy, gdy fala spotyka się ze
swoim własnym odbiciem. W instrumentach muzycznych ma to miejsce w przy-
padku drgania struny lub słupa powietrza w piszczałkach.
Fala stojąca nie przesuwa się. W określonych miejscach drgającego ciała po-
wstają stałe węzły, ”podczas gdy w innych miejscach cząstki wychylają się na
przemian w kierunku grzbietu i w kierunku doliny fali (są to tzw. strzałki fali
stojącej)” [6].
W violi da gamba i innych instrumentach strunowych fala stojąca powstaje
dzięki odbiciu się od nieruchomych punktów na jej końcach. Węzły fali przypa-
dają więc zawsze na końcach struny. Długość struny stanowi połowę długości fali
stojącej.
Oprócz dwóch węzłów na końcach struny, powstają również dalsze węzły
umieszczone pomiędzy nimi. Węzły te dzielą strunę na odcinki równe jej 1/2,
1/3, 1/4, itd. długości. Wszystkie tony wydawane przez strunę tworzą więc sze-
reg harmoniczny - w ten sposób powstaje wieloton harmoniczny.
Na powstawanie i zanikanie węzłów, a więc na zawartość poszczególnych to-
nów harmonicznych w widmie dźwięku mają wpływ dwa prawa Younga:
1. Struna nie może wykonywać takich drgań, których węzeł przypada w punk-
cie pobudzenia struny [6].
2. Jeśli drgania struny zostaną w sposób sztuczny stłumione w jakimś punk-

cie, wówczas struna może wykonywać tylko takie drgania, których węzeł
przypada w miejscu stłumienia [6].
Pierwsze prawo Younga związane jest z miejscem smyczkowania. Zależnie od

miejsca pobudzenia struny smyczkiem mogą zostać usunięte z sygnału pewne
2.3. ODPOWIEDŹ REZONANSOWA. SPLOT SYGNAŁÓW 19
Rysunek 2.4: Podział struny na odcinki równej długości poprzez powstające na

niej węzły drgań harmonicznych.
tony harmoniczne, co wywiera duży wpływ na barwę dźwięku. Grając bliżej pod-
stawka (sul ponticello) osiąga się ton szorstki i bogaty w szumy oraz wysokie
alikwoty (pobudzenie ma kształt piłokształtny), a grając nad chwytnikiem (sul
tasto) uzyskuje się dźwięk łagodny i przytłumiony (pobudzenie ma kształt trój-
kątny). Drugie prawo Younga wykorzystywane jest natomiast do wytwarzania
flażoletów.
2.3 Odpowiedź rezonansowa. Splot sygnałów

Jak wspomniano wcześniej, dźwięk w muzyce składa się z etapu pobudzenia i
odpowiedzi rezonansowej. Zajmiemy się teraz tym drugim etapem, w którym
sygnał dźwiękowy jest filtrowany przez sygnał filtrujący h(t), będący odpowiedzią
impulsową układu. W wyniku tej filtracji z pierwotnego sygnału x(t) zostają
usunięte niektóre jego składowe częstotliwościowe i powstaje wyjściowy sygnał
y(t). Filtracja sygnału x(t) przez h(t) opisywana jest za pomocą operacji splotu:
+∞
Z +∞
Z
y(t) = x(τ )h(t − τ )dτ = h(τ )x(t − τ )dτ, (2.1)
−∞ −∞
którą zapisujemy symbolicznie w następujący sposób:
y(t) = x(t) ? h(t) (2.2)
Kolejność operacji podczas obliczania splotu jest następująca [55]:
1. Odwróć w czasie drugi z sygnałów ze względu na τ : h(τ ) → h(−τ )
2. Przesuń drugi sygnał w czasie o czas t: h(−τ ) → h(t − τ )
3. Wymnóż pierwszy sygnał ze zmodyfikowanym drugim: x(t)h(t − τ )
4. Scałkuj wynik mnożenia.
Dla sygnałów dyskretnych równanie splotu wygląda następująco:

∞
X ∞
X
y(n) = x(k)h(n − k) = h(k)x(n − k) (2.3)
k=−∞ k=−∞
W praktyce przyjmuje się, że układ rezonansowy (np. pudło rezonansowe al-

bo naturalne rezonatory ciała ludzkiego) wzmacnia składowe o częstotliwościach
leżących w paśmie przepustowym wyznaczonym przez częstotliwości f1 i f2 , dla
których natężenie spada w stosunku do maksymalnego natężenia w paśmie nie
3dB
Amplituda [dB]
Pasmo przepustowe
filtru
f1 f0 f2
Czestotliwosc [Hz]
Rysunek 2.5: Przykładowa charakterystyka częstotliwości filtru. Fragment krzy-

wej rezonansowej. f1 , f2 - częstotliwości skrajne, f0 - częstotliwość środkowa
pasma przepustowego
2.4. CECHY JAKOŚCIOWE DŹWIĘKU W MUZYCE 21
więcej niż o połowę, czyli o 3 dB [36], jak widać na przykładzie 2.5. Jest to uprosz-
czony wykres, przedstawiający fragment krzywej rezonansowej; podobne wykresy
będziemy uzyskiwać za pomocą metody kepstralnego wygładzania widma (patrz
rozdział 2.5.6).
2.4 Cechy jakościowe dźwięku w muzyce

Człowiek postrzega dźwięki poprzez szereg ich cech jakościowych. Niektóre z tych
cech, takie jak natężenie dźwięku, mogą być obiektywnie określone za pomocą
wielkości fizycznych. Jednak większość cech dźwięku, takich jak np. barwa, po-
strzegamy instynktownie, ale nie określono jednoznacznie zjawisk fizycznych, któ-
re za nie odpowiadają. Poniższy spis zawiera wybrane cechy jakościowe dźwięku
oraz proponowane sposoby matematycznego ich opisu† :
1. Wysokość dźwięku - cecha związana z częstotliwością tonu podstawowe-

go. Zmiana częstotliwości zawsze powoduje zmianę postrzeganej wysokości
dźwięku, ale istnieją również inne czynniki wpływające na zmianę postrze-
ganej wysokości. Są to: zmiana głośności, zmiana czasu trwania i zmiana
składu widmowego [36]. Metody określania częstotliwości tonu podstawo-
wego opisano w 2.5.8.
2. Głośność dźwięku - cecha związana z natężeniem dźwięku, mierzalna su-

biektywnie (poziom głośności w fonach) lub obiektywnie (poziom dźwięku
w decybelach),
3. Barwa dźwięku - cecha związana z widmem dźwięku, a konkretnie z roz-

mieszczeniem formantów rezonansowych. Nie istnieje obiektywna miara tej
cechy dźwięku. ”Próg rozróżniania barwy ocenia się jako przesunięcie czę-
stotliwości decydującego formantu o 1/2 tonu” [36],
4. Wibrato - cecha dźwięku wywołana modulacją częstotliwości (okresową

zmianą częstotliwości dźwięku). ”Najpewniej wibrato brzmi przy zmianach
częstotliwości wynoszących 7 na sekundę” [36],
5. Jasność - cecha związana z zawartością wysokich składowych harmonicz-

nych w widmie dźwięku. Nie istnieje jednoznaczna definicja tej cechy dźwię-
ku. Zwykle wiąże się ją ze ”środkiem masy” widma (spectral centroid) wy-
liczanym z następującego wzoru:
−1
NP
f (n)x(n)
n=0
fc = NP−1
, (2.4)
x(n)
n=0
†
Wg K. Danecka - Szopowa [5], G. Peeters [30], E. Schubert, J. Wolfe, A. Tarnopolsky [43]
gdzie x(n) to wartość danej próbki widma, a f (n) to częstotliwość dla danej
próbki. Jak widać jest to zwyczajny wzór na średnią ważoną, w której war-
tości amplitudy dla kolejnych próbek widma są wagami dla uśrednianych
wartości częstotliwości.
Wg jednej hipotezy jasność barwy dźwięku związana jest bezpośrednio
z wartością fc , a według innej ze stosunkiem fc do tonu podstawowego:
fc /f0 .[43] Ponieważ współczynnik fc odpowiada częstotliwości, na której
leży środek masy widma, to jego jednostką jest Hz. Współczynnik fc /f0
odpowiada stosunkowi dwóch częstotliwości, jest więc wielkością niemiano-
waną,
6. Nieharmoniczność (Inharmonicity) - reprezentuje stosunek energii widma

sygnału do czystego wielotonu harmonicznego. Cecha ta jest wyznaczana
według następującego wzoru:
|f (h) − hf0 |a2 (h)

P
2 h
Inharmonicity = P 2 , (2.5)
f0 a (h)
h
gdzie h - nr próbki widma, f(h) - częstotliwość dla danej próbki, a(h) -

amplituda dla danej próbki, f0 - częstotliwość tonu podstawowego. Wartości
tej funkcji mieszczą się w granicach od 0 do 1, gdzie 0 oznacza czysty
wieloton harmoniczny, a 1 sygnał pozbawiony składowych należących do
szeregu harmonicznego [30].
2.5 Analiza częstotliwościowa dźwięku

2.5.1 Rys historyczny
Ważnym narzędziem analizy sygnałów dźwiękowych jest analiza częstotliwościo-
wa (widmowa), za pomocą której można badać różnego rodzaju cechy sygnału
w dziedzinie częstotliwości. Zanim opracowano nowoczesne metody analizy wid-
mowej dźwięku, przeprowadzano ją w sposób eksperymentalny. Eksperyment taki
polegał na oddziaływaniu analizowaną falą dźwiękową na zestaw rezonatorów na-
strojonych na określone częstotliwości. Jeśli jakiś rezonator ulegał wzbudzeniu,
to oznaczało to, że w analizowanym sygnale znajduje się częstotliwość leżąca w
okolicach charakterystycznego dla tego rezonatora formantu.
”Taką analizę dźwięku przeprowadził po raz pierwszy Helmholtz w 1863 roku.
Zastosował on rezonatory wykonane w kształcie kul drewnianych z szyjką wlo-
tową (o większym przekroju) oraz z szyjką wylotową (o mniejszym przekroju) -
do podsłuchu” [36]. Metoda ta ma jednak wiele wad, wśród których najbardziej
znaczącą jest jej niedokładność.
Analizę widmową dźwięku można przeprowadzać również za pomocą zestawu
2.5. ANALIZA CZĘSTOTLIWOŚCIOWA DŹWIĘKU 23
filtrów pasmowoprzepustowych, które przepuszczają tylko określony zakres czę-

stotliwości.
Aktualnie najpopularniejszą metodą analizy sygnałów jest ich spróbkowanie i
analiza cyfrowa, która zostanie szczegółowo opisana w następnych podrozdzia-
łach.
2.5.2 Transformacja Fouriera. Widmo dźwięku

Podstawowym aparatem matematycznym analizy częstotliwościowej sygnałów,
pozwalającym przejść z dziedziny czasu do dziedziny częstotliwości, jest transfor-
macja Fouriera. Jej teoretyczne podstawy stworzone zostały w XIX wieku przez
J.B.J. Fouriera (1762-1830), który udowodnił twierdzenie mówiące o tym, że każ-
dą funkcję okresową lub quasiokresową można rozłożyć na składowe sinusowe i
cosinusowe.
Prosta transformacja Fouriera pozwala przejść z dziedziny czasu do dziedziny
częstotliwości‡ . Zdefiniowana jest ona następującym równaniem:
Z∞
X(f ) = x(t)e−j2πf t dt, (2.6)
−∞
gdzie f - częstotliwość, x(t) - wartość amplitudy od czasu.

Odwrotna transformacja Fouriera pozwala przejść z dziedziny częstotliwości
do dziedziny czasu. Zdefiniowana jest ona następującym równaniem:
Z∞
x(t) = X(f )ej2πf t df (2.7)
−∞
X(f) to zespolone widmo Fouriera. Jego część rzeczywista reprezentuje zawar-

tość w sygnale składowych kosinusoidalnych, a część urojona - sinusoidalnych.
W większości przypadków będzie nas interesować moduł widma Fouriera, który
wyznaczamy z następujacego wzoru:
q
|X(f )| = XRe (f )2 + XIm (f )2 (2.8)
W niniejszej pracy analizować będziemy cyfrowe nagrania dźwięku, w których

sygnał ma charakter dyskretny. Do analizy takich sygnałów stosuje się dyskret-
ną transformację Fouriera (DFT). Transformacja ta określona jest następującym
wzorem:
N
X −1
kn
X(k) = x(n)ωN , 0 ¬ k ¬ N − 1, (2.9)
n=0
2π
ωN = ei N ,
‡
Należy nadmienić, że wynik działania transformacji Fouriera zwany jest transformatą Fo-
uriera. Pojęcia transformacji i transformaty są często mylone ze sobą.
0.5
0.45
0.4
0.35
0.3
Amplituda
0.25
0.2
0.15
0.1
0.05
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Czestotliwosc [Hz]
Rysunek 2.6: Widmo głosu sopranowego uzyskane za pomocą Szybkiej Transfor-

macji Fouriera (FFT).
gdzie: i - jednostka urojona, k - numer próbki sygnału w dziedzinie częstotliwości,

n - numer próbki sygnału w dziedzinie czasu, x(n) - amplituda próbki sygnału w
dziedzinie czasu, N - liczba próbek.
Wzór na odwrotną dyskretną transformację Fouriera jest następujący:
−1
1 NX −kn
x(n) = X(k)ωN , 0 ¬ n ¬ N − 1, (2.10)
N k=0
gdzie: i - jednostka urojona, k - numer próbki sygnału w dziedzinie częstotliwości,

n - numer próbki sygnału w dziedzinie czasu, X(k) - amplituda próbki sygnału
w dziedzinie częstotliwości, N - liczba próbek.
W sygnałach rzeczywistych moduł widma oraz jego część rzeczywista są sy-
metryczne względem prążka N/2, natomiast faza oraz część urojona widma są
asymetryczne względem tego punktu. Z powodu tych własności każda często-
tliwość występuje w widmie dwa razy, przez co jej amplituda jest dwukrotnie
mniejsza [55].
W obliczaniu dyskretnej transformaty Fouriera ważnym zagadnieniem jest
złożoność obliczeniowa, która - liczona za pomocą wzoru 2.9 - wynosi O(N 2 ),
gdzie N jest rozmiarem danych wejściowych. Należy zauważyć, że obliczanie DFT
dla N nieparzystych wymaga co najwyżej N (N − 1) dodawań oraz (N − 1)2
mnożeń (bo ωN 0 = 1). Dla parzystych N ω N/2 = ω = −1, co daje dodatkową
N 2
oszczędność operacji dla n, k = N/2, N/4, N/8, .... Jeśli weźmiemy pod uwagę
tylko n, k = N/2, to maksymalna liczba mnożeń zmniejszy się do (N − 2)2 . Dla
nieparzystych N trzeba przeprowadzić N − 1 dodawań, a dla parzystych N − 2,
0.5
0.5
0.45
0.45
0.4
0.4
0.35
0.35
0.3 0.3
Amplituda
Amplituda
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
0 1 2 3 4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 10 10 10 10 10
a) Czestotliwosc [Hz] b) Czestotliwosc [Hz]
0.25
0.25
0.2
0.2
0.15
0.15
Moc
Moc
0.1
0.1
0.05 0.05
0 0
0 1 2 3 4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 10 10 10 10 10
c) Czestotliwosc [Hz] d) Czestotliwosc [Hz]
10
10
0
0
−10
−10
−20
−20
Poziom natezenia [dB]
−30 −30
−40 −40
−50 −50
−60 −60
−70 −70
−80 −80
−90 −90
0 1 2 3 4
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 10 10 10 10 10
e) Czestotliwosc[Hz] f) Czestotliwosc[Hz]
Rysunek 2.7: Przykłady reprezentacji widma dźwięku na wykresach. Od góry:

widmo amplitudy (a, b), widmo mocy (c, d) i widmo logarytmiczne (e, f). Lewa
kolumna: częstotliwość w skali liniowej, prawa kolumna: częstotliwość w skali
logarytmicznej.
kN/2
gdyż ωN = −1. Dzięki temu dyskretne transformacje Fouriera dla parzystych N
(a w szczególności transformacje o podstawie 2) są korzystniejsze pod względem
obliczeniowym [45].
Istnieją również szybkie algorytmy liczenia dyskretnej transformacji Fouriera,
bazujące na metodzie ”dziel i zwyciężaj”. Algorytmy te występują pod nazwą
Szybka Transformacja Fouriera (FFT - Fast Fourier Transform), a ich złożoność
obliczeniowa wynosi O(N log2 N ). Istnieją różne algorytmy szybkiej transformacji
Fouriera dla różnych rozmiarów i postaci danych wejściowych.

Rysunek 2.7 prezentuje różne sposoby reprezentacji widma dźwięku na wykre-
sach (widmo głosu sopranowego, dźwięk a1 , głoska ”a”). Wykresy te sporządzono
w programie Matlab, który przyjętą w formacie WAVE (patrz dodatek A.3.1) for-
mę zapisu amplitudy jako liczby naturalnej z zakresu {−32767, 32767} zamienia
na liczbę rzeczywistą z zakresu {−1, 1}. Ponieważ mamy do czynienia z modułem
widma, więc amplituda przyjmuje wartości nieujemne z zakresu {0, 1}. Warto-
ści poziomu natężenia na wykresach widma logarytmicznego (e i f) obliczono na
podstawie wzoru:
a(k)
L(k) = 20 log10 ( ), (2.11)
max(a)
gdzie a(k) jest wartością amplitudy dla próbki widma k, a max(a) to maksymalna
wartość amplitudy w widmie. Próbka widma o maksymalnej amplitudzie ma w
tak obliczonym widmie logarytmicznym poziom 0 dB.
2.5.3 Dyskretna Transformacja Cosinusowa (DCT)

Jednowymiarową dyskretną transformację cosinusową definiujemy następującym
wzorem (wg Syed Ali Khayam [20]):
N −1
X π(2n + 1)k
X(k) = α(k) x(n)cos( ), (2.12)
n=0
2N
q
 1 dla k = 0
dla k = 0, 1, 2, ..., N − 1 i α(k) = q N
 2 dla k 6= 0
N
gdzie: k - nr próbki sygnału w dziedzinie częstotliwości, n - nr próbki sygna-

łu w dziedzinie czasu, x(n) - amplituda próbki n w dziedzinie czasu, N - liczba
próbek
Odwrotną dyskretną transformację cosinusową definiujemy równaniem:
N −1
X π(2n + 1)k
x(n) = α(k)X(k)cos( ), (2.13)
k=0
2N
q
 1 dla k = 0
dla n = 0, 1, 2, ..., N − 1 i α(k) = q N
 2 dla k 6= 0
N
gdzie: k - nr próbki sygnału w dziedzinie częstotliwości, n - nr próbki sygna-

łu w dziedzinie czasu, X(k) - amplituda próbki k w dziedzinie częstotliwości, N
- liczba próbek
2.5.4 Okna czasowe

Okna czasowe to pewne funkcje w(n), które przyjmują wartości niezerowe dla
n = 0, 1, 2, ..., N − 1, gdzie N jest długością okna. Dla wszystkich pozostałych n
funkcja okna przyjmuje wartość 0. Aby nałożyć okno na sygnał dyskretny x(n),
wartość funkcji okna w(n) wymnaża się z każdą próbką n sygnału x(n).
Najprostszym rodzajem okna jest okno prostokątne, które po prostu wycina
fragment sygnału, nie wprowadzając w nim żadnych zmian:

1 gdy n ∈ {0, 1, 2, ..., N − 1}
w(n) = (2.14)
0 gdy n ∈
/ {0, 1, 2, ..., N − 1}
Istnieją też inne typy okien, mające wpływ na kształt widma wymnażanego
z nimi sygnału, stąd nazywane są często oknami widmowymi. Wywierają więc
one znaczący wpływ na właściwości przeprowadzanej analizy częstotliwościowej,
zmniejszając amplitudę listków bocznych widma. W tabeli 2.1 przedstawione są
definicje kilku najpopularniejszych okien (wg [55]).
0.04
0.03
0.03
0.02
0.02
0.01
0.01
Amplituda
Amplituda
0
0
−0.01 −0.01
−0.02 −0.02
−0.03
−0.03
0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.05 0.1 0.15 0.2 0.25 0.3 0.35
Czas [s] Czas [s]
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
Amplituda
Amplituda
0
0
−0.1 −0.1
−0.2 −0.2
−0.3 −0.3
−0.4
−0.4
0.05 0.1 0.15 0.2 0.25 0.05 0.1 0.15 0.2 0.25
Czas [s] Czas [s]
Rysunek 2.8: Przebieg czasowy dźwięków G i g1 w wykonaniu śpiewaka (głoska

a) przed i po nałożeniu okna Blackmana
2 1
1.8 0.9
1.6 0.8
1.4 0.7
1.2 0.6
amplituda
amplituda
1 0.5
0.8 0.4
0.6 0.3
0.4 0.2
0.2 0.1
0 0
0 N−1 0 N−1
a) próbki b) próbki
Okno Hamminga
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
amplituda
amplituda
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 N−1 0 N−1
c) próbki d) próbki
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
amplituda
amplituda
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 N−1 0 N−1
e) próbki f) próbki
1
amplituda
0.5
0
0 N−1
g) próbki
Rysunek 2.9: Różne okna czasowe: a) Okno prostokątne b) Okno trójkątne

(Bartletta), c) Okno Hanninga (Hanna), d) Okno Hamminga, e) Okno Gaussa,
σ = 0.4, f) Okno Bartletta-Hanna, g) Okno Blackmana
Nazwa okna Definicja okna w(n)
Prostokątne 1
2|n−(N −1)/2|
Trójkątne (Bartletta) 1− N −1
1
Hanninga (Hanna) 2 (1 − cos( N2πn
−1 ))
Bartletta-Hanna 0.62 − 0.48| Nn−1 | − 0.5 + 0.38cos( N2πn

−1 − 0.5)
Hamminga 0.54 − 0.46cos( N2πn

−1 )
(k− N 2−1 ) 2
Gaussa exp((− 12 (σ N 2−1 )
) )
Blackmana 0.42 − 0.50cos( N2πn 4πn

−1 ) + 0.08cos( N −1 )
Tabela 2.1: Najpopularniejsze okna czasowe
2.5.5 Cepstrum
Kolejnym ważnym narzędziem analizy częstotliwościowej sygnałów jest cepstrum,
czyli sygnał uzyskiwany w wyniku zastosowania prostej lub odwrotnej transfor-
macji Fouriera do widma logarytmicznego. Cepstrum definiujemy w następujący
sposób:
x0 (t) = F F T −1 (ln(F F T (x(t)))) (2.15)
Powyższy wzór opisuje cepstrum zespolone, w którym zawarta jest informacja

o fazie i amplitudzie. Istnieje również cepstrum rzeczywiste, zawierające tylko
informację o amplitudzie, a nie zawierające informacji o fazie (odtworzenie pier-
wotnego sygnału za pomocą takiego cepstrum jest niemożliwe):
x0 (t) = F F T −1 (ln|F F T (x(t))|) (2.16)
Ponieważ sygnał x(t) jest splotem pobudzenia i(t) i sygnału filtrującego (od-
powiedzi impulsowej) h(t), to transformata Fouriera X(f ) sygnału x(t) jest ilo-
czynem transformaty Fouriera I(f ) pobudzenia i(t) i transformaty Fouriera H(f )
filtra h(t).
Ponieważ z własności logarytmów wynika, że:
log X(f ) = log(I(f ) ∗ H(f )) = log I(f ) + log H(f ), (2.17)
to:
F F T −1 (log X(f )) = F F T −1 (log I(f )) + F F T −1 (log H(f )) (2.18)
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150

Kolejne próbki cepstrum
Rysunek 2.10: Cepstrum głosu śpiewaczego (sopran). Dźwięk as1 , głoska a.
Cepstrum jest więc sumą odwrotnej transformaty Fouriera widma sygnału

pobudzającego (I(f )) i odwrotnej transformaty Fouriera odpowiedzi częstotliwo-
ściowej (H(f )).
Dziedzinę cepstrum stanowią wartości pseudoczasowe, które w zachodniej li-
teraturze noszą nazwę ”quefrency”. Wartości te odpowiadają okresowości czyli
odwrotności częstotliwości [55].
Obecność wysokich pików w cepstrum świadczy o występowaniu w sygnale
danych częstotliwości, którym te piki odpowiadają. Jeśli np. na 100 próbce cep-
strum występuje pik, a częstotliwość próbkowania wynosi 44100 Hz, to znaczy że
w sygnale obecna jest składowa o częstotliwości 441 Hz (44100Hz/100 = 441Hz).
Podobnie jeśli pik występuje na 400 próbce cepstrum, to w sygnale występuje
składowa o częstotliwości 110,25 Hz (44100Hz/400 = 110, 25Hz).
Bardzo ważne dla analizy częstotliwościowej są początkowe próbki cepstrum,
które odpowiadają za odpowiedź rezonansową układu. W wyniku filtracji cep-
strum za pomocą filtra dolnoprzepustowego (tzw. liftrowanie) można usunąć z
sygnału część odpowiedzialną za pobudzenie i otrzymać tzw. wygładzone widmo,
odpowiadające odpowiedzi rezonansowej układu. Operację tą szerzej opisuję w
dalszych rozdziałach.
Ciekawą własnością cepstrum jest to, że splot dwóch sygnałów jest równy
sumie ich cepstrów [55]:
x1 ? x2 ≡ x01 + x02 (2.19)

2.5.6 Kepstralnie wygładzone widmo

Kepstralne wygładzanie widma to metoda pozwalająca na usunięcie z sygnału
tej jego części, która odpowiada za pobudzenie. W efekcie otrzymujemy wygła-
dzone widmo odpowiadające charakterystyce odpowiedzi rezonansowej układu.
Algorytm wyznaczania wygładzonego widma dla sygnału jest następujący:
1. Za pomocą transformacji Fouriera otrzymujemy zespolone widmo Fouriera

analizowanego sygnału.
2. Wyznaczamy moduł zespolonego widma Fouriera sygnału.
3. Logarytmujemy wyżej otrzymany moduł widma i otrzymujemy tzw. widmo

logarytmiczne.
4. Przeprowadzamy odwrotną transformację Fouriera i otrzymujemy cepstrum.
5. Przeprowadzamy operację liftrowania. Operacja ta polega na pozostawieniu

w sygnale cepstrum kilkunastu (zwykle od 12 do 20) początkowych próbek§
i wyzerowaniu pozostałej części sygnału. Im mniej próbek pozostawimy, tym
bardziej wygładzone widmo otrzymamy.
6. Po operacji liftrowania poddajemy cepstrum kolejnej transformacji Fouriera

i w efekcie otrzymujemy wygładzone widmo.
Kepstralne wygładzanie widma można również przeprowadzić w oparciu o

Dyskretną Transformatę Cosinusową (DFT) [4]. Na podstawie widma sygnału
tworzymy cepstrum w oparciu o wzór:
K−1
k + 0.5nπ
x0 (n) =
X
[ln|X(k)|]cos( ), (2.20)
k=0
K
gdzie k - kolejny nr próbki widma, n - kolejny nr próbki cepstrum, K - najwyższy

indeks próbki widma, X(k) - wartość amplitudy dla próbki widma n.
Następnie wygładzamy widmo za pomocą wzoru:
N
knπ
x0 (n)cos(
X
X(k) = ), (2.21)
n=0
K
gdzie k - kolejny indeks próbki wygładzonego widma, N - ilość użytych współczyn-

ników cepstralnych (im mniej, tym widmo jest gładsze), x0 (n) - wartość próbki n
cepstrum, K - najwyższy indeks próbki widma.
§
Ze względu na symetrię widma należy również pozostawić taką samą liczbę końcowych
próbek cepstrum.
−20
−40
−60
−80
−100
−120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Czestotliwosc [Hz]
Rysunek 2.11: Wygładzone widmo głosu sopranowego (grubsza linia) naniesione

na wykres widma logarytmicznego (cieńsza linia). Dźwięk as1 , głoska a. Zacho-
wano 16 współczynników kepstralnych.
−20
−40
−60
−80
−100
−120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Czestotliwosc [Hz]
Rysunek 2.12: Wygładzone widmo głosu sopranowego (grubsza linia) naniesione

na wykres widma logarytmicznego (cieńsza linia). Dźwięk as1 , głoska a. Zacho-
wano 64 współczynniki kepstralne.
2.5.7 Widmo długoterminowe LTAS

Przydatną informacją, jaką można uzyskać za pomocą metod analizy częstotliwo-
ściowej, jest to, jaka część całkowitej energii sygnału jest przenoszona w konkret-
nym paśmie częstotliwości. Pomocny jest w tym specjalny rodzaj widma, zwany
Long-Term Average Spectrum (LTAS).
Aby obliczyć LTAS danego sygnału, najpierw należy zdefiniować wielkość zwa-
ną PSD (power spectral distribution). PSD dla wycinka δt sygnału analogowego
definiujemy jako [29]:
|X(f )|2
P SD(f ) = , (2.22)
δt
gdzie X(f ) to widmo sygnału.
Dla sygnału dyskretnego PSD definiujemy jako:
|X(k)|2
P SD(k) = , (2.23)
N δt
gdzie X(k) - widmo sygnału, δt - czas trwania sygnału, N - liczba próbek sygnału.
LTAS należy obliczać według następującego algorytmu:
1. Dzielimy sygnał na L zachodzących na siebie wycinków, z których każdy

składa się z N próbek.
2. Dla każdego odcinka liczymy widmo za pomocą szybkiej transformacji Fo-

uriera (FFT).
3. Dla każdego obliczonego widma liczymy PSD.
4. Liczymy LTAS jako średnią wartość ze wszystkich PSD:

L
1X
LT AS(f ) = P SDi (f ), (2.24)
L i=1
gdzie P SDi (f ) to PSD dla wycinka i.
Nas interesuje znormalizowana postać widma LTAS, w której uwzględnione

są specyficzne cechy ludzkiego słyszenia:
LT AS(f )
LT ASdB (f ) = 10log10 , (2.25)
P0 2
gdzie P0 jest wartością ciśnienia uznawaną za próg ludzkiego słyszenia przy czę-
stotliwości 1kHz i wynosi P0 = 2 ∗ 10−5 P a. Jednostką dla LT ASdB jest dB /
Hz.
70
60
Srednia moc sygnalu [dB / Hz] 50
40
30
20
10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Czestotliwosc[Hz]
Rysunek 2.13: Widmo długoterminowe (LTAS) soprana śpiewającego arię ”O

servi volate” z oratorium ”Juditha triumphans” A. Vivaldiego.
Na wykresie 2.13 pokazano przykładowe widmo długoterminowe LT ASdB dla

głosu ludzkiego (sopran). Użyto 4096-punktowych okien prostokątnych, przesu-
wanych o 2048 próbek.
Podczas analizy widma długoterminowego dla głosu ludzkiego przyjęło się
liczyć następujące wskaźniki [24]:
• Singing Power Ratio (SPR) - stosunek¶ energii najwyższego piku w paśmie

2-4 kHz do najwyższego piku w paśmie 0-2 kHz. Uważa się, że im wyższe
SPR, tym głos jest lepiej wyszkolony.
• Energy Ratio (ER) - stosunek energii widma w paśmie 2-4 kHz do energii
widma w paśmie 0-2 kHz.
• α−1 - stosunek energii widma w paśmie 1-6 kHz do energii widma w paśmie
0-1 kHz.
• α−2 - stosunek energii widma w paśmie 2-6 kHz do energii widma w paśmie
0-2 kHz.
Dla wskaźników ER, α − 1 i α − 2 średnią energię widma w danym paśmie

liczymy poprzez sumowanie energii po wszystkich częstotliwościach w paśmie [29]:
f2
X
sr.en.pasma(f1 , f2 ) = LT ASdB (f ) (2.26)
f =f1
¶
Wg niektórych źródeł [24] wskaźniki SPR, ER, α−1 i α−2 liczy się poprzez różnicę energii,
a nie iloraz. Wynik jest wtedy najczęściej ujemny.
2.5.8 Odnajdywanie tonu podstawowego
Określanie wysokości tonu podstawowego jest przydatnym narzędziem w analizie

dźwięków muzycznych. Pozwala ono określić częstotliwość tonu podstawowego
i na tej podstawie określić nazwę dźwięku. Pomaga również badać takie cechy
dźwięku, jak np. vibrato.
Istnieje wiele technik odnajdywania tonu podstawowego. Niektóre z nich ope-
rują w dziedzinie częstotliwości, a niektóre w dziedzinie czasu.
Jeden ze sposobów wyznaczania wysokości tonu podstawowego w dziedzinie
czasu jest związany z parametrem zwanym Zero Crossing Rate (ZCR). Metoda
ta polega na sprawdzeniu ile razy linia wykresu amplitudy od czasu przekracza
punkt 0 na osi amplitudy. Jeśli większość mocy sygnału skoncentrowana jest wo-
kół tonu podstawowego, to linia przekroczy punkt 0 dokładnie dwa razy na okres
i będzie można dokładnie wyznaczyć okres sygnału (a następnie przekształcić go
na częstotliwość). Metoda zawodzi jednak, jeśli w sygnale występują wyższe har-
moniczne - wtedy linia wykresu może przekroczyć punkt 0 wiele razy na okres.
Rozwiązaniem tego problemu może być odfiltrowanie wysokich składowych har-
monicznych za pomocą filtra dolnoprzepustowego [12].
Metodą obliczenia wysokości tonu podstawowego w dziedzinie częstotliwości
może być wyznaczenie go na podstawie cepstrum. Metoda ta opiera się na badaniu
cepstrum (odwrotnej transformaty Fouriera widma logarytmicznego - patrz 2.5.5)
sygnału. Położenie najwyższego piku w cepstrum (z wyłączeniem piku w punk-
cie 0) odpowiada okresowości tonu podstawowego [12]. Po podzieleniu częstości
próbkowania przez numer próbki odpowiadającej maximum piku otrzymujemy
częstotliwość tonu podstawowego.
Wykres 2.14, przedstawiający zmiany wysokości tonu podstawowego dla gamy
D-dur granej na violi da gamba, został uzyskany za pomocą powyższej metody.
Sygnał podzielono na 4096-punktowe okna. Dla każdego z nich obliczono cep-
strum i wyszukano w nim maksymalnej wartości z pominięciem 10 pierwszych
próbek. Numer próbki o największej wartości w każdym oknie pomnożono przez
odwrotność częstotliwości próbkowania i otrzymano w ten sposób ciąg częstotli-
wości tonów podstawowych, które umieszczono na wykresie.
Rozmiar okna dla którego liczymy transformatę nie może być za mały, gdyż
obraz otrzymanego wykresu będzie zafałszowany przypadkowymi częstotliwościa-
mi. Nie może być też zbyt duży, bo w okno wpadną dwa dźwięki na raz i jeden z
nich zostanie pominięty. Podobnie odpowiednio duża musi być liczba pomijanych
pierwszych współczynników kepstralnych, ale nie za duża, żeby nie usunąć piku
odpowiedzialnego za ton podstawowy.
Na zakończenie dodać jeszcze należy, że metoda ta jest skuteczna tylko dla sy-
gnałów harmonicznych, tzn. posiadających mniej więcej równe odległości między
składowymi widma. W przypadku np. dźwięków dzwonów, w których odległości
między składowymi są nierówne, metoda daje błędne rezultaty [12]. Metoda może
300
d1
cis1
275
h
250
a
225
g
200
fis
Czestotliwosc f0 [Hz]
175
e
d
150 cis
H
125
A
G
Fis
100
E
D
75
50
25
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Czas [s]
Rysunek 2.14: Zależność częstotliwości tonu podstawowego od czasu, uzyskana

na podstawie cepstrum sygnału.
być nieskuteczna również dla sygnałów niestacjonarnych, czyli takich, w których

częstotliwość zmienia się szybko, jak w przypadku vibrato.
2.6 Automatyczna klasyfikacja danych

Automatyczna klasyfikacja danych, jedna z dziedzin tzw. uczenia maszynowe-
go, to proces polegający na przypisywaniu danych o podobnych własnościach do
pewnych klas, reprezentujących te własności. Każda klasa zawiera pewną liczbę
instancji (mówiąc językiem programistycznym - obiektów danej klasy) opisanych
za pomocą szeregu atrybutów (własności). Proces klasyfikacji przeprowadza się
za pomocą klasyfikatorów, czyli specjalnych algorytmów klasyfikacji, spośród któ-
rych zostaną tutaj wymienione dwa: algorytm Ibk oraz wielowarstwowy percep-
tron.
Algorytm Ibk to szczególna realizacja algorytmu k najbliższych sąsiadów. Ten
prosty algorytm polega na mierzeniu odległości między wektorami cech, czyli
wektorami atrybutów instancji (najczęściej brana pod uwagę jest odległość eu-
klidesowa). Badany wektor zostaje zakwalifikowany do tej klasy, do której należy
najwięcej wektorów, będących jego k najbliżej leżącymi sąsiadami. W ekspery-
mencie, który zostanie opisany w rozdziale 3.10, użyte zostały wektory cech za-
wierające 19 współczynników kepstralnych, dlatego instancje klas wyobrażone są
jako wektory w 19-wymiarowej przestrzeni. Algorytm Ibk różni się od klasycznego
algorytmu k najbliższych sąsiadów optymalizacją i dodatkową funkcjonalnością,
np. możliwością przypisywania wektorom wagi w zależności od odległości od kla-
2.6. AUTOMATYCZNA KLASYFIKACJA DANYCH 37
syfikowanego wektora.
Perceptron to prosta sieć neuronowa, składająca się z tzw. neuronów
McCullocha-Pittsa, będących uproszczonym modelem działania biologicznego neu-
ronu. Neuron taki posiada przynajmniej jedno wyjście oraz wiele wejść, dla któ-
rych przypisane są określone wagi. Wagi te przypisywane w procesie uczenia w
celu uzyskania na wyjściu pożądanego wyniku. Wartość na wyjściu neuronu jest
funkcją aktywacji f (s) dla następującej sumy s:
n
X
s = w0 + wi x i , (2.27)
i=1
gdzie wi to wartości wag poszczególnych wejść, a xi to wartości podane na wejścia
[50]. Istnieją różne funkcje aktywacji, spośród których najprostsza to:

1 dla s 0
f (s) = (2.28)
0 dla s < 0
Funkcja f (s) może również stanowić kombinację liniową wag i wartości na wej-
ściach albo przyjmować postać sigmoidu (patrz rys. 2.15.b):
1
f (s) = lub f (s) = tanh(s) (2.29)
1 + e−t
1
1
0.9
0.9
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1
0.1
0
a) −6 −4 −2 0 2 4 6 b) 0
−6 −4 −2 0 2 4 6
Rysunek 2.15: Przykładowe funkcje aktywacji: f (s) = 1 dla s 0 lub 0 dla s < 0
(a) oraz f (s) = 1+e1 −t (b)
Sieć perceptronowa składa się z warstw, spośród których wyróżniamy warstwę

wejściową i wyjściową. Pozostałe noszą nazwę warstw ukrytych. Perceptron nie
zawiera połączeń pomiędzy elementami należącymi do tej samej warstwy. Połą-
czenia między kolejnymi warstwami skierowane są w stronę od warstwy wejściowej
do wyjściowej [22].
Jeśli perceptron posiada tylko warstwę wejściową i wejściową, to nosi nazwę
perceptronu jednowarstwowego lub perceptronu prostego. Z perceptronem dwu-
warstwowym mamy do czynienia w przypadku istnienia jednej warstwy ukrytej,
z trójwarstwowym w przypadku istnienia dwu warstw ukrytych, itp. [22]
2.7 Akustyczne cechy violi da gamba

2.7.1 Wprowadzenie
Jak już wspomniano, barwa instrumentu muzycznego zależy od kształtu jego wid-
ma. Duży wpływ na zawartość składowych harmonicznych w widmie ma m.in.
obecność w drgającym ośrodku sztucznych węzłów drgań, które w sposób mecha-
niczny usuwają z sygnału niektóre częstotliwości. Obecność takich węzłów zależ-
na jest od tego, czy gramy na pustej czy skracanej strunie, a także od miejsca
smyczkowania.
Najważniejszym jednak czynnikiem determinujacym barwę jest kształt odpo-
wiedzi impulsowej jego pudła rezonansowego. Korpus instrumentu ”w formowaniu
charakterystycznego brzmienia nie ogranicza się do recepcji wibracji struny i wy-
promieniowywania ich przez większą płaszczyznę” [39], ale uczestniczy również w
”uwypukleniu” pewnych składowych częstotliwościowych dźwięku. Dokładny me-
chanizm tego zjawiska i sposób jego modelowania matematycznego zamieszczono
w poprzednich podrozdziałach.
Gamby, w odróżnieniu od skrzypiec, nie posiadają formantów w wysokich
pasmach częstotliwości. ”Większość skrzypiec posiada formanty zawarte między
3000 a 6000 Hz” [39], których brak w widmie viol da gamba. ”Niski dźwięk
skrzypiec w porównaniu z tą samą wysokością wydobywaną na wioli brzmiał cał-
kowicie różnie, ponieważ korpus skrzypiec wzmacniał grupę wysokich harmonicz-
nych, podczas gdy korpus wioli wzmacniał harmoniczne o częstotliwości znacznie
niższej” [39, za James Jeans]. W rezultacie viola da gamba posiada brzmienie
”miękkie i stłumione, matowo-srebrzyste” [14], ”nikłe i płaskie” [39], co zawdzię-
cza ”płaskiemu spodowi, wysokim boczkom i większemu naciągowi” [14]. J. J.
Klein w ”Lehrbuch der Theoretischen Musik” z 1801 r. określa dźwięk tego in-
strumentu jako ”penetrujący” [38]. Heinrich Christoph Koch w ”Musikalisches
Lexicon” z 1802 r. określa natomiast dźwięk violi da gamba jako ”mniej ostry i
bardziej nosowy” [38]. O ile instrumenty z rodziny skrzypiec mają dobre brzmie-
nie w różnych warunkach akustycznych, to brzmienie violi da gamba jest bardzo
wrażliwe na akustyczne warunki otoczenia [48].
2.7.2 Wpływ wieku drewna na akustyczne cechy instrumentu

Badając akustyczne własności dźwięku viol da gamba, należy zadać sobie pytanie
jak bardzo na właściwości brzmieniowe instrumentu wpływa wiek drewna użytego
do jego produkcji. Najstarsze zachowane viole da gamba liczą ponad 420 lat (np.
basowa viola da gamba zbudowana w 1580 r. prawdopodobnie przez Gasparo da
Salo, znajdująca się obecnie w zbiorach fundacji Orpheon w Wiedniu). Czy ich
dźwięk różni się znacząco od dźwięku współczesnych viol da gamba?
Badania drewna świerkowego i klonowego, sezonowanego od 100 do 700 lat,
wykazały że z wiekiem drewna nie zmniejsza się w nim zawartość celulozy, ale
2.7. AKUSTYCZNE CECHY VIOLI DA GAMBA 39
spada zawartość ligniny. Zmienia się również współczynnik strat energetycznych

w zależności od wilgotności drewna. Najmniejsze straty energetyczne wykazano
w drewnie 220-letnim dla częstotliwości 1250 Hz, która jest głównym formantem
w niektórych dawnych włoskich instrumentach z rodziny skrzypiec [13].
Zależności między wiekiem drewna, a jego cechami akustycznymi są jednak
niezwykle skomplikowane i nie ma jak dotąd przekonujących dowodów na przy-
datność, bądź nieprzydatność starego drewna dla lutnictwa [13].
2.7.3 Główne źródła formantów w dźwięku violi da gamba

W przeciwieństwie do głosu ludzkiego, kształt odpowiedzi częstotliwościowej in-
strumentów smyczkowych ma bardziej skomplikowany charakter. Formanty są
rozmieszczone gęsto i żadne z nich nie dominują nad resztą widma, jak ma to
miejsce w przypadku formantu śpiewaczego (patrz 2.8.3).
Głównymi źródłami rezonansu w instrumentach strunowych typu violi da
gamba są:
• rezonans Helmholtza słupa powietrza zawartego w pudle rezonansowym,
• rezonans drewna związany z częstotliwościami własnymi drewna użytego

do wykonania pudła rezonansowego i innych elementów instrumentu,
• mody drgań płyt rezonansowych.
Carl-Hugo Ågren w swej pracy ”Measuring the Resonances of Treble Viol

Plates by Hologram Interferometry and Designing an Improved Instrument” [34]
bada akustyczne cechy płyty sopranowej violi da gamba i określa główny rezonans
drewna na 429-450 Hz.
Rezonans powietrzny zależny jest przede wszystkim od rozmiaru pudła rezo-
nansowego i rozmiaru otworów rezonansowych. Rezonans ten nie jest zależny od
cech konkretnego instrumentu danego typu [1].
W pracy ”Quality of Violin, Viola, ’Cello, and Bass-Viol Tones” [9] Fletcher,
Blackham i Geertsen przedstawiają wykresy mocy od poszczególnych składowych
harmonicznych dźwięku basowej violi da gamba. Niestety autorzy nie podają, ja-
kiego rodzaju violę da gamba wykorzystali, ale na podstawie dźwięków wybranych
przez nich do analizy (G1 , G, g, c1 ) należy wnioskować, że mamy do czynienia
z tzw. małym basem (wg XVII-wiecznej nomenklatury, patrz tabela 1.2) o naj-
niższej strunie G1 . Po przekształceniu numerów składowych harmonicznych na
częstotliwość, zamieszczone w tej pracy wykresy otrzymują postać widoczną na
rysunku 2.16. Niestety w/w autorzy przedstawili dane tylko dla pierwszych kil-
kunastu/kilkudziesięciu (zależnie od dźwięku) harmonicznych, więc obszar wy-
kresów jest ograniczony do maksymalnie 3500 Hz.
Z wykresów na rysunku 2.16 wynika, że dla dźwięków G, g i c1 dominuje
w widmie ton podstawowy. Jedynie dla dźwięku G1 ton podstawowy ustępuje
0 0
−5 −5
−10 −10
−15 −15
−20 −20
Moc [dB]
Moc [dB]
−25 −25
−30 −30
−35 −35
−40 −40
−45 −45
−50 −50
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250 3500
Czestotliwosc [Hz] Czestotliwosc [Hz]
0
0
−5
−5
−10
−10
−15
−15
−20
−20
Moc [dB]
Moc [dB]
−25 −25
−30 −30
−35 −35
−40 −40
−45 −45
−50 −50
150 300 450 600 750 900 1050 1200 1350 1500 1650 1800 1950 2100 0 125 250 375 500 625 750 875 1000 1125 1250 1375 1500
−5
−10
−15
−20
Moc [dB]
−25
−30
−35
−40
−45
−50
0 150 300 450 600 750 900 1050 1200 1350 1500
Czestitliwosc [Hz]
Rysunek 2.16: Widmo basowej violi da gamba wg Fletcher, Blackham, Geertsen

[9]. Kolejno dźwięki c1 , g, G, G1 (a1 = 415Hz). Ostatni wykres przedstawia
wszystkie trzy dźwięki na raz.
2.8. AKUSTYCZNE CECHY GŁOSU LUDZKIEGO 41
drugiej składowej harmonicznej. Można na tej podstawie wnioskować, że formant

odpowiadający rezonansowi powietrznemu we wnętrzu pudła rezonansowego wy-
stępuje gdzieś w granicach 100-250 Hz +- ok. 50 Hz, a dźwięk najniższej pustej
struny nie wchodzi w ten zakres ze względu na zbyt małe wymiary pudła re-
zonansowego. Dźwięk najniższej struny tego egzemplarza violi może nie mieć
zadowalającego brzmienia, podobnie jak ma to miejsce w przypadku struny c
altówki.
Z wykresów widma można również spróbować odczytać zarys obwiedni od-
powiedzi rezonansowej, w której skład wchodzą częstotliwości modów płyt rezo-
nansowych, częstotliwości własne drewna i częstotliwości rezonansów elementów
przekaźnikowych. Są to (w przybliżeniu): 260 +- 50 Hz, 375 +- 50 Hz, 515 +- 50
Hz, 750 Hz +- 50Hz, 875 +- 50 Hz, 1125 +- 50 Hz, 1375 +- 50 Hz, itp.
W rozdziale 3 zamieszczone są liczne wykresy widma violi da gamba, po-
chodzące z zebranych przez autora próbek dźwięku. Ponieważ większość mocy
sygnału skoncentrowana jest w obszarze niskich częstotliwości (co stwierdził po-
średnio Curt Sachs w swej ”Historii instrumentów muzycznych” [39]), najlep-
sze efekty podczas analizy uzyskamy po odfiltrowaniu z widma składowych leżą-
cych powyżej ok. 3000 Hz i zmniejszeniu częstotliwości próbkowania do 6000 Hz.
Analizie należy poddawać większe fragmenty utworu, zawierające jak najwięcej
dźwięków, gdyż przy analizie jednego dźwięku zachodzi ryzyko, że jego składowe
harmoniczne ”nie wpadną” w pasma przepustowe poszczególnych rezonansów.
W przypadku większej ilości dźwięków to prawdopodobieństwo wzrasta, a więc
prawdopodobieństwo że jakiś rezonans pozostanie niezauważony maleje. Podczas
sporządzania wygładzonego widma należy stosować dużą liczbę współczynników
cepstralnych, gdyż ze względu na dominację w widmie częstotliwości leżących w
okolicy tonu podstawowego, zbyt mała liczba współczynników cepstralnych da za
bardzo wygładzoną linię odpowiedzi rezonansowej.
2.8 Akustyczne cechy głosu ludzkiego

2.8.1 Naturalne rezonatory ludzkiego ciała
W ciele człowieka istnieje szereg naturalnych rezonatorów, które modyfikują dźwięk
krtaniowy, zmieniając jego składowe częstotliwościowe. Istnieją dwie grupy takich
rezonatorów:
• Rezonatory grupy pierwszej nie posiadają możliwości zmiany swojego kształ-

tu. Są to: jama nosowa i dodatkowe zatoki oboczne.
• Rezonatory grupy drugiej, ważniejsze od rezonatorów grupy pierwszej, po-

siadają taką możliwość. Wraz ze zmianą ich kształtu zmienia się ich funkcja
akustyczna. Zaliczamy do nich: rezonatory klatki piersiowej, przedsionek
krtani, jamę gardła i jamę ustną.
Ze względu na położenie względem krtani rezonatory dzielimy na:
• Podkrtaniowe - klatka piersiowa.
• Nadkrtaniowe - pozostałe rezonatory.
Poszczególne rezonatory zostaną opisane w następnych podrozdziałach.
Rezonatory klatki piersiowej
W skład rezonatorów klatki piersiowej wchodzi przede wszystkim drzewo oskrze-

lowe i tchawica. Zawarty w nich słup powietrza może zmieniać kształt ”dzięki
ruchom klatki piersiowej, krtani, a nawet oskrzeli, które jak wiemy mogą zmie-
niać szerokość swego światła za pomocą skurczów mięśni znajdujących się pod
błoną śluzową” [54]. Ma to duży wpływ na właściwości akustyczne - ton własny
całej klatki piersiowej waha się w granicach 150-400 Hz.
Ściany klatki piersiowej - mimo, że również są rezonatorem - nie wywierają du-
żego wpływu na widmo dźwięku. Płuca są natomiast środowiskiem bezechowym
i wywierają na dźwięk negatywne działanie, tłumiąc część jego energii [15].
Przedsionek krtani
Przedsionek krtani to kolejny rezonator zdolny do zmiany swych właściwości aku-

stycznych. Rezonator ten odgrywa dużą rolę w wytwarzaniu poszczególnych sa-
mogłosek. Pod względem budowy anatomicznej ”jest to przestrzeń powietrzna
odgraniczona od dołu strunami głosowymi, w części przedniej chrząstką tarczo-
wą, a w tylnej nalewkowatymi” [54]. Na ściany boczne przedsionka krtani składają
się fałdy nalewkowo-nagłośniowe, fałdy głosowe rzekome i kieszonki Morganiego.
Przy wymawianiu samogłosek ”i” i ”e” kieszonki Morganiego powiększają się, a
przy ”u”, ”a”, ”o” zmniejszają szczelinowato. Charakterystyczne pasma forman-
towe dla polskich samogłosek można znaleźć w tabeli 2.3.
Przedsionek krtani łączy się ku górze z gardłem za pośrednictwem wejścia do
krtani [19].
Jama gardła i jama ustna
Jama gardła stanowi wraz z jamą ustną najważniejszy rezonator ludzkiego ciała.
Również posiada on zdolność zmiany kształtu, a przez to właściwości akustycz-
nych. Jama gardła sąsiaduje z tyłu z przednią ścianą kręgosłupa szyjnego, z boku
otaczają ją mięśnie gardła, a z przodu ograniczają ją górna część nagłośni, korzeń
języka, połączenie z jamą ustną i podniebienie miękkie. Od góry jama gardła jest
ograniczona przez nosogardziel albo ”pierścień zwierający złożony z podniebienia
miękkiego, wału Passavanta i bocznych ścian gardła” [54].
Podobnie jak jama gardłowa, jama ustna posiada zdolność zmiany kształtu
i właściwości akustycznych. Jama ustna ograniczona jest z jednej strony przez
Rysunek 2.17: Przekrój przez naturalne rezonatory ludzkiego ciała. Ilustracja z

”Meine Gesangskunst” Lilli Lehmann, 1902 r. [23]
Rysunek 2.18: Rezonatory ludzkiego ciała. 3 - krtań, 4 - tchawica, 5 i 6 - oskrzela.

Ilustracja z ”The people’s common sense medical adviser in plain English: or,
medicine simplified”, R. V. Pierce, 1895 r. [31]
Rysunek 2.19: Przedsionek krtani autora tej pracy. Struny głosowe rozwarte.
Obraz z 7.05.2004 uzyskany metodą badania stroboskopowego.
Rysunek 2.20: Przedsionek krtani autora tej pracy. Struny głosowe zwarte. Obraz
z 7.05.2004 uzyskany metodą badania stroboskopowego.
twardą ścianę (podniebienie i zęby), a z pozostałych stron przez miękkie części:

policzki, otwór wargowy, język, żuchwa. W obrębie jamy gardła i jamy ustnej
można wyróżnić dwie przestrzenie rezonansowe:
1. Przestrzeń rezonacyjna przednia ”tworzy się przez opuszczanie korze-

nia i trzonu języka ku dołowi z lekko opadniętą żuchwą” [54]. Przestrzeń ta
wzmacnia wyższe tony harmoniczne, a tłumi niższe, co daje dźwięk ”płaski,
ostry, skrzeczący” [54].
2. Przestrzeń rezonacyjna tylna tworzy się ”pomiędzy tylną ścianą gardła,

a korzeniem języka przesuniętym do przodu” [54]. Przestrzeń ta wzmacnia
niższe tony składowe, co daje dźwięk o ciemnej i ciepłej barwie.
Między tymi dwoma stanami ukształtowania rezonatorów istnieją również formy

pośrednie, dzięki czemu śpiewak jest w stanie świadomie zmieniać barwę swojego
głosu w dość płynny sposób.
Jama nosowa i zatoki oboczne
Przestrzeń jamy nosowej i zatok obocznych jest ograniczona twardymi ścianami

kostnymi pokrytymi cienką błoną śluzową, przez co rezonator ten nie jest zdolny
do zmiany kształtu. Jego akustyczne właściwości są więc stałe. Ze względu na
niewielką objętość jamy nosowej ”jej rezonans jest wysoki i waha się w granicach
3000-5000 Hz” [21].
Funkcją zatok przynosowych jest pomoc w tworzeniu rezonansu nosowego. Ich
ważność dla sztuki śpiewu jest jednak dyskusyjna ze względu na ”niewielką ich
pojemność oraz małe otwory wyjściowe” [37]. Najważniejsza jednak funkcja jamy
nosowej i zatok przynosowych związana jest jednak nie z tworzeniem rezonansu,
a z zagadnieniem tzw. pól czuciowych (patrz: 2.8.7).
W. Morozow [25] opisuje ciekawe zjawisko związane z działaniem rezonatora
nosowego. W przypadku dużej nasalizacji dźwięku (silnego oddziaływania rezo-
natora nosowego) następuje przesunięcie wysokiego formantu śpiewaczego (patrz
2.8.3) w stronę wyższych częstotliwości, nawet o 500 Hz (np. częstotliwość for-
mantu barytonowego potrafi wzrosnąć z 2500 Hz do 3000 Hz). O ile silna nasali-
zacja dźwięku prowadzi do powstania nieprzyjemnego, nosowego przydźwięku, to
umiarkowana nasalizacja może prowadzić do zwiększenia nośności i dźwięczności
[25].
2.8.2 Rejestry
Rejestry są to zbiory dźwięków o podobnej barwie, emitowane tym samym me-
chanizmem fonacyjnym. Dla ciała ludzkiego rozróżniamy dwa rejestry:
• Rejestr piersiowy - tworzony za pomocą rezonatorów klatki piersiowej.

• Rejestr głowowy - tworzony za pomocą rezonatorów nadgłośniowych.
Ponieważ dźwięk wytwarzany przez krtań rozchodzi się we wszystkich kierun-

kach, w praktyce wywierają na niego wpływ obydwa rejestry. Możemy więc jedy-
nie mówić o przewadze określonego rejestru nad drugim niż o wykorzystywaniu
konkretnego rejestru.
W miarę wzrastania częstotliwości tonu podstawowego dźwięku (np. przy
śpiewaniu melodii wznoszącej się) nastąpi moment w którym żadna składowa
harmoniczna dźwięku nie znajdzie się w obszarze częstotliwości wzmacnianych
przez rezonator. Właściwości brzmieniowe dźwięku ulegają wtedy pogorszeniu,
co zaobserwować można w przypadku śpiewaniu wysokich dźwieków przez nie-
szkolone osoby. W takim wypadku konieczna jest zmiana właściwości rezonatora,
co jest możliwe w przypadku rezonatorów należących do grupy drugiej (patrz:
2.8.1). Zdolność świadomego zmieniania właściwości akustycznych rezonatorów
jest najważniejszą umiejętnością, jaką powinien posiadać dobry śpiewak.
U sopranów zmiana rejestrów z piersiowego na głowowy zachodzi w okolicach
dźwięków h1 a cis2 (500 - 550 Hz). Zmiana rejestru ma znaczący wpływ na
widmo dźwięku. W rejestrze głowowym u sopranów dominuje ton podstawowy i
ma on największą amplitudę ze wszystkich składowych harmonicznych, natomiast
w rejestrze piersiowym jedna z dalszych składowych (zwykle druga lub trzecia)
ma większą amplitudę od tonu podstawowego [47]. Zjawiska te zostaną wykazane
w rozdziale 3.
Trudność dostosowania akustycznych cech rezonatorów do śpiewanego dźwię-
ku rośnie wraz z jego wysokością, gdyż różnice częstotliwości poszczególnych ali-
kwotów stają się coraz większe i szansa, że składowa harmoniczna wejdzie w jedno
z pasm przepustowych danego rezonatora, maleje [18].
Niewłaściwe korzystanie z rezonatorów postrzegane jest w sztuce wokalnej
jako błąd. ”Jeśli głos w swym dolnym zasięgu nie utraci rezonansu górnego, za-
chowa swe piękno dźwiękowe, pełnię, nośność, możność swobodnej modulacji dy-
namicznej bez jakiegokolwiek wysiłku” [37]. Głos z niewystarczającą zawartością
rejestru głowowego (tzw. ”zapiersiowany”) staje się mniej nośny i wymaga użycia
przez śpiewaka większej siły w celu przeciwstawienia się tłumieniu dźwięku. Taki
”zapiersiowany” głos wywołuje ponadto u śpiewaka mylące wrażenia słuchowe,
dające wrażenie dużej pełni dźwięku i głośności.
Co ciekawe, poszczególne rejestry związane są również ze sposobem, w jaki
drgają struny głosowe. Przy śpiewie w rejestrze piersiowym struny drgają całą
objętością, a w głowowym tylko swą brzeżną częścią.
2.8.3 Formant śpiewaczy

W widmie głosu dobrych śpiewaków występują dodatkowe wzmocnienia częstotli-
wości, zwane formantem śpiewaczym. Według niektórych naukowców (np. Luch-
singera) ”powstaje on na skutek szczególnego napięcia mięśni gardła, zwłaszcza

podniebienia miękkiego” [21].
U kobiet formant śpiewaczy powstaje w następujących obszarach:
• Niski formant śpiewaczy: 400 - 600 Hz. Odpowiada on subiektywnemu od-

czuciu ”objętości” i ”zaokrąglenia” [21, za H. Fischer-Klotz i H. Kohler-
Wellner].
• Wysoki formant śpiewaczy : 2700 - 3500 Hz. Związany jest z ”blaskiem”,

”metalicznością”, ”nośnością” i ”siłą przebicia” [21, za H. Fischer-Klotz i
H. Kohler-Wellner].
W. P. Morozow w ”Isskustwo Rezonansnawo Pienija” [25] podaje dla głosów mę-

skich inne obszary występowania formantów. Rozróżnia on trzy ich rodzaje: niski,
średni i wysoki, i zauważa, że ich położenie zależy od rodzaju głosu (im wyższe
głosy, tym wyżej położone formanty). Rozmieszczenie formantów śpiewaczych dla
głosów męskich podaje tabela 2.2.
Rodzaj F1 (niski f.śpiew.) F2 (średni f.śpiew.) F3 (wysoki f.śpiew.)

głosu
Bas 380 - 540 760 - 1100 2200 - 2500
Baryton 450 - 540 1100 2500
Tenor 540 - 640 1300 2500 - 2800
Tabela 2.2: Położenie formantów śpiewaczych dla głosów męskich (wg W. P. Mo-
rozowa) [25]
Częstość występowania formantu śpiewaczego rośnie wraz z doskonaleniem

sztuki wokalnej. ”Wg W. P. Morozowa spotyka się go u 3-5 procent początkują-
cych, 15-30 procent wykształconych i 35-40 procent wybitnych śpiewaków” [21].
2.8.4 Barwa wokalna i pozawokalna

Obserwując wykresy widma głosu ludzkiego, można wyróżnić w nim dwie części,
mające wpływ na barwę dźwięku:
• do 2000 Hz - część wokalna,
• powyżej 2000 Hz - część pozawokalna.
Część pozawokalna decyduje przede wszystkim o nośności dźwięku oraz cechach

barwy charakterystycznych dla poszczególnych śpiewaków. W jej paśmie znajduje
się wysoki formant śpiewaczy, decydujący o nośności dźwięku. Część wokalna
obejmuje natomiast niski i średni formant śpiewaczy, formant klatki piersiowej i
większość formantów samogłosek.
70
60
50
Srednia moc sygnalu [dB / Hz]
40
30
20
10
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Czestotliwosc[Hz]
Rysunek 2.21: Widmo długoterminowe głosu barytona Jacka Salamona. Widocz-

ny wysoki formant śpiewaczy o częstotliwości 2500 Hz
2.8.5 Głoski a rezonans
”Związki, jakie zachodzą między samogłoskami a rejestrami określa fonetyka mia-

nem prawo samogłosek ” [37]. Z tabeli 2.3 wynika, że samogłoski i, e należą głównie
do rejestru głowowego, samogłoski o, u należą głównie do rejestru piersiowego, a
samogłoska a tkwi pomiędzy rejestrem głowowym a piersiowym.
Często niedoświadczeni śpiewacy podczas śpiewania różnych następujących
po sobie głosek nie są w stanie poprawnie zmieniać ustawienia odpowiadających
za nie rezonatorów. W wyniku tego głoski stają się zniekształcone lub też ich
wydobycie powoduje niekontrolowaną zmianę rejestru. Np. jeśli każemy począt-
kującemu śpiewakowi zaśpiewać następstwo samogłosek i-a na tej samej wysoko-
ści dźwięku, to z chwilą wystąpienia samogłoski a dźwięk stanie się ”silniejszy,
cięższy i bardziej piersiowy” [37].
W niektórych przypadkach zniekształcenie śpiewanych głosek nie jest winą
śpiewaka. W miarę zwiększania wysokości dźwięku zwiększa się również odstęp
między jego składowymi harmonicznymi. Jeśli odstęp ten sięga 1kHz, to rozpo-
znanie poszczególnych samogłosek jest prawie niemożliwe, ponieważ mała jest
wtedy szansa na to, że składowe harmoniczne znajdą się w pasmach przepusto-
wych odpowiednich rezonansów. Zjawisko to zachodzi w najwyższych dźwiękach
partii sopranowych [18].
Głoska F1 F2 F3
a 1130 - 1430 565 - 900
ą 450 - 715 900 - 1130
e 450 - 900 1800 - 2250
ę 283 - 715 900 - 1130 1430 - 1800
i 2250 - 4500 283 - 450
o 450 - 715 900 - 1130 225 - 351
u 283 - 400 565 - 830
y 283 - 565 1430 - 1800 2830 - 3550
Tabela 2.3: Główne pasma formantowe samogłosek polskich, wg J. Regenta [36].
Dane w Hertzach.
Głoska F1 F2 F3
m 112 - 180 225 - 283 900 - 1120
n 112 - 142 225 - 283 1800 - 2250
Tabela 2.4: Główne pasma formantowe spółgłosek dźwięcznych nosowych w języ-
ku polskim, wg J. Regenta [36]. Dane w Hertzach.
Głoska F1 F2 F3
b 142 - 180 358 - 450 1430 - 1800
d 112 - 143 225 - 450 1120 - 1800
dz 112 - 565 7150 - 11200 1430 - 1800
dź 112 - 900 2250 - 7150
ź 112 - 565 2250 - 9000
ż 112 - 565 2250 - 5650
g 112 - 180 283 - 450 1420 - 2250
l 112 - 565 715 - 1120 1800 - 3580
j 112 - 358 90 - 142
r 142 - 715 900 - 2250
w 112 - 565 7150 - 14200
Tabela 2.5: Główne pasma formantowe spółgłosek dźwięcznych czystych w języku
polskim, wg J. Regenta [36]. Dane w Hertzach.
Głoska F1 F2 F3
c 3650 - 9000 1800 - 3580
ć 2250 - 9000
cz 1800 - 7150
f 5650 - 7150 450 - 715
h 358 - 450 1120 - 1420
ch 1120 - 1800 450 - 715
s 3580 - 9000
ś 2830 - 3580 5650 - 7150
sz 1420 - 1800 4500 - 5650
k 1420 - 2250 4500 - 5650 358 - 565
p 90 - 142 450 - 555 1420 - 1800
t 1800 - 2830 3580 - 7150 358 - 365
Tabela 2.6: Główne pasma formantowe spółgłosek bezdźwięcznych czystych w
języku polskim, wg J. Regenta [36]. Dane w Hertzach.
2.8.6 Krycie
Bardzo ważnym elementem technicznym klasycznej emisji głosu jest odpowiednie
kształtowanie barwy dźwięku w celu uzyskania wyrównanej barwy w całej skali
głosu. Niskie dźwięki, które z natury są zaciemnione i mało nośne, wymagają
specjalnego rozjaśnienia barwy, co zwiększa ich nośność i dźwięczność. Wyso-
kie dźwięki natomiast są przez śpiewaków zaciemniane, gdyż zbyt jasne dźwięki
w wysokich rejestrach postrzegane są jako nieestetyczne. Technikę zaciemniania
wysokich dźwięków nazywamy kryciem.
Krycie polega na przesunięciu korzenia języka wraz z nagłośnią ku przodowi
i wycofanie przodu języka do tyłu, ”co daje w efekcie silne uwypuklenie części
środkowej języka ku górze w formie garbu” [54]. W rezultacie zostaje powiększo-
na przedniozębowo-ustna jama rezonansowa, co skutkuje dźwiękiem ciemnym i
ciężkim, o wzmocnionych dolnych składowych harmonicznych.
Mechanizm krycia najwyraźniej objawia się w przypadku jasnych samogłosek.
Przy ciemnych samogłoskach krycie realizuje się dużo wcześniej, niż przy jasnych
samogłoskach - czasem o 4 do 5 półtonów poniżej [54].
Warto nadmienić, że umiejętność krycia ”nie jest niezbędna w wykonawstwie
muzyki dawnej” [49]. W XVI i XVII wieku śpiewacy zwykli w wysokich partiach
przechodzić na falset.
2.8.7 Pola czuciowe

Pola czuciowe to szczególnie unerwione okolice umieszczone w rejonie twarzo-
czaski, krtani, klatki piersiowej i powłok brzusznych [54]. Wyróżniamy następu-
jące pola czuciowe:
• przednia część podniebienia twardego i wyrostków zębodołowych górnej

szczęki,
• tylna część podniebienia twardego i podniebienie miękkie,
• tylna ściana gardła,
• okolice krtani,
• jama nosowa i zatoki oboczne,
• wewnętrzna powierzchnia tchawicy,
• ściany klatki piersiowej,
• ściany jamy brzusznej.
Zadaniem pól czuciowych jest dostarczanie organizmowi informacji na temat

przebiegu procesu fonacji, dzięki czemu śpiewak jest w stanie nad tym procesem
zapanować. Doświadczenia wykazały, że śpiewacy ze znieczulonymi farmakolo-
gicznie polami czuciowymi nie potrafią wydobyć poprawnie dźwięku, nie panują
nad jego wysokością i barwą, a nawet nie są w stanie wziąć poprawnego oddechu
[54].
Każde pole czuciowe reaguje na konkretne pasmo częstotliwości w głosie ludz-
kim. Wzbudzenie pól czuciowych jest tym mocniejsze, im większe jest natężenie
sygnału w danym paśmie częstotliwości, charakterystycznym dla danego pola. Na
przykład pole czuciowe podniebienne przednie (przednia część podniebienia twar-
dego) reaguje na częstotliwości z zakresu 2500 do 3200 Hz, co odpowiada długości
fali 10-14 cm, gdyż taka jest właśnie przeciętna odległość tego pola czuciowego od
krtani (odleglość tą rozpatrujemy jako słup powietrza z dwoma węzłami drgań, z
których jeden umieszczony jest na krtani, a drugi na polu podniebiennym przed-
nim). Tak więc im dalej od krtani umieszczone jest pole czuciowe, tym niższe
częstotliwości ono wykrywa.
Teoria pól czuciowych tłumaczy udział jamy nosowej i zatok obocznych w pro-
cesie fonacji. Rezonatorom tym przypisywano przez kilka wieków wielki wkład w
powstawanie nośnego dźwięku (tzw. śpiew na ”maskę”). W rzeczywistości jed-
nak udział tych rezonatorów we wzmacnianiu dźwięku jest niewielki, ale za to są
one ważnymi polami czuciowymi, za pomocą których organizm kontroluje zawar-
tość w sygnale poszczególnych składowych częstotliwościowych, wzmocnionych w
innych rezonatorach.
2.8.8 Vibrato
W głosie ludzkim rozróżniamy dwa zjawiska modulacji amplitudowo-
częstotliwościowej: vibrato i tremolo [53].
W terminologii ogólnomuzycznej vibrato jest zjawiskiem związanym z modu-

lacją częstotliwości, jednak w terminologii wokalnej używa się pojęcia vibrato na
opisanie zjawiska, w którego skład wchodzi zarówno modulacja częstotliwości, jak
i amplitudy, przy czym modulacja częstotliwości jest ważniejsza i lepiej zauwa-
żalna słuchowo. Wokalne vibrato jest procesem fizjologicznym, mającym na celu
poprawienie krążenia krwi i wymiany materiałów pędnych w mięśniach aparatu
głosowego [54]. Decyduje ono ponadto o wartościach ekspresyjnych śpiewu (vibra-
to o nieregularnych zmianach częstotliwości postrzegane jest jako nieestetyczne
i wywołuje wrażenie ”wysilonego” dźwięku) oraz o jego barwie i nośności, gdyż
okresowe zmiany częstotliwości tonów składowych dźwięku zwiększają szansę ich
wejścia w pasma przepustowe formantów charakterystycznych dla ludzkiego cia-
ła. Ambitus vibrata dla poszczególnych tonów składowych jest zależny od ich
częstotliwości (tony składowe o wyższej częstotliwości mają większe vibrato niż
tony składowe o niskiej częstotliwości i ton podstawowy). U wielu głosów vibrato
pojawia się dopiero po chwili od zaatakowania dźwięku - skutkuje to nieprzyjem-
nym efektem zmiany barwy dźwięku i dowodzi jego zbyt twardego atakowania
[54].
Tremolo jest oznaką nieprawidłowości w funkcjonowaniu głosu, spowodowa-
nych chorobami lub starością. Charakteryzuje się ono nieregularnością pulsacji
[54].
Rozdział 3
Część eksperymentalna
3.1 Charakterystyka i cel eksperymentu

Celem przeprowadzonego przez autora eksperymentu jest analiza częstotliwościo-
wa nagrań głosu ludzkiego i violi da gamba w celu wykazania zgodności różnych
cech ich widma z danymi dostępnymi w literaturze oraz znalezienia ewentualnych
podobieństw między dźwiękiem głosu ludzkiego a dźwiękiem violi.
Materiały do badań zebrał autor podczas dwóch sesji nagraniowych, przepro-
wadzonych w budynku Wyższej Szkoły Bankowej w Poznaniu przy ul. Różanej,
na których rejestrowano głosy śpiewaków i dźwięki violi da gamba. Nagrania były
rejestrowane poprzez mikrofon pojemnościowy podłączony do karty dźwiękowej
Presonus Firebox i zapisywane w formacie WAVE na komputerze Macbook za
pomocą programu Ableton Live 6.
Rysunek 3.1: Sesja nagraniowa w budynku Wyższej Szkoły Bankowej w Poznaniu
53
54 ROZDZIAŁ 3. CZĘŚĆ EKSPERYMENTALNA
Do współpracy zaproszono śpiewaków o różnym stopniu zaawansowania:

uczniów szkoły muzycznej II stopnia, absolwentów szkoły muzycznej II stopnia,
członków chórów profesjonalnych i studentów akademii muzycznej. Każdy z nich
wykonał jeden wybrany przez siebie solowy utwór wokalny z okresu baroku (tyl-
ko linię melodyczną solisty, bez akompaniamentu) oraz gamę przez dwie oktawy.
Utwory i gamy były następnie grane przez violę da gamba w celu przeprowadzenia
późniejszego porównania.
Zebrane materiały zostały zresamplowane w celu zmniejszenia ich częstotli-
wości próbkowania. Na potrzeby analizy formantowej zresamplowano dźwięki do
11025 Hz dla głosu ludzkiego i do 11025 lub 6000 Hz dla violi da gamba, gdyż
w pasmach 0-5500 Hz (głos ludzki) i 0-3000 Hz (viola) mieszczą się cechy widma
istotne dla analizy (patrz 2.7 i 2.8). Na potrzeby widm długoterminowych dźwięki
zresamplowano do 12000 Hz, aby móc obliczyć wskaźniki SPR, ER, α − 1 i α − 2.
Następnie nagrania zostały pocięte na poszczególne dźwięki lub kilkudźwiękowe
motywy.
Analiza częstotliwościowa dźwięków prowadzona była w programie MatLab
firmy MathWorks (www.mathworks.com). Dla każdego pliku dźwiękowego obli-
czono widmo za pomocą szybkiej transformacji Fouriera (FFT) oraz kepstralnie
wygładzone widmo według metody wykorzystującej dyskretną transformację co-
sinusową (DCT), opisanej w rozdziale 2.5.6. Założenia, które przyjęto podczas
analizy są szczegółowo opisane w rozdziałach 2.7 i 2.8.
Na podstawie zgromadzonych nagrań przeprowadzono analizę formantową:
odczytano z nich rozkład charakterystycznych formantów rezonansowych, któ-
rych obecność zależna jest od śpiewanych samogłosek, rodzaju emisji głosu, za-
wartości poszczególnych rejestrów w głosie i indywidualnych cech osobniczych
każdego śpiewaka albo (w przypadku violi) od budowy instrumentu: wielkości
pudła rezonansowego, użytych materiałów, itp. Przeprowadzono też badania ja-
sności barwy dźwięku violi da gamba i głosu ludzkiego (patrz rozdział 2.4) oraz
jakości głosu śpiewaczego w oparciu o wskaźniki SPR, ER, α − 1 i α − 2. Podjęto
również próbę automatycznej klasyfikacji wektorów współczynników kepstralnych
dźwięków violi da gamba do klas reprezentujących głosy śpiewacze za pomocą al-
gorytmów automatycznej klasyfikacji danych. W dalszych rozdziałach znajduje
się szczegółowy opis otrzymanych wyników badań.
3.2 Uczestnicy nagrań

Oto krótka charakterystyka osób biorących udział w nagraniach:
• Krzysztof Dąbrowski - matematyk i muzyk. Ukończył Górnołużycką

Akademię Muzyki Dawnej w Görlitz w zakresie gry na flecie prostym oraz w
zakresie gry na violi da gamba. Obecnie studiuje violę da gamba na Akade-
mii Muzycznej w Poznaniu w klasie p. Kazimierza Pyzika. Współpracował z
3.2. UCZESTNICY NAGRAŃ 55
Warszawską Operą Kameralną, Teatrem Wielkim, Filharmonią Narodową,

Teatrem Współczesnym, Teatrem Narodowym.
• Anna Suda - absolwentka prawa i filozofii. Od 2003 r. kompozytorka mu-

zyki elektronicznej, tworzy pod pseudonimem An On Bast. W środowisku
muzycznym szybko dorobiła się tytułu ”pierwszej damy polskiej ekspery-
mentalnej muzyki elektronicznej”. Swą twórczość prezentowała na festiwa-
lach w Polsce (Nowamuzyka w Katowicach, Unsound w Toruniu, WEF w
Warszawie, Transvizualia w Gdyni) i za granicą: Sonar (Barcelona 2007),
Numusic (Stavanger 2007), Electro-Mechanica (St Petersbourg 2007), a tak-
że w licznych klubach na świecie. W wolnych chwilach śpiewa w chórze Wyż-
szej Szkoły Bankowej w Poznaniu Dominicantes. Podczas sesji nagraniowej,
zorganizowanej na potrzeby niniejszej pracy magisterskiej, zajmowała się
stroną techniczną nagrań.
• dr inż. Ewa Łukasik - pracownik naukowy Instytutu Informatyki Poli-

techniki Poznańskiej w Poznaniu. Pani Ewa Łukasik nadzorowała technicz-
ną i merytoryczną stronę nagrań.
• Jacek Salamon - autor niniejszej pracy. Śpiewak (bas-baryton)

i kompozytor-amator (tworzy muzykę w stylach historycznych, głównie w
stylu manieryzmu i środkowego baroku). Absolwent Państwowej Szkoły Mu-
zycznej II Stopnia im. F. Chopina w Poznaniu, student Informatyki Stoso-
wanej na Wydziale Fizyki UAM w Poznaniu. Były członek chóru Wyższej
Szkoły Bankowej Dominicantes; obecnie śpiewa w zespole muzyki dawnej
Cantores Viridimontani.
• Anna Gotfryd - sopran, była studentka Wydziału Wokalnego Akademii

Muzycznej w Poznaniu, absolwentka Filologii Romańskiej na UAM w Po-
znaniu. Były członek chóru Wyższej Szkoły Bankowej Dominicantes.
• Maciej Stępiński - tenor, absolwent Państwowej Szkoły Muzycznej II

Stopnia im. F. Chopina w Poznaniu i Wydziału Prawa i Administracji UAM
w Poznaniu. Były członek chóru Wyższej Szkoły Bankowej Dominicantes,
aktualnie członek Chóru Kameralnego UAM.
• Karolina Roman - sopran, uczennica Państwowej Szkoły Muzycznej II

Stopnia im. F. Chopina w Poznaniu, studentka Protetyki Słuchu i Ochrony
przed Hałasem na Wydziale Fizyki UAM w Poznaniu.
• Maria Penc - sopran, absolwentka Państwowej Szkoły Muzycznej II Stop-

nia im. F. Chopina w Poznaniu, studentka Pedagogiki na UAM w Poznaniu.
W tabeli 3.1 znajduje się zestawienie śpiewaków biorących udział w nagra-

niach i wykonywanych przez nich utworów. Z braku czasu nie nagrano utworu
przygotowanego przez Marię Penc, toteż śpiewaczka ta zostanie pominięta w więk-

szości analiz.
Śpiewak Rodzaj głosu Utwór

Maciej Stępiński tenor G. F. Haendel - Kserkses,
aria Ombra mai fu
Karolina Roman sopran A. Vivaldi - Juditha Triumphans,
aria O servi volate
Jacek Salamon baryton G. F. Haendel - Orlando,
recytatyw O voi del mio poter
Anna Gotfryd sopran A. Vivaldi - Gloria,
aria Domine Deus
Tabela 3.1: Zestawienie śpiewaków biorących udział w nagraniach i śpiewanych
przez nich utworów
3.3 Dźwięki violi da gamba i głosów śpiewaczych w ga-

mach diatonicznych
3.3.1 Analiza widmowa dźwięków gamy wykonanej na violi da gamba
W rozdziale 2.7.3 opisano eksperyment Fletchera, Blackhama i Geertsena [9], w
którym zmierzono wartości mocy dla poszczególnych składowych harmonicznych
różnych dźwięków violi da gamba. Wartości te autor zebrał na wykresie zależności
mocy od częstotliwości, dzięki czemu było możliwe określenie ogólnego zarysu
obwiedni widma i wyodrębnienie możliwych miejsc wystąpienia formantów. Teraz
spróbujemy skonfrontować te wyniki z zebranymi próbkami dźwięku violi.
Ponieważ, w odróżnieniu od głosu ludzkiego, formanty instrumentów smycz-
kowych są położone bardzo gęsto i mają wąskie pasma przepustowe, to najlep-
szym sposobem na ich odnalezienie w widmie dźwięku jest uśrednienie dłuższej
frazy muzycznej, najlepiej zawierającej wszystkie dźwięki diatoniczne lub chro-
matyczne w określonym ambitusie. Dzięki temu istnieje duża szansa na to, że
poszczególne składowe o określonych częstotliwościach ”wpadną” w pasma prze-
pustowe odpowiednich formantów.
Przeanalizujemy teraz wznoszącą gamę diatoniczną w górę w tonacji D-dur,
graną na basowej violi da gamba. Na początku zajmiemy się czterema najniższymi
dźwiękami gamy (D, E, Fis, G). Rozkład składowych harmonicznych zawartych w
tych dźwiękach jest, z uwagi na ich niskie położenie, bardzo gęsty, więc uśrednianie
widma kilku dźwięków nie jest konieczne. Na rys. 3.2 widać widma tych dźwięków
oraz zarysy obwiedni odpowiedzi rezonansowej uzyskane metodą kepstralnego
wygładzania widma przy zachowaniu ok. 36 współczynników kepstralnych.
3.3. DŹWIĘKI VIOLI DA GAMBA I GŁOSÓW ŚPIEWACZYCH... 57
1.4
0
1.2
−20
−40

0.8
Amplituda
−60
0.6
−80
0.4
−100
0.2
0 −120
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Czestotliwosc [Hz] Czestotliwosc[Hz]
1.4
0
1.2
−20
−40

0.8
Amplituda
−60
0.6
−80
0.4
−100
0.2
0 −120
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
1.8
0
1.6
−20
1.4
−40
1.2
1 −60
Amplituda
0.8
−80
0.6
−100
0.4
−120
0.2
0 −140
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
1.4
0
1.2
−20
1 −40
0.8 −60
Amplituda
0.6 −80
0.4 −100
0.2 −120
0 −140
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.2: Gama D-dur na violi da gamba. Widma i kepstralnie wygładzone

widma dźwięków (od góry:) D, E, Fis, G.
1.4 0
1.2
−10
1
−20

Srednia amplituda
0.8
−30
0.6
−40
0.4
−50
0.2
0 −60
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
4 0
3.5
−10
3
−20

2.5
Srednia amplituda
−30
−40
1.5
−50
1
−60
0.5
0 −70
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
2.5 0
−10
2
−20
Srednia amplituda
1.5
−30
−40
1
−50
0.5
−60
0 −70
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
2.5 0
−10
2
−20
Srednia amplituda
1.5
−30
−40
0.5
−50
0 −60
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.3: Gama D-dur na violi da gamba. Widma i wygładzone widma dźwię-
ków (od góry:) AHcisd, ef isg, ahcis1 d1 , cała gama.
Obwiednia widma zdominowana jest przez wysoki pik, którego maksimum

oscyluje między 150 a 250 Hz. W tych okolicach leży zapewne charakterystyczny
formant rezonansu powietrza zamkniętego w pudle rezonansowym∗ . Ton podsta-
wowy na początku leży poza pasmem przepustowym tego formantu i dopiero w
miarę przesuwania się w górę skali jego moc wzrasta. Badana tutaj viola da gamba
ma więc zbyt małe pudło rezonansowe niż wymaga tego strój jej najniższej stru-
ny. Jak wynika z rozdziału 1.2, duże viole da gamba, o dobrze brzmiących niskich
dźwiękach, przeznaczone były do gry w consortach. Mniejsze instrumenty, prze-
znaczone do gry solowej, nie potrzebowały, jak widać, tak dobrze wzmocnionego
dolnego odcinka skali.
Najwyższa wartość drugiego co do wielkości piku oscyluje w granicach 500 -
600 Hz. Odpowiada to częstotliwości ok. 515 Hz widocznej na wykresach widma
z eksperymentu Fletchera, Blachhama i Geertsena (patrz 2.16).
Między dwoma najwyższymi pikami na wykresie uśrednionego widma całej
gamy (rysunek 3.3 na dole) widać również mniejszy pik w okolicach 300 Hz - 350
Hz. Na wykresie wygładzonego widma nie widać tego formantu ze względu na
dominację widma przez dwa otaczające go wysokie piki.
Idąc dalej w stronę wyższych częstotliwości zauważamy kolejny pik, którego
maksimum oscyluje w granicach 800-1000 Hz, a następnie kolejne piki w granicach
1200-1300 Hz, 1400-1550 Hz, ok. 1700 Hz i ok. 1900 Hz. Niektóre piki od czasu
do czasu zanikają, co może mieć związek z powstawaniem na strunie sztucznych
węzłów drgań w wyniku jej skracania. Powyżej częstotliwości 2000 Hz formantów
w zasadzie brak.
Odnalezione przez autora częstotliwości formantów pokrywają się w większo-
ści z częstotliwościami wynikającymi z wykresów w pracy Fletchera, Blackhama
i Geertsena. Najsilniejsze rezonanse zdają się mieścić w przedziałach 150-250 Hz,
300-350 Hz, 500-600Hz i 800-1100 Hz.
Warto rozważyć w tym miejscu podobieństwo rozmieszczenia formantów violi
da gamba do rozmieszczenia formantów w głosie ludzkim. Wiemy już, że viole da
gamba nie posiadają tzw. formantów śpiewaczych. Część charakterystycznych dla
nich formantów może się jednak pokrywać z formantami pewnych głosek mowy
ludzkiej.
W pracy ”Timbral analogies between vowels and plucked string tones” Caro-
line Traube i Philippe Depalle [46] poprzez proste dopasowywanie formantów wy-
kazują podobieństwo dźwięku struny gitary, zarywanej w różnych miejscach, do
różnych samogłosek. Zjawisko to jest znane gitarzystom, którzy określają dźwięk
w zależności od miejsca zarwania struny, jako ”nosowy”, ”okrągły”, itp. [46]
Podobne dopasowanie można przeprowadzić dla dźwięku violi. Rozkład for-
mantów w dźwięku tego instrumentu (rys. 3.2 i 3.3) przypomina rozkład forman-
∗
W eksperymencie Fletchera, Blackhama i Geertsena formant ten przypadał w niższym
zakresie częstotliwości, jednak tam prawdopodobnie wykorzystana została większa viola (o naj-
niższej strunie G1 ).
tów dla ciemnych samogłosek ”u”, ”o”, ”ą” w głosie ludzkim. Słuchowe podo-
bieństwo dźwięku violi da gamba do tych głosek jest jednak dyskusyjne.
3.3.2 Analiza widmowa dźwięków gamy w wykonaniu głosu ludzkiego

Do analizy widmowej wykonania gamy diatonicznej przez głos ludzki, autor pra-
cy wybrał głos barytonowy, czyli swój własny. Pierwszym powodem tego wyboru
jest fakt, że w niskich dźwiękach składowe harmoniczne rozmieszczone są gęsto,
dzięki czemu łatwiej jest wykryć formanty rezonansowe. Drugim i najważniejszym
powodem jest duża trudność zaśpiewania gamy przez dwie oktawy, która wyni-
ka z niezgodności tego zadania z idiomem† wokalnym. Z tego powodu śpiewacy,
biorący udział w badaniach, łącznie z autorem niniejszej pracy, nie wykazali nale-
żytej jakości technicznej. Szczegółowa analiza głosów poszczególnych śpiewaków
zostanie omówiona w następnych podrozdziałach w kontekście analizy wykonania
poszczególnych utworów. Autor zamieszcza jedynie analizę gamy w swoim wyko-
naniu dla kompletności rozdziału.
Na spektrogramie przedstawionym na rysunku 3.4 widoczna jest cała gama

G−dur zaśpiewana przez dwie oktawy między dźwiękami G a g1 . Pierwszą rzeczą,
która rzuca sie w oczy jest nieregularne vibrato pojawiające się wraz z wchodze-
niem na coraz wyższe dźwieki, przez co dźwięk jest wysilony i nieprzyjemny w
brzmieniu. Nie traci jednak blasku ze względu na stałą obecność wysokiego for-
mantu śpiewaczego, widocznego na spektrogramie i wykresach widm wybranych
dźwięków gamy (G, H, d, g, h, d1 i g1 ) na rysunkach 3.4 i 3.5. Formant ten,
umieszczony między 2500 a 2800 Hz, charakterystyczny jest wg W. Morozowa
dla tenora [25], a nie dla barytona. Zapewne słuchowe odczucie obecności tego
formantu jest powodem sporów między pedagogami wokalnymi, z których nie-
którzy klasyfikują autora niniejszej pracy jako tenora, a inni - m.in. ze względu
na skalę głosu w dół, nieosiągalną dla tenora - jako bas-barytona lub barytona.
Morozow [25] zwraca jednak uwagę na zjawisko przesunięcia wysokiego formantu
śpiewaczego barytona w pasmo częstotliwości charakterystycznych dla tenora, po-
jawiające się w wyniku nasalizacji dźwięku. Przesunięcie to zaobserwować można
na rysunku 3.31 (wykresy c i d) w rozdziale 3.9.
Ponadto na przedstawionych wykresach widzimy stały formant w paśmie 565

- 900 Hz, odpowiadający formantowi F2 samogłoski ”a” (patrz tabela 2.3). Wi-
doczny jest również formant umieszczony w paśmie 4000 - 4500 Hz, jednak autor
nie znalazł dla niego potwierdzenia w literaturze. Być może jest on związany z
działaniem jamy nosowej i zatok obocznych (patrz 2.8.1).
†
Idiom instrumentalny/wokalny - sposób gry na konkretnym instrumencie (lub śpiewu),
charakterystyczny dla danego instrumentu (lub głosu ludzkiego) i odpowiadający jego budowie
i możliwościom technicznym.
0.1 0
0.09
−20
0.08
0.07
−40
0.06
Amplituda
0.05 −60
0.04
−80
0.03
0.02
−100
0.01
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Czestotliwosc[Hz] Czestotliwosc[Hz]
0.25 0
−20
0.2
−40
0.15
Amplituda
−60
0.1
−80
0.05
−100
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.2 0
0.18
−20
0.16
0.14
−40
0.12
Amplituda
0.1 −60
0.08
−80
0.06
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.4: U góry: spektrogram gamy G-dur w wykonaniu śpiewaka. U dołu:

Widma i wygładzone widma dźwięków (od góry:) G, H i d.
0.7
0
0.6
−20
0.5
−40

0.4
Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.7
0
0.6
−20
0.5
−40
0.4
Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.8
0
0.7
−20
0.6
−40
0.5
Amplituda
0.4 −60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
6
0
5 −20
−40
4
Amplituda
−60
3
−80
−100
1
−120
0 −140
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Czestotliwosc[Hz] Czestotliwosc [Hz]
Rysunek 3.5: Widma i wygładzone widma dźwięków gamy G-dur (od góry: g, h,
d1 , g1 ) w wykonaniu śpiewaka.
3.3.3 Analiza jasności barwy dźwięku głosu ludzkiego i violi da gamba

Wykresy 3.6 prezentują zmiany jasności dźwięku dla poszczególnych stopni gam
diatonicznych wykonywanych przez violę da gamba i śpiewaków. Poszczególni
uczestnicy dysponowali różnymi skalami głosu, toteż każdy z nich wykonał inną
gamę. Autor niniejszej pracy wykonał gamę G-dur od dźwięku G, a tenor Maciej
Stępiński wykonał gamę A-dur od dźwięku A. Te dwa głosy męskie dostarczają
najistotniejszych wyników, gdyż ich skala pokrywa się w dużym stopniu ze skalą
violi da gamba, na której wykonano gamę D-dur od dźwięku D. Oprócz tego
dla porównania na wykresach umieszczono wartości dla dwóch głosów kobiecych:
Karoliny Roman, która wykonała gamę H-dur od dźwięku h i Anny Gotfryd,
która wykonała gamę A-dur od dźwięku a.
Jak podano w rozdziale 2.4, jasność dźwięku związana jest z parametrem fc ,
wskazującym ”środek masy” widma oraz jego stosunkiem do tonu podstawowego:
fc /f0 . Nie dowiedziono, jak dotąd, który z tych dwóch współczynników lepiej
oddaje fenomen jasności.
Na wykresie 3.6.a przedstawione są częstotliwości tonu podstawowego dla po-
szczególnych stopni gam, odczytane z cepstrum sygnału (patrz 2.5.8). Różnice
w tych wartościach zależą od znaku umieszczonego przy dźwięku (podwyższony
lub nie), intonacji (hipertonacja, detonacja) i wibrata (małe, duże). Absurdal-
na wartość dla dźwięku cis1 u Anny Gotfryd wynika z niedoskonałości metody
odnajdywania tonu podstawowego.
Z wykresów 3.6.b i 3.6.c łatwo można odczytać, że dźwięki violi da gam-
ba posiadają dużo niższe współczynniki jasności (zarówno fc , jak i fc /f0 ), niż
współczynniki dla głosów śpiewaczych. Dźwięk tego instrumentu, jak wspomnia-
no w rozdziale 2.7, posiada bowiem większą część mocy skoncentrowaną w niskich
pasmach częstotliwości. W miarę wstępowania na coraz wyższe stopnie gamy,
jasność barwy dźwięku utrzymuje się na mniej więcej stałym (z drobnymi wy-
chyleniami) poziomie (wg współczynnika fc /f0 ) lub też łagodnie wzrasta (wg
współczynnika fc ).
Przyjrzyjmy się teraz głosom męskim. Współczynnik fc /f0 zdaje się zmieniać
w sposób zgodny z powszechnie przyjętymi przez pedagogów wokalnych opiniami
na temat jasności głosu w zależności od rejestru‡ . Najniższe dźwięki wykonywa-
ne przez autora posiadają największą jasność, która stopniowo maleje w miarę
wchodzenia na wyższe stopnie skali. Niskie dźwięki bowiem, z natury mało nośne
i stłumione, potrzebują specjalnego, wprowadzanego celowo i świadomie przez
śpiewaka, rozjaśnienia barwy. Dźwięki wysokie natomiast są celowo zaciemniane
(kryte)§ , gdyż zbyt jasna barwa wysokich dźwięków uznawana jest za nieeste-
‡
Toteż autor jest zdania, że współczynnik ten lepiej oddaje wrażenie jasności barwy w gło-
sach śpiewaczych niż współczynnik fc
§
W muzyce dawnej zamiast krycia stosowano zwykle przejście na falset, patrz rozdział 2.8.6.
Ponieważ dźwięki falsetowe posiadają większą część mocy skoncentrowaną w paśmie niskich
częstotliwości, to - podobnie jak dźwięki kryte - charakteryzują się ciemną barwą.
500
f0 - J. Salamon [Hz]
450 f0 - v. da gamba [Hz]
f0 - M. Stępiński [Hz]
400
f0 - K. Roman [Hz]
350 f0 - A. Gotfryd [Hz]
300
250
200
150
100
50
0
D
E
Fis
G
A
H
c / cis
d
e
fis
g / gis
a
h
c1 / cis1
d1 / dis1
e1
fis1
g1 / gis1
a1 / ais1
a)
3000 25
fc - J. Salamon [Hz]
fc - v. da gamba [Hz] fc / f0 - J. Salamon
fc - M. Stępiński [Hz] fc / f0 - v. da gamba
2500 fc / f0 - M. Stępiński
fc - K. Roman [Hz] 20
fc - A. Gotfryd [Hz] fc / f0 - K. Roman
fc / f0 - A. Gotfryd
2000
15
1500
10
1000
5
500
0 0
D
D
Fis
c / cis
c1 / cis1
H
fis
g / gis
d1 / dis1
e1
fis1
g1 / gis1
a1 / ais1
Fis
c / cis
fis
g / gis
c1 / cis1
d1 / dis1
e1
fis1
g1 / gis1
a1 / ais1
b) c)
Rysunek 3.6: Współczynniki związane z jasnością barwy dźwięku dla kolejnych
stopni gam durowych w wykonaniu śpiewaków i violi da gamba.
tyczną. Ponadto rozjaśnianie niskich dźwięków i zaciemnianie wysokich sprzyja

wyrównaniu barwy w całej skali śpiewaka.
Zjawisko to zdaje się potwierdzać również głos tenora Macieja Stępińskiego.
Wprawdzie najniższe dźwięki (A i H) mają bardzo ciemną barwę (a wartości
współczynników fc /f0 i fc dla dźwięku A niemalże pokrywają się z wartościami
dla violi da gamba), ale są to dźwięki nietypowe dla tenora - zbyt niskie, jak na
jego skalę. Śpiewak nie jest w stanie więc ich odpowiednio rozjaśnić. Począwszy
jednak od dźwięku cis, wartości współczynnika fc /f0 praktycznie pokrywają się
z wartościami dla barytona i tak samo zmniejszają się w miarę wchodzenia na
coraz wyższe stopnie skali.
Wykres zmian współczynnika fc daje jednak dla obydwu śpiewaków inne re-
zultaty. Wartości dla głosu Jacka Salamona oscylują wokół 1681 Hz +- ok. 300
Hz. Wartości dla głosu Macieja Stępińskiego rosną natomiast ostro w górę.
Współczynniki fc /f0 i fc dla głosów obydwu śpiewaczek sytuują się między
wartościami dla gamby a wartościami dla głosów męskich i nie podlegają dużym
zmianom. Karolina Roman ma ciemniejszy głos od Anny Gotfryd, gdyż jego
widmo posiada mniejszą moc w wysokich pasmach częstotliwości niż widmo głosu
3.4. ANALIZA WYKONANIA ARII OMBRA MAI FU... 65
Anny Gotfryd, co zostanie wykazane w rozdziale 3.8.

Podsumowując: viola da gamba posiada dźwięk o ciemniejszej barwie niż głosy
śpiewacze, przy czym głosy męskie mają jaśniejszą barwę od żeńskich. W miarę
wstępowania na coraz wyższe dźwięki, jasność barwy głosów śpiewaczych zbliża
się do jasności barwy dźwięku violi.
3.4 Analiza wykonania arii Ombra mai fu z opery Kserkses

G. F. Haendla
3.4.1 Wykonanie przez śpiewaka
# ## 3
V # 4Œ ˙ ˙. œ œ œ.
œ ˙.
Om bra mai fu
Rysunek 3.7: G. F. Haendel - Ombra mai fu. Początkowy motyw.
Rozważmy początkowy motyw arii (rys. 3.7), składający się z dźwięków h,

gis, fis i e ¶ na słowach ”Ombra mai fu”. Na rysunkach 3.8 i 3.9 zobaczyć można
widma poszczególnych dźwięków oraz ich kepstralnie wygładzone widma.
Pierwszą rzeczą, która rzuca się w oczy podczas oglądania tych wykresów
jest charakterystyczny wysoki formant śpiewaczy położony między 2500 a 2800
Hz, co pokrywa się z wysokim formantem śpiewaczym tenora, opisanym przez
W. P. Morozowa [25] (patrz rozdział 2.8.3). Co ciekawe, śpiewak który nagrywał
analizowany tutaj materiał dźwiękowy, został w młodości błędnie rozpoznany
jako bas i takim właśnie głosem śpiewał w chórze. Z przytoczonych tu wykresów
wynika jednak niezaprzeczalnie, że jest to tenor.
Kolejną sprawą, na którą należy zwrócić uwagę, jest znaczna przewaga mocy
drugiej składowej harmonicznej nad tonem podstawowym. Zjawisko to jest cha-
rakterystyczne dla wszystkich głosów męskich i wynika z tego, że ton podstawowy
znajduje się zwykle poniżej pasma przepustowego najniższych formantów samo-
głosek. Być może jest to powód, dla którego niedoświadczeni śpiewacy odnoszą
wrażenie, że ich głos brzmi o oktawę wyżej niż jest zapisany i dlatego właśnie dy-
rygenci chórów podają głosom męskim dźwięki zawsze o oktawę wyżej, niż wynika
to z ich zapisu. Jeśli dyrygent poda chórowi dźwięki na oryginalnej wysokości, to
chór ma często problemy z ich powtórzeniem.
Pierwszy dźwięk analizowanego motywu jest długą nutą, na której śpiewak
powoli rozwija vibrato. Na rysunku 3.8 zobrazowane jest widmo i wygładzone
¶
Aria oryginalnie zapisana jest w tonacji F-dur. Tutaj została wykonana w stroju a1 =
415Hz, więc dla porządku zapisuję ją w tonacji E-dur (wg stroju a1 = 440Hz).
0.4 0
0.35
−20
0.3
−40

0.25
Amplituda
0.2 −60
0.15
−80
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.8
0
0.7
−20
0.6
−40
0.5
Amplituda
0.4 −60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.7
0
0.6
−20
0.5
−40
0.4
Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.35 0
0.3
−20
0.25
−40
0.2
Amplituda
−60
0.15
−80
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.8: G. F. Haendel - Ombra mai fu. Od góry: h (małe vibrato), h (duże
vibrato), gis, fis
0.35 0
−10
0.3
−20
0.25
−30

−40
0.2
Amplituda
−50
0.15
−60
0.1 −70
−80
0.05
−90
0 −100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.25 0
−20
0.2
−40
0.15
Amplituda
−60
0.1
−80
0.05
−100
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.18 0
0.16
−20
0.14
0.12 −40
0.1
Amplituda
−60
0.08
0.06 −80
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.9: G. F. Haendel - Ombra mai fu. Trzy różne samogłoski (od góry: a,
i, u) na dźwięku e.
widmo tego dźwięku w dwóch momentach: początkowym i końcowym. Na wy-

kresach widać zwiększenie amplitudy vibrata i znaczny przyrost mocy wysokiego
formantu śpiewaczego w stosunku do reszty widma. Dźwięk nabiera przenikliwo-
ści i nośności. Wszystkie formanty samogłoski ”o” (patrz: tabela 2.3) są obecne
w widmie.
Następne dźwięki to gis i fis na samogłosce ”a”. W drugim dźwięku poziom
wysokiego formantu śpiewaczego w stosunku do reszty widma jest większy niż w
pierwszym. Prawdopodobnie wynika to z tego, że drugi dźwięk jest akcentowany
(przypada na mocną część taktu).
Przyjrzyjmy się teraz trzem ostatnim dźwiękom tego motywu. Mają one tę
samą wysokość (e), jednak śpiewane są na innych samogłoskach. We wszystkich
trzech dźwiękach widać wyraźny formant śpiewaczy w okolicach 2700 Hz. Różnią
się one natomiast formantami charakterystycznymi dla poszczególnych samogło-
sek.
Pierwsza samogłoska ”a” jest zaciemniona i zbliżona raczej do samogłoski ”o”.
Literatura [36] podaje trzy formanty charakterystyczne dla tej głoski: 450-715
Hz, 900-1130 Hz, 225-351 Hz (patrz: rozdział 2.8.5). Wszystkie te trzy formanty
zauważalne są w widmie, łącząc się w jeden szeroki pik na wykresie wygładzonego
widma.
Druga samogłoska (”i”) również jest zaciemniona i zbliżona do samogłoski
”y”. W widmie występują dwa pierwsze formanty samogłoski ”y”, trzeciego brak
(patrz: tabela 2.3). Pierwszy formant samogłoski ”y” jest wspólny z drugim for-
matem samogłoski ”i”, co wskazuje na podobieństwo tych dwóch głosek.
Wraz z przejściem na samogłoskę ”u” znika z widma drugi formant samogłoski
”y” (tutaj w okolicach 1600 Hz). Formant w okolicach 283-400 Hz pozostaje w
widmie (jest on położony podobnie dla samogłosek ”i”, ”y” i ”u”).
3.4.2 Wykonanie na violi da gamba

Do zbadania obwiedni widma dźwięku violi da gamba w omawianym utworze au-
tor wybrał frazę ”di vegetabile cara ed amabile soave piu, ombra mai fu” (takty
21-28), zawierającą wszystkie dźwięki diatoniczne od c do f1 (czyli cały ambitus
utworu). Dzięki temu otrzymujemy odpowiednią gęstość składowych harmonicz-
nych, pozwalajacych otrzymać przekonującą obwiednię widma za pomocą techniki
kepstralnego wygładzania.
Widmo i jego obwiednia pokazane są na rysunku 3.11. Zostało ono odfil-
trowane do 3000Hz, gdyż w tym zakresie koncentruje się większość mocy. Na
wykresie w oczy rzucają się przede wszystkim dwa pierwsze piki, które górują
nad resztą widma, zapewne w wyniku działania rezonansu powietrza zawartego
w pudle rezonansowym (rezonans Helmholtza) i z faktu, że w obszarze ok. 130-
350 Hz znajdują się tony podstawowe analizowanych dźwięków, które z natury
mają większą moc. W widmie występuje również wiele mniejszych pików, repre-
zentujących prawdopodobnie mody płyt rezonansowych i częstotliwości własne

użytego do produkcji instrumentu drewna. Są one rozmieszczone w następują-
cych miejscach: ok. 150 Hz, 300 Hz, 500 Hz, 600 Hz, 1000 Hz, 1250 Hz, 1600 Hz
i 1950 Hz. Wyniki te zgadzają się w większości z częstotliwościami rezonansowy-
mi określonymi na podstawie wykresów z eksperymentu Fletchera, Blackhama i
Geertsena.
0.14 1.4
0.12 1.2
0.1 1
Srednia amplituda
0.08 0.8
Amplituda
0.06 0.6
0.04 0.4
0.02 0.2
0 0
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.10: Po lewej: widmo dźwięku c1 na violi da gamba. Po prawej: uśred-

nione widmo frazy ”Ombra mai fu” na violi da gamba.
1.6 0
1.4
−10
1.2
−20
1
Srednia amplituda
0.8 −30
0.6
−40
0.4
−50
0.2
0 −60
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.11: ”Ombra mai fu” Haendla wykonane na violi da gamba. Po lewej:
uśrednione widmo taktów 21-28, zawierających dźwięki od c do f1 . Po prawej:
Wygładzone widmo tego fragmentu.
3.5 Analiza wykonania arii O servi volate z oratorium Ju-

ditha Triumphans A. Vivaldiego
3.5.1 Wykonanie przez śpiewaczkę
Zmiany rejestrów
Dla pokazania zmian między rejestrem piersiowym a głowowym u sopranistki Ka-

roliny Roman prześledzimy krótki, koloraturowy motyw (połączenie figur tirata
i groppo [16]) na sylabie ”a” w słowie ”volate” (rys. 3.12). Motyw ten zaczyna
się dźwiękiem e1 (es1 )k i wchodzi po gamie diatonicznej aż do dźwięku g2 (ges2 ).
Jak wspomniano w rozdziale 2.8.2, u sopranów obszar przejścia między rejestra-
mi mieści się zwykle w granicach dźwięków h1 a cis2 (500 - 550 Hz) [47]. Po
osiągnięciu tych wysokości wzajemne stosunki poszczególnych składowych har-
monicznych widma zmienią się, co wynika z ich przesunięcia względem położenia
pasm przepustowych poszczególnych formantów rezonansowych naturalnych re-
zonatorów ludzkiego ciała (patrz: 2.8.1).
J. G. Švec, J. Sundberg i S. Hertegård w pracy ”Three registers in an untra-
ined female singer analyzed by videokymography, strobolaryngoscopy and sound
spectrography” [47] stwierdzają, że w rejestrze piersiowym trzecia składowa har-
moniczna dominuje nad tonem podstawowym, a w rejestrze głowowym widmo
zdominowane jest przez ton podstawowy. Prześledzimy teraz zmiany w widmie
poszczególnych dźwięków motywu, aby udowodnić że takie zjawisko rzeczywiście
ma miejsce.
Rysunki 3.13, 3.14 i 3.15 pokazują widma dźwięków omawianego motywu. W
widmie dźwięku es1 dominuje trzecia składowa harmoniczna - posiada ona więk-
szą moc od mocy tonu podstawowego. Kiedy wysokość dźwięku rośnie, obserwu-
jemy spadek mocy trzeciej składowej harmonicznej i wzrost mocy tonu podstawo-
wego. W widmie dźwięku c2 (523 Hz) ton podstawowy posiada już większą moc
od trzeciej składowej harmonicznej. W następnych dźwiękach następuje dalszy
wzrost mocy tonu podstawowego i spadek mocy trzeciej składowej harmonicznej,
aż w końcu ton podstawowy zaczyna dominować nad tą składową. Druga skła-
dowa harmoniczna ma natomiast większą moc od tonu podstawowego w całym
analizowanym motywie (wyjątkiem jest pierwszy dźwięk, w którym te składowe
mają mniej więcej równą moc) - nie zachodzi więc ostateczna dominacja tonu
podstawowego nad resztą widma, co być może ma miejsce przy jeszcze wyższych
dźwiękach.
W tabeli 3.2 przedstawione są stosunki mocy tonu podstawowego do pierw-
szej i drugiej składowej harmonicznej poszczególnych dźwięków. Zauważyć można
znaczny wzrost mocy tonu podstawowego względem trzeciej składowej harmo-
k
Podobnie jak w przypadku poprzedniej arii, utwór ten został wykonany w stroju a1 =
415Hz, dlatego zapisuję dźwięki według ich brzmienia w stroju a1 = 440Hz.
3.5. ANALIZA WYKONANIA ARII O SERVI VOLATE... 71
nicznej. Za punkt przejścia między rejestrami można uznać dźwięk c2 , w którym

ton podstawowy zaczyna dominować nad trzecią składową harmoniczną, która
zostaje po pewnym czasie mocno wytłumiona.
Rysunek 3.12: Spektrogram koloraturowego motywu z ”O servi volate” A. Vival-

diego. Śpiewała Karolina Roman.
Dźwięk Ton podst. do drugiej Ton podst. do trzeciej

składowej harmonicznej: składowej harmonicznej:
20log10 (af 0 /af 1 ) [dB] 20log10 (af 0 /af 2 ) [dB]
es1 0.12 -4.48
f1 -5.24 -0.69
ges1 -7.99 -3.80
as1 -1.22 -2.14
b1 -2.40 -3.83
c2 -9.49 3.0
des2 -9.89 12.64
es2 -5.01 23.95
f2 -4.23 23.09
ges2 -1.67 21.18
Tabela 3.2: Stosunki mocy poszczególnych składowych harmonicznych dźwięków
koloraturowego motywu na słowie ”volate”; af n - amplituda składowej n + 1
0.14 0
0.12
−20
0.1
−40

0.08
Amplituda
−60
0.06
−80
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.2 0
0.18
−20
0.16
0.14
−40
0.12 Poziom natezenia [dB]

Amplituda
0.1 −60
0.08
−80
0.06
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.35 0
0.3
−20
0.25
−40
0.2
Amplituda
−60
0.15
−80
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.2 0
0.18
−20
0.16
0.14
−40
0.12
Amplituda
0.1 −60
0.08
−80
0.06
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.13: Głos ludzki. Widma i wygładzone widma poszczególnych dźwięków

koloraturowego motywu na słowie ”volate”. Od góry dźwięki: es1 , f1 , ges1 , as1
0.25 0
−20
0.2
−40

0.15
Amplituda
−60
0.1
−80
0.05
−100
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.7
0
0.6
−20
0.5
−40

Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
1.4
0
1.2
−20
1 −40
0.8 −60
Amplituda
0.6 −80
0.4 −100
0.2 −120
0 −140
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
1.4
0
1.2
−20
1 −40
0.8 −60
Amplituda
0.6 −80
0.4 −100
0.2 −120
0 −140
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

koloraturowego motywu na słowie ”volate”. Od góry dźwięki: b1 , c2 , des2 , es2
1.8
0
1.6
−20
1.4
1.2 −40

1
Amplituda
−60
0.8
0.6 −80
0.4
−100
0.2
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
2.5
0
−20
2
−40
Amplituda
−60
−80
0.5
−100
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

koloraturowego motywu na słowie ”volate”. Od góry dźwięki: f2 , ges2
Formant śpiewaczy
W widmie wyżej wspomnianego motywu nie widać wyraźnego wysokiego for-

mantu śpiewaczego, choć jego zalążek zdaje się pojawiać w okolicach 3500 Hz.
Nieco lepiej widoczny formant pojawia się natomiast na dłuższych nutach, np. w
ostatnim dźwięku (des2 ) utworu na słowie ”nox” (patrz rys. 3.16). Na dźwięku
tym występuje również naturalne i regularne vibrato. Brak wyraźnego forman-
tu śpiewaczego wytłumaczyć można trudnością techniczną w śpiewaniu szybkich
następstw dźwięków oraz początkującym poziomem zaawansowania śpiewaczki
(druga klasa szkoły muzycznej II stopnia).

Na rysunkach 3.17 i 3.18 przedstawione są widma dźwięków wyżej wspomnianego
biegnika na słowie ”volate” w wykonaniu violi da gamba. Ze względu na skalę
basowej violi da gamba cały utwór został przeniesiony o oktawę niżej, tzn. to-
ny podstawowe wszystkich dźwięków mają 2 razy mniejszą częstotliwość niż w
oryginale.
1.8
0
1.6
−20
1.4
−40
1.2

1 −60
Amplituda
0.8
−80
0.6
−100
0.4
−120
0.2
0 −140
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.16: Ostatni dźwięk arii ”O servi volate” (des2 ) w wykonaniu śpiewacz-
ki. Spektrogram, widmo oraz widmo cepstralnie wygładzone za pomocą dyskret-
nej transformacji cosinusowej
Na rysunku 3.20 przedstawione jest widmo oraz kepstralnie wygładzone wid-

mo (dla 50 współczynników cepstralnych) wyżej wspomnianego motywu. Widmo
to zawiera częstotliwości składowe wszystkich dźwięków diatonicznych od e do
g1 . Dzięki takiemu zagęszczeniu częstotliwości wzrasta prawdopodobieństwo, że
wszystkie charakterystyczne dla violi da gamba formanty będą widoczne na wy-
kresie. Wykres pokazuje częstotliwości do 3000 Hz, gdyż właśnie w tym zakresie
skoncentrowana jest największa moc (patrz 2.7).
Pierwszą rzeczą, która rzuca się w oczy podczas oglądania wyżej wspomnia-
nych widm, jest wysoki pik w miejscu nagromadzenia tonów podstawowych (ok.
115 - 210 Hz), w którym może uwidaczniać się działanie rezonansu masy powie-
trza zawartej w pudle rezonansowym.
Dalej, idąc w stronę wyższych częstotliwości, widzimy szereg rezonansów od-
powiadających częstotliwościom własnym drewna oraz modom drgań płyt rezo-
nansowych. Piki występują dla wartości ok. 200-300 Hz, 500 - 600 Hz, 800-900
Hz, 1250 Hz, 1700 Hz, 1900 Hz, 2200 Hz, 2450 Hz, 2700 Hz. Odpowiadają one
mniej więcej częstotliwościom rezonansowym przedstawionym przez Fletchera,
Blackhama i Geertsena [9] dla analizowanej przez nich violi da gamba (patrz
2.7.3). Ciekawą rzeczą jest wystąpienie formantów rezonansowych powyżej 2000
0.35 0
0.3
−20
0.25
−40

0.2
Amplituda
−60
0.15
−80
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.7
0
0.6
−20
0.5
−40
0.4
Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.35 0
0.3
−20
0.25
−40
0.2
Amplituda
−60
0.15
−80
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.25 0
−10
0.2 −20
−30
0.15 −40
Amplituda
−50
0.1 −60
−70
0.05 −80
−90
0 −100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.17: Viola. Widma poszczególnych dźwięków koloraturowego motywu

na słowie ”volate”. Kolejno od góry dźwięki: e, f is, g, a
0.5 0
0.45
−20
0.4
0.35
−40

0.3
Amplituda
0.25 −60
0.2
−80
0.15
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.7
0
0.6
−20
0.5
−40

Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.4 0
0.35
−20
0.3
−40
0.25
Amplituda
0.2 −60
0.15
−80
0.1
−100
0.05
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.18 0
0.16 −10
−20
0.14
−30
0.12
−40
0.1
Amplituda
−50
0.08
−60
0.06
−70
0.04
−80
0.02 −90
0 −100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

na słowie ”volate”. Kolejno od góry dźwięki: h, cis1 , d1 , e1
0.25 0
−20
0.2
−40

0.15
Amplituda
−60
0.1
−80
0.05
−100
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.35 0
−10
0.3
−20
0.25
−30
−40
0.2
Amplituda
−50
0.15
−60
0.1 −70
−80
0.05
−90
0 −100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

na słowie ”volate”. Od góry dźwięki: f is1 , g1
0.7 0
−5
0.6
−10
0.5
−15
Srednia amplituda
−20
0.4
−25
0.3
−30
0.2 −35
−40
0.1
−45
0 −50
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.20: Uśrednione widmo koloraturowego motywu na słowie ”volate”. Na

wykresie widoczne częstotliwości składowe wszystkich dźwięków motywu e − g1
3.6. ANALIZA WYKONANIA RECYTATYWU... 79
Hz, co jest zapewne związane z wysokim rejestrem, w którym utrzymana jest

ta aria i wywiera wpływ na jasność dźwięku instrumentu. Jak powiedzieliśmy
w rozdziale 3.3.3, dźwięk violi da gamba jest tym jaśniejszy, im w wyższym re-
jestrze ten instrument gra. Jest to bowiem spowodowane przesunięciem środka
masy widma (spectral centroid) w stronę wyższych częstotliwości.
3.6 Analiza wykonania recytatywu O voi del mio poter z

opery Orlando G. F. Haendla
3.6.1 Wykonanie przez śpiewaka
Rysunki 3.21 i 3.22 pokazują widma i kepstralnie wygładzone widma dla dźwięków
frazy ”Si cangi il bosco in speco”.
Z wykresów tych można odczytać wysoki formant śpiewaczy, który oscylu-
je między formantem barytonowym, a tenorowym (patrz tabela 2.2). Ponadto
widoczny jest wyraźnie niski formant barytonowy w okolicy 500 Hz.
Przyjrzyjmy się teraz poszczególnym dźwiękom tego motywu, których widma
i wygładzone widma przedstawione są na rysunku 3.21. W widmie pierwszego
dźwięku (a) widzimy silnie wzmiocniony ton podstawowy. Wzmocnienie to wy-
nika z działania formantu F2 samogłoski ”i”. Po przejściu na następny dźwięk
(d1 ) i zmianie samogłoski na ”a” wzmocnieniu ulega trzecia i czwarta składowa
harmoniczna, a moc tonu podstawowego maleje. Wynika to prawdopodobnie z
przesunięcia w górę formantu F2 głoski ”i”, który staje się formantem F2 gło-
ski ”a” oraz pojawienia się formantu F1 głoski ”a” w obszarze 1130-1430 Hz. Ze
względu na zbyt dużą odległość między składowymi, formantów tych nie widać
na wykresie wygładzonego widma, a jedynie można domyślać się ich istnienia na
podstawie wzmocnienia znajdujących się w ich obrębie składowych harmonicz-
nych.
Trzeci dźwięk omawianego motywu jest taki sam jak pierwszy i śpiewany jest
na tej samej samogłosce. Jego widmo ma podobny kształt, jak widmo pierwszego
dźwięku.
Dwa kolejne dźwięki (cis1 i h) śpiewane są na tej samej samogłosce (o). For-
mant F1 samogłoski ”o” zlewa się z niskim formantem barytonowym, wzmacnia-
jąc wydatnie drugą składową harmoniczną.
Przypatrzmy się ostatnim trzem dźwiękom omawianego motywu. Ze względu
na gęste rozmieszczenie składowych częstotliwościowych, dźwięki te dają względ-
nie miarodajny obraz obwiedni widma. Pierwszy dźwięk śpiewany jest na głosce
”i”. Na wykresie widma widać wyraźnie formant F2 tej głoski (283-450). Przy
przejściu na głoskę ”e” formant ten przesuwa się w stronę wyższych częstotli-
wości i staje się formantem F1 głoski e” (450-900 Hz). Po przejściu na ostatni
dźwięk samogłoska zmienia się na ”o”. Wyraźnie widać formant F1 tej samogło-
0 0
−10
−20
−20
−30
−40

−40
−50 −60
−60
−80
−70
−80
−100
−90
−100 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0 0
−20 −20
−40 −40
−60 Poziom natezenia [dB] −60
−80 −80
−100 −100
−120 −120
−140 −140
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0 0
−20 −20
−40 −40
−60 −60
−80 −80
−100 −100
−120 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0 0
−20 −20
−40 −40
−60 −60
−80 −80
−100 −100
−120 −120
−140 −140
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.21: G. F. Haendel - recytatyw O voi del mio poter ministri eletti z
opery Orlando. Od góry widma i wygładzone widma dźwięków: a, d1 , a, cis1 na
głoskach i, a, i, o.
0 0
−20 −20
−40 −40

−60 −60
−80 −80
−100 −100
−120 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0 0
−20 −20
−40 −40
−60 −60
−80 −80
−100 −100
−120 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0 0
−20 −20
−40 −40
−60 −60
−80 −80
−100 −100
−120 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0 0
−20 −20
−40 −40
−60 −60
−80 −80
−100 −100
−120 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
opery Orlando. Od góry widma i wygładzone widma dźwięków: h, d, d, A na
głoskach o, i, e, o.
0.35 1.8
1.6
0.3
1.4
0.25
1.2
0.2 1
Amplituda
Amplituda
0.8
0.15
0.6
0.1
0.4
0.05
0.2
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.5 1.6
0.45 1.4
0.4
1.2
0.35
1
0.3
Amplituda
Amplituda
0.25 0.8
0.2
0.6
0.15
0.4
0.1
0.2
0.05
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
1.4 0.45
0.4
1.2
0.35
1
0.3
0.8
Amplituda
0.25
Amplituda
0.6 0.2
0.15
0.4
0.1
0.2
0.05
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.35 0.18
0.16
0.3
0.14
0.25
0.12
0.2
0.1
Amplituda
Amplituda
0.08
0.15
0.06
0.1
0.04
0.05
0.02
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
opery Orlando. Kolejno od lewej widma dźwięków a, d1 , a, cis1 , h, d, d, A na
głoskach i, a, i, o, o, i, e, o.
ski w obszarze 450-715 Hz oraz formant F3 w obszarze 225-351 Hz. Formant F2

samogłoski ”o” nie jest specjalnie widoczny.
Rysunek 3.24 pokazuje widma dźwięków analizowanego motywu i ich obwied-

nie uzyskane za pomocą techniki kepstralnego wygładzania widma. Górny wy-
kres przedstawia najniższy dźwięk tego motywu, a dolny - uśrednione wszystkie
dźwięki motywu.
Cechy widma widoczne na tych wykresach są identyczne jak w poprzednich
przykładach. Widzimy wysoki pik, odpowiadający rezonansowi powietrznemu
Helmholtza, wypadający w okolicy 100-200 Hz oraz szereg mniejszych pików,
spośród których największe wypadają w okolicach 600-700 Hz i 1350 Hz.
0.45 0
0.4
−20
0.35
0.3 −40
0.25
Amplituda
−60
0.2
0.15 −80
0.1
−100
0.05
0 −120
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
0.9
0
0.8
−20
0.7
0.6 −40
Srednia amplituda
0.5
−60
0.4
0.3 −80
0.2
−100
0.1
0 −120
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.24: G. F. Haendel - recytatyw O voi del mio poter ministri eletti
z opery Orlando wykonany na violi da gamba. 2 górne wykresy przedstawiają
ostatni dźwięk (B) motywu ”Si cangi il bosco in speco”. 2 dolne przedstawiają
cały uśredniony motyw.
3.7 Analiza wykonania arii Domine Deus rex coelestis z

Glorii A. Vivaldiego
3.7.1 Wykonanie przez śpiewaczkę
Analizować będziemy progresywną frazę w taktach 19-21. Fragment ten został

wybrany ze względu na to, że jest pod względem rozpiętości interwałowej naj-
bardziej reprezentatywny dla całego utworu. Utrzymany jest bowiem w dużym,
jak na ten utwór, ambitusie septymy wielkiej, także zawiera dźwięki należące
do rejestru piersiowego i głowowego. Na zamieszczonych wykresach (3.25) widm
i kepstralnie wygładzonych widm rzuca się w oczy wysoki formant śpiewaczy
w okolicach 3000 - 3750 Hz i niski formant śpiewaczy w okolicach 400-500 Hz.
Dokładne umiejscowienie formantów jest trudne ze względu na duże odległości
między składowymi harmonicznymi w głosach wysokich.
Trzy górne wykresy rysunku 3.25 zawierają pierwsze trzy dźwięki omawianej
frazy, a najniższy wykres - jej dalszą, uśrednioną część na samogłosce ”a”. Na
wykresie tym widać wyraźnie formant F1 samogłoski ”a” w granicach 1100 - 1430
Hz. Na wykresie dźwięku dis2 widzimy ponadto wzrost mocy tonu podstawowego
względem trzeciej składowej harmonicznej, co jest związane z działaniem rejestru
głowowego (por. rozdział 3.5.1).
Ponieważ dokładne określenie położenia formantów rezonansowych w głosach
wysokich jest trudne ze względu na duże odległości między składowymi harmo-
nicznymi, próbą dokładniejszego określenia położenia formantów w głosach ko-
biecych zajmiemy się przy okazji badania uśrednionego widma długoterminowego
(Long-Term Average Spectrum) w rozdziale 3.8. Technika ta pozwala bowiem,
poprzez uśrednienie widma wielu dźwięków, na zagęszczenie składowych harmo-
nicznych.
Rysunek 3.26 przedstawia widmo i kepstralnie wygładzone widmo najniższego

dźwięku (e) omawianego motywu (górny wykres) oraz całego motywu (dolny wy-
kres). Podobnie jak w przypadku arii ”O servi volate”, ambitus melodii został
przeniesiony o oktawę w dół∗∗ dla sprostania możliwościom technicznym violi ba-
sowej. Z zamieszczonych wykresów widać, że formanty odpowiedzi rezonansowej
znajdują się w podobnych miejscach, co w poprzednich przykładach. Widzimy
więc wysoki pik w okolicach 200 Hz, odpowiadający rezonansowi powietrza za-
mkniętego w pudle rezonansowym, duży pik w okolicach 500 Hz i gęsto rozmiesz-
czone formanty w wyższych pasmach częstotliwości.
∗∗
Tzn. częstotliwości tonów podstawowych wszystkich dźwięków utworu zostały podzielone
przez 2.
3.7. ANALIZA WYKONANIA ARII DOMINE DEUS... 85
0.2 0
0.18
−20
0.16
0.14
−40

0.12
Amplituda
0.1 −60
0.08
−80
0.06
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.7
0
0.6
−20
0.5
−40

Amplituda
−60
0.3
−80
0.2
−100
0.1
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
0.16 0
0.14
−20
0.12
−40
0.1
Amplituda
0.08 −60
0.06
−80
0.04
−100
0.02
0 −120
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
1.8 0
1.6
−10
1.4
1.2 −20
Srednia amplituda
−30
0.8
0.6 −40
0.4
−50
0.2
0 −60
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Rysunek 3.25: A. Vivaldi - aria Domine Deus w wykonaniu śpiewaczki. Od góry:

widma i wygładzone widma dźwięków gis1 , dis2 , e1 (samogłoski e, u, a). 2 wykresy
na dole: uśrednione dalsze dźwięki omawianego motywu.
1.6
0
1.4
−20
1.2
−40

−60
Amplituda
0.8
−80
0.6
−100
0.4
−120
0.2
0 −140
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
2.5 0
−10
2
−20
Srednia amplituda
1.5
−30
−40
0.5
−50
0 −60
0 300 600 900 1200 1500 1800 2100 2400 2700 3000 0 300 600 900 1200 1500 1800 2100 2400 2700 3000
Rysunek 3.26: A. Vivaldi - aria Domine Deus wykonana na violi da gamba. Naj-
niższy dźwięk (e) omawianego motywu (u góry) i uśredniony cały motyw (u dołu).
3.8 Analiza widm długoterminowych (LTAS) wykonywa-

nych utworów i związanych z nimi współczynników
SPR, ER, α − 1 i α − 2
Dla każdego wykonywanego przez śpiewaków utworu sporządzono widmo długo-
terminowe według algorytmu opisanego w rozdziale 2.5.7. Cały utwór podzielono
na 4096-punktowe okna prostokątne, przesuwające się o 2048 próbek. Dla każdego
okna policzono transformatę Fouriera i na jej podstawie wyliczono PSD (power
spectral distribution). Następnie obliczono widmo długoterminowe jako średnią ze
wszystkich PSD i znormalizowano wg wzoru LT ASdB (f ) = 10log10 (LT AS(f )/P0 2 ),
gdzie P0 = 2 ∗ 10−5 P a (patrz 2.5.7). Zastosowanie widma długoterminowego po-
zwoliło na dokładne określenie położenia wszystkich opisywanych przez W. Mo-
rozowa [25] formantów śpiewaczych (patrz tabela 2.2).
Wykres 3.27 prezentuje widmo LTAS arii ”Ombra mai fu” śpiewanej przez
Macieja Stępińskiego. Największa moc skoncentrowana jest wokół częstotliwości
ok. 625 Hz, 1250 Hz i między 2500 a 2800 Hz. Odpowiada to wszystkim trzem,
opisywanym przez Morozowa, formantom śpiewaczym tenora.
3.8. ANALIZA WIDM DŁUGOTERMINOWYCH (LTAS)... 87
Na wykresie 3.28 zobaczyć można widmo długoterminowe recytatywu ”O voi

del mio poter” śpiewanego przez autora pracy. Największa moc skoncentrowa-
na jest wokół częstotliwości 500 i 2500 Hz, co odpowiada niskiemu i wysokiemu
formantowi barytona. Niewielki pik w okolicy 1000 Hz może świadczyć o wystę-
powaniu środkowego formantu śpiewaczego barytona.
Widmo długoterminowe arii ”Domine Deus” z ”Glorii” A. Vivaldiego, śpie-
wanej przez Annę Gotfryd znajduje się na wykresie 3.29. Główna część mocy
sygnału zgrupowana jest w pasmach 400-750 Hz, 1000-1500 Hz, 1750-2000 Hz
oraz 3000-3500 Hz. Ostatnie pasmo odpowiada zapewne wysokiemu formantowi
śpiewaczemu soprana.
Część widma zawarta między 0 a 2000 Hz u obu śpiewaczek wygląda podobnie.
Na wykresie 3.30, przezentującym widmo długoterminowe arii ”O servi volate”
z oratorium Juditha Triumphans A. Vivaldiego w wykonaniu Karoliny Roman,
widać w tym paśmie trzy wysokie piki w okolicach 750, 1100 i 1500 Hz. Takie trzy
formanty umieszczone są w podobnych miejscach również w widmie głosu Anny
Gotfryd, toteż zjawisko to jest zapewne charakterystyczną cechą głosów kobie-
cych, a przynajmniej sopranowych. Widmo głosu Karoliny Roman w przedziale
2000-6000 Hz wydaje się być pozbawione wyraźnego wysokiego formantu śpiewa-
czego, co tłumaczyć można początkującym poziomem zaawansowania śpiewaczki
(druga klasa szkoły muzycznej II stopnia).
Na podstawie widma długoterminowego możemy obliczyć specjalne wskaźni-
ki SPR (Singing Power Ratio), ER (Energy Ratio), α − 1 i α − 2, pozwalające
określić jakość głosu śpiewaczego i poziom jego wyszkolenia. Wskaźniki te zostały
szczegółowo opisane w rozdziale 2.5.7. Pierwszy z nich to stosunek najwyższego
piku w paśmie 2-4 kHz do najwyższego piku w paśmie 0-2 kHz, czyli mniej wię-
cej stosunek wysokiego formantu śpiewaczego do niskiego formantu śpiewaczego.
Trzy kolejne odpowiadają stosunkom mocy widma w poszczególnych pasmach,
odpowiednio: 2-4 kHz do 0-2 kHz, 1-6 kHz do 0-1 kHz, 2-6 kHz do 0-2 kHz. Tabela
3.3 pokazuje te wskaźniki dla poszczególnych śpiewaków.
Pod względem współczynnika SPR najlepiej wypada tenor Maciej Stępiń-
ski, co oznacza że posiada on najlepiej rozwinięty wysoki formant śpiewaczy. Na
drugim miejscu wypada autor niniejszej pracy, zaraz po nim sopranistka Anna
Gotfryd, a najgorzej Karolina Roman. Należy jednak zaznaczyć, że SPR nie jest
wielkością stałą, przypisaną danemu śpiewakowi, ale zależną od śpiewanego utwo-
ru, co autor udowodni w rozdziale 3.9, prezentując współczynniki SPR, ER, α − 1
i α − 2 dla śpiewaków wykonujących gamy. Zdaniem autora niski wynik SPR Ka-
roliny Roman może być związany z figuracyjną melodyką śpiewanej przez nią arii,
która zmusza do częstych zmian układu naturalnych rezonatorów ludzkiego ciała,
nie dając czasu na ustawienie prawidłowej pozycji dźwięku. Oczywiście zdolność
szybkiej zmiany układu rezonatorów rośnie wraz z poziomem wykształcenia śpie-
waka.
80
70
60
50
40
30
20
10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Czestotliwosc[Hz]
Rysunek 3.27: Widmo długoterminowe arii ”Ombra mai fu” śpiewanej przez te-
nora Macieja Stępińskiego.
70
60
50
40
30
20
10
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Czestotliwosc[Hz]
Rysunek 3.28: Widmo długoterminowe recytatywu ”O voi del mio poter” śpie-
wanego przez barytona Jacka Salamona.
3.8. ANALIZA WIDM DŁUGOTERMINOWYCH (LTAS)... 89
70
60
50
40
30
20
10
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Czestotliwosc[Hz]
Rysunek 3.29: Widmo długoterminowe arii ”Domine Deus” śpiewanej przez so-
pranistkę Annę Gotfryd.
70
60
50
40
30
20
10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Czestotliwosc[Hz]
Rysunek 3.30: Widmo długoterminowe arii ”O servi volate” śpiewanej przez so-
pranistkę Karolinę Roman.
4,5
3,5
3
Maciej Stępiński
2,5 Jacek Salamon
2 Anna Gotfryd
Karolina Roman
1,5
0,5
0
SPR ER alfa-1 alfa-2
Śpiewak SPR ER α−1 α−2

Maciej Stępiński 0.8604 0.9654 3.6091 1.4254
Karolina Roman 0.7550 0.8081 3.7841 1.2380
Jacek Salamon 0.8005 0.8224 2.8380 1.0994
Anna Gotfryd 0.7927 0.9665 4.0016 1.2872
Tabela 3.3: Wskaźniki SPR (Singing Power Ratio), ER (Energy Ratio), α − 1 i
α − 2 dla poszczególnych śpiewaków, śpiewających swoje utwory
Stosunek mocy sygnału w paśmie 2-4 kHz do mocy sygnału w paśmie 0-2 kHz,
mierzony przez współczynnik ER, jest największy (i bliski jedności) u Macieja
Stępińskiego i Anny Gotfryd. Na drugim miejscu plasują się Jacek Salamon i
Karolina Roman.
Współczynnik α − 1 jest w analizowanym przypadku większy u kobiet niż u
mężczyzn. Wynika to z dwóch powodów. Po pierwsze u mężczyzn, dysponujących
niższą skalą głosu niż kobiety, więcej mocy sygnału zgromadzone jest w niskich
pasmach częstotliwości. Po drugie podział widma na dwa pasma: 0-1 kHz i 1-6
kHz w głosie kobiecym powoduje, że w wyższym paśmie znajdują się dwa spośród
wyżej opisanych trzech silnych formantów, leżących w paśmie 0-2 kHz.
Podobnie do współczynnika ER działa współczynnik α − 2, z tą różnicą że
zamiast pasma 2-4 kHz stosuje pasmo 2-6 kHz, co odpowiada stosunkowi części
pozawokalnej do wokalnej widma (patrz 2.8.4). Wyniki wyglądają więc podobnie
jak w przypadku ER, jednak decydującym czynnikiem w stosunku do ER staje się
3.9. ANALIZA WSPÓŁCZYNNIKÓW SPR, ER, α − 1 I α − 2 GAM 91
pasmo 4-6 kHz. W tej konkurencji najgorzej wypadł autor pracy ze względu na
specyficzny kształt jego widma długoterminowego. W paśmie 2-6 kHz najwięk-
sza część energii skoncentrowana jest wokół ”ostrego” piku wysokiego formantu
śpiewaczego barytona, a dalej następuje konsekwentny spadek energii.
3.9 Analiza współczynników SPR, ER, α − 1 i α − 2 wy-

konywanych gam
Tabela 3.4 prezentuje współczynniki SPR, ER, α − 1 i α − 2 dla poszczególnych
śpiewaków wykonujących gamy. Wynika z niej, że współczynniki te są zmienne i
zależne nie tylko od konkretnego śpiewaka, ale również od wykonywanego przez
niego utworu.
Pod względem współczynnika SPR z ostatniego miejsca na pierwsze wybija
się Karolina Roman, co zinterpretujemy za chwilę, analizując zmiany zachodzące
w jej widmie długoterminowym. Znaczne pogorszenie SPR obserwujemy u Anny
Gotfryd. Głosy męskie były najmniej wrażliwe na zmiany SPR: u autora pracy
współczynnik ten nieznacznie się zmniejsza, a u Macieja Stępińskiego - zwiększa.
Jak wspomniano w 3.3.2 zaśpiewanie gamy przez dwie oktawy okazało się
dla śpiewaków, biorących udział w nagraniach, ekstremalnie trudnym zadaniem.
Żadne z nas nie zaśpiewało jej do końca dobrze. Warta więc wzmianki jest róż-
nica między kształtem widma długoterminowego podczas śpiewania utworów, a
kształtem widma długoterminowego podczas śpiewania gam.
Na rysunku 3.31 w lewej kolumnie znajdują się widma utworów, a w prawej
widma gam dla poszczególnych śpiewaków. Widoczny jest ogólny wzrost mocy
całego sygnału, co jest zrozumiałe, gdyż utrzymanie pozycji głosu podczas śpie-
wania dwuoktawowego przebiegu na jednym oddechu wymaga włożenia w emisję
dźwięku dużej ilości energii. Zauważyć można również to, że formanty śpiewacze,
których energia skoncentrowana była w stosunkowo wąskim paśmie częstotliwości,
teraz ”rozrastają się” wszerz i ulegają ”spłaszczeniu”. Wyjątkiem jest Karolina
Roman, u której zachodzi zjawisko odwrotne: koncentracja energii w okolicy 3000
Hz, dzięki czemu uzyskała tak wysoki wynik SPR. Śpiewaczka ta wykonała ga-
mę prawdopodobnie najlepiej ze wszystkich, co tłumaczyć można jej łatwością
śpiewania w wysokich rejestrach (nauczyciel śpiewu, Eugeniusz Zdański, określił
typ jej głosu jako sopran koloraturowy). Ciekawe zjawisko obserwujemy u autora
niniejszej pracy, u którego barytonowy wysoki formant śpiewaczy (wykres 3.31.c)
przesunął się o prawie 200 Hz w stronę wyższych częstotliwości, czyli w pasmo
charakterystyczne dla tenora (wykres 3.31.d). Ma to być może związek z noso-
waniem, gdyż jak podaje W. Morozow [25], działanie rezonatora nosowego może
powodować przesunięcie wysokiego formantu śpiewaczego w pasmo wyższych czę-
stotliwości.
80 70
70
60
60

50
50
40
40
30
30
20
20
10 10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
a) Czestotliwosc[Hz] b) Czestotliwosc[Hz]
70 90
80
60
70
50

60
40
50
30
40
20
30
10
20
0 10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
c) Czestotliwosc[Hz] d) Czestotliwosc[Hz]
70 80
60 70
50 60
40 50
30 40
20 30
10 20
0 10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
70 80
70
60
60
50
50
40
40
30
30
20
20
10 10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
g) Czestotliwosc[Hz] h) Czestotliwosc[Hz]
Rysunek 3.31: Widma długoterminowe utworów (lewa kolumna) i gam (prawa

kolumna). Od góry: Maciej Stępiński (a, b), Jacek Salamon (c,d), Anna Gotfryd
(e, f), Karolina Roman (g, h)
3.9. ANALIZA WSPÓŁCZYNNIKÓW SPR, ER, α − 1 I α − 2 GAM 93
5
4,5
4
3,5
Maciej Stępiński
3
Jacek Salamon
2,5 Anna Gotfryd
Karolina Roman
2
Maria Penc
1,5
1
0,5
0
SPR ER alfa-1 alfa-2
Śpiewak SPR ER α−1 α−2

Maciej Stępiński 0.8892 1.0500 4.2902 1.5992
Karolina Roman 0.8962 0.7433 3.9929 1.1982
Jacek Salamon 0.7959 1.0156 3.7681 1.5096
Anna Gotfryd 0.7203 0.8238 4.0481 1.3142
Maria Penc 0.7261 0.6936 3.6817 1.1696
Tabela 3.4: Wskaźniki SPR (Singing Power Ratio), ER (Energy Ratio), α − 1 i
α − 2 dla poszczególnych śpiewaków wykonujących gamy
70
60
50
40
30
20
10
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
Czestotliwosc[Hz]
Rysunek 3.32: Widmo długoterminowe gamy śpiewanej przez sopranistkę Marię

Penc.
Wykres 3.32 obrazuje widmo długoterminowe gamy śpiewanej przez Marię

Penc. Autor zamieszcza je dla kompletności, ponieważ nie dysponuje nagraniem
utworu, z którym możnaby je porównać. Najwyższy pik w paśmie 2000-6000 Hz
przypada na ok. 3200 Hz. W paśmie 0-2000 Hz znajdują się trzy grupy silnych
rezonansów (500-1000 Hz, 1000-1500 Hz, 1500-2000 Hz), na których istnienie w
głosach kobiecych zwrócono uwagę w rozdziale 3.8.
3.10 Porównanie dźwięków violi da gamba do głosu ludz-

kiego na podstawie wektorów współczynników kep-
stralnych za pomocą automatycznych klasyfikatorów
Na potrzeby niniejszej pracy automatyczna klasyfikacja danych (patrz rozdział
2.6) została przeprowadzona za pomocą popularnego programu Weka w wer-
sji 3.4.11, dostępnego do ściągnięcia ze strony http://www.cs.waikato.ac.nz/
ml/weka/. Przedmiotem klasyfikacji były wektory zawierające kilkanaście pierw-
szych współczynników kepstralnych dźwięku violi i głosu ludzkiego, od których
zależy kształt obwiedni widma dźwięku (patrz rozdział 2.5.5). Każdy wektor jest
więc swego rodzaju opisem barwy danego dźwięku. Dla uogólnienia terminologii
wektor współczynników kepstralnych będziemy nazywać instancją danej klasy, a
poszczególne wskaźniki kepstralne - atrybutami tej instancji.
Klasyfikator pozwala przypisać wektory violi da gamba do klas reprezentują-

cych poszczególnych śpiewaków, a więc wykryć ewentualne podobieństwa zacho-
dzące między ich barwami. Proces ten przeprowadzany jest w oparciu o różne
algorytmy, spośród których na potrzeby niniejszej pracy wybrano dwa: algorytm
Ibk oraz wielowarstwową sieć neuronową (multilayer perceptron), w której liczba
ukrytych warstw równała się sumie atrybutów i klas podzielonej przez 2.
Potrzebne do przeprowadzenia eksperymentu wektory współczynników kep-
stralnych zostały uzyskane poprzez pocięcie nagrań arii w wykonaniu śpiewaków
i violi na 4096-punktowe okna przesuwane o 2048 punktów. Dla każdego z okien
wyliczono cepstrum. Przyjęto, że każdy wektor będzie miał długość 19 współ-
czynników kepstralnych (każda instancja będzie miała 19 atrybutów). Następnie
poszczególne wektory przypisano do klas odpowiadających poszczególnym utwo-
rom. Każdą klasę tworzyło zwykle około 283 takich wektorów.
Do automatycznego klasyfikatora wczytano zestawy wektorów współczynni-
ków kepstralnych dla śpiewaków, a jako zestaw treningowy ustawiono wektory
violi da gamba. Klasyfikator miał przypisać każdemu wektorowi współczynników
kepstralnych utworu zagranego przez violę da gamba jedną z klas odpowiada-
jących utworom wykonanym przez śpiewaków, czyli ocenić do jakiego utworu
śpiewanego przez śpiewaka lub śpiewaczkę jest najbardziej podobny dany utwór
grany przez violę.
3.10. PORÓWNANIE DŹWIĘKÓW VIOLI DA GAMBA... 95
Porównanie przeprowadzono w oparciu o 2 algorytmy klasyfikacji. Tabela

3.5 przedstawia wyniki klasyfikacji uzyskane za pomocą algorytmu IBk przy
k=1, a tabela 3.6 przedstawia wyniki uzyskane za pomocą algorytmu Multi-
layer Perceptron, czyli prostej sieci neuronowej. Tabela 3.7 przedstawia wyniki
klasyfikacji za pomocą algorytmu Ibk dla większych okien: 11025-punktowych,
przesuwanych o 5012 punktów.
Utwory na gambie J. Salamon K. Roman M. Stępiński A. Gotfryd

”O voi del mio po- 63,53 % 12,70 % 22,65 % 1,10 %
ter”
”O servi volate” 55,49 % 32,41 % 9,34 % 2,74 %
”Ombra mai fu” 73,62 % 3,84 % 17,03 % 5,49 %
”Domine Deus” 66,48 % 17,03 % 8,24 % 8,24 %
Tabela 3.5: Wyniki automatycznej klasyfikacji dźwięku violi da gamba i głosów
śpiewaczych na podstawie współczynników kepstralnych. Okno 4096-punktowe,
algorytm Ibk

”O voi del mio po- 62,43 % 32,59 % 4,41 % 0,55 %
ter”
”O servi volate” 41,75 % 56,04 % 0% 2,19 %
”Ombra mai fu” 59,34 % 35,16 % 4,39 % 1,09 %
”Domine Deus” 46,70 % 47,80 % 1,09 % 4,39 %
algorytm Multilayer Perceptron

”O voi del mio po- 9,59 % 86,30 % 2,74 % 1,37 %
ter”
”O servi volate” 17,6 % 80,47 % 0,95 % 0,95 %
”Ombra mai fu” 14,19 % 69,03 % 10,32 % 6,45 %
”Domine Deus” 11,45 % 82,66 % 1,86 % 4,02 %
algorytm Ibk
Na podstawie wyników klasyfikacji 3.5 i 3.6 wywnioskować można, że dźwięk

violi da gamba jest najbardziej podobny do głosu autora pracy i sopranistki Ka-
roliny Roman. Zastanawiające są wyniki klasyfikacji przeprowadzonej w oparciu
o dłuższe okna (tabela 3.7), z których podobieństwo dźwięku violi da gamba do
80 70
70 60
60 50

50 40
40 30
30 20
20 10
10 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
a) Czestotliwosc[Hz] b) Czestotliwosc[Hz]
70 70
60 60
50 50

40 40
30 30
20 20
10 10
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
c) Czestotliwosc[Hz] d) Czestotliwosc[Hz]
70 70
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
70 70
60
60
50
50
40
40
30
30
20
20
10
10 0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000
g) Czestotliwosc[Hz] h) Czestotliwosc[Hz]
Rysunek 3.33: Widma długoterminowe utworów w wykonaniu śpiewaków (lewa

kolumna) i violi da gamba (prawa kolumna). Od góry: ”Ombra mai fu” (a, b),
”O voi del mio poter” (c,d), ”Domine Deus” (e, f), ”O servi volate” (g, h)
3.10. PORÓWNANIE DŹWIĘKÓW VIOLI DA GAMBA... 97
głosu Karoliny Roman wynika prawie jednoznacznie. Ze wszystkich trzech tabel

widać, że dźwięk violi da gamba najrzadziej był klasyfikowany jako głos Macieja
Stępińskiego lub Anny Gotfryd. Jedynie w tabeli 3.5 głos Macieja Stępińskiego
uzyskuje nieco większe wyniki.
Uzyskane wyniki są trudne w interpretacji. Być może wysoki wynik, jaki uzy-
skał Jacek Salamon, może mieć związek z kształtem widma jego dźwięku, w któ-
rym wysoki formant śpiewaczy występuje na stosunkowo niskiej częstotliwości
(2500 Hz), a dalej następuje szybki i konsekwentny spadek energii sygnału (patrz
rys. 3.28), podobnie jak ma to miejsce w przypadku widma violi da gamba (por.
rys. 3.33). Wysoki wynik Karoliny Roman może mieć związek z niskim poziomem
zaawansowania tej śpiewaczki i brakiem wyraźnego formantu śpiewaczego, dzięki
czemu jej głos w wysokich pasmach częstotliwości przenosi, podobnie jak viola
da gamba, stosunkowo niewielką energię (por. rys. 3.33).
Powyższe przypuszczenia prowadzą do wniosku, że najbardziej podobne do
dźwięku violi da gamba są głosy niskie oraz najmniej wyszkolone i zmanierowane.
Rozdział 4
Wnioski i zakończenie
W niniejszej pracy podjęto próbę zastosowania metod cyfrowej analizy sygna-

łów do przeprowadzenia analizy porównawczej brzmienia głosu ludzkiego i violi
da gamba, co stanowi przyczynek do rozszerzenia pola zainteresowań informaty-
ki muzycznej do badań nad brzmieniem instrumentów dawnych. W rozdziale 3
przedstawiono wyniki badań pięciu głosów śpiewaczych, w tym dwóch męskich
i trzech żeńskich (baryton, tenor i trzy soprany), oraz dźwięku jednej basowej
violi. Badania prowadzono przy użyciu aparatu matematycznego opisanego w
rozdziałach od 2.1 do 2.6, przyjmując tezy wynikające z dostępnej współczesnej
literatury o głosie ludzkim i violach da gamba, opisane w rozdziałach 2.7 i 2.8,
oraz opierając się na poglądach teoretyków renesansu i baroku o podobieństwie
dźwięku violi da gamba do głosu ludzkiego, opisanych w rozdziałach 1.3 i 1.4.
Na podstawie zebranych danych przeprowadzono analizę formantową w opar-
ciu o widma dźwięku, kepstralnie wygładzone widma oraz widma długoterminowe
(Long-Term Average Spectra), na podstawie której opisano charakterystyczne dla
violi i głosów ludzkich formanty odpowiedzi rezonansowej i wykazano zbieżność
wyników badań z literaturą (rozdziały od 3.3 do 3.9). Analizowano też zmiany re-
jestrów w głosie sopranowym (rozdział 3.5.1), zmiany jasności barwy w zależności
od wysokości dźwięku (rozdział 3.3.3) oraz prowadzono rozważania na temat jako-
ści głosu śpiewaczego w oparciu o współczynniki widma długoterminowego: SPR,
ER, α − 1 i α − 2 (rozdziały 3.8 i 3.9). Na końcu przeprowadzono eksperyment,
mający na celu porównanie dźwięku violi da gamba do głosów śpiewaczych na
podstawie wektorów współczynników kepstralnych za pomocą automatycznych
klasyfikatorów (rozdział 3.10).
Pora teraz odpowiedzieć na pytania postawione w rozdziale 1.4: czy dźwięk
violi da gamba jest w jakiś sposób podobny do głosu ludzkiego?
Na pierwszy rzut oka widmo violi da gamba wygląda zupełnie innaczej niż
widmo głosu śpiewaczego. Większa część mocy w widmie violi skoncentrowana
99
100 ROZDZIAŁ 4. WNIOSKI I ZAKOŃCZENIE
jest w niskich pasmach częstotliwości. Instrument ten nie posiada wysokiego for-
mantu śpiewaczego, czyli skoku mocy w paśmie od 2 do 4 kHz, który w głosie
ludzkim decyduje o jego przenikliwości i nośności.
Najważniejszą jednak rzeczą, która różni violę da gamba od głosu ludzkiego,
jest niemożność zmiany kształtu i cech akustycznych swoich rezonatorów. For-
manty odpowiedzi rezonansowej traktu głosowego mają szerokie pasma przepu-
stowe, a śpiewak mniej lub bardziej świadomie potrafi w mniejszym lub większym
stopniu zmieniać ich położenie poprzez odpowiednie ustawienie naturalnych re-
zonatorów swojego ciała. W violi da gamba formanty mają węższe pasma przepu-
stowe i nie zmieniają swojego położenia, ale za to umieszczone są bardzo gęsto.
Dzięki temu grając gamy nie doświadczamy zjawiska ciągłego ”spłaszczania” i
”uwypuklania” barwy dźwięku.
Różnice w układzie formantów violi da gamba i głosu ludzkiego mają swoje
dobre i złe strony. Niedoświadczony śpiewak, wychodząc poza granice jednego
rejestru, nie zawsze potrafi tak zmodyfikować kształt naturalnych rezonatorów
swojego ciała, aby składowe harmoniczne jego dźwięku ”wpadły” w odpowiednie
pasma przepustowe - dźwięk robi się wtedy płaski i nieprzyjemny. Niedoświadczo-
ny gambista zawsze ”trafi” w którąś z częstotliwości własnych płyt instrumentu.
Oczywistą różnicą między głosem ludzkiem a violą da gamba jest również
niezdolność tej drugiej do artykulacji głosek, choć w rozdziale 3.3.1 autor przed-
stawił próbę przyporządkowania formantów samogłosek niektórym formantom
dźwięku violi da gamba. Trzeba jednak posiadać dużą wyobraźnię, żeby takie
przyporządkowanie potwierdzić słuchowo.
Podobieństwa między głosem ludzkim, a violą, można doszukiwać się w roz-
mieszczeniu częstotliwości własnej klatki piersiowej (u śpiewaka) i formantu re-
zonansu powietrza zamkniętego w pudle rezonansowym (w violi). Obydwa te
rezonanse opierają się na podobnej zasadzie, są zależne od wielkości instrumentu
(wzrostu człowieka) i występują w podobnych obszarach częstotliwości.
O kolejnym podobieństwie decyduje być może jasność barwy dźwięku: wysokie
dźwięki violi basowej zbliżają się nieznacznie jasnością do tych samych dźwięków
śpiewanych przez głos ludzki. Dźwięki leżące poniżej oktawy razkreślnej są jednak
dużo ciemniejsze od głosów śpiewaczych ze względu na położenie większej części
mocy dźwięku violi w paśmie niskich częstotliwości.
Na zakończenie należy dodać, że wyniki automatycznej klasyfikacji dźwięku
violi da gamba do głosów śpiewaczych pokazały podobieństwo dźwięku violi do
głosu barytona Jacka Salamona (absolwent szkoły muzycznej II stopnia) i sopra-
nistki Karoliny Roman (uczennica 2 klasy szkoły muzycznej II stopnia). Może
to mieć związek z rodzajem głosu lub z jego naturalnością i prostotą. Być może
proste głosy, pozbawione nadmiernego vibrata i nawyku krycia (patrz rozdział
2.8.6) dźwięku (a więc takie, które według popularnych poglądów na wykonaw-
stwo muzyki dawnej, lepiej nadają się do śpiewania muzyki barokowej), bardziej
101
odpowiadają ideałom brzmieniowym, cenionym w XVI i XVII wieku, które sta-

rano się odwzorować w budownictwie viol da gamba, niż głosy duże i zmaniero-
wane, odpowiednie raczej dla oper romantycznych, niż do wykonywania subtelnej
i delikatnej muzyki baroku. Być może podobieństwo do dźwięku violi da gamba
wykazują także po prostu głosy niskie. Obydwie możliwości zdają się wiązać z
występowaniem w widmie stosunkowo dużej energii zgromadzonej w niskich pa-
smach częstotliwości (w porównaniu do energii zawartej w wyższych pasmach),
podobnie jak ma to miejsce w przypadku violi.
To wszystkie wnioski, jakie nasunęły się autorowi na podstawie cech wid-
mowych dźwięku. Dalszego podobieństwa można doszukiwać się w technice gry
(śpiewu), artykulacji, sposobie wyrażania emocji† i innych tego typu, trudnych
do obiektywnego opisania, cechach. Można również podjąć próbę dokładniejszej
analizy dźwięku violi w oparciu o automatyczne klasyfikatory, a także zbadać in-
ne rodzaje viol da gamba i instrumentów pokrewnych (barytony, viole d’amore,
itp.). Autor żywi nadzieję, że przedstawione wyżej wnioski z przeprowadzonych
na potrzeby niniejszej pracy eksperymentów, okażą się przydatne dla przyszłych
badań w zakresie analizy dźwięku violi da gamba i głosu ludzkiego.
†
Prowadzone są badania naukowe nad rozpoznawaniem emocji w oparciu o współczyn-
niki mel-kepstralne. Patrz: Nobuo Sato, Yasunari Obuchi - ”Emotion recognition using Mel-
Frequency Cepstral Coefficients” [40, 41].
Bibliografia
[1] William Atwood. A physicist in the world of violins. Beam Line, 28(2), lato 1998. Nu-
mery archiwalne dostępne pod adresem: http://www.slac.stanford.edu/pubs/
beamline/. [cytowanie na str. 39]
[2] Christoph Bernhard. Tractatus compositionis augmentatus, tom 6 serii Practica
Musica. Musica Iagellonica, ul. Westerplatte 10 31-033 Kraków Polska, Kraków
2004. Opracowanie i polski przekład: Magdalena Walter-Mazur. [cytowanie na str. 10]
[3] Józef M. Chomiński. Historia harmonii i kontrapunktu, tom II. PWM, 1962.
[cytowanie na str. 9, 10]
[4] Andrzej Czyżewski, Przemysław Maziewski, Marek Dziubiński, Andrzej Kaczma-

rek, Bożena Kostek. Wow detection and compensation employing spectral pro-
cessing of audio. Audio Engineering Society Convention Paper, październik 2004.
[cytowanie na str. 31]
[5] K. Danecka-Szopowa. Podstawowe wymiary psychologiczne dźwięku. Zeszyty Na-

ukowe PWSM nr 3, Warszawa 1968. [cytowanie na str. 21]
[6] Mieczysław Drobner. Instrumentoznawstwo i akustyka. PWM, Kraków 1997.
[cytowanie na str. 2, 16, 18]
[7] D. H. Eccles. FAO species identification sheets for fishery purposes. Field guide to
the freshwater fishes of Tanzania. Food and Agriculture Organization of the United
Nations, Rzym, 1992. [cytowanie na str. 9, 128]
[8] Michael Fingerhut. Music Information Retrieval, or how to search for (and maybe
find) music and do away with incipits, sierpień 2004. IAML - IASA 2004 Congress,
Olso. [cytowanie na str. 1]
[9] Harvey Fletcher, E. Donnell Blackham, O. Norman Geertsen. Quality of Violin,
Viola, ’Cello, and Bass-Viol Tones. I. Journal of Acoustical Society of America,
37(5), maj 1965. [cytowanie na str. 39, 40, 56, 75, 129]
[10] Matteo Frigo, Steven G. Johnson. The design and implementation of FFTW3. IEEE,
93(2):216–231, 2005. [cytowanie na str. 114]
[11] Matteo Frigo, Steven G. Johnson. FFTW, podręcznik do wersji 3.1.2. MIT Labora-
tory for Computer Science, czerwiec 2006. [cytowanie na str. 114, 115]
103
104 BIBLIOGRAFIA
[12] David Gerhard. Pitch extraction and fundamental frequency: History and current
techniques. Technical Report TR-CS 2003-06, Department of Computer Science
University of Regina, Regina, Saskatchewan, CANADA S4S 0A2, listopad 2003.
[13] Helena Harajda, Andrzej Łapa. Akustyczne zagadnienia lutnictwa. Część I: Do-
bór drewna. Akademia muzyczna im. J. Paderewskiego w Poznaniu, Poznań 1997.
[14] Stanisław Haraschin. Wiadomości z historii instrumentów muzycznych. Uniwersytet

Jagielloński w Krakowie, 2 wydanie, Kraków 1958. [cytowanie na str. 2, 3, 5, 7, 38, 132]
[15] David M. Howard. The computer and the singing voice. Technical report, Audio
Engineering Laboratory, Intelligent Systems Research Group, Department of Elec-
tronics, University of York. [cytowanie na str. 42]
[16] Tomasz Jasiński. Polska barokowa retoryka muzyczna. Wydawnictwo Uniwersytetu

Marii Curie-Skłodowskiej, Lublin 2006. [cytowanie na str. 70]
[17] Joelle Morton. Historical Bass Website, dostęp: wrzesień 2008. http://www.
greatbassviol.com/images/bosse.jpg. [cytowanie na str. 11, 128]
[18] Elodie Joliveau, John Smith, Joe Wolfe. Vocal tract resonances in singing: The
soprano voice. Journal of Acoustical Society of America, 116(4), październik 2004.
[19] Józef Jordan. Budowa i czynności narządu głosu i słuchu. Higiena głosu śpiewaczego,
Skrypty i Podręczniki(20), Gdańsk 1990. [cytowanie na str. 42]
[20] Syed Ali Khayam. The Discrete Cosine Transform (DCT): Theory and application.
marzec 2003. [cytowanie na str. 26]
[21] Stanisław Klajman. Tworzenie głosu. Higiena głosu śpiewaczego, Skrypty i Pod-
ręczniki(20), Gdańsk 1990. [cytowanie na str. 45, 47]
[22] Rafał Klaus. Perceptron, dostęp: wrzesień 2008. http://www.cs.put.poznan.pl/

rklaus/assn/percep.htm. [cytowanie na str. 37]
[23] Lilli Lehmann. How to sing (Meine Gesangskunst). The MacMillan Company, 1902.
Ebook wydany przez Project Gutenberg: www.gutenberg.org. [cytowanie na str. 43,
129]
[24] Helen F. Mithell, Dianna T. Kenny. The vocal audition process: Do you hear
what I hear? [W:] Proceedings of the third Conference on Interdisciplinary Mu-
sicology (CIM07), K. Maimets-Volt, R. Parncutt, M. Marin, J. Ross, edytorzy.
[25] Władymir Pietrowicz Morozow. Iskusstwo rezonansnawo pienija. Iskusstwo i nauka.

Instytut Psychologii Rosyjskiej Akademii Nauk, Państwowe Konserwatorium im. P.
I. Czajkowskiego w Moskwie, Moskwa 2002. [cytowanie na str. 45, 47, 60, 65, 86, 91, 132]
[26] Jerry Morrison. EA IFF 85. Standard for Interchange Format Files. Electronic
Arts, styczeń 1985. [cytowanie na str. 113]
BIBLIOGRAFIA 105
[27] Federation of Viola da Gamba Societies. Strona internetowa:

http://www.violadagamba.org/html/simpson2.html, dostęp: wrzesień 2008.
Fragment traktatu Christophera Simpsona ”The Division-Viol, or The Art of
Playing ex tempore to a Ground” (1665 r.). [cytowanie na str. 6, 128]
[28] Christopher Page. Jerome of Moravia on the Rubeba and Viella. Galpin Society
Journal, 32:77–98, maj 1979. [cytowanie na str. 2]
[29] Sergey Pauk. Use of Long-Term Average Spectrum for automatic speaker recogni-
tion. Praca magisterska, University of Joensuu Department of Computer Science,
grudzień 2006. [cytowanie na str. 33, 34]
[30] Goeffroy Peeters. A large set of audio features for sound description (similarity and
classification) in the CUIDADO project. kwiecień 2004. [cytowanie na str. 21, 22]
[31] R. V. Pierce. The people’s common sense medical adviser in plain English: or,
medicine simplified. World’s Dispensary Medical Association, 54 wydanie, 1895.
Ebook wydany przez Project Gutenberg: www.gutenberg.org. [cytowanie na str. 43,
129]
[32] Michael Praetorius. Syntagma Musicum II De Organographia. Parts I and II. Ear-
ly Music Series. Clarendon Press, Oxford 2005. Tłumaczenie i edycja: David Z.
Crookes. [cytowanie na str. 4, 128]
[33] Johann Joachim Quantz. Versuch einer Anweisung die flute traversiere zu spie-
len. Documenta Musicologica. Reihe 1, Druckschriften - Faksimiles 2. Bärenreiter,
Kassel, 1953. Red. Hans-Peter Schmitz. [cytowanie na str. 12]
[34] Carl-Hugo Ågren, Carl A. Stetson. Measuring the resonances of treble viol pla-
tes by hologram interferometry and designing an improved instrument. Journal of
Acoustical Society of America, 51(6), 1969. [cytowanie na str. 39]
[35] Dorota Żórawska-Dobrowolska. Osobista mitologia György Ligetiego (1923-2006).

Ruch Muzyczny, 16, sierpień 2006. [cytowanie na str. 2]
[36] Jerzy Regent. Dźwięk. Higiena głosu śpiewaczego, Skrypty i Podręczniki(20),

Gdańsk 1990. [cytowanie na str. 21, 22, 49, 50, 68, 132]
[37] Bronisław Romaniszyn. Z zagadnień sztuki i pedagogiki wokalnej. Wybór artykułów.

PWM, Kraków 1957. [cytowanie na str. 45, 46, 48]
[38] John Rutledge. How did the viola da gamba sound? Early Music, (7):59–69, 1979.
[39] Curt Sachs. Historia instrumentów muzycznych. PWM, Kraków 1989.

[cytowanie na str. 2, 3, 5, 7, 8, 38, 41, 132]
[40] Nobuo Sato, Yasunari Obuchi. Emotion recognition using mel-frequency cep-
stral coefficients. Information and Media Technologies, 2(3):835–848, 2007.
[41] Nobuo Sato, Yasunari Obuchi. Emotion recognition using mel-frequency cep-
stral coefficients. Journal of Natural Language Processing, 14(4):83–96, 2007.
106 BIBLIOGRAFIA
[42] Jordi Savall. The bass viol and the human voice. Program koncertu gambowego
Jordiego Savalla z 12 maja 2004 r. [cytowanie na str. 12, 13]
[43] Emery Schubert, Joe Wolfe, Alex Tarnopolsky. Spectral centroid and timbre in
complex, multiple instrumental textures. [W:] Proceedings of the 8th International
Conference on Music Pereption and Cognition, S. D. Lipscomb, R. Ashley, R. O.
Gjerdingen, P. Webster, edytorzy, strony 654–657, sierpień 2004. [cytowanie na str. 21,
22]
[44] Seven Strings: Music for Gambas and Voice. The Marais Project. Concert 9. Pro-
gram koncertu z 30 maja 2004 r. w SBW Independent Theatre, North Sydney.
[45] Ryszard Stasiński. O liczeniu dyskretnej transformacji Fouriera. Wydawnictwo

Politechniki Poznańskiej, 2005. [cytowanie na str. 25]
[46] Caroline Traube, Philippe Depalle. Timbral analogies between vowels and plucked
string tones. IEEE, (IV):293–296, 2004. [cytowanie na str. 59]
[47] Jan G. Švec, Johann Sundberg, Stellan Hertegård. Three registers in an untra-
ined female singer analyzed by videokymography, strobolaryngoscopy and sound
spectrography. Journal of Acoustical Society of America, 123(1), styczeń 2008.
[48] Viola da Gamba Society of America. Composing for the viola da gamba - wytyczne
dla uczestników konkursu kompozytorskiego Leo M. Traynor Competition, dostęp:
sierpień 2008. http://vdgsa.org/pgs/Comp-forViols.pdf. [cytowanie na str. 38]
[49] Aleksandra Wesołowska, Katarzyna K. Gardzina. Piękno sztuki polega na tym, że

nic nie jest w niej oczywiste - rozmowa z Piotrem Łykowskim. Trubadur, 3-4(32-33),
2004. [cytowanie na str. 50]
[50] Wikipedia, hasło ”Neuron McCullocha-Pittsa”, dostęp: wrzesień 2008. http://pl.

wikipedia.org/wiki/Neuron_McCullocha-Pittsa. [cytowanie na str. 37]
[51] Wikipedia, hasło ”Viol”, dostęp: wrzesień 2008. http://en.wikipedia.org/wiki/

Viola_da_gamba. [cytowanie na str. 2, 7]
[52] Wikimedia commons, dostęp: wrzesień 2008. http://pl.wikipedia.org/wiki/

Grafika:Marin_Mersenne.jpeg. [cytowanie na str. 11, 128]
[53] S. K. Wolf, D. Stanley, W. J. Sette. Quantitative studies on the singing voice.

Journal of Acoustical Society of America, 16, kwiecień 1935. [cytowanie na str. 51]
[54] Tomasz Zaleski. Aparat głosotwórczy a technika wokalna, tom 74 Materiały pomoc-
niczne dla nauczycieli szkół i ognisk artystycznych. Centralny Ośrodek Pedagogiczny
Szkolnictwa Artystycznego, Warszawa, ul. Senatorska 13/15, pok. 137, 2 wydanie,
Warszawa 1964. [cytowanie na str. 8, 9, 42, 45, 50, 51, 52]
[55] Tomasz P. Zieliński. Cyfrowe przetwarzanie sygnałów. Wydawnictwa Komunikacji

i Łączności sp. z. o.o., Warszawa 2005. [cytowanie na str. 20, 24, 27, 30]
Dodatki
107
Dodatek A
Program do analizy spektralnej
A.1 Wprowadzenie
Większość obliczeń i wykresów, wykorzystanych w niniejszej pracy, sporządzona została
w Matlabie, jednak autor napisał ponadto własny program w języku C++ (środowisko
Borland C++Bulider Enterprise Suite 6.0), za którego pomocą można wykonać opisy-
wane w poprzednich rozdziałach analizy.
Program posiada następującą funkcjonalność:
• Otwieranie nieskompresowanych plików WAVE z 1 kanałem (mono)∗ .
• Wyświetlanie przebiegu czasowego analizowanego pliku dźwiękowego.
• Liczenie i prezentacja na wykresie widma dźwięku (za pomocą Szybkiej Transfor-

macji Fouriera - FFT)
• Zaznaczanie i powiększanie dowolnego fragmentu przebiegu czasowego.
• Wycinanie zaznaczonego fragmentu sygnału.
• Nakładanie filtra preemfazy na sygnał.
• Nakładanie okien czasowych na zaznaczony fragment przebiegu czasowego podczas

liczenia widma dźwięku.
• Liczenie i wyświetlanie na wykresie cepstrum analizowanego sygnału.
• Liczenie i prezentacja na wykresie wygładzonego widma za pomocą techniki kep-

stralnego wygładzania przy zachowaniu danej liczby współczynników kepstralnych.
• Odnajdywanie tonu podstawowego (działa oczywiście tylko dla pojedyńczych dźwię-

ków).
∗
Pliki dźwiękowe stereo nie mają żadnego znaczenia dla tez zawartych w pracy.
109
110 DODATEK A. PROGRAM DO ANALIZY SPEKTRALNEJ
A.2 Instrukcja obsługi programu

A.2.1 Okno główne
Rysunek A.1: Program do analizy częstotliwościowej napisany przez autora tej

pracy. Okno główne.
Okno główne to pierwsze okno, które pokazuje się po uruchomieniu programu. Za-
wiera ono pasek menu i pole tekstowe, w którym program wypisuje informacje o swoim
aktualnym stanie. Pasek menu zawiera następujące opcje:
Plik
Otwórz...
Zadania (aktywne dopiero po otwarciu pliku)
Pokaż przebieg czasowy
Analiza spektralna
Preemfaza
Opcje
Okno: Prostokątne
Trójkątne (Bartletta)
Hanninga (Hanna)
Hamminga
Blackmana
Opcja Otwórz... pozwala na otwarcie i wczytanie pliku dźwiękowego w formacie

WAVE. Program obsługuje tylko nieskompresowane pliki mono w standardzie PCM. Po
pomyślnym otwarciu pliku uaktywnia się menu Zadania.
A.2. INSTRUKCJA OBSŁUGI PROGRAMU 111
Opcja Pokaż przebieg czasowy aktualizuje wykres przebiegu czasowego w oknie

przebiegu czasowego.
Opcja Analiza spektralna otwiera Okno Analizy Częstotliwościowej i liczy trans-
formatę Fouriera analizowanego sygnału (lub jego zaznaczonego w Oknie ptrzebiegu
czasowego fragmentu) po nałożeniu okna czasowego, którego typ wybiera się w menu
Opcje/Okno. Liczone jest także cepstrum dla wyliczonej transformaty Fuoriera. Cep-
strum i widmo logarytmiczne pokazywane są na odpowiednich wykresach Okna Analizy
Częstotliwościowej.
Opcja Preemfaza nakłada na sygnał filtr preemfazy.
A.2.2 Okno przebiegu czasowego

pracy. Okno przebiegu czasowego.
Okno Przebiegu Czasowego zawiera wykres przebiegu czasowego oraz przyciski Powiększ
i Odźwież (w trybie powiększenia przycisk zmienia się na Anuluj powiększenie) oraz
Wytnij. Zaznaczanie fragmentu wykresu przeprowadza się poprzez pojedyńcze kliknię-
cie na początek i koniec żądanego fragmentu sygnału. Zaznaczony fragment powinien
zmienić kolor tła na ciemnoczerwony.
Przycisk Wytnij wycina z sygnału zaznaczony fragment. Operacja ta nie może być
cofnięta. Przycisk Powiększ powiększa zaznaczony fragment przebiegu czasowego i anu-
luje zaznaczenie.
A.2.3 Okno analizy częstotliwościowej

Okno Analizy Częstotliwościowej zawiera 2 wykresy: widma logarytmicznego i wygła-
dzonego widma (górny wykres) oraz cepstrum (dolny wykres). Na samym dole znajduje

pracy. Okno analizy częstotliwościowej.
A.3. WYBRANE ZAGADNIENIA KONSTRUKCJI PROGRAMU 113
się pole tekstowe, w którym określić można liczbę zachowywanych współczynników kep-
stralnych podczas operacji liftrowania. Po wpisaniu tej liczby automatycznie obliczone
zostanie wygładzone widmo i przedstawione na wykresie widma jako czerwona linia.
Pod wykresem widma program wyświetla częstotliwość próbkowania i ton podstawo-
wy dźwięku (patrz A.3.4).
A.3 Wybrane zagadnienia konstrukcji programu

A.3.1 Format WAVE
Pierwszą rzeczą, którą należy zrobić zabierając się do pisania programu analizującego
sygnały akustyczne, jest zaimplementowanie funkcji do pobierania danych wejściowych
z pliku. Najpopularniejszym formatem zapisu nieskompresowanych plików dźwiękowych
jest format WAVE, którego obsługę zaimplementował autor w swoim programie.
Format WAVE jest szczególną realizacją kontenera IFF (Interchange File Format).
Kontener ten został opracowany przez firmę Electronic Arts.
Dane w kontenerze IFF podzielone są na segmenty zwane chunks. Każdy chunk zawiera
nagłówek, informację o rozmiarze oraz ciąg danych w nim zawartych. Format takiego
segmentu wyrażony składnią języka C wygląda następująco [26]:
typedef struct {
ID ckID;
LONG ckSize; /* sizeof(ckData) */
UBYTE ckData[/* ckSize */];
} Chunk;
Każdy segment może zawierać dowolną liczbę podsegmentów (subchunks).

Podział pliku na segmenty zapewnia jego wsteczną kompatybilność. Program, który
odczytuje taki plik jest w stanie odczytać z niego tylko te dane, które są mu potrzebne,
a reszta danych jest pomijana.
Kanoniczny plik WAVE składa się z jednego segmentu o nagłówku ”RIFF” (Resource
Interchange File Format), który zawiera informacje o rozmiarze pliku i formacie, a także
dwa podsegmenty: ”fmt ”, zawierający szczegółowe informacje dotyczące formatu dźwię-
ku, oraz ”data”, w którym znajdują się próbki dźwięku. Tabela A.1 pokazuje strukturę
pliku WAVE bajt po bajcie.
Aby poprawnie zinterpretować zawartość pliku WAVE, wystarczy odczytać dane z
pól AudioFormat, NumChannels, SampleRate, BitsPerSample i Data.
Wszystkie dane liczbowe w pliku WAVE zapisywane są w formacie little endian.
W formacie tym najmniej znaczący bajt zapisywany jest jako pierwszy, w odróżnieniu
od formatu big endian, w którym najmniej znaczący bajt zapisywany jest jako ostatni.
Ponieważ procesory komputerów PC zapisują liczby w formacie little endian, to dane
z pliku WAVE można wczytywać do pamięci poprzez proste rzutowanie bajt po bajcie,
co znacznie zaoszczędza moc obliczeniową - nie trzeba bowiem przeprowadzać żadnych
operacji konwersji. Pliki, w których liczby zapisywane są w formacie big endian mają
nagłówek ”RIFX” zamiast ”RIFF”.
Próbki dźwięku w polu Data podsegmentu ”data” zapisywane są jedna po drugiej bez
separatorów. Na początku zapisana jest pierwsza próbka pierwszego kanału, następnie
Bajt Rozmiar Nazwa Opis

[bajty]
0 4 ChunkID Zawiera litery ”RIFF”
4 4 ChunkSize Rozmiar segmentu (czyli rozmiar
pliku bez rozmiaru pierwszych
dwóch pól czyli bez 8 bajtów)
8 4 Format Zawiera litery ”WAVE”
12 4 Subchunk1ID Zawiera litery ”fmt ”
16 4 Subchunk1Size Rozmiar podsegmentu (16 dla for-
matu PCM)
20 2 AudioFormat 1 dla formatu PCM
22 2 NumChannels Ilość kanałów
24 4 SampleRate Częstotliwość próbkowania
28 4 ByteRate == SampleRate * NumChannels *
BitsPerSample/8
32 2 BlockAlign == NumChannels * BitsPerSam-
ple/8
34 2 BitsPerSample Ilość bitów, którymi zapisywana jest
wartość próbki
36 4 Subchunk2ID Zawiera litery ”data”
40 4 Subchunk1Size Rozmiar podsegmentu (ilość bajtów,
w których znajdują się próbki)
44 * Data Próbki
Tabela A.1: Zawartość typowego pliku WAVE
pierwsza próbka drugiego kanału (itd. aż do wyczerpania kanałów), później druga próbka
pierwszego kanału, druga próbka drugiego kanału, itp.
A.3.2 Biblioteka FFTW

Do obliczania szybkiej transformacji Fouriera wykorzystano w programie bibliotekę
FFTW (Fastest Fourier Transform in the West), stworzoną przez Matteo Frigo i Ste-
vena G. Johnsona z MIT Laboratory for Computer Science. Jest to wieloplatformowa
biblioteka języka C i C++ (może być również stosowana w Fortranie), która oblicza
transformację Fouriera za pomocą algorytmów dobieranych pod kątem wydajności dla
konkretnej platformy sprzętowej i systemowej.
Oficjalny podręcznik dla biblioteki FFTW [11] podaje, że biblioteka ta jest w stanie
liczyć dyskretne transformacje Fouriera (DFT) dla danych zespolonych i rzeczywistych
oraz dyskretną transformację Hartleya (DHT) dla danych rzeczywistych. Dane wejścio-
we mogą być tablicami dowolnej długości [11] (biblioteka zapewnia dla nich algorytmy o
złożoności O(N logN )) , a także tablicami wielowymiarowymi. FFTW wspiera zestawy
instrukcji SSE, SSE2, 3DNow! i Altivec oraz wielowątkowość.
Interakcja z użytkownikiem w FFTW zachodzi w dwóch etapach: planowania, w
którym FFTW dostosowuje się do sprzętu, i wykonania, w którym FFTW dokonuje
właściwych obliczeń [10]. W etapie planowania specjalny obiekt zwany planerem dobie-
ra dla liczonej transformacji Fouriera odpowiedni algorytm, zapewniający jak najlepszą

wydajność. Spośród wielu algorytmów zaimplementowanych w FFTW, biblioteka ta wy-
korzystuje m. in. algorytm Cooleya-Tukeya, algorytm Radera dla tablic o rozmiarach bę-
dących liczbami pierwszymi i algorytm split-radix z poprawkami wprowadzonymi przez
Dana Bernsteina [11].
Jako przykład wykorzystania biblioteki FFTW posłuży fragment programu napisa-
nego przez autora:
int WaveForm::ComputeFFT (long start, long end, byte WindowKind) {

if (FFTSamples != NULL) delete FFTSamples;
if (start >= end) return 0;
if ((start < 0) || (end < 0)) return 0;
NumFFTSamples = end - start;
FFTSamples = new double[NumFFTSamples];
fftw_complex *wejscie = new fftw_complex[NumFFTSamples];
fftw_complex *wyjscie = new fftw_complex[NumFFTSamples];
for (long i=start, j=0; i< end; i++, j++)
wejscie[j][0] = ApplyWindow(Samples[j], j, NumFFTSamples,
WindowKind);
for (long i=start, j=0; i< end; i++, j++)
wejscie[j][1] = 0;
W powyższym fragmencie tworzone są dwie tablice liczb zespolonych typu

fftw_complex. Typ zespolony w FFTW zrealizowany jest jako dwuwymiarowa tabli-
ca, gdzie [i][0] oznacza część rzeczywistą elementu i, a [i][1] jego część urojoną.
W powyższym przykładzie do części rzeczywistej tablicy wejściowej kopiowane są próbki
sygnału po nałożeniu na nie okna określonego parametrem WindowKind, natomiast część
urojona zawiera same zera. FFTSamples to tablica, w której na końcu znajdzie się widmo
rzeczywiste.
fftw_plan p;
p = fftw_plan_dft_1d(NumFFTSamples, wejscie, wyjscie,
FFTW_FORWARD, FFTW_ESTIMATE);
fftw_execute(p);
fftw_destroy_plan(p);
Teraz doszliśmy do wywołania funkcji biblioteki FFTW. Najpierw tworzymy plan p

wykonania prostej (FFTW_FORWARD) transformacji Fouriera na tablicy jednowymiarowej.
Flaga (FFTW_ESTIMATE) oznacza, że planer będzie działał w trybie przyspieszonym, co
skróci czas inicjalizacji, ale wydłuży czas liczenia transformaty. Flagi FFTW_MEASURE,
FFTW_PATIENT, or FFTW_EXHAUSTIVE wydłużają czas planowania, ale dają w efekcie lepiej
zoptymalizowane i szybciej działające transformacje.
Następnie za pomocą funkcji fftw_execute(p) nakazujemy obliczenie tej transfor-
macji. Na końcu usuwamy plan z pamięci (fftw_destroy_plan(p)).
for (long i=0; i< NumFFTSamples ; i++)

{
FFTSamples[i] = sqrt(pow(wyjscie[i][0],2) +
pow(wyjscie[i][1],2));
}
double mx = maksFFT();
for (long i=0; i< NumFFTSamples ; i++)
{
if (FFTSamples[i]) FFTSamples[i] = 20.0f *
log10(FFTSamples[i] / mx);
}
delete wejscie;
delete wyjscie;
return 1;
};
W ostatnim fragmencie obliczamy i kopiujemy widmo rzeczywiste do tablicy FFTSamples,

po czym zamieniamy je na widmo logarytmiczne i usuwamy tablice tymczasowe.
A.3.3 Kepstralne wygładzanie widma

Kepstralne wygładzanie widma zostało zaimplementowane w oparciu o algorytm, wyko-
rzystujący transformację Fouriera, opisany w rozdziale 2.5.6. Otrzymana w ten sposób
obwiednia widma jest automatycznie skalowana do odpowiednich wymiarów, aby zmie-
ściła się na wykresie widma logarytmicznego.
A.3.4 Odnajdywanie tonu podstawowego

W programie został wykorzystany algorytm odnajdywania tonu podstawowego w opar-
ciu o wyszukiwanie maksimum w kepstrum. Metoda ta została szczegółowo opisana w
rozdziale 2.5.8 i podlega wszystkim opisanym tam ograniczeniom.
Poniżej znajduje się funkcja int WaveForm::ComputeCepstrum (), w której liczone
jest cepstrum oraz ton podstawowy:
int WaveForm::ComputeCepstrum () {
if (FFTSamples == NULL)
{
ComputeFFT(WIN_BLACKMANN);
ComputeCepstrum();
Log.close();
return 0;
}
if (CepstrumSamples != NULL) {delete CepstrumSamples;

CepstrumSamples = NULL;};
NumCepstrumSamples = NumFFTSamples;
CepstrumSamples = new double[NumCepstrumSamples];
fftw_complex *wejscie = new fftw_complex[NumCepstrumSamples];

fftw_complex *wyjscie = new fftw_complex[NumCepstrumSamples];
for (long i=0; i < NumCepstrumSamples; i++)
{
wejscie[i][0] = FFTSamples[i];
wejscie[i][1] = 0;
}
fftw_plan p2;
p2 = fftw_plan_dft_1d(NumCepstrumSamples, wejscie, wyjscie,
FFTW_BACKWARD, FFTW_ESTIMATE);
fftw_execute(p2);
fftw_destroy_plan(p2);
for (long i=0; i< NumCepstrumSamples; i++) CepstrumSamples[i] =

wyjscie[i][0]; //Tylko czesc rzeczywista!
delete wejscie;
delete wyjscie;
//Szukanie tonu podstawowego:

if (NumCepstrumSamples <= 10) return 1;
double max = 0;
long nrsampla = 0;
for (long i=10; i< NumCepstrumSamples / 2; i++)
{
if (CepstrumSamples[i] > max) {
max = CepstrumSamples[i]; nrsampla = i;};
}
fundamental = SampleRate / nrsampla;
return 1;
};
Dodatek B
Kody w MatLabie opisywanych

przykładów
B.1 Wstęp
W niniejszym dodatku przedstawione są kody źródłowe skryptów i funkcji, napisanych
przez autora pracy w środowisku MatLab 6.5, za pomocą których przeprowadzano opi-
sane w poprzednich rozdziałach analizy i generowano wykresy.
B.2 Funkcje
B.2.1 Dyskretna transformacja cosinusowa (DCT)
function C = dct (A)
for k=1:length(A)
C(k) = 0;
for n=1:length(A)
C(k) = C(k) + log(abs(A(n))) * cos (((n + 0.5) * k * pi)
/ length(A));
end;
end;
B.2.2 Wygładzanie widma

Za pomocą FFT
function Wygladzone = WygladzoneWidmo (A)

Widmo = abs(fft(A));
WidmoLog = log(Widmo);
Cepstrum = abs(ifft(complex(WidmoLog)));
LiftCepstrum = Cepstrum;
119
120 DODATEK B. KODY W MATLABIE OPISYWANYCH PRZYKŁADÓW
LiftCepstrum(16:(length(A)-16))=0;
Wygladzone = abs(fft(complex(LiftCepstrum)));
Za pomocą DCT
function Wygladzone = WygladzoneWidmoDCT (A,coeff)

N = length(A);
for n=1:N
Wygladzone(n) = 0;
for k=1:coeff
Wygladzone(n) = Wygladzone(n) + A(k) * cos( (n*k*pi)/N);
end;
end;
B.2.3 Okno Blackmana

function Y = OknoBlackmana (A,rozmiar)
Y (1:rozmiar) = 0;
Y = Y’;
for i=1:rozmiar
Y(i) = A(i) * (0.42 - 0.50 * cos((2 * pi * i) / (rozmiar - 1)) +
0.08 * cos((4 * pi * i) / (rozmiar - 1)));
end;
B.2.4 Tablica częstotliwości

Funkcja ta używana była przez autora do kalibracji osi X na wykresach widma. Tworzy
ona tablicę wszystkich częstotliwości dla danej częstotliwości próbkowania i danej liczby
próbek.
function F = TablicaCzestotliwosci (rozmiar, FProbkowania)

F = (1:rozmiar)
F(1) = 0;
for i=2:rozmiar
F(i) = F(i-1) + FProbkowania / rozmiar;
end;
F = shiftdim(F);
B.2.5 PSD (Power Spectral Distribution)

function C = PSD(A, dt, N)
C = (A .^ 2) / N * dt;
B.2.6 Konwersja częstotliwości na numer próbki

function Y = FreqToSamp (frq, A)
for i=1:length(A)
if A(i) >= frq
B.3. SKRYPTY 121
Y = i;
return;
end;
Y = length(A);
end;
B.3 Skrypty
W tym rozdziale znajdują się napisane przez autora skrypty programu MatLab, wyko-
rzystywane do przeprowadzania analiz i sporządzania wykresów umieszczonych w pracy.
Wykorzystują one funkcje opisane w rozdziale B.2.
B.3.1 Liczenie widma, widma wygładzonego za pomocą DCT, widma

logarytmicznego, rysowanie wykresów
Skrypt działa dla częstotliwości próbkowania 11025 Hz. Za pomocą FFT liczy widmo
sygnału wyciętego oknem Blackmana, widmo logarytmiczne, a następnie cepstrum za
pomocą dyskretnej transformacji cosinusowej (DCT). Generuje wygładzone widmo przy
zachowaniu 36 współczynników kepstralnych, również za pomocą dyskretnej transforma-
ty cosinusowej. Na końcu skrypt sporządza skalibrowane wykresy widma, widma loga-
rytmicznego i wygładzonego widma. W miejsce NazwaPliku należy wpisać nazwę pliku
WAVE lub użyć kreatora importu programu MatLab.
Dane = wavread (NazwaPliku);

DaneB = OknoBlackmana(Dane,length(Dane));
Widmo = abs(fft(DaneB));
Widmo = Widmo / max(Widmo);
Widmo = Widmo * max (DaneB);
Widmo = Widmo (1:length(Widmo)/2);
XXX = sqrt (sum (DaneB .* DaneB) / sum (Widmo .* Widmo));
Widmo = Widmo * XXX;
sum (Widmo .* Widmo)
sum (DaneB .* DaneB)
Widmo2 = abs(fft(DaneB));
CepstrumDCT = dct(Widmo2);
SmDCT = WygladzoneWidmoDCT(CepstrumDCT,36);
WidmoLog = 20 * log10(Widmo2 / max(Widmo2));

Freq = TablicaCzestotliwosci(length(Widmo2),11025);
Freq = Freq(1:(length(Freq)/2));
SmDCT = SmDCT(1:(length(Freq)));
SmDCT = SmDCT - max(SmDCT);

SmDCT = SmDCT / min(SmDCT);
SmDCT = SmDCT * min (WidmoLog);
122 DODATEK B. KODY W MATLABIE OPISYWANYCH PRZYKŁADÓW
figure;
plot (Freq, SmDCT);
xlim([0 5512])
set(gca,’XTick’, [0 : 500 : 5512])
set(findobj(’Type’,’line’),’Color’,’k’)
grid on
ylabel(’Poziom natezenia [dB]’)
xlabel(’Czestotliwosc [Hz]’)
figure;
plot (Freq, Widmo(1:length(Freq)));
xlim([0 5512])
set(gca,’XTick’, [0 : 500 : 5512])
grid on
ylabel(’Amplituda’)
figure;
plot (Freq, WidmoLog(1:length(Freq)));
xlim([0 5512])
set(gca,’XTick’, [0 : 500 : 5512])
grid on
figure;
plot (Freq, WidmoLog(1:length(Freq)), Freq, SmDCT);
xlim([0 5512])
set(gca,’XTick’, [0 : 500 : 5512])
grid on
B.3.2 Liczenie widma długoterminowego (Long-Term Average Spec-

trum)
Skrypt ten liczy widmo długoterminowe dla danego sygnału przy użyciu 4096-punktowego
okna prostokątnego, przesuwanego o 2048 punktów, i przedstawia je na wykresie. W miej-
sce NazwaPliku należy wpisać nazwę pliku WAVE lub użyć kreatora importu programu
MatLab.

LTAS(1:4096) = 0;
LTAS = LTAS’;
B.3. SKRYPTY 123
j=0;
for i=(1:2048:(length(Dane) - 4096))
TmpWidmo = abs(fft(Dane(i:i+4095)));
PowSpecDens = PSD(TmpWidmo, 4096 / 11025, 1024);
LTAS = LTAS + PowSpecDens;
j = j + 1;
end;
LTAS = LTAS / j;
LTASdB = 10 * log10 (LTAS / ((2 * 0.0001)^2));
Freq = TablicaCzestotliwosci(4096,11025);
Freq = Freq(1:(length(Freq)/2));
figure;
plot (Freq, LTASdB(1:2048));
xlim([0 5512])
set(gca,’XTick’, [0 : 500 : 5512])
grid on
ylabel(’Srednia moc sygnalu [dB / Hz]’)
xlabel(’Czestotliwosc[Hz]’)
B.3.3 Obliczanie jasności barwy dźwięku

Skrypt oblicza wysokość tonu podstawowego dla analizowanego dźwięku oraz dwa para-
metry związane z jasnością jego barwy: fc i fc /f0 (patrz rozdział 2.4).

DaneB = OknoBlackmana(Dane, length(Dane));
Widmo = abs(fft(DaneB));
Freq = TablicaCzestotliwosci(length(Widmo) / 2,11025);
WidmoMocy = Widmo .* Widmo;
Jasnosc = sum(WidmoMocy(1:(length(WidmoMocy)/2)) .* Freq) /
sum (WidmoMocy(1:(length(WidmoMocy)/2)));
Jasnosc
Cepstrum = real(ifft(log(Widmo)));
maks = 0;
samp = 0;
for i=10:(length(Cepstrum)/2)
if (Cepstrum(i) > maks)
maks = Cepstrum(i);
samp = i;
end;
end;
TonPodstawowy = 11025 / samp;
JasnoscF0 = Jasnosc / TonPodstawowy;
TonPodstawowy
JasnoscF0
Dodatek C
Słownik pojęć muzycznych
Ambitus - rozpiętość interwałowa pewnej sekwencji dźwięków, np. motywu muzycz-

nego, utworu, skali głosu (instrumentu), itp., którą określamy za pomocą interwałów
muzycznych (np. ambitus oktawy, duodecymy). Wielkość ta ma znaczenie strukturalno-
muzyczne i jedynie w przybliżeniu odpowiada stosunkowi częstotliwości najwyższego
dźwięku do najniższego. Rzeczywisty stosunek częstotliwości dwóch dźwięków muzycz-
nych jest zależny od przyjętego stroju i intonacji podczas gry.
Interwał - muzyczne określenie stosunku wysokości dwóch dźwięków. Pojęcie interwału

ma znaczenie strukturalne i nie określa rzeczywistego stosunku częstotliwości, który za-
leżny jest od stroju muzycznego i intonacji.
Intonacja - zjawisko obrazujące stopień wychylenia rzeczywistej częstotliwości dźwię-

ku, uzyskanej w wyniku gry lub śpiewu, od częstotliwości pożądanej, czyli najczęściej
takiej, która wynika z przyjętego stroju muzycznego.
Strój muzyczny - algorytm wyznaczania częstotliwości dźwięków skali materiałowej.
System dur-moll - tonalny system dźwiękowy, który wykształcił się w epoce baroku i
szybko stał się najpopularniejszym systemem dźwiękowym (i przez długi czas jedynym)
w muzyce europejskiej. Na system dur-moll składa się nieskończenie wiele tonacji oraz
zależności zachodzące między nimi i w ich obrębie.
Tonacja - podstawowa komórka tonalnych systemów dźwiękowych. W systemie dur-moll

tonacja jest strukturą, dla której określony jest punkt o zerowym napięciu tonalnym (to-
nika) i maksymalnym napięciu (dominanta). Zmianę tonacji w toku utworu nazywamy
modulacją (nie mylić z fizyczną definicją modulacji). Nazwy tonacji pochodzą od ich
akordów tonicznych (np. C − dur).
125
Spis symboli i skrótów
Skrót Opis Definicja

DFT Discrete Fourier Transform strona 23
DHT Discrete Hartley Transform strona 114
ER Energy Ratio strona 34
FFT Fast Fourier Transform strona 25
FFTW The Fastest Fourier Transform in The West strona 114
HIP Historically Informed Practice strona 8
IFF Interchange File Format strona 113
LTAS Long-Term Average Spectrum strona 33
MIR Music Information Retrieval strona 1
OCR Optical Character Recognition strona 1
RIFF Resource Interchange File Format strona 113
SPR Singing Power Ratio strona 34
127
Spis rysunków
1.1 Różne instrumenty smyczkowe okresu renesansu i baroku: 1,2,3 - różne wiel-
kości viol da gamba, 4 - viola bastarda, 5 - lira da braccio. Il. z Syntagma
Musicum Praetoriusa [32] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Różne wielkości viol da gamba - ilustracja z traktatu Syntagma Musicum
Praetoriusa [32] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Dwa rodzaje wioli basowej przeznaczonej do wykonywania divisions. Ilustra-
cja z traktatu Christophera Simpsona [27] . . . . . . . . . . . . . . . . . . . . 6
1.4 Sposób trzymania division viol. Ilustracja z traktatu Christophera Simpsona
[27] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Prapłetwiec abisyński (Protopterus aethiopicus) - ryba dwudyszna [7] . . . . 9
1.6 Śpiew przy akompaniamencie basso continuo realizowanym przez violę da
gamba i lutnię. Drzeworyt Abrahama Bosse [17] . . . . . . . . . . . . . . . . 11
1.7 Marin Mersenne [52] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1 Ton - przykład . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2 Wieloton harmoniczny - przykład. Obecne pierwsze 4 alikwoty. . . . . . . . . 16
2.3 Wieloton nieharmoniczny - przykład. . . . . . . . . . . . . . . . . . . . . . . 17
2.4 Podział struny na odcinki równej długości poprzez powstające na niej węzły
drgań harmonicznych. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Przykładowa charakterystyka częstotliwości filtru. Fragment krzywej rezo-
nansowej. f1 , f2 - częstotliwości skrajne, f0 - częstotliwość środkowa pasma
przepustowego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 Widmo głosu sopranowego uzyskane za pomocą Szybkiej Transformacji Fo-
uriera (FFT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7 Przykłady reprezentacji widma dźwięku na wykresach. Od góry: widmo am-
plitudy (a, b), widmo mocy (c, d) i widmo logarytmiczne (e, f). Lewa ko-
lumna: częstotliwość w skali liniowej, prawa kolumna: częstotliwość w skali
logarytmicznej. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Przebieg czasowy dźwięków G i g1 w wykonaniu śpiewaka (głoska a) przed i
po nałożeniu okna Blackmana . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.9 Różne okna czasowe: a) Okno prostokątne b) Okno trójkątne (Bartletta), c)
Okno Hanninga (Hanna), d) Okno Hamminga, e) Okno Gaussa, σ = 0.4, f)
Okno Bartletta-Hanna, g) Okno Blackmana . . . . . . . . . . . . . . . . . . . 28
128
SPIS RYSUNKÓW 129
2.10 Cepstrum głosu śpiewaczego (sopran). Dźwięk as1 , głoska a. . . . . . . . . . 30

2.11 Wygładzone widmo głosu sopranowego (grubsza linia) naniesione na wykres
widma logarytmicznego (cieńsza linia). Dźwięk as1 , głoska a. Zachowano 16
współczynników kepstralnych. . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.12 Wygładzone widmo głosu sopranowego (grubsza linia) naniesione na wykres
widma logarytmicznego (cieńsza linia). Dźwięk as1 , głoska a. Zachowano 64
współczynniki kepstralne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.13 Widmo długoterminowe (LTAS) soprana śpiewającego arię ”O servi volate”
z oratorium ”Juditha triumphans” A. Vivaldiego. . . . . . . . . . . . . . . . 34
2.14 Zależność częstotliwości tonu podstawowego od czasu, uzyskana na podstawie
cepstrum sygnału. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.15 Przykładowe funkcje aktywacji: f (s) = 1 dla s 0 lub 0 dla s < 0 (a) oraz
f (s) = 1+e1 −t (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.16 Widmo basowej violi da gamba wg Fletcher, Blackham, Geertsen [9]. Kolejno
dźwięki c1 , g, G, G1 (a1 = 415Hz). Ostatni wykres przedstawia wszystkie
trzy dźwięki na raz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.17 Przekrój przez naturalne rezonatory ludzkiego ciała. Ilustracja z ”Meine Ge-
sangskunst” Lilli Lehmann, 1902 r. [23] . . . . . . . . . . . . . . . . . . . . . 43
2.18 Rezonatory ludzkiego ciała. 3 - krtań, 4 - tchawica, 5 i 6 - oskrzela. Ilustracja
z ”The people’s common sense medical adviser in plain English: or, medicine
simplified”, R. V. Pierce, 1895 r. [31] . . . . . . . . . . . . . . . . . . . . . . 43
2.19 Przedsionek krtani autora tej pracy. Struny głosowe rozwarte. Obraz z 7.05.2004
uzyskany metodą badania stroboskopowego. . . . . . . . . . . . . . . . . . . 44
2.20 Przedsionek krtani autora tej pracy. Struny głosowe zwarte. Obraz z 7.05.2004
uzyskany metodą badania stroboskopowego. . . . . . . . . . . . . . . . . . . 44
2.21 Widmo długoterminowe głosu barytona Jacka Salamona. Widoczny wysoki
formant śpiewaczy o częstotliwości 2500 Hz . . . . . . . . . . . . . . . . . . . 48
3.1 Sesja nagraniowa w budynku Wyższej Szkoły Bankowej w Poznaniu . . . . . 53

3.2 Gama D-dur na violi da gamba. Widma i kepstralnie wygładzone widma
dźwięków (od góry:) D, E, Fis, G. . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Gama D-dur na violi da gamba. Widma i wygładzone widma dźwięków (od
góry:) AHcisd, ef isg, ahcis1 d1 , cała gama. . . . . . . . . . . . . . . . . . . . 58
3.4 U góry: spektrogram gamy G-dur w wykonaniu śpiewaka. U dołu: Widma i
wygładzone widma dźwięków (od góry:) G, H i d. . . . . . . . . . . . . . . . 61
3.5 Widma i wygładzone widma dźwięków gamy G-dur (od góry: g, h, d1 , g1 ) w
wykonaniu śpiewaka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.6 Współczynniki związane z jasnością barwy dźwięku dla kolejnych stopni gam
durowych w wykonaniu śpiewaków i violi da gamba. . . . . . . . . . . . . . . 64
3.7 G. F. Haendel - Ombra mai fu. Początkowy motyw. . . . . . . . . . . . . . . 65
3.8 G. F. Haendel - Ombra mai fu. Od góry: h (małe vibrato), h (duże vibrato),
gis, fis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.9 G. F. Haendel - Ombra mai fu. Trzy różne samogłoski (od góry: a, i, u) na
dźwięku e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.10 Po lewej: widmo dźwięku c1 na violi da gamba. Po prawej: uśrednione widmo
frazy ”Ombra mai fu” na violi da gamba. . . . . . . . . . . . . . . . . . . . . 69
130 SPIS RYSUNKÓW
3.11 ”Ombra mai fu” Haendla wykonane na violi da gamba. Po lewej: uśrednione
widmo taktów 21-28, zawierających dźwięki od c do f1 . Po prawej: Wygła-
dzone widmo tego fragmentu. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.12 Spektrogram koloraturowego motywu z ”O servi volate” A. Vivaldiego. Śpie-
wała Karolina Roman. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.13 Głos ludzki. Widma i wygładzone widma poszczególnych dźwięków koloratu-
rowego motywu na słowie ”volate”. Od góry dźwięki: es1 , f1 , ges1 , as1 . . . 72
rowego motywu na słowie ”volate”. Od góry dźwięki: b1 , c2 , des2 , es2 . . . . 73
rowego motywu na słowie ”volate”. Od góry dźwięki: f2 , ges2 . . . . . . . . . 74
3.16 Ostatni dźwięk arii ”O servi volate” (des2 ) w wykonaniu śpiewaczki. Spek-
trogram, widmo oraz widmo cepstralnie wygładzone za pomocą dyskretnej
transformacji cosinusowej . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.17 Viola. Widma poszczególnych dźwięków koloraturowego motywu na słowie
”volate”. Kolejno od góry dźwięki: e, f is, g, a . . . . . . . . . . . . . . . . . 76
”volate”. Kolejno od góry dźwięki: h, cis1 , d1 , e1 . . . . . . . . . . . . . . . . 77
”volate”. Od góry dźwięki: f is1 , g1 . . . . . . . . . . . . . . . . . . . . . . . 78
3.20 Uśrednione widmo koloraturowego motywu na słowie ”volate”. Na wykresie
widoczne częstotliwości składowe wszystkich dźwięków motywu e − g1 . . . . 78
3.21 G. F. Haendel - recytatyw O voi del mio poter ministri eletti z opery Orlando.
Od góry widma i wygładzone widma dźwięków: a, d1 , a, cis1 na głoskach i,
a, i, o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Od góry widma i wygładzone widma dźwięków: h, d, d, A na głoskach o, i, e, o. 81
Kolejno od lewej widma dźwięków a, d1 , a, cis1 , h, d, d, A na głoskach i, a,
i, o, o, i, e, o. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.24 G. F. Haendel - recytatyw O voi del mio poter ministri eletti z opery Or-
lando wykonany na violi da gamba. 2 górne wykresy przedstawiają ostatni
dźwięk (B) motywu ”Si cangi il bosco in speco”. 2 dolne przedstawiają cały
uśredniony motyw. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.25 A. Vivaldi - aria Domine Deus w wykonaniu śpiewaczki. Od góry: widma i
wygładzone widma dźwięków gis1 , dis2 , e1 (samogłoski e, u, a). 2 wykresy
na dole: uśrednione dalsze dźwięki omawianego motywu. . . . . . . . . . . . 85
3.26 A. Vivaldi - aria Domine Deus wykonana na violi da gamba. Najniższy dźwięk
(e) omawianego motywu (u góry) i uśredniony cały motyw (u dołu). . . . . . 86
3.27 Widmo długoterminowe arii ”Ombra mai fu” śpiewanej przez tenora Macieja
Stępińskiego. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.28 Widmo długoterminowe recytatywu ”O voi del mio poter” śpiewanego przez
barytona Jacka Salamona. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.29 Widmo długoterminowe arii ”Domine Deus” śpiewanej przez sopranistkę An-
nę Gotfryd. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.30 Widmo długoterminowe arii ”O servi volate” śpiewanej przez sopranistkę
Karolinę Roman. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
SPIS RYSUNKÓW 131
3.31 Widma długoterminowe utworów (lewa kolumna) i gam (prawa kolumna).

Od góry: Maciej Stępiński (a, b), Jacek Salamon (c,d), Anna Gotfryd (e, f),
Karolina Roman (g, h) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.32 Widmo długoterminowe gamy śpiewanej przez sopranistkę Marię Penc. . . . 93
3.33 Widma długoterminowe utworów w wykonaniu śpiewaków (lewa kolumna) i
violi da gamba (prawa kolumna). Od góry: ”Ombra mai fu” (a, b), ”O voi
del mio poter” (c,d), ”Domine Deus” (e, f), ”O servi volate” (g, h) . . . . . . 96
A.1 Program do analizy częstotliwościowej napisany przez autora tej pracy. Okno
główne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
przebiegu czasowego. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
analizy częstotliwościowej. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Spis tabel
1.1 Zestawienie charakterystycznych cech viol da gamba i da braccio, wg C. Sach-

sa i St. Haraschina [14, 39] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Rozmiary viol da gamba, wg St. Haraschina [14] . . . . . . . . . . . . . . . . 5
2.1 Najpopularniejsze okna czasowe . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2 Położenie formantów śpiewaczych dla gł. męskich (wg W. P. Morozowa) [25] 47
2.3 Główne pasma formantowe samogłosek polskich, wg J. Regenta [36]. Dane w
Hertzach. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.4 Główne pasma formantowe spółgłosek dźwięcznych nosowych w języku pol-
skim, wg J. Regenta [36]. Dane w Hertzach. . . . . . . . . . . . . . . . . . . . 49
2.5 Główne pasma formantowe spółgłosek dźwięcznych czystych w języku pol-
2.6 Główne pasma formantowe spółgłosek bezdźwięcznych czystych w języku pol-
3.1 Zestawienie śpiewaków biorących udział w nagraniach i śpiewanych przez nich

utworów . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2 Stosunki mocy poszczególnych składowych harmonicznych dźwięków kolora-
turowego motywu na słowie ”volate”; af n - amplituda składowej n + 1 . . . . 71
3.3 Wskaźniki SPR (Singing Power Ratio), ER (Energy Ratio), α − 1 i α − 2 dla
poszczególnych śpiewaków, śpiewających swoje utwory . . . . . . . . . . . . . 90
3.4 Wskaźniki SPR (Singing Power Ratio), ER (Energy Ratio), α − 1 i α − 2 dla
poszczególnych śpiewaków wykonujących gamy . . . . . . . . . . . . . . . . . 93
3.5 Wyniki automatycznej klasyfikacji dźwięku violi da gamba i głosów śpie-
waczych na podstawie współczynników kepstralnych. Okno 4096-punktowe,
algorytm Ibk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
algorytm Multilayer Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 95
algorytm Ibk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
A.1 Zawartość typowego pliku WAVE . . . . . . . . . . . . . . . . . . . . . . . . 114
132
Skorowidz
akademia muzyczna, 54, 55 formant, 17, 21, 22, 38, 39, 41, 42, 46, 54,
akcent, 68 56, 59, 60, 65, 68, 70, 75, 79, 84,
altówka, 3 87, 99, 100
ambitus, 8, 52, 56, 68, 84 śpiewaczy, 39, 45–47, 59, 60, 65, 68, 74,
79, 84, 86, 87, 91, 97, 100
barok, 55, 100
baryton, 47, 60, 64, 79, 87, 91, 99 głos ludzki, 8–10, 12, 13, 17, 34, 39, 45–47,
bas, 47 50–54, 56, 59, 60, 63–65, 84, 87,
bas-baryton, 55, 60 90, 91, 94, 95, 97, 99–101
basso continuo, 11 głos kobiecy, 12, 63, 65, 84, 87, 90, 99
Bernhard, Christoph, 9 głos męski, 47, 63–65, 91, 99
Bosse, Abraham, 11 gitara, 59
Gotfryd, Anna, 55, 63, 64, 87, 90, 91
C++, 109, 114 groppo, 70
cepstrum, 29–31, 35, 63, 94, 109, 111
Haendel, Georg Friedrich, 56, 65, 69, 80
cielak, 2
Hieronim z Moraw, 2
consort, 5
hipertonacja, 63
cynk, 8
Historically-Informed Practice, 8
humanizm, 10
Dąbrowski, Krzysztof, 54
de Grocheo, Iohannes, 2 idiom
detonacja, 63 instrumentalny, 9, 10, 12
divisions, 5 wokalny, 60
Dominicantes, 55 instrumenty, 2, 3, 5, 7, 8, 16–18, 38
dyskretna transformacja cosinusowa, 75 dęte, 16
odwrotna, 26 dawne, 8
dyskretna transformacja cosinusowa (DCT), perkusyjne, 16
26, 31, 54 rodziny instrumentów, 3
dyskretna transformacja Hartleya (DHT), rozmiary instrumentów, 5
114 skala instrumentu, 5
smyczkowe, 2, 4
eksperyment, 53, 56, 59, 69, 94, 101 strunowe, 18
ewolucja, 3, 9 szarpane, 7
współczesne instrumenty smyczkowe, 3
figuracja melodyczna, 5, 10, 12, 87 interwał, 5
flażolet, 19 intonacja, 63
flet traverso, 10
fonacja, 8, 45, 51 język średnio-wysoko-niemiecki, 2
133
134 SKOROWIDZ
klapa, 17 palce, 17
klasyfikator, 94, 101 Penc, Maria, 55
klawesyn, 8, 17 piszczałka, 17, 18
klawikord, 8 otwarta, 17
kołki, 3 zamknięta, 17
kontrabas, 3 Playford, John, 5
kontralt, 10 pole czuciowe, 50, 51
kontrapunkt, 9 powietrze, 8
kora mózgowa, 9 Praetorius, 4
krycie, 50, 63 prapłetwiec abisyński, 9
prawa Younga, 18, 19
Ligeti, György, 2 Presonus Firebox, 53
lira, 2, 7 puzon, 10
lira da braccio, 3, 4
lutniści, 5 Quantz, Johann Joachim, 10, 12
lutnia, 5, 9
lutnicy, 8, 10 rebec, 2, 5
Łukasik, Ewa, 55 renesans, 9
rezonator, 22
Macbook, 53 naturalne rezonatory ciała ludzkiego,
maniera śpiewacza, 10, 13, 97, 101 17, 18, 20, 41, 42, 45, 46, 48, 51
manieryzm, 55 otwory rezonansowe, 7
Matlab, 54, 109, 119 pudło rezonansowe, 20
Mersenne, Marin, 10, 12, 13 rożek basetowy, 8
mikrofon pojemnościowy, 53 Roman, Karolina, 55, 63, 64, 87, 90, 91, 95,
motyw, 54, 65, 68, 70, 74, 79, 83, 84 97, 100
muzyka, 15–17 Rousseau, Jean, 12
europejska, 9 ryba dwudyszna, 9
instrumentalna, 9, 10
teoria muzyki, 10 Sachs, Curt, 2, 8
wokalna, 10 Salamon, Jacek, 55, 64, 90, 97, 100
Simpson, Christopher, 6
nagranie, 53–55, 91, 94 skrzela, 8
Niemcy, 7 skrzypce, 3, 7, 13, 38
nuta, 65, 74 turkiestańskie, 2
smyczek, 16–18
obój d’amore, 8 smyczkowanie, 16, 17
oddychanie, 8 przy podstawku, 17
okno czasowe, 27 przy szyjce, 17
Bartletta-Hanna, 29 smyczkowania miejsce, 18, 38
Blackmana, 29 sopran, 10, 55, 70, 87, 91, 95, 99
Gaussa, 29 splot sygnałów, 19, 20, 30
Hamminga, 29 Stępiński, Maciej, 55, 56, 63, 64, 86, 87, 90,
Hanninga (Hanna), 29 91, 97
prostokątne, 27 stroik, 16, 17
trójkątne (Bartletta), 29 struna, 2, 3, 7, 16–18, 38
opera, 55, 80–83, 101 struna burdonowa, 3
ornamentacja, 12 struny rezonansowe, 7
Ortiz, Diego, 10 struny głosowe, 17, 46
Suda, Anna, 55
półton, 21, 50 sygnał, 15–20, 22, 27, 29–31, 38, 51
płyta kołkowa, 3 dźwiękowy, 16, 19, 22
SKOROWIDZ 135
dźwiekowy, 18 wygładzone, 30, 31, 68, 75, 79, 99, 113

dyskretny, 20, 23 zespolone widmo Fouriera, 23, 31
filtrujący, 18, 19 wiolonczela, 3
rzeczywisty, 24
sygnałów analiza, 23, 29 znieczulenie, 51
wyjściowy, 18, 19
szałamaja, 10
Szum, 15, 17, 19
średniowiecze, 2, 3
tabulatura, 5
tenor, 47, 55, 56, 60, 63–65, 79, 86, 87, 99
tirata, 70
ton, 15, 18, 19
tony harmoniczne, 45
ton podstawowy, 16, 18, 21, 22, 46, 59
ton własny, 42
tony harmoniczne, 18, 19
tony składowe, 45
tonacja, 56, 65
trąbka, 8, 10
transformacja Fouriera, 23, 31, 114, 115
Dyskretna Transformacja Fouriera (DFT),
23, 24
odwrotna, 23, 29, 31
prosta, 23, 31, 115
Szybka Transformacja Fouriera (FFT),
24, 25, 33, 54, 109
transformata Fouriera, 23, 35, 86, 111, 115
ucho, 15, 16
uczenie maszynowe, 36
viella, 2, 3
viola d’amore, 7, 8
viola da braccio, 3, 7
viola da gamba, 3, 8, 18, 35, 38, 39, 41, 53,
54, 56, 59, 63–65, 68, 74, 75, 94,
95, 97, 99–101
violino piccolo, 8
Vivaldi, Antonio, 56, 71, 85–87
węzeł drgań, 17, 18, 51

Weka, 94
widmo, 13, 18, 21, 22, 27, 31, 33, 42, 46, 53,
54, 56, 59, 60, 63, 65, 68, 70, 75,
79, 83, 84, 87, 91, 94, 97, 99, 111,
115, 116
długoterminowe, 33, 34, 48, 54, 84, 86–
89, 91, 92, 94, 99
logarytmiczne, 29, 31
moduł widma, 24

Analiza Dźwięku Violi Da Gamba I Głosu Ludzkiego Oraz Próba Porównania Ich Brzmienia Za Pomocą Różnych Technik Cyfrowej Analizy Sygnałów

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analiza Dźwięku Violi Da Gamba I Głosu Ludzkiego Oraz Próba Porównania Ich Brzmienia Za Pomocą Różnych Technik Cyfrowej Analizy Sygnałów

Uploaded by

Copyright:

Available Formats

Uniwersytet Adama Mickiewicza w Poznaniu

Analiza dźwięku violi da gamba

Promotor: prof. dr hab inż. Ryszard Stasiński

- J. Rousseau (1644 - 1699)

2.7 Akustyczne cechy violi da gamba . . . . . . . . . . . . . . . . . . . 38

3.10 Porównanie dźwięków violi do głosu ludzkiego na podst. wektorów

A Program do analizy spektralnej 109

B Kody w MatLabie opisywanych przykładów 119

C Słownik pojęć muzycznych 125

Spis symboli i skrótów 127

Spis rysunków 128

Spis tabel 132

Poznań, dnia 24.09.2008

Ja, niżej podpisany Jacek Salamon, student Wydziału Fizyki Uniwersytetu

Oświadczam również, że egzemplarz pracy dyplomowej w formie wydruku

Jednocześnie przyjmuję do wiadomości, że gdyby powyższe oświadczenie oka-

Serdecznie dziękuję mojemu promotorowi, panu prof. dr hab inż. Ryszardowi

Dziękuję również śpiewakom i śpiewaczkom: Maciejowi Stępińskiemu, Annie

Dziękuję także mojemu nauczycielowi śpiewu, mgr Eugeniuszowi Zdańskiemu,

Niniejsza praca stanowi przyczynek do analizy brzmienia dawnych instrumentów

Rozdział 1 przybliża historię rozwoju violi da gamba i głosu ludzkiego. Opo-

Rozdział 2 opisuje aparat matematyczny wykorzystany w dalszej części pra-

W rozdziale 3 przedstawiona jest analiza nagrań trzech głosów kobiecych i

Chapter 2 describes the mathematical apparatus used in further experiments.

1.1 Muzyka a informatyka. Informatyka muzyczna

• na papierze w formie nut, tabulatur i publikacji na temat muzyki,

• na różnego rodzaju nośnikach w formie nagrań,

• w formie sygnału dźwiękowego przetwarzanego na żywo.

dźwięków (wysokość tonu podstawowego, kształt widma, natężenie) można uzy-

1.2 Viola da gamba

się na pięć lub cztery struny w stroju kwart-kwintowo-oktawowym, spośród któ-

Viole da gamba Viole da braccio

płyta spodnia płaska płyta spodnia wypukła

płyta spodnia w górnej części płyta spodnia bez nachylenia

górne boczki spadziste w stosunku górne boczki prostopadłe do szyjki

poprzeczki wzmacniające wewnątrz podłużna belka basowa wewnątrz

otwory w kształcie litery C otwory w kształcie ”efów”

komora kołkowa zakończona głową komora kołkowa zakończona

progi jelitowe, zawiązywane wokół szyjka bez progów

brzmienie płaskie brzmienie ”pełne i soczyste”

Tabela 1.1: Zestawienie charakterystycznych cech viol da gamba i da braccio, wg

Jak już wcześniej wspomniano, przodkiem renesansowej i barokowej violi była

Rysunek 1.1: Różne instrumenty smyczkowe okresu renesansu i baroku: 1,2,3 -

Rysunek 1.2: Różne wielkości viol da gamba - ilustracja z traktatu Syntagma

godnienie mające na celu zmniejszenie rozpiętości chwytów. Udogodnieniem tym

Wysokość Najniższa Nazwa dawna, Nazwa nowa,

Wiole basowe mają korpus rezonansowy o długości od 61 do 76 cm i posiadają

Rysunek 1.3: Dwa rodzaje wioli basowej przeznaczonej do wykonywania divisions.

Rysunek 1.4: Sposób trzymania division viol. Ilustracja z traktatu Christophera

• Baryton (wł. viola di bardone) - instrument wynaleziony w Niemczech,

• Viola d’amore (zwana amorką lub - błędnie - altówką miłosną∗∗ ) - instru-

U większości współczesnych gambistów sposób trzymania instru-

Od czasu powstania pracy Sachsa aż do napisania niniejszej pracy magister-

1.3 Głos ludzki a muzyka instrumentalna

Rysunek 1.5: Prapłetwiec abisyński (Protopterus aethiopicus) - ryba dwudyszna

Podczas gdy w utworach organowych i przeznaczonych na instru-

Fakt zachodzenia przemian fakturalnych spowodowanych przez rozwój idio-

Jednakże, skoro kwarta nie została jeszcze przez praktyków uzna-

Rozwój idiomu instrumentalnego w XVI wieku nie ominął również violi da

Powinien na nim grać dobry muzyk, aby nie naśladować głosu

Niemiecki flecista, wytwórca fletów i kompozytor, Johann Joachim Quantz

Ogólnie mówiąc, najbardziej zadowalającym dźwiękiem na flecie

Rysunek 1.6: Śpiew przy akompaniamencie basso continuo realizowanym przez