You are on page 1of 44

Politechnika Wrocławska

Instytut Telekomunikacji i Akustyki


Zakład Analizy i Przetwarzania
Sygnałów Akustycznych

Sygnał mowy jako nośnik


informacji

Sygnał mowy jako nośnik informacji 1


Plan wykładu
Wstęp, hierarchiczny system syntezy
mowy
Rodzaje sygnałów
Transformata Fourier’a sygnału
Próbkowanie sygnałów
Sygnał mowy
- wytwarzanie, cechy akustyczne
- fonemy
Dyskretne źródło informacji
Kompresja sygnału mowy

Sygnał mowy jako nośnik informacji 2


Hierarchiczny system syntezy
mowy

Sygnał mowy jako nośnik informacji 3


Sygnał
Sygnał jest to czynnik będący nośnikiem
informacji umożliwiający przesyłanie jej
na odległość

Wyróżniamy następujące rodzaje


sygnałów:
Ciągłe
Dyskretne i cyfrowe
Deterministyczne
Losowe
Sygnał mowy jako nośnik informacji 4
cyfrowe

Sygnał mowy jako nośnik informacji 5


Przekształcenie Fourier’a
Postać ciągła:


− j 2πft
X(f ) = x (t ) e dt
−∞
Postać dyskretna: DFT (Discrete Fourier
Transform):
N −1
X (m) = ∑ x(n)[cos(2πnm / N ) − j sin(2πnm / N )]
n=0

m = 0,1, ..., N − 1
Sygnał mowy jako nośnik informacji 6
Sygnał i jego moduł |DFT|

Przebieg sinusoidalny o częstośliwości 1[kHz]

Moduł DFT sygnały sinusoidalnego 1[kHz]


Sygnał mowy jako nośnik informacji 7
Przebieg czasowy sumy sygnałów sinusoidalnych:
1 oraz 1,5[kHz]

Moduł DFT sumy dwóch sygnałów


Sygnał mowy jako nośnik informacji 8
Przebieg czasowy sumy sygnałów sinusoidalnych:
1000, 1500, oraz 3500 [Hz]

Moduł DFT sumy


trzech sygnałów

Sygnał mowy jako nośnik informacji 9


Szybkie przekształcenie Fouriera
FFT (Fast Fourier Transform)
FFT – jest to procedura wyznaczania DFT

2
N- liczba mnożeń zespolonych w przypadku DFT
N
log 2 N-liczba mnożeń zespolonych w przypadku
2 FFT

N =2 k
- długość analizowanego sygnału
w FFT

k – liczba naturalna
Sygnał mowy jako nośnik informacji 10
analogowo/cyfrowe
sygnałów
1)Pobieranie wartości sygnału
w dyskretnych momentach czasu
2) Kwantowanie sygnału –
przypisanie sygnałowi jednej
ze zbioru wartości

Parametry przetwarzania A/C:


-Częstotliwość próbkowania fs
-Liczba bitów przetwornika

Sygnał mowy jako nośnik informacji 11


próbkowaniu
Kotielnikowa - Shanona
by z sygnału spróbkowanego odtworzyć
ryginalny sygnał konieczne jest zastosowanie
zęstotliwości próbkowania co najmniej
wukrotnie większej od maksymalnej
zęstotliwości składowej sygnału.

f s ≥ 2 f max f max = f N
fN -częstotliwość graniczna
Nyquista
Sygnał mowy jako nośnik informacji 12
Próbkowanie sygnału
(dyskretyzacja w czasie)

Sygnał mowy jako nośnik informacji 13


Widmo sygnału
telefonicznego

W przypadku telefonii stacjonarnej sygnał zawiera się


W paśmie do 3400[Hz] a częstotliwość próbkowania
wynosi 8000[Hz] czyli fp>2fmax
Sygnał mowy jako nośnik informacji 14
Przetwarzanie A/C

W rzeczywistości aby warunek:


fs>2*fmax był spełniony
konieczne jest zastosowanie
filtru dolnoprzepustowego
o częstotliwości granicznej B < fs/2
Sygnał mowy jako nośnik informacji 15
Charakterystyka przetwornika A/C,
kwantyzacja sygnału

2 −1
n
-Liczba przedziałów kwantowania
Gdzie:
n – liczba bitów przetwornika

Sygnał mowy jako nośnik informacji 16


Dynamika sygnału analogowego

 U max 
D = 20 log10   ;
 U min 
U max- maksymalna wartość napięcia sygnału

U min - minimalna wartość napięcia sygnału


W przypadku gdy:
U min = U szumu => D=S/N

Sygnał mowy jako nośnik informacji 17


Dynamika przetwornika
PCM
Dynamikę przetwarzania analogowego sygnału na sygnał
cyfrowy określa się jako:
 U max − U min 
N k = 20 log10   = 20 log10 (2 − 1) ≈ 6,02n [dB ]
n

 q 
q – szerokość przedziału kwantyzacji przetwornika

Twierdzenie o kwantyzacji
Aby za pomocą przetwornika n – bitowego
przekształcić sygnał analogowy bez
zniekształceń konieczne jest spełnienie
zależności: D
n>
6,02
Sygnał mowy jako nośnik informacji 18
Liczba bitów Dynamika
przetwornika przetwarzania
n N k [dB]
4 24,0

8 48,1

12 72,2

16 96,3

24 144,5

Sygnał mowy jako nośnik informacji 19


Sygnał mowy
Pasmo: od 70-150[Hz] do 5-7[kHz]
Dynamika: Kilkadziesiąt [dB]
Szacowana zawartość
informacyjna:
250[kb/s]

Sygnał mowy jako nośnik informacji 20


Płaszczyzny sygnału mowy

Sygnał mowy jako nośnik informacji 21


Wytwarzanie sygnału
mowy

Sygnał mowy jako nośnik informacji 22


Przebieg tonu krtaniowego

Zakres Fo
od 100 do 140 [Hz] dla
mężczyzn
od 200 do 280 [Hz] dla
kobiet Sygnał mowy jako nośnik informacji 23
Model wytwarzania sygnału
mowy

Sygnał mowy jako nośnik informacji 24


Częstotliwości formantowe

Sygnał mowy jako nośnik informacji 25


Zakresy częstotliwości 4 pierwszych
formantów

Sygnał mowy jako nośnik informacji 26


Sonogram sygnału mowy

Sygnał mowy jako nośnik informacji 27


Fonemy
Są to „atomy” języka. Składają się z nich
morfemy, wyrazy i zdania.
Definicja fonemu:
Fonemem określamy „najmniejszy
segment
dźwiękowy, który może różnicować
znaczenia”.
W języku polskim wyróżniamy 37 fonemów

Sygnał mowy jako nośnik informacji 28


Przykłady użycia fonemów

L Przykład użycia fonemu Fonem


p
1 wino, lis, siwy
2 ryba, grzyb, myśl
3 rzeka, grzech, Ewa
4 rak, posag, chrzan
5 bok, krowa, kot
6 kurs, buty, róża
7 jama, jutro, kraj
8 łysy, miał, auto
9 ropa, kara, wiatr
Sygnał mowy jako nośnik informacji 29
Częstości występowania
fonemów

Sygnał mowy jako nośnik informacji 30


Transmisja sygnału przez
kanał telekomunikacyjny

Jeżeli transmisja bezbłędna:


I=I’

Sygnał mowy jako nośnik informacji 31


„Informacja”

Informacja jest to miara niepewności co do


tego która z możliwych wiadomości została
odebrana.
Ilość informacji rośnie ze wzrostem liczby
możliwych wiadomości

Sygnał mowy jako nośnik informacji 32


Dyskretne źródło
informacji

S = {s1 , s 2 , ..., sq }
P ( s1 ), P ( s 2 ), ..., P( s q )
1
I ( si ) = log 2 [bitów]
P ( si )
Sygnał mowy jako nośnik informacji 33
Średnia ilość informacji

∑ P(s ) I (s )[bitów]
S
i i

Entropia źródła
def
H ( s ) = − ∑ P( si ) log P ( si )[bitów]
S

Sygnał mowy jako nośnik informacji 34


Entropia alfabetu
polskiego

Na podstawie estymat częstości


występowania fonemów
Jassem uzyskał entropie polskiego
alfabetu równą:
37
H p = −∑ P ( si ) log 2 P( si ) = 4,7506 [bit / fonem]
n =1

Sygnał mowy jako nośnik informacji 35


Kompresja sygnału mowy
W sygnale mowy występuje nadmiarowość
informacji. Od początku istnienia telefonii
starano się ograniczyć zawartość informa –
cyjną sygnału mowy, ze względu na
wąskopasmowe kanały transmisyjne.

Pierwsze ograniczenie sygnału mowy


Występuje w momencie zawężenia pasma
do zakresu od 300 do 3400 [Hz]

Sygnał mowy jako nośnik informacji 36


Obecnie najczęściej sygnał jest
przetwarzany na sygnał cyfrowy.
Przetwarzanie analogowo/cyfrowe
stanowi najprostszą wersję
kompresji sygnału mowy.
Nieskończoną liczbę wartości
zastępuje się skończonym zbiorem
wynikającym z liczby poziomów
kwantyzacji przetwornika

Sygnał mowy jako nośnik informacji 37


Przepływności kanałów
przy transmisji sygnału
mowy

Sygnał mowy jako nośnik informacji 38


System PCM

W systemach telekomunikacyjnych wykorzy –


stuje się standard PCM.
W standardzie tym sygnał przetwarza się
przy pomocy przetworników 8 bitowych,
częstotliwości próbkowania równej 8000[Hz].
Aby uzyskać lepszą jakość sygnału na wejściu
przetwornika sygnał poddawany jest kompres
Stosuje się kompresje wg. dwóch rodzajów
krzywych A lub µ
Sygnał mowy jako nośnik informacji 39
Charakterystyka kompresji
typu µ
log(1 + µ | m |)
| v |=
log(1 + µ )

V – znormalizowane napięcie
wyjściowe
m – znormalizowane napięcie
wejściowe
µ – stała dodatnia
Sygnał mowy jako nośnik informacji 40
ADPCM – Adaptacyjny PCM

ADPCM – wykorzystuje zmienny w czasie


przedział kwantowania, zmieniający się w
zależności od zmian sygnału wejściowego.
(Adaptuje się do zmian sygnału
wejściowego).

Sygnał mowy jako nośnik informacji 41


Kodowanie LPC sygnału mowy

Model generacji sygnału mowy

Sygnał mowy jako nośnik informacji 42


W wyniku działania kodera każde 180 próbek zamieniane
jest na 12 parametrów.

{T , G, a1 ,..., a10 }
T – okres pobudzenia
G – wzmocnienie
a1 ,..., a10- współczynniki filtru traktu głosowego
W standardzie LPC-10 wszystkie współczynniki
zakodowane są na 54 bitach.

Sygnał mowy jako nośnik informacji 43


Kompresja sygnału mowy
Algorytm Stopień Strumień
kompresji bitowy [kb/s]

PCM 1:1 64
(G.711)
ADPCM 2:1 32
(G.726)
RPE-LPT 5:1 13
(GSM)

LPC-10 27:1 2,4

Sygnał mowy jako nośnik informacji 44

You might also like