Professional Documents
Culture Documents
Analyse et Codage de la parole: de la reprsentation des signaux parole vers la reconnaissance automatique
1. 2. 3. 4. 5. 6. 7. 8. Codage intro Discrtisation temporelle Discrtisation de lamplitude Quantification vectorielle Codeurs temporels Typologie des codeurs Modlisation de la parole par la Linear Predictive Coding (LPC ) Dbit des codeur et qualit
Utilit pour la paramtrisation (extraction de paramtres pertinents ou vecteurs paramtriques; feature vectors ) = vecteurs dentre des systmes de reconnaissance de la parole Unit utilis:
bps = bits / seconde
2
Codeurs GSM de tlphonie mobile env. 8000 bps Codage trs-bas dbit (bas sur la reco et la synthse)
reco automatique de la parole au nivau phontique 32 phonmes du franais, 32 mots codes (reprsents par 25 ) 5 bits dbit phontique moyen = 10 phonmes /s = 5x10 = 50 bps aujourdhui dbit plus bas, qualit mauvaise mais comprhensible: 600 bps en dpendant du locuteur taux de compression = 192000 / 600 = 320
3
2. Discrtisation temporelle
T (priode dechantillonage)
x(t)
signal numrique
{ Xn = x(nT) }
2.1 Echantillonnage
Codage le plus simple = chantillonage = prlever ( des intervalles rguliers) des echantillons du signal analogique (continu)
Les signaux doivent tre chantillonns une frquence fe> 2 fmax du signal
Ceci va nous permettre de reconstituer plus ou moins fidlement du signal continu partir du signal chantillonn, (p.ex. qualit Hi-Fi, communications tlphonique, .)
7
Loreille humaine normale peut capter des signaux acoustique entre 20 et 20000 Hz. Transmission parole tlphonique: (bonne comprhension du langage parl) 300-3400 Hz
Dnomination
Qualit perue
44'100 Hz
24000 hz 16'000 Hz 8'000 Hz
pas de dgradation
pas de dgradation idem dgradation
10
11
12
erreur de codage e[n] = x[n] -y[n] on suppose que | x[n] | =< Xmax pas de quantification = di = xi - xi-1 on aimerait quantifier lamplitude du signal avec M niveaux de quantification 1 i M et xi =M+1 niveaux de dcisions possible (0 i M)
13
x(t) Convertisseur
A/D
x[n]
Quantificateur scalaire Q
y[n]
Encodage
c[n]
c'[n]
y'[n]
Dcodage
14
15
16
y[n]
7/8 11 10 01
5/8
3/8 1/8
00 x[n]
17
18
p(x)
x
On va adapter le pas de quantification cette distribution, de faon a avoir plus de rsolution dans les portions ou le signal a le plus de chance d'tre prsent
19
Loi A
20
Loi mu
chantillonnage 8kHz quantification sur 8 bits
Rduire la dynamique
Loi mu
128
y Q[log2 (1 .x)]
yx
22
23
Analyse
+ x(t ) _
q
(t )
b
k 1
k t k
x(t )
x(t ) t bk t k
Synthse
k 1 q
(t )
24
5. Quantification Vectorielle
Reprsentation dun vecteur X (dim-k) par un vecteur appartenenant un ensemble fini de M vecteurs ( ou mot-codes, code-book, ou dictionnaire) La Quantification vectorielle (Vector Quantization=VQ) est organise de faon minimiser la distortion moyenne pour un dictionnaire de taille M donn. Elle permet de tirer parti de la corrlation qui existe souvent entre les composantes des vecters coder.
25
5.1 Caractristiques de la VQ
statique: on construit un dictionnaire (dico) partir des donnes reprsentatives du signal dynamique: on adapte le dico avec des nouvelles donnes (plus complexe mettre en oeuvre) QV statique on a besoin: suffisamment de donnes representatives du signal yd (d= dim du signal) dico dfini par des representants, centroides Cd (meme dim que signal) dfinition dune mesure de distance (ex. dist euclidienne) Distortion moyenne D= lim Somme (dist y-C)
26
28
29
On a vu les codeurs temporels et on va rsumer les codeurs paramtrique par l'exemple de la LPC
30
31
32
33
34
35
36
T. Fourier
37
38
39
40
41
42
43
44
45
e(t)
Filtre de
prdiction linaire
s(t)
a s(t i) e(t )
i 0 i
46
rk x(t ) x(t k )
t 0
199
1 1 A( z ) 1 a (1) z 1 a (10) z 10
(sous la forme d un filtre en treillis) - Transmission des coefficients et du signal rsiduel (erreur de prdiction) au rcepteur qui en dduit la synthse du signal
47
Equations de Yule-Walker
48
Algorithme de Levinson-Durbin
49
50
51
52
53
54
Vocodeur LPC
55
Codeur CELP
56
Codeur CELP
57
58
domaine temporel: f(t) -> h(t) -> y(t) = f(t) * h(t) (* convolution) fomaine frquentiel: (w= 2pi f) F(w) -> h(w) -> Y(w) = F(w) H(w)
59
7.2 Modles source-filtre pour des sons diffrents Sons voiss: train d'impulsion convolu par l'impulsion glottique Sons non voiss : bruit alatoire avec amplitude A Si on suppose que l'on sait spar les sons V/NV, et que le filtre change en fonction du voisement, on a la reprsentation suivante: pour une modle source-filtre des signaux V/NV Ce modle ne marche pas pour des fricatives. Dans ce cas on pourrait utiliser un modle d'excitation mixte, utilisant pour des sons voiss une somme du train d'impulsion et du bruit color Principe: la sortie du filtre d'analyse (filtre inverse court terme), qui est l'erreur de prdiction, est une image de l'excitation. Par consquent, si on excite le filtre de synthse par l'erreur de prdiction, on obtient comme parole synthtique la parole originale. Avec lanlyse Linear Predictive Coding on va dterminer les coefficient du filtre prdictif (= vecteur paramtrique LPC).
60
x[n]
erreur de prdiction
u[n]
Filtre de synthse
Bruit blanc de variance unit
s[n]
61
62
Dbits de codage
1.
Tlphones mobiles
Communications scurises pour les liaisons entre organismes intergouvernementaux, applications militaires (norme OTAN), communications satellitaires (MSAT et INMARSAT)
2.4 kbits/s : standard gouvernemental amricain LPC10
2. 3.
63
G.729 (8 kb/s)
Minimum qual . for High cost application Consumer quality Minimum qual . For low cost application
2 1
(.4 kb/s)
ALISP
Year
1970
1980
1990
2000
2010
64
Exploiter les limites de laudition Utiliser le modle source-filtre de production de la parole Utiliser le concept de reconnaissance et de synthse avec ventuellement des modles de langage
65
66