Avaliação Perceptual Do Codec G729 Utilizando Algoritmo PESQ

PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL
FACULDADE DE ENGENHARIA
PROGRAMA DE PS GRADUAO EM ENGENHARIA ELTRICA
FLVIO LUIS WISNEVSKI.
CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDADE

PERCEPTUAL DO SINAL DE VOZ
Porto Alegre
Agosto - 2011
FLVIO LUIS WISNEVSKI

DISSERTAO APRESENTADA COMO

REQUISITO PARCIAL PARA OBTENO
DO
GRAU
DE
MESTRE,
PELO
PROGRAMA DE PS-GRADUAO EM
ENGENHARIA
ELTRICA
DA
PONTIFCIA UNIVERSIDADE CATLICA
DO RIO GRANDE DO SUL.
Orientador: Prof. Dr. Rubem Dutra Ribeiro Fagundes
Porto Alegre
Agosto - 2011

FLVIO LUIS WISNEVSKI
DISSERTAO APRESENTADA COMO

REQUISITO PARCIAL PARA OBTENO
DO
GRAU
DE
MESTRE,
PELO
PROGRAMA DE PS-GRADUAO EM
ENGENHARIA
ELTRICA
DA
PONTIFCIA UNIVERSIDADE CATLICA
DO RIO GRANDE DO SUL.
Porto Alegre, 25 de Agosto de 2011.
_____________________________________________
Prof. Dr. Rubem Dutra Ribeiro Fagundes
Orientador
____________________________________________________
Prof. Dra. Letcia Maria Bolzani Phls
Coordenadora do Programa de Ps-Graduao em Engenharia Eltrica PUCRS
Banca Examinadora:
____________________________________________________
Prof. Dr. Miguel Arjona Ramrez EPUSP/USP
____________________________________________________
Prof. Dra. Letcia Maria Bolzani Phls PUCRS
_____________________________________________
Prof. Dr. Rubem Dutra Ribeiro Fagundes PUCRS
3
minha esposa Lisiane,

meu amor e meu carinho.
AGRADECIMENTOS
Agradeo Deus pelas oportunidades de vida que tem me proporcionado.

minha amada Lisiane, por estar sempre comigo, confiando na nossa trajetria em
construo de uma famlia.
Agradeo, tambm, minha me, por me lembrar como a vida difcil quando tomamos
decises erradas.
Ao professor Rubem, pela sua pacincia em ensinar sem criticar, e pela sua sabedoria em me
mostrar que sempre existe uma sada no final.
Aos amigos Lcio e Lucas pelo seu auxlio durante a pesquisa e desenvolvimento deste
trabalho.
Ao professor Joo Ernandes, pelos ensinamentos de vida acadmica e profissional.
Enfim, meu obrigado a todos os que estiveram junto comigo nesta jornada.
Um professor afeta a eternidade; ele

nunca sabe onde a sua influncia termina.
Henry Adans
RESUMO
Esta dissertao apresenta um modelo de codificador da voz que avalia a qualidade

perceptual, utilizando-se um codificador paramtrico definido pela Recomendao do ITU-T,
o G729a , conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear
Prediction (CS-ACELP).
Atualmente, a codificao de voz avaliada por parmetros subjetivos, em que no h
uma anlise para melhoria perceptual que altere os parmetros dinamicamente. O objetivo
deste trabalho a melhoria no desempenho do sinal codificado na fonte, considerando as
limitaes de trabalhar com as variveis escalares do codec.
Foi realizada uma anlise sobre os sinais de voz para dar subsdios ao leitor,
possibilitando o entendimento terico e uma descrio sobre o codificador G729a,
enfatizando os estgios de codificao dos parmetros escalares, objeto deste estudo.
Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a anlise
perceptual do sinal de voz. Tambm foi avaliada recomendao P.862 do ITU-T que descreve
o algoritmo de avaliao da qualidade perceptual.
Para validar a metodologia proposta, foram realizados experimentos em sinais de voz
do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria
perceptual devido alterao dos parmetros escalares de codificao do sinal.
No experimento realizado, foi realizada a modificao no codificador CS-ACELP
com a utilizao de uma anlise perceptual ponderando a avaliao do algoritmo do PESQ
para deciso de atuao sobre a codificao, o que resultou em sinais de maior qualidade para
os usurios, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados
pelo PESQ. Houve alterao no ganho de pitch, sem a modificao da essncia do codec.
.
Palavras-chaves:
Codificao de voz, predio linear, anlise perceptual, G729a, PESQ .
ABSTRACT
This thesis presents a model that evaluates the perceptual quality of the enconding
voice, using a parametric encoder defined by the ITU-T Recommendation G729a, technically
known as Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP).
Currently the voice coding is evaluated by subjective parameters, where there is a

perceptual analysis to improve the parameters that change dynamically. The objective of this
study is improvement in the performance of the coded signal source, considering the
limitations of working with the codec scalar variables.
An analysis of the speech signals to improve input to the reader, allowing for better
understanding and a theoretical description of the encoder G729a, emphasizing the stages of
encoding scalar parameters, object of this study.
The PESQ algorithm has been inserted into the coder, which by these means performs
a perceptually based analysis of the speech signal. In so doing, we have also analyzed
thoroughly ITU-T Recommendation P.862 describing an algorithm for objectively evaluating
perceptual speech quality.
To validate the proposed methodology, test were performed for comparison which
speech signals from the Timit database for studying the improvement in coded speech quality
after the perceptual improvement algorithm applied to the scalar parameters in coding
In the experiment, was performed in modified CS-ACELP coder using a perceptual

analysis considering the evaluation of the PESQ algorithm for decision to operate on the
encoding, resulting in higher quality signals to users, ensuring the stability of 72.41% and
50.38% of the frames better evaluated by PESQ. There was change in the pitch gain, without
changing the essence of the codec.
Key words:
Speech coding, linear prediction, perceptual analysis, G729a, PESQ.
SUMRIO
1.
Introduo ....................................................................................................................... 15
1.1. Objetivo .................................................................................................................... 15

1.2. Motivao ................................................................................................................. 16
1.3. Estrutura da Dissertao ........................................................................................... 16
2. Anlise do Aparelho Fonador........................................................................................ 18
2.1. Processo Fisiolgico de Produo de Voz................................................................ 18
2.1.1.
Trato Vocal ....................................................................................................... 19
2.1.2.
Sistema de produo de voz e as suas formantes ............................................. 20
2.2. Modelo de Produo do Sinal de Voz ...................................................................... 23
2.2.1.
Gerador de excitao ........................................................................................ 23
2.2.2.
Modelagem do Trato vocal............................................................................... 24
2.2.3.
Radiao ........................................................................................................... 25
2.2.4.
Modelo completo de produo de voz.............................................................. 26
3. Codificao de voz em DSP, Processamento Digital de Sinais ................................... 28
3.1. Sinais e comunicao................................................................................................ 28
3.1.1.
Classificao do sinal para formao de modelos ........................................... 29
3.1.2.
Amostragem do sinal ........................................................................................ 29
3.1.3.
Quantizao do sinal......................................................................................... 29
3.1.4.
Codificao do sinal ......................................................................................... 29
3.1.5.
Anlise Homomrfica ou Anlise Cepstral ...................................................... 30
3.2. Tipos de codificadores.............................................................................................. 31
3.2.1.
Codificadores de forma de onda....................................................................... 31
3.2.2.
Codificadores paramtricos .............................................................................. 32
3.2.3.
Codificadores hbridos...................................................................................... 32
3.3. Codificao Preditiva Linear .................................................................................... 33
3.3.1.
Anlise da Codificao Preditiva Linear .......................................................... 33
3.3.2.
Line Spectrum Frequency e Line Spectrum Pairs ............................................ 36
3.3.3.
Janelamento ...................................................................................................... 37
3.4. Quantizao Vetorial ................................................................................................ 39
3.4.1.
Entendendo quantizao vetorial...................................................................... 39
4. Anlise da qualidade do sinal de voz ............................................................................ 42
4.1. Medidas subjetivas de qualidade .............................................................................. 43
4.1.1.
Mean Opinion Score (MOS)............................................................................. 43
4.2. Medidas objetivas de qualidade................................................................................ 44
4.2.1.
Perceptual Speech Quality Mesure (PSQM).................................................... 45
4.2.2.
Perceptual Analysis Measurament System (PAMS) ....................................... 46
4.2.3.
Perceptual Evaluation of Speech Quality (PESQ) ........................................... 46
5. Codificadores ITU-T ...................................................................................................... 48
5.1. Codificadores ITU-T utilizados em telefonia........................................................... 48
5.1.1.
Recomendao ITU-T G.711 ........................................................................... 49
5.1.2.
5.1.3.
5.1.4.
Recomendao ITU-T G.723.1 ........................................................................ 52
5.1.5.
5.2. CS-ACELP: Conjugate Structure Code-Excited Linear Prediction (G.729a).......... 54
9
6.
5.2.1.
O codificador CS-ACELP - (G.729a)............................................................... 54
5.2.2.
Codificador ....................................................................................................... 55
5.2.3.
Decodificador ................................................................................................... 57
Proposta........................................................................................................................... 58
7.
Estudo de Caso................................................................................................................ 62
7.1. Plataforma de experimento (G729a com PESQ)...................................................... 62

7.2. Anlise dos parmetros de avaliao........................................................................ 63
7.2.1.
Limites de frames do PESQ no bloco do codec ............................................... 63
7.2.2.
Formatao dos arquivos de testes ................................................................... 64
7.2.3.
Sinais analisados para alterao da codificao ............................................... 67
7.2.4.
Ajuste da avaliao Perceptual (alteraes significativas) ............................... 68
7.3. Padro de avaliao perceptual proposto.................................................................. 73
8. Resultados Obtidos......................................................................................................... 75
8.1. Testes realizados....................................................................................................... 75
8.1.1.
Anlise dos parmetros escalares ..................................................................... 75
8.1.2.
Avaliao Perceptual Oradores masculino (Arquivo 01) .............................. 77
8.1.3.
Avaliao Perceptual Oradores feminino (Arquivo 01) ................................ 80
8.1.4.
Avaliao Perceptual Oradores masculino (Arquivo 02) .............................. 83
8.1.5.
Avaliao Perceptual Oradores feminino (Arquivo 02) ................................ 86
9. Concluses ....................................................................................................................... 89
9.1. Sugestes para trabalhos futuros .............................................................................. 91
10. Referncias Bibliogrficas ............................................................................................. 93
11. Anexo ............................................................................................................................... 98
11.1.
Arquivos de testes do Banco de dados Timit ....................................................... 98
12. Apndices....................................................................................................................... 100
12.1.
12.2.
12.3.
12.4.
Apndice A - Resultado do Arquivo1 de Oradores masculinos......................... 100

Apndice B - Resultado do Arquivo1 de Oradores femininos ........................... 105
Apndice C - Resultado do Arquivo2 de Oradores masculinos ......................... 111
Apndice D - Resultado do Arquivo2 de Oradores femininos........................... 119
10
LISTA DE FIGURAS
Figura 2-1 rgos de produo da fala Sistema do Trato Vocal. ...................................... 19
Figura 2-2 Segmento sonoro de voz com segmentos surdos de voz sinal irradiado .......... 20
Figura 2-3 Ptch do sinal de voz amostrado............................................................................ 21
Figura 2-4 Exemplo de historiograma da frequncia fundamental ....................................... 22
Figura 2-5 Diagrama em blocos do modelo para produo de voz. ....................................... 23
Figura 2-6 Diagrama em blocos do sinal de excitao para sons sonoros ............................ 23
Figura 2-7 (a) Exemplo de dois tubos e trs tubos. .............................................................. 24
Figura 2-8 Modelo completo para produo de voz.............................................................. 26
Figura 2-9 Modelo simplificado para produo de voz........................................................ 27
Figura 3-1 - Elementos de um sistema de comunicao. ......................................................... 28
Figura 3-2 - Classificao do sinal de voz em sons sonoros e surdos ...................................... 29
Figura 3-3 Partes bsica de um conversor analgico-digital (A/D) ...................................... 30
Figura 3-4 AnliseCepstral do sinal de voz.......................................................................... 31
Figura 3-5 Processo de gerao de voz humana num codificador LPC ................................ 32
Figura 3-6 Qualidade x Taxa de transmisso dos codificadores ........................................... 33
Figura 3-7
a) Modelo de produo da fala
b) Modelo do trato vocal......................... 34
Figura 3-8 Diagrama de blocos do processo de anlise (a) e de sntese (b) ......................... 36
Figura 3-9 Anlise das janelas de Hanning e Hamming. ...................................................... 38
Figura 3-10 Processo de janelamento.................................................................................... 38
Figura 3-11 Exemplo de quantizao em 1 dimenso.............................................................. 39
Figura 3-12 Exemplo de quantizao em 2 dimenses ......................................................... 40
Figura 3-13 Exemplo de espao vetorial com centrides de vetores de cdigos .................. 41
Figura 4-1 Comportamento da avaliao MOS para dos diferentes tipos de codificadores.. 44
Figura 4-2 Modelo de avaliao objetiva, utilizando o PSQM. ........................................... 45
Figura 5-1 Sistema de codificao de voz. ............................................................................ 48
Figura 5-2 Diagrama de blocos da tcnica PCM.................................................................. 49
Figura 5-3 Diagrama de blocos do processo de codificao ADPCM (VARY e MARTIN,
2006)................................................................................................................................. 50
Figura 5-4 Diagrama de blocos do processo de codificao LD-CELP (FURUI, 2001) ..... 51
Figura 5-5 Diagrama de blocos do processo de codificao LD-CELP............................... 52
Figura 5-6 Diagrama de blocos do processo de codificao CS-ACELP ............................ 55
Figura 5-7 Diagrama de blocos do processo de decodificao CS-ACELP ........................ 57
11
Figura 6-1 Relao do MOS x Taxa de Transferncia dos diversos codificadores..............58

Figura 6-2 - Diagrama de avaliao perceptual do codec no sinal de origem.......................... 59
Figura 6-3 - Diagrama de blocos simplificado de anlise do codec......................................... 61
Figura 7-1 Arquivo01 Oradores masculinos Sinal de voz..................................................... 64
Figura 7-2 Arquivo01 Oradores masculinos Anlise de frequncia de pitch........................ 65
Figura 7-3 Arquivo02 Oradores masculinos Sinal de voz..................................................... 65
Figura 7-4 Arquivo02 Oradores masculinos Anlise de frequncia de pitch........................ 65
Figura 7-5 Arquivo01 Oradores femininos Sinal de voz....................................................... 66
Figura 7-6 Arquivo01 Oradores femininos Anlise de frequncia de pitch.......................... 66
Figura 7-7 Arquivo02 Oradores femininos Sinal de voz....................................................... 66
Figura 7-8 Arquivo02 Oradores femininos Anlise de frequncia de pitch.......................... 67
Figura 7-9 Inicializao dos trs primeiros frames e ao da avaliao zero........................... 69
Figura 7-10 Avaliao dos ganhos no arquivo 01 de Oradores Femininos.............................. 70
Figura 7-11 Avaliao dos ganhos no arquivo 01 de Oradores Masculinos ............................ 71
Figura 7-12 Avaliao dos ganhos no arquivo 02 de Oradores Femininos.............................. 71
Figura 7-13 Avaliao dos ganhos no arquivo 02 de Oradores Masculinos ............................ 72
Figura 8-1 Grfico da aplicao do ganho no arquivo 01 de Oradores Masculinos ................ 77
Figura 8-2 Arquivo1 Oradores masculinos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................ 79
Figura 8-3 Arquivo1 Oradores masculinos, anlise da frequncia de pitch............................. 79
Figura 8-4 Grfico da aplicao do ganho no arquivo 01 de Oradores Femininos .................. 80
Figura 8-5 Arquivo1 Oradores femininos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................ 82
Figura 8-6 Arquivo1 Oradores femininos, analise da frequncia de pitch............................... 82
Figura 8-7 Grfico da aplicao do ganho no arquivo 02 de Oradores Masculinos ................ 83
Figura 8-8 Arquivo2 Oradores masculinos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................ 85
Figura 8-9 Arquivo2 Oradores masculinos, analise da frequncia de pitch............................. 85
Figura 8-10 Grfico da aplicao do ganho no arquivo 02 de Oradores Femininos ................ 86
Figura 8-11 Arquivo2 Oradores femininos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................ 88
Figura 8-12 Arquivo2 Oradores femininos, analise da frequncia de pitch............................. 88
12
LISTA DE TABELAS
Tabela 4-1 Escala de classificao do MOS.......................................................................... 43
Tabela 4-2 Comparao de eficincia do Modelo PSQM & PESQ. .................................... 47
Tabela 4-3 Valores de referncia do MOS para os codificadores Standards utilizados em
telefonia. ........................................................................................................................... 47
Tabela 5-1 Comparao de codecs ITU-T para telefonia...................................................... 48
Tabela 5-2 Parmetros codificados pelo G729a (ITU-T G729). .......................................... 54
Tabela 7-1 Avaliao do PESQ para adio de ganho nos sinais de pitch e codificao .... 68
Tabela 7-2 Ganhos avaliados para os arquivos de teste ....................................................... 70
Tabela 7-3 Ajuste do controle de ganho para os arquivos de teste....................................... 73
Tabela 8-1 Testes somente com o PESQ inserido no codificador........................................ 76
Tabela 8-2 Resultado do programa executado no arquivo1 de Oradores Masculinos ......... 77
Tabela 8-3 Avaliao dos parmetros extrados do Arquivo1 de Oradores Masculinos...... 78
Tabela 8-4 Resultado do programa executado no arquivo1 de Oradores Femininos........... 80
Tabela 8-5 Avaliao dos parmetros extrados do Arquivo1 de Oradores Femininos ....... 81
Tabela 8-6 Resultado do programa executado no arquivo2 de Oradores Masculinos ......... 83
Tabela 8-7 Avaliao dos parmetros extrados do Arquivo2 de Oradores Masculinos...... 84
Tabela 8-8 Resultado do programa executado no arquivo2 de Oradores Femininos........... 86
Tabela 8-9 Avaliao dos parmetros extrados do Arquivo2 de Oradores Femininos ....... 87
Tabela 9-1 Anlise do ganho de pitch sobre a proposta de avaliao ................................ 90
13
LISTA DE SIGLAS
CS-ACELP - Conjugate Structure Algebraic Code Excited Linear Prediction
PESQ
- Perceptual Evaluation of Speech Quality
MOS
- Mean Opinion Score
ITU-T
- Telecomunication Standardization of International Telecomunication Union
PCM
- Pulse Code Modulation
G.729
- Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP
G.729.A
- Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP Anexo A
GSM
- Global System for Mobile Communications
RELP
- Residual Excited Linear Prediction
CODEC
- Dispositivo de hardware ou software que codifica e decodifica sinais.
ENCODER - Codificador do sinal de voz amostrado

DECODER - Decodificador do sinal de voz amostrado
LSF
- Line Spectrum Frequency
LSP
- Line Spectrum Pair
Timit
- Banco de dados de 630 oradores em 8 dialetos do ingls Americano.
Audacity
- Software de anlise e manipulao de sinais de udio.
14
1.
Introduo
O sistema de telecomunicaes abrange uma gama de sinais e servios e os sinais

constituem um ingrediente bsico de nossa vida. Uma forma comum de comunicao humana
o uso de sinais de fala, seja conversao frente a frente ou por canal telefnico. Neste
trabalho sobre codificao do sinal de voz utilizado em telefonia e redes de pacotes, a anlise
de qualidade perceptual do sinal codificado na fonte o principal fator de estudo. Embora o
estudo do sinal de voz e a avaliao perceptual sejam processos amplamente difundidos, a
pesquisa sobre esses tpicos esto relacionadas com a abordagem do codificador utilizado,
isto , um algoritmo de avaliao perceptual, tendo como vantagem a anlise do sinal de voz ,
com alteraes dinmicas em tempo real para melhoria em tempo real.
1.1.
Objetivo
A anlise de codificao de fala avalia alguns requisitos para busca de um desempenho
satisfatrio. Um codificador de voz pode ser til por reduzir a taxa de transmisso apesar de
aumentar a distoro, diminuindo o desempenho mesmo sendo mais eficiente na sua funo.
O procedimento experimental deste trabalho consiste em avaliar a qualidade perceptual do
sinal codificado com os experimentos e alteraes realizadas no encoder do codificador CSACELP (Conjugate Structure Algebraic Code Excited Linear Prediction).
Os trabalhos de avaliao de qualidade que foram pesquisados durante este projeto,
enfatizavam o processo de codificar/transmitir/decodificar o sinal e avaliar externamente o
sinal original de entrada no encoder com o sinal de sada do decoder. A qualidade estava
associada s alteraes que o sinal sofria quando submetido s aes do meio fsico1. Neste
trabalho foi avaliada a estrutura do codificador com suas alteraes propostas para melhoria
perceptual, excluindo-se as variaes do meio de transmisso.
Entende-se por aes do meio fsico toda oscilao que ocorre no sinal de voz: degradao, perda, variao e
atraso.
15
1.2.
Motivao
Avaliar as caractersticas do sinal de voz amostrado no bloco do codificador, atravs
da implementao do algoritmo do PESQ (Perceptual Evaluation of Speech Quality) no

cdigo fonte do codificador G729a possibilitando, assim, a avaliao perceptual do sinal,
independente das variaes do meio de transmisso entre os blocos encoder e decoder.
Implantar um modelo de treinamento para os padres do algoritmo PESQ sobre o
bloco do codificador, fazendo com que exista coerncia no valor dos resultados do MOS
(Mean Opinion Score), tendo como base as especificaes da recomendao P.862 do ITU-T,
a qual descreve o tamanho da amostra em relao ao tempo de envio dos pacotes.
Propor alteraes na estrutura do bloco encoder do codificador CS-ACELP para obter
uma melhoria do sinal codificado analisado pelo algoritmo PESQ.
Avaliar a codificao do sinal de voz e a sua qualidade perceptual baseado nos
parmetros restritos ao codificador, ou seja, o objetivo melhorar qualidade perceptual nos
frames codificados.
1.3.
Estrutura da Dissertao
Esta dissertao de mestrado foi estruturada em trs grandes partes compostas por
captulos conforme abaixo:

Parte I Fundamentos Tericos
Captulos: 2 ,3,4 e 5
Esses captulos abordam a fisiologia do aparelho fonador, o modelo de produo de
voz, princpios de codificao do sinal de voz, modelo que quantizao e anlise para
mensurar a qualidade do sinal de voz. So descritos os conceitos relacionados arquitetura
dos codificadores, introduz a codificao de sinais e aborda o codec G729a e os parmetros
especficos para anlise desta pesquisa.
16
Parte II Metodologia
Captulos: 6 e 7
Esses captulos detalham a proposta de avaliao dos parmetros escalares do G729a,
bem como a implementao do algoritmo PESQ, enfatizando as particularidades e limitaes
para anlise dos frames de voz. Assim, com a metodologia aplicada pretende-se obter uma
qualidade perceptual atravs do estudo do comportamento dos parmetros escalares, que
atuam sobre o sinal de voz codificado.
Parte III Resultados e Concluses
Captulos: 8 e 9
Esses captulos identificam os objetivos de melhoria perceptual sobre as alteraes
passveis de modificao da estrutura do codec. Tambm so apresentadas as especificaes
para obteno dos resultados, descrevendo possveis desenvolvimentos de trabalhos futuros
sobre a proposta da tcnica apresentada nesta dissertao.
17
2.
Anlise do Aparelho Fonador
O processo de produo da fala utilizado para a comunicao entre os interlocutores

d-se atravs das ondas acsticas que so formadas e emitidas pelo sistema vocal. Este
processo tem como fonte a variao de presso gerando, assim, um sinal variante no tempo
em que altera suas caractersticas quando o sistema vocal tem sua dimenso e forma alterada.
2.1.
Processo Fisiolgico de Produo de Voz

O sistema de produo de voz formado pelos rgos da fala: pulmes, laringe,
traquia, faringe, cavidade nasal e cavidade oral. Na figura 2.1 podemos verificar os rgos
que integram o sistema vocal ( FURUI, 2001). Esta diviso feita em trs grandes grupos:
pulmes, laringe e trato vocal.
O sinal de voz originado pelo fluxo de ar dos pulmes, esse fluxo percorrido pela
traquia at a laringe.
A laringe formada por quatro cartilagens, possui as cordas vocais na parte superior,
um par de estruturas elsticas de tendo e msculos. A movimentao destes msculos da
laringe faz com que as cordas vocais possam variar de comprimento e espessura, tendo
diferentes configuraes. Durante esse processo de respirao, a glote est normalmente
aberta. Quando a glote se fecha ocorre obstruo do fluxo de ar que vem dos pulmes. Neste
instante que ocorre a vibrao das cordas vocais. Quando a glote est aberta, a passagem de
ar e as cordas vocais no vibram.
Durante esse processo, o ar originado nos pulmes tendo sua variao de presso na
laringe, chega at a faringe e a cavidade oral, o que forma o trato vocal, o qual inicia na glote
e vai at a irradiao dos lbios. Existe uma cavidade auxiliar, a cavidade nasal, a qual
acoplada ao trato vocal para a produo de sons nasais.
O aparelho fonador humano composto pelos rgos responsveis pela gerao dos
sons da voz, em que cada rgo efetua seu trabalho de forma dinmica e simultnea durante o
processo da fala.
18
Figura 2-1 rgos de produo da fala Sistema do Trato Vocal.
2.1.1.
Trato Vocal
A descrio do trato vocal (OSHAUGHNESSY, 1999) relata que os pulmes so

responsveis por fornecer o fluxo de ar e presso para o processo de fala. As cordas vocais
geralmente modulam o fluxo de ar para criar um som, mas o trato vocal o componente mais
importante na produo da fala.
Uma passagem tubular composta de tecidos musculares e sseos, o trato vocal,
fornece os meios para produzir os sons diversos que caracterizam a linguagem falada.
O trato vocal tem duas funes:
- pode modificar a distribuio espectral de energia das ondas sonoras da glote;
- pode contribuir para a gerao de som obstrudo (fricativos).
Diferentes sons so distinguidos principalmente por suas caractersticas:
periodicidade (fala ou silncio), forma espectral (frequncias com seus nveis de
energia) e a durao. As cordas vocais especificam a caracterstica sonora e durao
de um som, so resultados das aes sincronizadas, mas a diviso principal do sinal de
voz realizada pelo trato vocal via filtragem espectral.
19
2.1.2.
Sistema de produo de voz e as suas formantes
O sistema de produo de voz formado por um conjunto de frequncias de

ressonncia e anti-ressonncia e estas dependem do formato do trato vocal. O trato vocal um
tubo acstico com rea e seco transversal no uniforme e varivel com o tempo, em que as
frequncias de ressonncia do tubo so classificadas como formantes.
O movimento dos rgos de produo da fala, quando irradiados para o espao livre,
tanto pelos lbios quanto pelas narinas, alteram a forma do tubo acstico, consequentemente
alteram a resposta em frequncia. Cada forma do trato vocal representada por um conjunto
de formantes. Diferentes sons irradiados variam a frequncia de ressonncia e as suas
formantes. Abaixo, na figura 2.2, o sinal de voz e, na figura 2.3, as formantes deste sinal
distribudas no tempo.
Figura 2-2 Segmento sonoro de voz com segmentos surdos de voz sinal irradiado
Abaixo a anlise do espectro de frequncia de pitch realizada no sinal da figura 2.2.

Os valores mais escuros (em vermelho) representam as formantes do sinal de voz, sendo a
primeira formante a frequncia fundamental ou perodo de pitch.
Na figura 2.3, o arquivo formatado possui sentenas com o sinal de voz elaborado por
seis oradores do gnero masculino. Observa-se na primeira formante que a oscilao do sinal
associada com a frequncia de pitch do orador.
20
Figura 2-3 Ptch do sinal de voz amostrado
O sistema vocal, conforme excitao do trato vocal, classifica-se em trs categorias:

sonoros, fricativos e explosivos.
Sons Sonoros (voclicos)
Ocorre quanto a presso de ar aumenta nos pulmes e fora a passagem do ar pela
glote, fazendo com que as cordas vocais que esto tensionadas, entrem em vibrao. Isso
porque a passagem de fluxo de ar, quase peridico, gera a excitao do trato vocal, os
chamados pulsos glotais, os sons vocais so recorrentes em intervalos espaados igualmente.
A frequncia fundamental ou frequncia de pitch a taxa de vibrao das cordas vocais, a
qual depende da presso do ar na traqueia e da variao de espessura e comprimento das
cordas vocais. A variao das cordas vocais, o tom, so os valores entre 50Hz e 500Hz. Um
exemplo a sonoridade da vogal a.
Sons Fricativos (no voclicos):
Esses sons ocorrem quando existe o estreitamento criado pelos rgos de produo de
fala em algum ponto do trato vocal, e o ar dos pulmes tem velocidade suficiente para
produzir uma turbulncia. A localizao da compresso do ar no trato vocal que produz o
21
som fricativo. Um exemplo a produo do som da vogal f (compresso do trato vocal

com o a articulao dos lbios).
Sons Plosivos:
Esse tipo de som resultante do fechamento completo de algum ponto do trato vocal,
em que o ar originado pelos pulmes interrompido, fazendo uma presso atrs da obstruo.
Quando o trato vocal desobstrudo, resulta em um abrupto relaxamento de presso, gerando
um som com baixa energia. Exemplos de som explosivo so as letra p e b .
O sistema de produo de voz formado por frequncias de ressonncia e antiressonncia, dependendo do formato do trato vocal. Os diversos sons produzidos no processo
de fala so consequncias da utilizao das trs formas de excitao do trato vocal.
As formantes, quando identificadas, podem detectar o gnero do orador atravs das
frequncias fundamentais dos sinais avaliados, em que o sinal produzido por mulheres e
crianas mais elevado do que o sinal produzido por homens.
Figura 2-4 Exemplo de historiograma da frequncia fundamental
22
2.2.
Modelo de Produo do Sinal de Voz

Para a produo de voz existe um modelo representado pelas fontes de excitao e
pelo trato vocal que possuem uma independncia. O sistema de produo de voz pode ser
representado por um modelo linear invariante no tempo e um gerador de excitao, segundo
(RABINER e SCHAFER, 1978).
O sistema modela as ressonncias do trato vocal e os efeitos da radiao dos lbios.
Essa representao pode ser modelada por tubos acsticos ou pelos filtros digitais.
Figura 2-5 Diagrama em blocos do modelo para produo de voz.
2.2.1.
Gerador de excitao
Quando excitamos o trato vocal com um trem de impulsos quase peridico (pitch), os
sons sonoros so gerados. Esse modelo de gerao de excitao pode ser representado
conforme figura abaixo.
Figura 2-6 Diagrama em blocos do sinal de excitao para sons sonoros
Para representar a frequncia fundamental do sinal, um gerador de impulso produz o

trem de impulsos unitrios, que excitam o sistema linear com uma resposta impulsiva que a
forma de onda dos pulsos glotais, representada pela formulao abaixo:
X H
I
^
f
g
` a \1f
f
B
nf
f
fJ
f
f
f
f
f
f
f
f
f
f
f
f
f
f
fK
g n = ^ B 1 @ cos
N1
Z2
se 0 n N 1
23
X
^
^
^
\
ci
f
B
nf
@
N
1f
` a
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
lf
m
k
g n = ^cosj
2
B
N
^
2
^
Z
` a
g n =0
` a
(2.1)
se N 1 n N 1 + N 2
caso contrrio
A funo g n tem comprimento finito e sua transformada Z apresenta apenas zeros.

` a
A representao para g n , utilizando um modelo de dois plos, pode ser formulada

` a
para representar G Z , tendo a seguinte formulao:

` a f
1f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
G Z =b
c2
@1
1 @ e c B T BZ
(2.2)
No domnio da frequncia, o pulso glotal introduz um efeito passa-baixas, onde a

intensidade do pulso glotal controlada por um controle de ganho.
2.2.2.
Modelagem do Trato vocal
O trato vocal pode ser modelado como uma associao de tubos conectados em
cascatas, tendo variao na rea da seco transversal. Dessa forma, a frequncia de
ressonncia em cada tubo corresponde a uma formante do espectro do sinal de voz.
Figura 2-7 (a) Exemplo de dois tubos e trs tubos.
Na figura acima os modelos segundo (OSHAUGHNESSY, 1999) representam vogais

e consoantes. O modelo de dois tubos com seces A1 e A2 representam uma aproximao
das vogais, por exemplo a letra a.O tubo estreito (seco A1 ) representa a abertura da faringe
e o tubo maior (seco A2 ) representa a cavidade oral, considerando que do ponto de vista
tcnico, o sistema de voz um nico tubo acstico entre a glote e a boca, medindo 17cm,
para representar a vogal a em que temos dois tubos. Iremos considerar comprimentos
iguais ( l1 = l 2 ) medindo 8,5cm, sendo as formantes mltiplos de 1kHz e devido ao
acoplamento
no
se
F1 900Hz e F 2 1100Hz
aproximam
uma
das
outras
por
200Hz,
temos
que
e F 3 2900Hz e F 4 3100Hz . J o modelo de trs tubos com

24
seces Ab , Ac e A f representa uma aproximao das consoantes, sendo um modelo de

tubo estreito com constrio do trato vocal, em que a parte traseira (seco Ab ) e o tubo do
meio (seco Ac ) so ressonadores de meio comprimento de onda, e o tubo dianteiro (seco
`
B
2f
B
if
@
1f
cf
Bi
Bi
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f cf
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f cf
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
A f ) um ressonador de quarto de onda, com ressonncias
,
,
,
2 B l b 2 Bl c
4 Bl f
para i=1,2,3.... onde c (velocidade do som) e
l b ,l c l f
so os comprimentos dos tubos,
gerando ressonncias em mltiplos de 5.333Hz para constries de 3cm em perodos de fala

com durao tpica, podendo ser desconsiderado em aplicaes que utilizam sinais de voz de
4 ou 5kHz de largura de banda.
A funo de transferncia do trato vocal pode ser modelada pela formulao:
` a
V Z =
G
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
N b
c
Y 1 @ pi B Z
(2.3)
@1
i=1
Na equao acima, estamos desprezando os efeitos gerados pela radiao dos lbios.
Temos o ganho G associado amplitude do sinal de voz e os plos pi , com i sendo o
ndice de cada plo, variando de 1 at N, esses plos fazem a modelagem da frequncia de
ressonncia do trato vocal.
O modelo apresentado uma boa representao do trato vocal, ele modela apenas as
frequncias de ressonncias, que abrange a maioria dos sons voclicos, pois para
considerarmos a produo de sons fricativos e nasais, precisamos representar as frequncias
de anti-ressonncias. Para isso seria necessrio que, na formulao de transferncia do trato
` a
vocal ( V Z ), tivssemos plos e zeros. Entretanto, uma forma de conseguirmos o efeito dos
zeros, aumentando o nmero de plos da funo.
Desta forma, o trato vocal representado por um sistema linear, um sistema estvel,
` a
formado somente por plos, onde todos os plos de V Z esto dentro do raio de circulo
unitrio.
2.2.3.
Radiao
No sistema de produo de fala, temos a atuao dos lbios e das narinas (no caso das
vogais nasais como avio), que irradiam para o espao livre os sons articulados pelo trato
25
vocal, ocorrendo uma difrao das ondas sonoras. Esse efeito de radiao pode ser modelado
como um filtro passa-altas (representa um ganho de 6dB por oitava).
` a
R Z = Ro 1 @ Z
2.2.4.
@1
(2.4)
Modelo completo de produo de voz
O sistema vocal para a produo da voz pode ser representado no modelo completo
abaixo:
Figura 2-8 Modelo completo para produo de voz.
Pela representao acima (RABINER e SCHAFER, 1978), podemos definir um

modelo combinando as funes de transferncia do pulso glotal do trato vocal e da radiao,
em que temos:
` a
` a
` a
` a
H Z = G Z BV Z BR Z
(2.5)
Com o equacionamento acima, temos um modelo simples de para a produo de voz,

` a
que pode ser representado por um modelo apenas com plos, onde a funo H Z descrita
como:
` a
H Z =
G
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
1 @X
P
k=1
ak B Z
@k
(2.6)
Para representar o sinal de voz variante no tempo, so atualizados em intervalos

` a
regulares os coeficientes de H Z e o sinal de excitao, tendo como resposta a produo de

voz sintetizada.
26
Figura 2-9 Modelo simplificado para produo de voz.
O modelo apresentado na figura 2-9 (RABINER e SCHAFER, 1978) tem uma boa
representao para sons que possuem variaes lentas, a exemplo das vogais. Entretanto, esse
modelo no consegue representar fielmente os sons transitrios, a exemplo dos sons plosivos.
J os sons fricativos sonoros, cuja excitao gerada pela combinao de rudos e pulsos
peridicos, no so possveis representar a partir desse modelo, pois uma forma de excitao
(rudo ou pulso peridico) exclui a outra. O som originado nesse processo consegue obter uma
voz sintetizada com boa qualidade, mas com perda de naturalidade.
27
3. Codificao de voz em DSP,

Processamento Digital de Sinais
Um sinal definido como uma funo de uma varivel, no caso dos sinais de voz. A
fala um sinal unidimensional. A amplitude varia com o tempo, dependendo da palavra
falada e o locutor que fala essa palavra. Esse sinal um veculo de informaes sobre a
natureza de um fenmeno fsico. (HAYKIN e VEEN, 1999).
3.1.
Sinais e comunicao
Existem trs elementos fundamentais em todos os sistemas de comunicao: o
transmissor, o canal e o receptor. Cada um desses elementos possui um sistema de sinais

prprios associados, a figura 3.1 mostra essa relao.
Figura 3-1 - Elementos de um sistema de comunicao.
O transmissor converte ou codifica o sinal da mensagem produzida por uma fonte de

informao em um formato apropriado para ser transmitido pelo canal. O canal o meio pelo
qual o sinal se propaga. medida em que o sinal transmitido, ele sofre distores devido as
caractersticas fsicas deste canal, tendo tambm a contribuio para degradao do sinal
transmitido atravs de rudos e interferncias originados de outras fontes. O receptor
responsvel por receber o sinal codificado, o qual pode ter sido corrompido (alterando a
informao codificada), sendo este responsvel pelo processamento do sinal convertendo
(decodificando) o formato recebido pelo canal na informao da mensagem, em que o
objetivo estimar o sinal original.
28
3.1.1.
Classificao do sinal para formao de modelos
A produo da fala originada atravs de uma onda sonora gerada pela vibrao das
cordas vocais, que uma consequncia da propagao de ar emitida pelos pulmes, passando
por todo trato vocal e irradiada pelos lbios. Esse processo tem como resultado um sinal de
voz com sons sonoros e sons surdos.
.
Figura 3-2 - Classificao do sinal de voz em sons sonoros e surdos
3.1.2.
Amostragem do sinal
O processo de amostragem importante para a transformao do sinal analgico

contnuo em amplitude e no tempo, em um sinal discreto no tempo e em amplitude.
3.1.3.
Quantizao do sinal
Segundo (EMBREE e KIMBLE, 1991), "quantizao o domnio da amplitude de um

sinal analgico contnuo amostrado em um certo domnio de tempo", ou seja, o processo de
quantizao , basicamente, a medida discreta da intensidade do sinal. Essa discretizao da
amplitude usualmente definida em termos de nmero de bits. Uma converso de 8 bits, por
exemplo, proporciona a representao de 256 nveis de quantizao.
3.1.4.
Codificao do sinal
O processo de codificao faz a representao do sinal amostrado entre o domnio

continuo e o domnio discreto. A otimizao de representao desses sinais, a melhoria da
codificao, est associada quantizao do sinal na origem do processo no domnio discreto.
Os sinais digitais so representados pela amostragem, quantizao e codificao. O
ultimo estgio ser tratado na abordagem da melhoria de qualidade perceptual. A converso
analgico/digital um processo de trs passos(PROAKIS & MANOLAKIS, 2007), conforme
figura 3.3.
29
Conversor A/D
Xa(t)
X(n)
Amostragem
Xq(n)
Quantizao
Sinal discretizado
no tempo
Sinal
Analgico
Codificao
01011001..
.
Sinal
Digital
Sinal
quantizado
Figura 3-3 Partes bsica de um conversor analgico-digital (A/D)
3.1.5.
Anlise Homomrfica ou Anlise Cepstral
Os sinais de voz so formados pelo o sinal de excitao e pela resposta impulsiva do

trato vocal, conforme vimos no capitulo anterior. Neste contexto, existe uma tcnica que a
Anlise Homomrfica ou Anlise Cepstral, muito til para desconvoluir os dois sinais. A
partir do modelo matemtico para a produo de voz temos:
` a
` a
` a
s t = e t Bv t
`
S W =E W AV W
convoluo do sinal
(3.1)
sinal no domnio da frequncia
(3.2)
Para realizar a anlise homomrfica aplicada a funo logartmica para separar o

sinal:
`
b `
log S W = log E W A V W
`
ac
`
(3.3)
log S W = log E W + log V W
(3.4)
Aplicando a transformada inversa nesse sinal, tem-se o cepstrum ou coeficientes

cepstrais do sinal de voz.
F
@1
aC
log S W = F
@1
aC
log E W + F
@1
log V W
aC
(3.5)
Com essa manipulao algbrica pode-se obter o sinal de excitao e a resposta

impulsiva separadamente.
30
Figura 3-4 AnliseCepstral do sinal de voz
3.2.
Tipos de codificadores
Um paradigma para os codificadores de voz alcanar a melhor qualidade com a
menor taxa de bits possvel. Neste processo, h trs classificaes: codificadores de forma de
onda, codificadores paramtricos e codificadores hbridos. Essas classificaes diferem na
forma de como a informao transmitida: os codificadores de forma de onda encaminham o
sinal de voz e suas variaes, os codificadores paramtricos encaminham parmetros
extrados do sinal de voz original da mensagem e os codificadores hbridos realizam uma
combinao dos dois casos citados anteriormente.
3.2.1.
Codificadores de forma de onda
So codificadores de baixa complexidade, com pouco atraso. Esses codificadores

reproduzem o mais exato possvel a forma de onda analgica, em que o tratamento da
mensagem fielmente reproduzido incluindo, at mesmo, rudo de fundo. Uma caracterstica
desse codificador a alta qualidade o sinal que eleva tambm a largura de banda para
31
transmisso. Um exemplo desse tipo de codificao a recomendao ITU-T G.711 (PCM)

que utiliza a taxa de transmisso de 64kbps (ITU G711, 1988).
3.2.2.
Codificadores paramtricos
Esses codificadores avaliam o sinal de voz, no reproduzem a forma de onda original,

constroem um conjunto de parmetros que so enviados ao decodificador. A codificao de
predio linear utilizada para obter os parmetros do filtro utilizado, isso causa um aumento
na complexidade computacional, atraso no tempo de processamento, reduz a qualidade do
sinal decodificado e, em troca, reduz a largura de banda para transmisso. Portanto, no so
sinais expressivos para o uso nos sistemas de telefonia.
Nos codificadores paramtricos temos um gerador de pulsos (sons voclicos), um
gerador de rudo branco (sons no voclicos). Esses dois parmetros combinados formam a
` a
excitao e t , a excitao gerada passa por um filtro de plos que representa o trato vocal
` a
` a
v t e tem como resultado a sada do sinal de voz gerado s n .
Figura 3-5 Processo de gerao de voz humana num codificador LPC
3.2.3.
Codificadores hbridos
So codificadores que utilizam a tcnica de anlise por sntese baseados na predio

linear.Esses codificadores utilizam as vantagens dos codificadores de forma de onda
(reproduzir o sinal com alta qualidade) analisando as caractersticas espectrais e temporais do
sinal, e as vantagens dos codificadores paramtricos (enviar sinal com baixa taxa transmisso)
que conseguem extrair os parmetros do sinal, o que resulta na mxima dos codificadores de
voz, fazer mais por menos.
Ser analisado, no captulo seguinte, a tcnica de codificao CELP (Code-Excited
Linear Prediction), sobre o estudo do codificador G729a, o qual a base o tema de anlise
desta dissertao.
32
Abaixo uma anlise realizada por (GOMES, 2008), descreve os tipos de codificadores
e a qualidade obtida em relao taxa de transmisso. Podemos observar que os codificadores
hbridos, por reunirem a caracterstica dos codificadores de forma de onda e paramtricos, so
os que possuem melhor qualidade com baixas taxas de transmisso (valores aceitveis para o
sistema de telefonia, otimizando o sinal de voz entre 2kbps e 16kbps) .
Figura 3-6 Qualidade x Taxa de transmisso dos codificadores
3.3.
Codificao Preditiva Linear

A predio linear um arranjo muito importante na codificao do sinal de voz e sua
formulao est relacionada produo da fala. uma tcnica comum para a codificao de
baixa taxa de bits e tambm uma importante ferramenta na anlise do sinal de voz.
3.3.1.
Anlise da Codificao Preditiva Linear
A codificao linear uma sntese para estimativa da frequncia fundamental,

realizando uma anlise sobre as funes do trato vocal, representando as formantes, em que se
deseja estimar o sinal amostrado baseado numa combinao linear utilizando filtros digitais.
33
Foi verificado, no captulo anterior, o modelo de produo de fala e o modelo do trato

vocal, conforme figura abaixo:
Figura 3-7 a) Modelo de produo da fala
b) Modelo do trato vocal
Sabemos que o trato vocal um modelo auto-regressivo (AR), formado por um filtro
s de plos descrito pela equao:
` a
` a
s n = b0 Bu n @ X ck B s n @ k
k@ 1
` a
(3.6)
` a
Em que s n corresponde ao sinal de voz sintetizado e u n ao sinal de excitao que

` a
passa pelo filtro H Z . Nesta anlise, existe a modelagem os parmetros reais ck que so
desconhecidos. Para modelar esses parmetros reais, tenta-se obter uma predio, ou seja,
` a
uma estimativa de s n atravs da equao:

p
` a
s n
= X ak B s n @ k
estimado
k@ 1
(3.7)
Esse equacionamento modela um filtro no-recursivo (FIR), que um preditor linear

de ordem p , em que os parmetros ak representam os coeficientes do preditor.
Para este procedimento considerado que no h uma soluo computacionalmente
praticvel que modele o filtro de forma totalmente fiel ao sinal original de voz, sendo assim
iremos utilizar uma quantidade p de amostras passadas de voz para predizer o sinal com o
menor erro possvel.
34
` a
O sinal residual r n ou sinal de erro de predio o resultado da diferena entre o

` a
` a
` a
sinal de voz e a sua aproximao, r n = s n @ s n
estimado
Para que o sinal de voz estimado tenha uma boa aproximao do sinal de voz original,
devem-se obter valores timos para os coeficientes ak do preditor dentro do intervalo de
tempo n1 n n2 , esse valor representado por:
n2
P Q
ak
otimo
` a
(3.8)
= ArgMina X r 2 n
k
n = n1
` a
Estabelecendo que o sinal de voz obtido pelo s n

e assumindo que p=m, resulta que os coeficientes
estimado
ak
descrito da equao (3.7),
so uma boa estimativa dos
coeficientes ck descrito na equao (3.6).

O sinal de erro de predio no domnio tempo descrito por:
p
` a
` a
` a
r n =s n @s n
` a
= s n @ X ak B s n @ k
estimado
k=1
(3.9)
Aplicando a transformada Z na expresso, tem-se:

` a
` a
` a
R z = A z BS z ,
(3.10)
` a
` a
Nesta expresso R z e S z so respectivamente a transformada Z do sinal residual

` a
e a transformada Z do sinal de voz, em que A z um filtro de anlise, formado somente por

zeros, descrito por:
p
` a
A z = 1 @ X ak B Z
@k
(3.11)
k=1
` a
Temos o filtro inverso de A z , que um filtro de sntese, formado somente por

plos, que representa o comportamento espectral do sinal de voz:
` a
H z =
1f
1f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
` a=
p
A z
@k
1 @ X ak B Z
(3.12)
k=1
Realizando uma substituio algbrica da equao (3.10) e (3.12), resulta em

` a
` a
` a
(3.13)
S z = H z BR z
Aplicando inversa da transformada Z na equao acima ou utilizando a equao (3.9),

obtm-se o modelo, no domnio tempo, o modelo de sntese, representado pela expresso:
p
` a
` a
s n = X ak B s n @ k + r n
k=1
(3.14)
Com esse desenvolvimento, podemos representar o processo de anlise do sinal de

voz, equaes (3.9) ou (3.10), e o processo de sntese do sinal de voz equaes (3.13) ou
35
(3.14) atravs dos diagramas de blocos a e b descritos (RABINER e SCHAFER, 1978), e

representados na figura 3.8.
Figura 3-8 Diagrama de blocos do processo de anlise (a) e de sntese (b)
` a
` a
Os filtros de anlise A z e os filtros de sntese H z so modelados pela relao de

preciso espectral , complexidade computacional e quantidade de bits transmitir. Neste caso,
cada formante do espectro do sinal de voz constituda por um par de plos que esto
separadas, em mdia, a cada 1kHz de banda. Para o sinal amostrado taxa de 8kHz temos
uma banda inferior a 4 kHz, em que o filtro de sntese utilizado de ordem 10 geralmente,
que seriam os 8 plos do espaamento espectral de 4kHz mais 2 plos para evitar anti
ressonncia, aproximando possveis zeros.
3.3.2.
Line Spectrum Frequency e Line Spectrum Pairs
Para anlise de predio linear so gerados os coeficientes de predio, coeficientes

LPC. Muito sensveis transmisso do sinal de voz e ao processo de quantizao, uma
alternativa para a codificao dos coeficientes de predio representar esses em coeficientes
LSF (Line Spectrum Frequency) e LSP (Line Spectrum Pairs).
Segundo (OSHAUGHNESSY, 1999), a representao LSF produz uma qualidade de
voz melhor, pois provem a estabilidade dos coeficientes manipulados e possui propriedades
adequadas, uma vez que os coeficientes de reflexo so muito sensveis quantizao do
sinal.
` a
Os coeficientes LSP so representados por dois polinmios
Q z (anti-simtrico), descritos abaixo:

` a
` a
` a
` a
@ p+1
P z =A z + z
@ p+1
Q z =A z @z
` a
P z (simtrico) e
BA z@ 1
(3.15)
(3.16)
BA z@ 1
36
Como consequncia desta manipulao algbrica, a representao LSF faz com que
` a
` a
P z e Q z tenham as seguintes propriedades:
- todas as razes dos polinmios esto sobre o raio de crculo unitrio;

` a
` a
- as razes dos polinmios P z e Q z esto entrelaadas;

Esses dois modelos se relacionam com os coeficientes LPC representados pelo
` a
polinmio A z :
` a
` a
Pf
zf
+f
Q
zf
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
A z =
2
` a
(3.17)
A definio acima originada pelos clculos de converso dos coeficientes LPCs para
os coeficientes LSFs, essa transformao foi realizada em 1975 por Itakura. Dessa anlise,
` a
` a
definido que as razes dos polinmios P z e Q z correspondem s frequncias que so os

coeficientes LFS, esses so extrados do filtro de anlise
` a
` a
A z de ordem
p . Nesta
verificao o polinmio P z corresponde anlise do trato vocal com o a glote fechada, em

` a
que o coeficiente de reflexo K p + 1 = 1 e o polinmio Q z correspondem anlise do trato

vocal com o a glote aberta, coeficiente de reflexo K p + 1 = @ 1.
3.3.3.
Janelamento
No sinal de voz amostrado, utilizado nos codificadores, temos uma gravao finita.
Utilizamos a tcnica de janelamento para aumentar as caractersticas do sinal amostrado, a
` a
` a
operao algbrica a multiplicao do sinal de voz s n pelo sinal W n (janela escolhida).

A aplicao de uma janela sobre o sinal amostrado para definir a durao do tempo de
observao do sinal, para reduzir a perda espectral e separar sinais com frequncias muito
prximas e com amplitudes demasiadamente distantes.
Abaixo a avaliao realizada (FURUI, 2001) para janelamento dos sinais de voz.
37
Figura 3-9 Anlise das janelas de Hanning e Hamming.
Para os casos especficos de sinais de voz, devido s caractersticas do sinal e a

resposta em frequncia que se deseja obter, ser utilizada uma janela de Hamming, pois essa
produz uma melhor resoluo em frequncia e mais utilizada para o processamento de fala.
Abaixo, a funo geradora do sinal para a janela de Hamming dada por:
f
` a
W n = 0,54 @ 0,46 B cos 2 B
eg
nf
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
N@1
para 0 n N @ 1
(3.22)
para os demais casos
Para janelar o sinal de voz de forma a minimizar o erro introduzido pelas amostras dos
` a
extremos da janela, utiliza-se a sobreposio (overlap) dos intervalos dos frames de s n ,
onde amostramos o sinal atual e uma parcela de comprimento L do sinal anterior que sero
consideradas no frame atual.
Figura 3-10 Processo de janelamento
38
3.4.
Quantizao Vetorial
Quantizao Vetorial (VQ Vector Quantization) o mtodo de compresso de
dados, em que ocorrem perdas com relao ao sinal original.
3.4.1.
Entendendo quantizao vetorial
O processo busca codificar um vetor de coeficientes (neste caso os coeficientes do

filtro LPC) atravs da aproximao que ser realizada com algum vetor de referncia
previamente calculado. Sendo assim, podemos considerar que a VQ uma aproximao do
vetor do coeficiente LPC com um dos vetores analisados da tabela de vetores cdigos
denominada de codebook.
Um exemplo de aproximao com a utilizao de 1 bits a figura abaixo:
Figura 3-11 Exemplo de quantizao em 1 dimenso
Na figura acima, cada nmero entre -2 e 0 aproximado por -1. Similarmente,

cada nmero entre +2 e +4 aproximado por +3. Dessa forma, temos uma quantizao
vetorial de uma dimenso (1-dimensional) e de com taxa de dois bits.
Um exemplo de quantizao vetorial de 2 dimenses demonstrado na figura 3.12.
Existem 16 regies, em cada regio h um nico ponto vermelho representado por 4 bits.
39
Figura 3-12 Exemplo de quantizao em 2 dimenses
Nota-se nos exemplos ilustrados nas figuras 3.11 e 3.12 que pontos de cor vermelha
so os vetores de cdigos ou codevectors e as reas definidas pelos traados da cor azul so as
regies de codificao. O conjunto de todos os vetores de cdigos o codebook.
Para gerar um conjunto de vetores de cdigos realizado um treinamento onde todos
os vetores so amostras do sinal de voz obtidas de usurios distintos. Os sinais de voz
(palavras ou sentenas) so avaliados no espao n-dimensional, tendo como objetivo dividir
esse espao em regies com maior concentrao de vetores.
Aps o clculo para delimitar as regies de codificao, foi realizada a medida de
distncia entre um vetor cdigo e os demais vetores do espao vetorial. Esse vetor utilizado
para demarcar o espao o qual foi descrito como de centride, armazenado no codebook. A
figura 3.13 ilustra o espao vetorial com os centrides definidos pela cor vermelha e os
demais vetores de cdigos definidos pela cor verde.
40
Figura 3-13 Exemplo de espao vetorial com centrides de vetores de cdigos
Os centrides so os vetores cdigos escolhidos, parmetros armazenados no codebook, os

quais possuem parmetros importantes para realizar a quantizao vetorial.
41
4. Anlise da qualidade do sinal

de voz
Os codificadores de voz buscam ofertar uma melhoria de qualidade em detrimento da
taxa de transmisso. Entretanto, existem outros fatores que no so intrnsecos dos
codificadores de voz, que so os ofensores externos (delay, jitter, eco, perda de pacotes e erro
no canal de transmisso).
Para minimizar os problemas de qualidade dos codificadores, diversas tcnicas so
realizadas. Nesse contexto, avaliaremos, principalmente, os fatores intrnsecos aos
codificadores de voz, no descrevendo a contribuio, degradao ou melhoria, relacionada
aos fatores externos do codificador.
Uma das principais formas de avaliao do sinal de voz, em codificadores de forma de
onda, a relao sinal rudo, medida SNR , descrita por:
H
M@1
` a2
L
M
Xs n
L
M
Lf
M
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
f
nf
=f
0f
M
SNR = 10 B log10L
L M @ 1b ` a
M
c
2
`
a
L
M
J X s n @ @s n K
(4.1)
n=0
A medida SNR tem limitaes, pesa todos os erros domnio do tempo de forma igual.
Uma medida SNR alta, com resultados indesejveis, pode ser obtido se o trecho da fala
apresenta alta concentrao de segmentos de voz (segmentos de alta energia), uma vez que o
rudo tem um maior efeito na percepo de segmentos de baixa energia, tais como sons surdos
ou fricativos. Uma medida de melhoria da qualidade pode ser obtida se SNR for medida em
intervalos de tempo curtos e os resultados em mdia. Essa medida chamada relao baseado
sinal-rudo segmentada(SNRseg) uma expressa por:
D
b cE
SNRseg = SNR j
onde j = intervalo de tempo da anlise SNR
(4.2)
42
Essas anlises so ineficientes para as tcnicas de codificao paramtrica, pois se faz

necessrio a avaliao perceptual do sinal de voz. Para anlise perceptual, foram criados testes
objetivos e subjetivos.
4.1.
Medidas subjetivas de qualidade

Inicialmente, os testes em codificadores de voz utilizados para telefonia eram
realizados pelo mtodo de avaliao subjetiva, tcnica para a medio atravs da percepo
do ouvido humano. Esse tipo de medida necessita seguir algumas diretrizes, tais como:
- analisar um nmero de ouvintes suficiente para assegurar um resultado estatstico
confivel;
- garantir que todos os ouvintes tenham uma percepo auditiva normal;
- garantir que todos os ouvintes efetuem corretamente as respostas dos testes
mensurados e tabelados;
- garantir um material abrangente e diversificado. Neste caso, o corpo de dados para os
testes, um banco de arquivos de voz;
- garantir que o codificador foi testado em todas as condies;
- escolher adequadamente as condies em que sero realizados os testes.
4.1.1.
Mean Opinion Score (MOS)
Os testes efetuados segundo a norma especificada na recomendao (ITU P800, 1996)

analisam a avaliao perceptual subjetiva e denominado MOS (Mean Opinion Score). Nessa
recomendao, os ouvintes utilizam uma escala para medir a qualidade do sinal de voz, o qual
classificado conforme tabela 4.1:
Pontuao
Qualidade da fala Esforo necessrio para a compreenso do significado
Excelente
Relaxamento completo; nenhum esforo necessrio
Boa
ateno necessria; no preciso muito esforo
Regular
um certo esforo necessrio
Pobre
muito esforo necessrio
Pssima
Ininteligvel, apesar de qualquer esforo empregado

Tabela 4-1 Escala de classificao do MOS
43
Com base no processo de avaliao subjetiva2, os codificadores so analisados tendo como

referncia a pontuao MOS. A maioria das medidas de qualidade de voz so baseadas em
uma escala de classificao absoluta (ACR Absolute Category Rating), essa escala
utilizada para verificao do MOS.
Abaixo a figura 4.1 (Gomes, A. G., 2008) aput (Jayant e Noll, 1984) mostra a relao
taxa de bits em detrimento qualidade do sinal de voz amostrado para diferentes tipos de
codificadores.
Figura 4-1 Comportamento da avaliao MOS para dos diferentes tipos de codificadores
4.2.
Medidas objetivas de qualidade

Conforme processo apresentado anteriormente, o mtodo subjetivo de avaliao de
qualidade demanda tempo. Assim, esse processo criterioso com os parmetros e as

condies para realizao dos testes conforme especificao da recomendao do ITU-T.
Contudo, necessrio outro mtodo para anlise da qualidade de voz em telefonia em
Mtodos para determinao subjetiva da qualidade de transmisso so descritos na Recomendao ITU-T

P.800, essa recomendao descreve os outros dois mtodos: Degradation Category Rating (DCR) e Comparison
Category Rating (CCR).
44
tempo real. Esse tipo de medida a avaliao objetiva a qual permite a avaliao em tempo
real, podendo realizar o controle da qualidade do sinal de voz.
4.2.1.
Perceptual Speech Quality Mesure (PSQM)
O PSQM um mtodo de medio da qualidade de voz baseado na recomendao do

ITU-T (ITU P861,1998). O PSQM(Objective quality measurement of telephone-band, 3003400Hz, speech codecs) estima a qualidade de voz nos codificadores. Esse algoritmo efetua a
medida de qualidade por um modelo psicoacstico, o qual tenta reproduzir a qualidade do
som percebida pelo ouvido humano.
Figura 4-2 Modelo de avaliao objetiva, utilizando o PSQM.
Na figura 4.2, o modelo analisado tem como base a anlise dos sinais de entrada e
sada do codificador:
- o sinal convertido onde ocorre o mapeamento no tempo e em frequncia atravs
da implementao da FFT utilizando uma janela de Hamming;
45
- realizada uma alterao de escala de frequncia, utilizando uma escala

psicoacstica chamada escala de Bark 3, que realiza uma anlise subjetiva do udio, cobrindo
24 bandas audveis em Hertz;
- tambm realizada uma alterao da escala de amplitude do sinal, em que efetua
ajuste da potncia sonora atravs de filtros de ponderao, cujo objetivo o ajuste do som
percebido pelo ouvido humano.
4.2.2.
Perceptual Analysis Measurament System (PAMS)
Esse algoritmo foi desenvolvido em 1998, e tambm efetua uma anlise no tempo e
em na frequncia. O PAMS um algoritmo complementar ao PSQM, ele resolveu um
problema que ocorria no PSQM, a realizao de sincronismo no tempo.
4.2.3.
Perceptual Evaluation of Speech Quality (PESQ)
A anlise para este estudo utilizou o algoritmo do PESQ, que a recomendao do

ITU-T (ITU P862, 2001). Foi desenvolvida para utilizao de redes de pacotes, uma
evoluo dos algoritmos PSQM e PAMS, e apresenta uma medida de qualidade relacionada
diretamente com a escala MOS (ITU P800, 1996).
O PESQ possui os mesmos parmetros e processos do PSQM, entretanto, algumas
modificaes foram consideradas neste modelo:
- equalizao dos ganhos dos sinais de entrada (sinal original) e sada (sinal
degradado) do codificador, os dois sinais so analisados no domnio tempo e no domnio
frequncia, para que ao final da anlise tenham o mesmo nvel de potncia;
- os sinais so filtrados para que tenham a mesma caracterstica, e so alinhados no
tempo, para definir o intervalo de anlise;
- realiza-se uma converso para o domnio frequncia utilizando uma janela de
Hamming com 50% de sobreposio em quadros de 32ms.
uma escala psicoacstica proposta por Eberhard Zwicker em 1961. Ela foi nomeada aps Heinrich
Barkhausen ter proposto a primeira medio subjetiva de intensidade sonora. A escala varia de 1 24,
corresponde a 24 bandas crticas de audio. As frequncias base da escala Bark de audiometria esto no range
de 20Hz 15500Hz.
46
Segundo (MAGRO, 2005), em uma anlise comparativa entre os algoritmos de

medida de qualidade, o PESQ o modelo de avaliao objetiva, que possui maior exatido
quando realizado testes cujo resultado correlacionado com a medida subjetiva MOS,
conforme tabela 4.2 .
Tipo
Rede Mvel
Rede Fixa
VoIP
Coeficiente
Correlao
mdia
pior_caso
mdia
pior_caso
mdia
pior_caso
PESQ
0,962
0,905
0,942
0,902
0,918
0,810
PSQM
0,924
0,843
0,881
0,657
0,674
0,260
Tabela 4-2 Comparao de eficincia do Modelo PSQM & PESQ.
Dentre os diversos codificadores de voz analisados em telecomunicaes, abaixo

segue um quadro comparativo com valores orientativos, segundo (KONDOZ, 2003). Essas
medidas de qualidade foram pontuadas atravs de testes subjetivos pontuais, usando material
de ensaio de literaturas variadas. Esses valores so teis para um parmetro entretanto no
deve ser tomado como uma indicao definitiva de desempenho do codec.
Recomendao
G.711
G.726
G.728
G.723.1
G.729
Ano
1992
1991
1994
1995
1995
Algoritmo
PCM
VBR-ADPCM
LD-CELP
A/MP-MLQ CELP
CS-ACELP
Taxa (kbits/seg)
64
16/24/32/40
16
5.3/6.3
8
MOS
4.3
.-x4
.-x4
Tabela 4-3 Valores de referncia do MOS para os codificadores Standards utilizados em telefonia.
47
5.
Codificadores ITU-T
Neste captulo, realizada uma anlise dos codificadores utilizados comumente em

redes de telefonia. Em geral os sistemas de codificao de voz possuem o seguinte diagrama,
segundo (CHU, 2003).
Figura 5-1 Sistema de codificao de voz.
5.1.
Codificadores
ITU-T
utilizados
em
telefonia
Abaixo segue uma breve descrio dos codificadores padronizados pelo ITU-T. Os
mais relevantes descritos segundo (CHU, 2003), utilizados em redes de pacotes, estrutura
atual das operadoras de telecomunicaes em substituio s redes comutadas por circuito.
Codificador de voz
G.711 (A/-Law
PCM)
G.726 (ADPCM)
G.728 (LD-CELP)
G.723.1
G.729 (CS-ACELP)
Taxa
(kbits/seg)
VAD
Reduo de rudo
Atraso
(ms)
64
no
no
0
16/24/32/40
no
no
0,25
16
no
no
1,25
5.3/6.3
sim
no
67,5
8
sim
no
25
Tabela 5-1 Comparao de codecs ITU-T para telefonia.
Ano
1972
1990
1992
1995
1996
48
5.1.1.
Recomendao ITU-T G.711
Ano de aprovao:
1972
Taxa de codificao: 64kbit/s, pois temos uma frequncia de amostragem de 8000 Hz

e quantizamos 8bits por amostras.
Algoritmo de codificao:
PCM - Pulse Code Modulation
Principio do codificador: Realiza a quantizao com escala logartmica. Desta forma,

obtm a relao sinal rudo (SNR) independente da intensidade. A tcnica de codificao
PCM obedece ao critrio de um codificador Nyquist, em que a frequncia de amostragem
igual ou superior ao dobro da maior frequncia presente no espectro:
(5.1)
f amostragem = 2 B f mxima
A codificao em telefonia utiliza uma frequncia de amostragem de 8kHz (8000

amostras do sinal de voz a cada segundo), as amostras so representadas com 256 nveis de
quantizao, o que define 8 bits por amostra. Sendo assim, o sinal de voz com a codificao
PCM possui a taxa padro 64k bits/seg.
Nesta tcnica de codificao so utilizados dois algoritmos de quantizao que so
chamados de leis: lei a (alaw) a lei ( law), pois o processo da tcnica PCM atribuir um
valor discreto a amplitude do sinal amostrado. Esse processo gera rudo de quantizao,
sendo necessrio utilizar uma das leis de quantizao para minimizar o sinal de entrada no
quantizador com o sinal de sada quantizado.
Figura 5-2 Diagrama de blocos da tcnica PCM
49
5.1.2.
Ano de aprovao:
1990
Taxa de codificao: varivel 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s

Algoritmo de codificao: ADPCM Adaptive Pulse Code Modulation
Principio do codificador: Este codificador foi desenvolvido com a proposta de
melhorar a codificao PCM, codificar a voz com a metade da taxa utilizada no PCM,
mantendo a qualidade do sinal codificado. Essa tcnica de codificao possui um quantizador
adaptativo, podendo fazer um ajuste no preditor linear com base nas variaes do sinal ser
codificado. As diferentes taxas de codificao so relativas aos bits utilizados por amostra:
2,3,4 e 5, tendo respectivamente as taxas: 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s.
Figura 5-3 Diagrama de blocos do processo de codificao ADPCM (ITU-T G726) aput (VARY e
MARTIN, 2006)
50
5.1.3.
Ano de aprovao:
1992
Taxa de codificao: 16kbit/s

LD-CELP Low-Delay Code Excited Linear Prediction
Princpio do codificador: Este codificador reduz o tempo da amostra processada entre

codificador e o decodificador. Transmite uma nica excitao e possui uma anlise de
predio capaz de avaliar recurssivamente cinco amostras PCM, sendo essa rotina a base do
algoritmo implementado para melhoria do atraso de codificao.
Figura 5-4 Diagrama de blocos do processo de codificao LD-CELP (FURUI, 2001)
51
5.1.4.
Recomendao ITU-T G.723.1
Ano de aprovao:
2006
Taxa de codificao: 5,3kbit/s e 6,3kbit/s

MP-MLQ ACELP,
onde MP-MLQ-Multi-Pulse Maximum Likelihood Quantization

Princpio do codificador: Codifica o sinal de voz mediante codificao linear de
anlise por sntese. Foi projetado para videoconferncia e voz sobre IP. um codificador de
taxa dupla em que codifica taxa de 5.3 kbps utilizando a estrutura ACELP. A codificao
taxa de 6.3kbps corresponde a codificao MP-MLQ que oferece uma qualidade um pouco
melhor.
Figura 5-5 Diagrama de blocos do processo de codificao LD-CELP
52
5.1.5.
Ano de aprovao:
1996
Taxa de codificao: 8kbit/s

Codificao:
CS-ACELP ConjugateStructure- Algebraic Code excited
Linear Prediction
Principio do codificador: a transmisso do sinal de voz com uma baixa taxa de bits,
para uso de telefonia. muito utilizado em redes que necessitam compresso de banda.
Realiza a codificao do sinal em frames de 10ms, efetua uma anlise das amostras futuras de
5ms, o que resulta num atraso de 15ms para realizar o algoritmo de codificao.
No item 5.2 faremos uma descrio detalhada do bloco de codificao do sinal de voz,
pois este codificador a caso de estudo para realizar a avaliao perceptual do sinal de voz.
53
5.2.
CS-ACELP: Conjugate Structure Code-
Excited Linear Prediction (G.729a)

O codificador G.729a baseia-se na filtragem do sinal analgico especificado na
recomendao G712 do ITU-T com a taxa de amostragem a 8000 amostras por segundo,
codificando os sinais de udio em frames de 10ms.Possui um atraso de 5ms, sendo seu bit rate
de 8Kbps
5.2.1.
O codificador CS-ACELP - (G.729a)
. O modelo de codificao baseado algoritmo de codificao CS-ACELP. Efetua a

predio linear por excitao com cdigo algbrico. Nesse intervalo de tempo, o sinal de voz
(quase estacionrio) analisado e parametrizado, comparado atravs de uma anlise por
sntese em busca da melhor excitao do sinal que corresponda ao sinal alvo. Cada frame de
10ms que analisado, gera 80 amostras do sinal por segundo, em que so extrados os
parmetros por frame: Coeficientes de predio linear do filtro, ndices do codebook fixo,
ndices do codebook adaptativo e ganho. Esses parmetros codificados e transmitidos so
distribudos de acordo com a tabela 5.2, a qual explica a alocao de bit dos 8kb/s do
algoritmo CS-ACELP em um frame em 10ms:
Parameter
Codeword
Line spectrum pairs

Adaptive-codebook delay
Pitch-delay parity
Fised-codebook index
Fixed-codebook sign
Codebook gains (stage 1)
Codebook gains (stage 2)
Total
L0, L1, L2, L3

P1, P2
P0
C1, C2
S1, S2
GA1, GA2
GB1, GB2
Sub frame 1
Sub frame 2
8
1
13
4
3
4
Total per frame
5
13
4
3
4
18
13
1
23
8
6
8
80
Tabela 5-2 Parmetros codificados pelo G729a (ITU-T G729).
54
5.2.2.
Codificador
As principais etapas de codificao do sinal de voz so executadas conforme o

diagrama de blocos abaixo:
Figura 5-6 Diagrama de blocos do processo de codificao CS-ACELP
Descrio dos estgios de codificao do CS-ACELP:

1) O sinal de entrada passa por um filtro passa alta para eliminao de rudo, prprocessado e esse sinal utilizado para as anlises subsequentes da codificao.
55
2) A anlise de Predio Linear realizada uma vez a cada frame de 10ms calculandose os coeficientes de filtro de Predio Linear. Esses coeficientes so convertidos para Line
Spectrum Pairs (LSP) e quantizados, Vector Quantization (VQ).
3) O sinal de excitao escolhido por meio de uma anlise por sntese, procedimento
de busca em que o erro entre o sinal de voz original e o reconstrudo minimizado de acordo
com uma medida de distoro perceptualmente ponderada. Isso feito atravs da filtragem
do sinal de erro com um filtro de ponderao perceptual, cujos coeficientes so derivados da
Predio Linear no quantizada do filtro.
4) Os parmetros de excitao (parmetros dos dicionrios fixos e adaptativo) so
determinados por um subframe de 5ms (40 amostras) cada um. Os coeficientes quantizados e
no quantizados do filtro de Predio Linear so usados no segundo subframe, enquanto no
primeiro subframe os coeficientes de predio linear interpolados so usados (ambos
quantizados e no quantizados).
5) Um valor do pitch estimado com base no sinal resultante da amostra analisada
pelo filtro de ponderao, em malha aberta.
6) Os estados iniciais do filtro so atualizados pela filtragem do erro residual. Calculase o circuito em malha fechada para estimar o ganho e o valor do dicionrio adaptativo.
7) Com os valores do dicionrio adaptativo e com as duas estimativas de pitch, buscase no dicionrio fixo um valor para encontrar a soluo tima.
8) Os ganhos dos dicionrios (fixo e adaptativo) so quantizados, o filtro atualizado
e o sinal de excitao determinado.
56
5.2.3.
Decodificador
Na decodificao do sinal, os parmetros do fluxo de bits recebidos so extrados

conforme diagrama de blocos abaixo:
Figura 5-7 Diagrama de blocos do processo de decodificao CS-ACELP
Descrio dos estgios de decodificao do CS-ACELP:

1) Os ndices so decodificados para obter os parmetros do codificador
correspondente a um quadro de fala de 10 ms.
2) Esses parmetros so os coeficientes LSP, e duas fraes de delay do pitch, dois
vetores do codebook fixo, e os dois conjuntos de ganhos referente ao codebook adaptativo e o
codebook fixo;
3) Efetua-se a sntese de curto prazo: Os coeficientes LSP so interpolados e
convertidos em coeficientes do filtro de predio linear para cada sub frame.
4) Efetua-se a sntese de longo prazo: avaliado um subframe de 5ms, em que so
executadas as seguintes etapas:
a) A excitao calculada adicionando os vetores do codebook fixo e do codebook
adaptativo, dimensionado pelos respectivos ganhos
b) O sinal de fala reconstrudo atravs da filtragem da excitao, realizada pelo
filtro de sntese de predio linear.
5) A reconstruo do sinal de fala ocorre aps o estgio de ps filtragem, que inclui
um filtro adaptativo baseado nos filtros de sntese a curto e longo prazos, seguido por um
filtro passa-alta que completa a operao de filtragem e dimensionamento da operao.
57
6.
Proposta
Neste trabalho, foi avaliada a estrutura do codificador com suas alteraes propostas
para melhoria perceptual, excluindo-se as variaes do meio de transmisso.
Os codificadores de voz buscam a melhoria de qualidade utilizando uma baixa taxa de
bits para transmisso. Um exemplo disso o codificador G.729a, padro do ITU-T que
consegue operar a uma taxa de 8Kbps. Geralmente, se a anlise baseia-se nessa premissa
(maior qualidade com menor taxa de transmisso), o processo para a garantia de qualidade e a
decodificao do sinal possuem mecanismos incorporados para tratar os fenmenos inerentes
ao meio de transmisso (atraso, jitter e perda de pacotes).
Segundo avaliao da figura 6.1, apresentada abaixo, que se baseia no estudo do codec
G729a apresentado em (PREGO e NETTO, 2008), os valores de MOS esto dentro do limiar
aceitvel para experimentos acadmicos e aplicaes prticas implementadas no mercado.
Figura 6-1 Relao do MOS x Taxa de Transferncia dos diversos codificadores
58
Como a anlise neste estudo enfoca a melhoria perceptual no sinal de origem, optouse pela escolha de um codificador que fosse bastante utilizado nos sistemas de
telecomunicaes, o codec G729a.
Convm mencionar que a avaliao perceptual foi realizada em trabalhos que
analisavam o desempenho do codificador mediante a ponderao de qualidade sobre o meio
de transmisso.
A proposta obter uma melhora na ausncia do meio de transmisso, o que factvel
de ser avaliado, uma vez que as caractersticas deste codificador j foram objeto de estudo em
diversos trabalhos na comunidade acadmica e no meio coorporativo. (MAGRO, 2005),
(FERNANDES, 2003)
Neste estudo, foi aplicado o processo proposto, avaliao do sinal na origem do
codificador com a implementao do algoritmo do PESQ no encoder.
Para verificao do estudo, foi implementado a recomendao do ITU-T, P.862
(PESQ), no encoder do codificador CS-ACELP (G729a), com a finalidade de mensurar uma
ponderao do MOS, pois esta mtrica a atual referncia para avaliao de qualidade do
sinal de udio percebido nos sistemas de telecomunicaes.
A proposta deste trabalho realiza uma anlise objetiva baseada em critrios
perceptuais do sinal de voz, sendo este verificado e analisado no bloco de origem do sinal a
ser transmitido.
Figura 6-2 - Diagrama de avaliao perceptual do codec no sinal de origem
59
A produo do sinal de voz tem suas caractersticas variantes no tempo, que

dependem da variao do trato vocal. Pensando do ponto de vista do orador, se
consegussemos realizar uma analise das formantes do sinal de voz, mapeando alguns
parmetros no processo de codificao, seramos capazes de indicar alteraes dinmicas para
melhorar esse sinal de voz emitido.
Sendo constantes os avanos nos hardwares de processamento digital de sinais,
entende-se que a capacidade de processamento no mais o problema, mas a busca por uma
melhoria contnua no sinal de voz um tema ainda em discusso. Neste cenrio, o tema
proposto, melhoria da qualidade perceptual do sinal de voz na origem do codificador, pode ter
uma expressiva contribuio na busca por melhoria contnua.
Na proposta apresentada, realizada uma heurstica em que o controle perceptual do
sinal de voz realizado em tempo real. Utilizaremos o codificador G729a e o algoritmo do
PESQ para avaliao do sinal de voz.
A anlise foi implementada no bloco do codificador de voz. Neste bloco, foi realizada
a codificao, decodificao e anlise perceptual do sinal de voz amostrado. Em cada instante
desta anlise deseja-se obter uma melhoria no sinal codificado. Essa melhoria foi avaliada
com o algoritmo do PESQ interagindo no processo de codificao do sinal de voz.
A figura 6.3 abaixo mostra o diagrama do bloco de origem do codificador que efetua a
anlise do processo de avaliao perceptual durante a transmisso dos dados:
60
Figura 6-3 - Diagrama de blocos simplificado de anlise do codec
O objeto de estudo o codificador G729a, em que foram implementados, nesse

codificador, os blocos relacionados na figura 6.3 conforme descrio abaixo:
- o bloco do encoder realiza a codificao do sinal, em que foi realizada a
segmentao para leitura de um nmero especfico de frames do sinal de entrada;
- o bloco do decoder foi duplicado na estrutura. O bloco D2 para receber o sinal
de voz que necessita ser decodificado, estrutura normal do codificador (encoder / decoder). O
bloco D1 decoder inserido na estrutura do codificador responsvel pela decodificao dos
frames codificados originados no enonder. Esses frames necessitam ser decodificados para
avaliao perceptual do sinal;
- o bloco do PESQ responsvel por receber o sinal de referncia da entrada do
codificador e o sinal que passou pelo encoder e foi codificado para envio e transmisso. Esse
mesmo sinal passa por um decoder D1 e decodificado para avaliao perceptual;
- a indicao de MOS, ou seja, a pontuao dos sinais avaliados incide sobre uma ao
de controle no bloco do encoder, alterando os frames seguintes avaliao presente.
Os blocos descritos acima, estruturados nesta formatao, compem o estudo de caso
e anlise desta dissertao. O principal objetivo deste trabalho verificar o sinal do ponto de
vista perceptual, essa verificao ocorre em tempo real com aes de controle no bloco de
origem de codificao, o encoder, para garantir e melhorar perceptual os frames codificados.
61
7.
Estudo de Caso
Para anlise do problema proposto, avaliao perceptual do sinal de voz na origem da

codificao para obter melhoria perceptual, foram estudadas a codificao e a avaliao do
sinal codificado. Neste trabalho utilizaram-se os programas:
1)
ITU-T G.729a
CS-ACELP Speech Coder
ANSI-C Source Code
Version 1.1 Last modified: September 1996

Copyright (c): AT&T, France Telecom, NTT, Universite de Sherbrooke
2)
ITU-T P862
PESQ Algorithm Software
ANSI-C Source Code
Version 1.2 Last modified: August 2002

Copyright (c): Psytechnics Limited e OPTICOM GmbH
7.1.
Plataforma de experimento (G729a com
PESQ)
O
processo
de
anlise
consiste
no
bloco
do
codificador
G.279a
(codificao/decodificao) na origem do interlocutor, sobre o qual foi inserido o algoritmo

do PESQ para avaliao perceptual do sinal de voz na origem da codificao.
Nessa formatao, o processo de codificao (extrai os coeficientes LPC, o ganho e os
ndices dos dicionrios) encaminha o fluxo de bits ao decodificador que foi duplicado no
bloco do codificador G729. O sinal de entrada, ao mesmo tempo em que codificado na
origem, tem seu valor decodificado e avaliado pelo algoritmo do PESQ.
Os arquivos PCM 16Bits, amostrado a 8KHz de entrada e de sada do bloco do
codificador de origem do interlocutor, so verificados a cada intervalo de tempo. Obtm uma
62
resposta do algoritmo PESQ para uma anlise curta de frames, de modo que a representao
seja a mais prxima do tempo real.
7.2.
Anlise dos parmetros de avaliao

Durante os estudos, foram avaliados os parmetros escalares de ganho de codificao
e ganho de pitch do codificador G729a. Tambm se avaliou o algoritmo PESQ, que foram
verificados parmetros intrnsecos do algoritmo. Essa anlise dos parmetros definida no item
7.3 descreve o processo de anlise dos arquivos codificados e decodificados no bloco do
encoder para obter uma garantia de melhora perceptual dos frames do sinal de voz.
7.2.1.
Limites de frames do PESQ no bloco do codec
Para a avaliao perceptual na implementao do algoritmo do PESQ dentro do

encoder do codificador do G729a foi testado e validado o padro mnimo de fluxo de bits que
o PESQ capaz de realizar a pontuao MOS.
Pela recomendao P862, o valor correspondente para anlise do sinal de voz no
cdigo fonte do algoritmo PESQ de um intervalo 100 frames de 10ms cada. Cada frame
possui 80 amostras de 2 bits, totalizando 16000 bits(100frames*2bits*80amostras). Para isso,
a avaliao pretende reproduzir uma anlise mais prxima do tempo real, o fluxo de bits
mnimo
encontrado
para
anlise
do
PESQ
de
28
frames
do
PESQ
(28frames*2bits*80amostras = 4480bits por intervalo amostrado), sendo este o valor alterado

no algoritmo do PESQ.
Com essa alterao, conseguimos uma anlise em um perodo inferior a 1/3 do valor
mencionado na recomendao. Constatou-se que, durante o experimento, o intervalo de 28
frames avaliados pelo PESQ foi o resultado mximo em que o algoritmo conseguiu realizar
sua funo sem que o atraso de conversao e/ou intervalos de expresso ativa(fala) com mais
de 25% de silncio influenciasse no resultado. Assim, a escolha do nmero de frames
avaliados pelo PESQ em cada fragmento teve como premissa os perodos de fala ativa
superior a 75% do total do frame.
63
7.2.2.
Formatao dos arquivos de testes
Para o experimento do algoritmo PESQ alterado e implementado para anlise da

melhoria perceptual, utilizou-se os arquivos extrados do banco de dados Timit AcousticPhonetic Contnuos Speech Corpus, o qual foi projetado para fornecer dados de fala utilizados
em reconhecimento de voz. So gravaes de banda larga originadas por 630 oradores dos
oito principais dialetos do ingls americano. So, ainda, fonticas escritas e alinhadas
ortograficamente em arquivos de 16bits e 16kHz.
Os parmetros de escolha das sentenas foram as diferenas de oradores masculinos e
femininos e suas variaes de sons, gerando arquivos de16bits amostrados 8kHz. A
orientao para formatao dos arquivos de testes foi baseada na recomendao P.830 (ITU
P830, 1996) que solicita, no mnimo, dois oradores masculinos e dois oradores femininos
para cada teste de condio.
Foram
escolhidas
24
frases
manipuladas
pelo
software
Audacity
(Audacity1.3.12,2010), formando quatro arquivos de seis frases e dois arquivos para cada
orador (masculino e feminino). O objetivo de estruturar os quatro arquivos foi para avaliar a
diferena entre oradores e a variao da frequncia de pitch. Essa anlise pode ser observada
nas figuras abaixo, nas ilustraes 7.1, , 7.3, 7.5 e 7.7 que mostram os arquivos de teste com
oradores distintos. As ilustraes 7.2, 7.4, 7.6 e 7.8 mostram frequncia de pitch, primeira
formante do espectro, conforme abaixo:
Figura 7-1 Arquivo01 Oradores masculinos Sinal de voz
64
Figura 7-2 Arquivo01 Oradores masculinos Anlise de frequncia de pitch
Figura 7-3 Arquivo02 Oradores masculinos Sinal de voz
Figura 7-4 Arquivo02 Oradores masculinos Anlise de frequncia de pitch
65
Figura 7-5 Arquivo01 Oradores femininos Sinal de voz
Figura 7-6 Arquivo01 Oradores femininos Anlise de frequncia de pitch
Figura 7-7 Arquivo02 Oradores femininos Sinal de voz
66
Figura 7-8 Arquivo02 Oradores femininos Anlise de frequncia de pitch
7.2.3.
Sinais analisados para alterao da codificao
Na anlise do codificador, foram avaliados os parmetros escalares no quantizados,

ganho do pitch e o ganho do codificao. possvel observar que existem valores para os
quais a codificao do sinal possui uma melhora do valor MOS avaliado pelo PESQ, o que
consequentemente melhora frames avaliados.
Abaixo, a tabela que analisa os valores de alterao do ganho pitch e ganho de
codificao demonstra um valor fixo, um percentual de adio cada ganho. Neste caso,
foram inseridos no programa fonte do codificador G729a com o algoritmo do PESQ. Como o
codificador trabalha com valores estabelecidos pela anlise da predio linear e busca dos
vetores do codebook que geram ganhos, esses parmetros - os ganhos escalares - foram
escolhidos para alterao no processo. Propondo que se houvesse outro vetor muito prximo
para a escolha do dos ganhos, o valor do MOS relacionado a cada frame teria uma pequena
variao.
Os
primeiros
arquivos
de
teste
foram
Orador_masculino8k.wav
Orador_feminino8k.wav. O total refere-se ao somatrio das notas do PESQ para cada 28

frames do arquivo analisado:
67
Tabela 7-1 Avaliao do PESQ para adio de ganho nos sinais de pitch e codificao
Programao no ganho de pitch:

best_gain[1]= best_gain[1] + ((int)(best_gain[1]/%));
Onde %= valor adicional de pitch
Programao no ganho de codificao:

best_gain[0]= best_gain[0] + ((int)(best_gain[0]/%)); Onde %=valor adicional de codificao
7.2.4.
Ajuste da avaliao Perceptual (alteraes significativas)
Constatou-se que, durante a anlise dos intervalos de 28 frames avaliados pelo PESQ,
existiam intervalos no avaliados, devido ao atraso de conversao e/ou intervalos de
expresso ativa(fala) com mais de 25% de silncio. Portanto, programou a regra de que
quando no fosse possvel avaliar o valor do PESQ, no seria aplicado o ganho nesse
intervalo de 28 frames.
Durante a inicializao do arquivo para codificao, constatou-se que o G729.a
inicializa o ganho de pitch com o maior valor quantizado 32676. Conclui-se que como no se
sabe o instante de entrada do sinal, o primeiro frame recebe o maior valor de ganho de pitch
possvel.
68
Essa ao estava causando o problema de deciso dos frames subsequentes da anlise.

Foi implementada a avaliao de no efetuar nenhuma ao nos primeiros trs intervalos de
frames avaliados pelo PESQ.
Figura 7-9 Inicializao dos trs primeiros frames e ao da avaliao zero
Para cada conjunto de oradores realizada uma varredura previamente no sinal

codificado com intuito de buscar o ganho mais adequado para o segmento de voz dos
interlocutores em questo. Esse procedimento foi realizado nos quatro arquivos de testes e em
cada um apresentou um ganho diferente, demonstrando a particularidade do sinal variante no
tempo amostrado para cada grupo de seis oradores.
Nota-se que a adio de ganho inserido em cada arquivo de teste aleatria, no
depende do gnero do orador e sim do trato vocal do orador conforme tabela 7.2 apresentada a
seguir.
69
ORADORES MASCULINO 1
ORADORES FEMININO 1
adio pitch
adio codificao
adio pitch
adio codificao
1/65 = 1,54%
1/3 = 33,00%
1/10 = 10%
1/4 = 25%
ORADORES FEMININO 2
adio pitch
adio codificao
adio pitch
adio codificao
1/35 = 2,86%
1/40 = 2,50%
1/55 = 1,82%
1/5 = 20%
Tabela 7-2 Ganhos avaliados para os arquivos de teste
Os grficos abaixo mostram como os ganhos foram encontrados. Cabe salientar que a
anlise de varredura j considerou o critrio controle de trs frames.
As figuras 7.10, 7.11, 7.12 e 7.13 mostram a escolha percentual de adio de ganho de
pitch e codificao par cada arquivo composto por um conjunto de seis oradores.
Escolha do ganho
Arquivo1 de Oradores Feminino
318
317
315
Ganho Pitch
314
Ganho Codificao
313
312
311
310
50
,0
0
33 %
,3
3
25 %
,0
0
20 %
,0
0
10 %
,0
0%
6,
67
%
5,
00
%
4,
00
%
3,
33
%
2,
86
%
2,
50
%
2,
22
%
2,
00
%
1,
82
%
1,
67
%
1,
54
%
1,
43
%
1,
33
%
1,
25
%
1,
18
%
1,
11
%
1,
05
%
1,
00
%
0,
91
%
Somatrio PESQ
316
% de ganho
Figura 7-10 Avaliao dos ganhos no arquivo 01 de Oradores Femininos
70
Escolha do ganho
Arquivo1 de Oradores Masculino
309,5
309
308,5
Somatrio PESQ
308
307,5
Ganho Pitch
307
Ganho codificao
306,5
306
305,5
305
50
,0
0
33 %
,3
3
25 %
,0
0
20 %
,0
0%
10
,0
0%
6,
67
%
5,
00
%
4,
00
%
3,
33
%
2,
86
%
2,
50
%
2,
22
%
2,
00
%
1,
82
%
1,
67
%
1,
54
%
1,
43
%
1,
33
%
1,
25
%
1,
18
%
1,
11
%
1,
05
%
1,
00
%
0,
91
%
304,5
% de ganho
Figura 7-11 Avaliao dos ganhos no arquivo 01 de Oradores Masculinos
Escolha do ganho
Arquivo2 de Oradores Feminino
431
430
429
427
Ganho Pitch
Ganho Codificao
426
425
424
423
422
50
,0
0
33 %
,3
3%
25
,0
0
20 %
,0
0%
10
,0
0%
6,
67
%
5,
00
%
4,
00
%
3,
33
%
2,
86
%
2,
50
%
2,
22
%
2,
00
%
1,
82
%
1,
67
%
1,
54
%
1,
43
%
1,
33
%
1,
25
%
1,
18
%
1,
11
%
1,
05
%
1,
00
%
0,
91
%
Somatrio PESQ
428
% de ganho
Figura 7-12 Avaliao dos ganhos no arquivo 02 de Oradores Femininos
71
Escolha do ganho
Arquivo2 Oradores Masculinos
428
427
Somatrio PESQ
426
425
Ganho Pitch
424
Ganho codificao
423
422
421
50
,0
0
33 %
,3
3%
25
,0
0
20 %
,0
0
10 %
,0
0%
6,
67
%
5,
00
%
4,
00
%
3,
33
%
2,
86
%
2,
50
%
2,
22
%
2,
00
%
1,
82
%
1,
67
%
1,
54
%
1,
43
%
1,
33
%
1,
25
%
1,
18
%
1,
11
%
1,
05
%
1,
00
%
0,
91
%
420
% de ganho
Figura 7-13 Avaliao dos ganhos no arquivo 02 de Oradores Masculinos
No algoritmo do PESQ, a avaliao do MOS ocorre a cada 100 frames, o equivalente

16000amostras (100*2*80) com tempo de intervalo de avaliao de 2s. Para avaliao de
testes, variou o intervalo de frames e obteve que o menor valor aceitvel de 28 frames, o
equivalente 4480amostras (28*2*80) com tempo de intervalo de avaliao de 0,56s.
Portanto, otimizou-se a comparao do sinal original e do sinal degradado a cada 28 frames.
Nesta anlise, como ao de controle, foi testada qual a quantidade de frames a ser
analisada at que se necessite fazer alguma ao. Devido a formatao original do algoritmo
(100 frames), optou-se em realizar ao de controle a cada trs avaliaes de 28 frames (84
frames) que pelos testes de ajuste do controle obteve a melhor avaliao perceptual.
A tabela 7.3 descrita a seguir apresenta os resultados dos experimentos de ao de
controle sobre a tendncia de avaliao do PESQ. A coluna controle demonstra quantos
frames com valores decrescentes consecutivos ocorrem no processo para que acontea a ao
de controle.
72
arquivos1 de teste
CONTROLE
SOMATRIO PESQ
arquivos2 de teste
ORADORES FEMININO 1
CONTROLE
adio pitch 1/65
SOMATRIO PESQ
CONTROLE
adio pitch 1/04
SOMATRIO PESQ
ORADORES FEMININO 2
CONTROLE
adio pitch 1/35
SOMATRIO PESQ
adio pitch 1/55
5 306,673
309,195
426,8
5 428,466
4 317,365
309,087
426,8
4 428,661
3 317,365
309,242
426,912
3 429,932
2 317,365
307,637
424,436
2 429,725
1 315,392
304,911
424,74
1 426,457
Tabela 7-3 Ajuste do controle de ganho para os arquivos de teste
7.3.
Padro de avaliao perceptual proposto

A elaborao e o desenvolvimento de um padro de avaliao perceptual aceitvel que
validasse a proposta basearam-se nos parmetros avaliados no algoritmo do PESQ e nos

parmetros do codificador G729a. Para isso, a seguinte heurstica foi utilizada:
1- A codificao inicializa com os ganhos originais nos trs primeiros frames, para
que o sinal de entrada seja estvel, evitando a leitura de erro devido a uma caracterstica
interna do codificador.
2- Analisa-se a tendncia da pontuao do MOS, como medida numrica de qualidade
da voz humana, utilizando-se a leitura e escrita dos ganhos avaliados anteriormente. Esses
ganhos so aplicados para cada conjunto de orador, conforme definido no experimento.
3- Como inicializao do modelo de comparao realizada a tendncia do valor da
anlise do PESQ das amostras sequenciais dos arquivos comparados, verificao do valor de
MOS da amostra atual em relao ao valor de MOS da amostra anterior.
4 - Essas amostras so avaliadas em fragmentos sequenciais de 28 frames do PESQ,
menor quantidade de frames avaliados.
5- No ser realizada nenhuma ao de controle quando houver intervalos de frames
avaliados pelo PESQ sem um valor de MOS.
73
6- Controle:
i)
Se
tendncia
dessas
amostras(intervalo
de
frames
analisados
sequencialmente) apresentarem um valor de MOS do intervalo de frames atual maior

do que o valor de frames anterior, um ganho de pitch adicionado ao processo.
ii) Se houver um valor de MOS regressivo durante trs frames consecutivos,
o codificador dever alterar seus parmetros internos para que o ganho retorne ao
original, mantendo ao valores de codificao. A escolha por trs intervalos de frames
avaliados consecutivamente pelo PESQ para manter a ao de controle dentro do
tempo de avaliao padro do algoritmo (100 frames).
iii) Quando o ganho estiver recebendo o sinal original, ele retorna para o passo
i desta heurstica e, assim, sucessivamente, at encerrar a avaliao dos frames
recebidos.
74
8.
Resultados Obtidos
A modificao no codificador CS-ACELP, com a utilizao de uma anlise

perceptual, ponderando a avaliao do algoritmo do PESQ para deciso de atuao sobre a
codificao, tem como objetivo aumentar a qualidade para os usurios.
Espera-se que seja possvel a melhoria da qualidade de resposta do codec atravs da
alterao do ganho de pitch, sem a modificao da essncia do codec. Alm disso, espera-se
que essa implantao seja aceitvel para o decodificador do G729a
8.1.
Testes realizados
Os testes realizados foram baseados na utilizao de arquivos de voz em formato
PCM de 16 bits, amostrados a 8KHz, que serviram de entrada para o codificador original CSACELP e sua verso modificada.
8.1.1.
Anlise dos parmetros escalares
Os ganhos foram avaliados serialmente. Observou-se que um acrscimo no ganho de

pitch do sinal amostrado foi a forma mais significativa de avaliar o sinal.
Foi verificado que apenas a insero de ganho no processo no um parmetro
controlvel, visto a variao do sinal, que no est sendo realizado nenhum tratamento.
Na tabela 8.1 a seguir, o primeiro teste que apenas incluiu-se o PESQ e aplicou-se um
percentual de ganho de pitch foi realizado de forma serial em todos os frames avaliados.
Obteve-se um ganho de 10% para o arquivo1 de oradores femininos e ganho de 1,54% para o
arquivo1 de oradores masculinos. Isso ocorreu sem a heurstica definida para o teste, pois esta
foi a primeira avaliao.
75
Tabela 8-1 Testes somente com o PESQ inserido no codificador
Na anlise acima, com a aplicao de um ganho linear em todo o processo de

codificao de pitch, obteve-se um percentual de 61,54% de melhora de frames avaliados para
o orador masculino e um percentual de 58,62% de melhora de frames avaliados para o orador
feminino.
Para que o experimento tivesse uma anlise criteriosa, foram estudadas e inseridas as
premissas avaliadas anteriormente na metodologia conforme ambiente de teste proposto,
codificador G729a com avaliao perceptual atravs do algoritmo PESQ, alterando
parmetros de acordo com a heurstica apresentada no capitulo 7.
76
8.1.2.
Avaliao Perceptual Oradores masculino (Arquivo 01)
Nesta avaliao, foi utilizado o ganho de pitch de 1,54%(1/65), sendo esse o melhor
valor avaliado para anlise. Abaixo, o resultado da aplicao proposta de avaliao descrita no
item 7.3.1.
Resultado do programa executado foi inserido na planilha abaixo. Esses valores foram
extrados da execuo da proposta de avaliao com atuao do PESQ.
307,366
308,983
311,001
72,41%
44,83%
Tabela 8-2 Resultado do programa executado no arquivo1 de Oradores Masculinos
somatrio acumulado de frames do PESQ com ganho do pitch do sistema

somatrio acumulado de frames do PESQ com ganho pitch adicional
somatrio acumulado de frames do PESQ com escolha do melhor valor
% de frames garantidos com a aplicao do padro de avaliao perceptual proposto
% de frames melhorados com a aplicao do padro de avaliao perceptual proposto
Ao analisar a implementao proposta, comparando o sinal original com o sinal que

teve atuao do controle com o algoritmo PESQ e adio de ganho de pitch, observa-se a
melhora do sinal avaliado no experimento.
Quando avaliado preceptualmente o sinal de voz, existem frames garantidos (frames
que mantiveram sua pontuao MOS) e frames melhorados (frames com pontuao MOS
superior ao arquivo original). Abaixo, o sinal avaliado a cada intervalo de 28 frames .
PESQ Arquivo1 de Oradores Masculino
4.500
4.000
3.500
MOS
3.000
2.500
2.000
1.500
1.000
500
0
1 3
7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87
Intervalos de frames PESQ amostrados
Original
Modificado (ganho)
Figura 8-1 Grfico da aplicao do ganho no arquivo 01 de Oradores Masculinos
77
Os parmetros avaliados aps a execuo no programa com as alteraes propostas

apresentaram uma melhora no processo garantindo o valor original mantendo o sinal de voz
ou melhorando o sinal de voz ao adicionar ganho e utilizar a heurstica apresentada.
Tabela 8-3 Avaliao dos parmetros extrados do Arquivo1 de Oradores Masculinos
78
Abaixo, os sinais analisados no arquivo1 de oradores masculinos pelo software

Audacity. A figura 8.2 descrita abaixo mostra a leitura do sinal de voz:
Figura 8-2 Arquivo1 Oradores masculinos, sinal codificado e decodificado com atuao do PESQ
Na anlise do espectro abaixo, podemos verificar que a primeira formante, a

frequncia de pitch, varia de acordo com cada orador. Nesta anlise, podemos verificar seis
frequncias distintas.
Figura 8-3 Arquivo1 Oradores masculinos, anlise da frequncia de pitch
79
8.1.3.
Avaliao Perceptual Oradores feminino (Arquivo 01)
Nesta avaliao, foi utilizado o ganho de pitch de 10%(1/10), sendo este o melhor
item 7.3.1.
Resultado do programa executado foi colocado na planilha abaixo. Esses valores
foram extrados da execuo da proposta de avaliao com atuao do PESQ.
316,328
317,365
329,842
55,56%
50,0%

somatro acumulado de frames do PESQ com escolha do melhor valor
Tabela 8-4 Resultado do programa executado no arquivo1 de Oradores Femininos
Ao analisar a pontuao do sinal original com o sinal modificado pela atuao do

controle com o algoritmo PESQ e adio de ganho de pitch, visualiza-se no grfico abaixo a
garantia do sinal quando avaliado perceptualmente. Neste caso, a melhora no foi
significativa como ocorreu no arquivo do orador masculino.
PESQ Arquivo de Oradores Feminino
4.500
4.000
3.500
2.500
2.000
1.500
1.000
500
88
85
82
79
76
73
70
67
64
61
58
55
52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
0
1
MOS
3.000
Intervalos de frames de PESQ amostrados
Original
Modificado (ganho)
Figura 8-4 Grfico da aplicao do ganho no arquivo 01 de Oradores Femininos
80
Os parmetros avaliados aps a execuo no programa com as alteraes propostas.
Tabela 8-5 Avaliao dos parmetros extrados do Arquivo1 de Oradores Femininos
81
Abaixo, os sinais analisados no arquivo1 de oradores femininos pelo software

Audacity:
Figura 8-5 Arquivo1 Oradores femininos, sinal codificado e decodificado com atuao do PESQ
Observam-se na figura 8.6 as diferentes formantes para cada um dos seis oradores no
arquivo de teste elaborado para o experimento.
Figura 8-6 Arquivo1 Oradores femininos, analise da frequncia de pitch
82
8.1.4.
Avaliao Perceptual Oradores masculino (Arquivo 02)
Nesta avaliao, foi utilizado o ganho de pitch de 2,86% (1/35), sendo este o melhor
item 7.3.1.
426,227
426,799
433,666
52,94%
46,32%
Tabela 8-6 Resultado do programa executado no arquivo2 de Oradores Masculinos

Ao analisar a pontuao do sinal original com o sinal que teve atuao do controle
com o algoritmo PESQ e adio de ganho de pitch, visualizam-se, no grfico abaixo, a
garantia e a melhora do sinal quando avaliado perceptualmente.
PESQ Arquivo2 de Oradores Masculino
4.500
4.000
3.500
MOS
3.000
2.500
2.000
1.500
1.000
500
0
1
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96 101 106 111 116 121 126 131 136
Intervalos de frames de PESQ amostrados
Original
Modificado (ganho)
Figura 8-7 Grfico da aplicao do ganho no arquivo 02 de Oradores Masculinos
83
Tabela 8-7 Avaliao dos parmetros extrados do Arquivo2 de Oradores Masculinos
84
Abaixo, os sinais analisados no arquivo2 de oradores masculinos pelo software

Audacity:
Figura 8-8 Arquivo2 Oradores masculinos, sinal codificado e decodificado com atuao do PESQ
Figura 8-9 Arquivo2 Oradores masculinos, analise da frequncia de pitch
85
8.1.5.
Avaliao Perceptual Oradores feminino (Arquivo 02)
Nesta avaliao foi utilizado o ganho de pitch de 1,82% (1/55), sendo este o melhor
item 7.3.1.
428,255
429,932
435,920
61,65%
50,38%

Tabela 8-8 Resultado do programa executado no arquivo2 de Oradores Femininos
Ao analisar a pontuao do sinal original com o sinal modificado pela atuao do

controle com o algoritmo PESQ e adio de ganho de pitch, visualiza-se, no grfico abaixo, a
garantia do sinal quando avaliado perceptualmente.
PESQ Arquivo2 de Oradores Feminino
4.500
4.000
3.500
2.500
2.000
1.500
1.000
500
133
129
125
121
117
113
109
105
97
101
93
89
85
81
77
73
69
65
61
57
53
49
45
41
37
33
29
25
21
17
13
0
1
MOS
3.000
Intervalos de frames do PESQ amostrados
Original
Modificado (ganho)
Figura 8-10 Grfico da aplicao do ganho no arquivo 02 de Oradores Femininos
86
Tabela 8-9 Avaliao dos parmetros extrados do Arquivo2 de Oradores Femininos
87
Abaixo os sinais analisados no arquivo1 de oradores femininos pelo software

Audacity:
Figura 8-11 Arquivo2 Oradores femininos, sinal codificado e decodificado com atuao do PESQ
Figura 8-12 Arquivo2 Oradores femininos, analise da frequncia de pitch
88
9.
Concluses
A avaliao foi realizada sobre um modelo de codificao da voz que analisa a

qualidade perceptual. Foi inserido dentro do cdigo fonte do codificador G729a, o algoritmo
do PESQ. Este critrio de deciso para as intervenes no sistema teve importantes
consideraes a ressaltar.
1-O codificador, ao iniciar o processamento do sinal de voz para codificao, utiliza
como referncia o valor mais expressivo da escala de quantizao do ganho de pitch. Esse
processo quando constatado foi excludo do critrio de avaliao de deciso, retirando a ao
de controle dos dois primeiros frames, visto que a influncia desses frames distorcia a anlise
do sinal, quando executando a heurstica proposta.
2- A ausncia de sinal tambm foi um item importante da anlise. Segundo (ITU
P862, 2001), a avaliao perceptual obtida pelo algoritmo do PESQ somente quando existe
um perodo de silncio inferior a 25% do frame de voz analisado. Sendo este o entendimento
para os frames no avaliados quando executado o algoritmo.
3- O mapeamento dos ganhos de pitch e de codificao no quantizados no
codificador G729a importante para avaliar que a pontuao mais significativa. Em todas as
anlises realizadas, utilizou-se somente o ganho de pitch. Foi obtida uma melhor avaliao
perceptual quando efetuada adio de ganho. Deste modo, desconsiderou-se a utilizao do
ganho de codificao como parmetro para melhoria de qualidade do sinal.
4- Foi realizado teste com os dois ganhos simultneos, pitch e codificao. Entretanto,
com o padro de avaliao adotado pela heurstica, no foi obtido sucesso na melhora do
processo, pois os valores de ganhos foram verificados separadamente e no esto
automatizados.
89
5- Foram verificados parmetros especficos do codificador como os valores do

GAMMA(varivel no cdigo fonte do G729a). Esse parmetro altera as caractersticas do
filtro de ponderao do codificador. Entretanto, este um valor fixo no encoder e no decoder.
Assim, tendo como proposta desta dissertao a avaliao do sinal na origem, no foram
realizadas alteraes em parmetros tabelados pelo codificador para no alterar o processo de
decodificao do sinal.
6- A proposta de modificar frames a frames o sinal de voz dinamicamente, ou seja,
avaliados a cada intervalo de 28 frames pelo PESQ foi realizada com sucesso. Apesar de um
valor baixo para o somatrio do PESQ, a melhoria perceptual ocorreu. Constatou-se que o
PESQ efetua a mdia das avaliaes do sinal de voz amostrado. Na anlise de um arquivo
inteiro o valor do PESQ no altera muito a pontuao referida na escala MOS, com variao
de 0 5 pontos. Neste sentido, cabe ressaltar que o algoritmo do PESQ aplica a pontuao
mxima de 4,5 pontos para sinais idnticos.
7- A heurstica realizada para obter resultados de melhoria perceptual do sinal de voz
foi efetuada com sucesso. Abaixo, um resumo dos parmetros avaliados para cada conjunto de
oradores. O somatrio acumulado a soma do valor da pontuao MOS que cada intervalo de
28 frames do PESQ.
Tabela 9-1 Anlise do ganho de pitch sobre a proposta de avaliao
Na linha 1 da tabela acima tem o resultado da avaliao do sinal de voz original. Na

linha 2, o resultado do sinal de voz avaliado com a heurstica proposta sempre obteve
melhoria no sinal analisado, conforme valores dos parmetros da linha 4 e da linha 5.
No foi implementada a heurstica de controle do melhor sinal, devido a necessidade de
armazenamento temporrio(buffer) para escolha do sinal. De acordo com a tabela 9-1, linha
3, a melhoria de desempenho seria muito pequena para justificar a carga computacional
necessria para aplicao da heurstica de controle do melhor sinal.
90
8- O ganho aplicado ao sinal de voz para avaliao perceptual verificado para cada
orador ou conjunto de oradores, devido a variao do sinal, sendo essa anlise, um item
particular e importante no processo de melhoria. Conforme descrito na linha 6, os ganhos
no possuem uma relao direta com o orador e sim com a frequncia de pitch.
9- A avaliao do sinal de voz, tendo como origem o bloco de codificao do sinal, uma
anlise a ser explorada, uma vez que o orador tenha o seu ganho adicional de pitch mapeado
na fonte de codificao. O sistema tem condies de realizar interaes no processo para
melhoria do sinal de voz codificado.
Neste sentido, essa avaliao tem uma contribuio para a melhora dos sinais em
equipamentos de uso pessoal como smartphones e tablets. O orador principal (usualmente o
proprietrio do equipamento codificador)
pode ter suas caractersticas apreendidas pelo
codificador, durante o uso prolongado pela contnua interao com o equipamento.

A realizao dessa pesquisa foi motivada pela proposta de anlise de melhoria do sinal
codificado na fonte do codificador, a avaliao perceptual foi a ferramenta para validao do
experimento.
9.1.
Sugestes para trabalhos futuros
Como relatado acima, a anlise de avaliao perceptual do bloco de origem da codificao

do sinal um tema amplo, pois existem diversos mecanismos para melhorar perceptualmente
o sinal de voz codificado.
Abaixo as abordagens sugeridas para propostas de continuidade deste trabalho:
1- Estudo sobre a automatizao e a verificao de ganho de pitch, efetuando a
identificao do gnero do orador, para que o codificador possa apreender o pitch e efetuar
uma melhoria constante.
91
2- Estudo de avaliao para guardar momentaneamente (bufferizar) o sinal de entrada, em

que seja possvel mapear a escolha do melhor sinal de voz, possibilitando sempre utilizar o
melhor valor. Cabe ressaltar a necessidade de averiguar o impacto de atraso do sinal pelas
premissas do PESQ e visto que o objetivo a melhoria dinmica do sinal, ou seja, avaliao
em tempo real ou mais prximo possvel.
3- Estudo da utilizao do mapeamento das distncias dos vetores do codebook para
avaliao de vetores prximos, como forma de extrair outros valores de ganhos prximos.
Isso para que seja possvel comparar o resultado desta ao com o mapeamento de adio
escalar efetuado neste trabalho, na tentativa de obter uma resposta mais assertiva quando
comparada com o a heurstica atual implementada.
4- Explorar novos e diferentes algoritmos de pesquisa, bem como novas heursticas,
refinando o processo de controle e tomada de deciso do codificador.
92
10. Referncias Bibliogrficas

(HAYKIN e VEEN, 1999) Simon Haykin e Barry Van Veen, Signal and Systems, John
Willey & Sons Inc, 1999 (Re-impresso 2007).
(FURUI, 2001) Sadaoki FURUI, Digital speech processing, synthesis, and recognition,
Marcel Dekker, New York, 2001 (2 edition).
(OSHAUGHNESSY, 1999) Douglas OShaugnessy, Speech communications, human and
machine, Wiley-IEEE Press, Montreal, 1999 (2 edition).
(RABINER e SCHAFER, 1978) Laurence
Rabiner
Ronald W. Schafer, Digital
Processing of Speech Signals, Prentice Hall, US, 1978 .
(EMBREE e KIMBLE, 1991) Paul M. Embree e Bruce Kimble, C language Algorithms for
Digital Signal Processing, Prentice Hall, US, 1991.
(PROAKIS e MANOLAKIS, Jhon G. Proakis e Dimitris G. Manolakis, Digital Signal

Processing, Principles, Algorithms. And Applications, Prentice Hall, 2007 (4 edition).
(BULTHEEL e BAREL, ) Adhemar Bultheel and Marc Van Barel, Paper: Linear prediction:
mathematics and engineering. Department os Computing Science, K.U.Leuven, Belgium.
Acessado em junho/2010.
http://www.emis.de/journals/BBMS/Bulletin/bul941/BULTHEEL.PDF
(CINNIDE, 2008) Alan Cinnide. Paper: Linear Prediction The Technique, Its
Solution and Application to Speech, Dublin Institute of Technology. Acessado em
junho/2010. http://eleceng.dit.ie/papers/92.pdf
93
(MAKHOUL, 1975) John Makhoul. Publicao: Linear Prediction: A Tutorial Review.

Proceedings of the IEEE, Volume 63, nro 4, Abril/1975.
(LINDE, BUZO e GRAY, 1985) Yoseph Linde, Andrs Buzo e Robert M. Gray, An
Algorithm for Vector Quantizer Design, IEEE Transactions on Communications, pp. 702--
710, January 1980

(YNOGUTI) Carlos Alberto Ynoguti. Notas de aula: Psicoacstica e Codificao
Perceptual, Inatel. Disponvel em http://cict.inatel.br/nova2/docentes/ynoguti/e724/Audio.pdf
(ITU P800, 1996) ITU-T. Methods for subjective determination of transmission quality.
International Telecommunications Union, 08/1996. (ITU-T Recommendation P.800.0).
http://www.itu.int/rec/T-REC-P.800-199608-I/en
(ITU P800.1, 2006) ITU-T. Mean Opinion Score (MOS) terminology. International
Telecommunications Union, 07/2006. (ITU-T Recommendation P.800.1).
http://www.itu.int/rec/T-REC-P.800.1/en
(ITU P830, 1996) ITU-T. Telephone Transmission Quality, Methods for objective and
subjective Assessment of Quality. International Telecommunications Union, 02/1996. (ITU-
T Recommendation P.830). http://www.itu.int/rec/T-REC-P.830-199602-I

(ITU P861, 1998) ITU-T. Objective quality measurement of telephone-band (3003400Hz) speech codecs. International Telecommunications Union, 02/1998. (ITU-T
Recommendation P.861). http://www.itu.int/rec/T-REC-P.861/e

(ITU P862, 2001) ITU-T. Perceptual Evaluation of Speech Quality. International
Telecommunications
Union,
02/2001.
(ITU-T
Recommendation
P.862.0).
http://www.itu.int/rec/T-REC-P.862/en
(FERNANDES, 2003) Nelson Luiz Leal. Dissertao, Relao entre a qualidade das
respostas das recomendaes G723 e G729, e o comportamento da rede IP de
suporte.COPPE/UFRJ 2003. Acessado em Outubro/2010.
http://www.ravel.ufrj.br/sites/ravel.ufrj.br/files/publicacoes/voip.pdf
94
(MAGRO, 2005) Jlio Csar Magro. Dissertao, Estudo da Qualidade de Voz em redes
IP. FEEC/UNICAMP. Acessado em Outubro/2010.
http://cutter.unicamp.br/document/?code=vtls000365297
(GOLDBERG, 2000) Randy G. Goldberg. e-book, A Pratical Hundbook of Speech Coders,
Ed. Randy Goldberg, Boca Raton: CRC Press LLC, 2000
(VARY e MARTIN, 2006) Peter Vary e Rainer Martin, Digital Speech Transmission, Jhon
Wiley & Sons Ltda, England, 2006 .
(ITU G711, 1988) ITU-T. Pulse code modulation (PCM) of voice frequencies. International
Telecommunications Union, 11/1988. (ITU-T Recommendation G.711.0).
http://www.itu.int/rec/T-REC-G.711-198811-I/en
(ITU G729, 1996) ITU-T. Coding of speech at 8 kbit/s using conjugate-structure
algebraic-code excited linear-prediction. International Telecommunications Union,
03/1996. (ITU-T Recommendation G.729.Annex A). http://www.itu.int/rec/T-REC-G.729199603-S/en

(ITU G729a, 1996) ITU-T. Reduce complexity
8 kbit/s CS-ACELP speech codec.
International Telecommunications Union, 11/1996. (ITU-T Recommendation G.729.0 Annex

A). http://www.itu.int/rec/T-REC-G.729-199611-S!AnnA/en
(PREGO e NETTO, 2008) Tiago M Prego e Sergio L. Netto. Paper, Algoritmo de Busca
eficiente no Dicionrio Adaptativo para Codec ITU-T G.729. XXVI Simpsio Brasileiro
de Telecomunicaes SBrT , 09/2008. Acessado em Setembro/2010.

http://www02.lps.ufrj.br/~sergioln/papers/BC16.pdf
(GOMES, 2008) Alexandre Guazzi Gomes. Dissertao, Codificador de Voz CELPS:
Verso estruturada e deteco de silncio. LPS- Departamento de Eletrnica e Computao
UFRJ, 12/2008. Acessado em Setembro/2010.

http://www02.lps.ufrj.br/~sergioln/theses/bsc20alexandreguazzi.pdf
95
(CHU, 2003) WAI C. CHU, Speech coding algorithms. Foundation and evolution of
standardized coders, Mobile Media Laboratory/DoCoMo USA Labs, San Jose, California,
2003.
(KONDOZ, 2003) A.M. KONDOZ, Coding for low Bit rate Communication Systems,a
University of Surrey, UK, New York, John Wiley & Sons, 2004 .
(SCHROEDER e ATAL, 1985) M. R. Schroeder and B. S. Atal, Code-excited linear
prediction (CELP): high-quality speech at very low bit rates, in Proceedings of the IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 10, pp.
937-940, 1985.
(Jayant e Noll, 1984) N.S. Jayant e P.Noll, Digital Coding of Waveforms, Principles and
Applications to Speech and Video, Prentice Hall, Englewood Cliffs, NJ, 1984.
(Woodard, J. P., 1995) Woodard, J. P., Commonly speech codecs., Acessado em

Setembro/2011 http://wwwmobile.ecs.soton.ac.uk/speech_codecs/common_classes.html
(Gomes, A. G., 2008) Alexandre Guazzi Gomes, Dissertao Codificador de Voz CELPS:
Verso estruturada e deteco de silncio, DEL UFRJ, acessado em Dezembro 2010.
(Audacity1.3.12,2010) Audacity Software de Avaliao de Sinais de Audio. Release of

Audacity is 1.3.12 (Beta). Acessado em Junho/2010.
http://audacity.sourceforge.net/download/
96
97
11. Anexo
11.1. Arquivos de testes do Banco de dados
Timit
Arquivo1 de teste dos oradores masculino: Orador_masculino8k.wav
Arquivo 01:
Texto:
sx327.wav
Al received a joint appointment in the biology and the engineering departments.
Arquivo 02:
Texto:
si824.wav
Positive results start when it goes towards the hand you use to make your mark.
Arquivo 03:
Texto:
si045.wav
It offered to surrender its right to exclusive trade, but asked an indemnity
Arquivo 04:
Texto:
si918.wav
We know that actors can learn to portray a wide variety of character roles
Arquivo 05:
Texto:
si675.wav
Both eventualities are possible logically, but practically they are impossible
Arquivo 06:
Texto:
si631.wav
Program note reads as follows: take hands; this urgent visage beckons us
Arquivo1 de teste dos oradores feminino: Orador_feminino8k.wav

Arquivo 01:
Texto:
sx451.wav
The thick elm forest was nearly overwhelmed by Dutch Elm Disease
Arquivo 02:
Texto:
sx333.wav
An adult male baboon's teeth are not suitable for eating shellfish
Arquivo 03:
Texto:
si434.wav
Conceivably the submarine defense problem can be solved by sufficient forces
Arquivo 04:
Texto:
si418.wav
Personal predispositions tend to blunt the ear and, in turn, the voice as well
Arquivo 05:
Texto:
si836.wav
No manufacturer has taken the initiative in pointing out the cost involved
Arquivo 06:
Texto:
si788.wav
We have become amateur insurance experts and fine-feathered yard birds
98
Arquivo2 de teste dos oradores masculino: Orador_masculino8k2.wav

Arquivo 01:
Texto:
sx449.wav
Ralph prepared red snapper with fresh lemon sauce for dinner
Arquivo 02:
Texto:
si1079.wav
Boys and men go along the riverbank or to the alcoves in the top arcade
Arquivo 03:
Texto:
si2305.wav
As you can count on me to do the same
Arquivo 04:
Texto:
si2004.wav
She had jumped away from his shy touch like a cat confronted by a sidewinder
Arquivo 05:
Texto:
si1374.wav
This leaves the ordering of entries variable
Arquivo 06:
Texto:
si774.wav
Get copper or earthenware mugs that keep beer chilled or soup hot.
Arquivo2 de teste dos oradores feminino: Orador_feminino8k2.wav

Arquivo 01:
Texto:
sx397.wav
Tim takes Sheila to see movies twice a week.
Arquivo 02:
Texto:
sx117.wav
The mango and the papaya are in a bowl
Arquivo 03:
Texto:
si1377.wav
As these maladies overlap, so must the cure.
Arquivo 04:
Texto:
si2007.wav
To his puzzlement, there suddenly was no haze
Arquivo 05:
Texto:
si614.wav
This big, flexible voice with uncommon range has been superbly disciplined.
Arquivo 06:
Texto:
si2048.wav
The kid has no manners, boys
99
12. Apndices
12.1. Apndice A - Resultado do Arquivo1 de
Oradores masculinos
C:\>cd project_test
C:\project_test>G729.exe Orador_masculino8k.wav masculino_teste1
Inicializa arq1= 1
Inicializa arq2= 1
**********
ITU G.729A 8 Kbits/seg Speech Coder
**********
------------------- Simulacao codec com PESQ ---------------------------- Versao 1.0 (Release 3, TESTE 21_07_2011) --------Entrada do arquivo de teste: Orador_masculino8k.wav
Saida do arquivo bitstream: masculino_teste1
vai declarar variaveis novas
%
Orador_masculino8k.wav
Orador_masculino8k.wavdecoded
masculino_teste1frame
tamanho do arquivo: 4480 pesq: 2.210000
ganho01_escrita1= 65
controle= 1
controle= 1
100

controle= 1
controle= 1
controle= 2
controle= 3
sem ACRESCIMO pitch= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
101

controle= 1
controle= 1
controle= 2
controle= 1
controle= 2
controle= 3
controle= 1
controle= 2
controle= 1
controle= 1
controle= 1
controle= 1
102

controle= 1
controle= 2
controle= 3
controle= 1
controle= 2
controle= 1
controle= 1
controle= 2
controle= 1
controle= 1
controle= 2
103

total frames:2783
Somatorio das notas dos frames PESQ : 308.983000
C:\project_test>
104
12.2. Apndice B - Resultado do Arquivo1 de

Oradores femininos
C:\project_test>G729.exe Orador_feminino8k.wav feminino_teste1
Inicializa arq1= 1
Inicializa arq2= 1
**********
**********
------------------- Simulacao codec com PESQ ---------------------------- Versao 1.0 (Release 3, TESTE 21_07_2011) --------Entrada do arquivo de teste: Orador_feminino8k.wav
Saida do arquivo bitstream: feminino_teste1
%
Orador_feminino8k.wav
Orador_feminino8k.wavdecoded
feminino_teste1frame
controle= 1
controle= 1
controle= 1
controle= 1
105

controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
106
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
107
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
108
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
109

total frames:2937
C:\project_test>
110
12.3. Apndice C - Resultado do Arquivo2 de

Oradores masculinos
C:\project_test1>G729.exe orador_masculino8k2.wav masculino_teste2
Inicializa arq1= 1
Inicializa arq2= 1
**********
**********
------------------- Simulacao codec com PESQ ---------------------------- Versao 1.0 (Release 3, TESTE 21_07_2011) --------Entrada do arquivo de teste: orador_masculino8k2.wav
Saida do arquivo bitstream: masculino_teste2
%
orador_masculino8k2.wav
orador_masculino8k2.wavdecoded
masculino_teste2frame
controle= 1
controle= 1
controle= 1
controle= 1
111

controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
112
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
113

controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
114
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
115
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
116

controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
117
controle= 1
controle= 1
controle= 1
controle= 1
total frames:4275
C:\project_test1>
118
12.4. Apndice D - Resultado do Arquivo2 de

Oradores femininos
C:\project_test1>G729.exe Orador_feminino8k2.wav feminino2_test
Inicializa arq1= 1
Inicializa arq2= 1
**********
**********
------------------- Simulacao codec com PESQ ---------------------------- Versao 1.0 (Release 3, TESTE 21_07_2011) --------Entrada do arquivo de teste: Orador_feminino8k2.wav
Saida do arquivo bitstream: feminino2_test
%
Orador_feminino8k2.wav
Orador_feminino8k2.wavdecoded
feminino2_testframe
controle= 1
controle= 1
controle= 1
controle= 1
119
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
120

controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
121
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
122
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
123
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
124

controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
controle= 1
125
controle= 1
controle= 1
controle= 1
total frames:4077
C:\project_test1>
126

Avaliação Perceptual Do Codec G729 Utilizando Algoritmo PESQ

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Avaliação Perceptual Do Codec G729 Utilizando Algoritmo PESQ

Uploaded by

Copyright:

Available Formats

PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL

FLVIO LUIS WISNEVSKI.

CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDADE

FLVIO LUIS WISNEVSKI

CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDADE

DISSERTAO APRESENTADA COMO

Orientador: Prof. Dr. Rubem Dutra Ribeiro Fagundes

CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDADE

FLVIO LUIS WISNEVSKI

DISSERTAO APRESENTADA COMO

Porto Alegre, 25 de Agosto de 2011.

minha esposa Lisiane,

Agradeo Deus pelas oportunidades de vida que tem me proporcionado.

Um professor afeta a eternidade; ele

Esta dissertao apresenta um modelo de codificador da voz que avalia a qualidade

Codificao de voz, predio linear, anlise perceptual, G729a, PESQ .

Currently the voice coding is evaluated by subjective parameters, where there is a

In the experiment, was performed in modified CS-ACELP coder using a perceptual

Speech coding, linear prediction, perceptual analysis, G729a, PESQ.

1.1. Objetivo .................................................................................................................... 15

7.1. Plataforma de experimento (G729a com PESQ)...................................................... 62

Apndice A - Resultado do Arquivo1 de Oradores masculinos......................... 100

a) Modelo de produo da fala

b) Modelo do trato vocal......................... 34

Figura 6-1 Relao do MOS x Taxa de Transferncia dos diversos codificadores..............58

- Perceptual Evaluation of Speech Quality

- Mean Opinion Score

- Telecomunication Standardization of International Telecomunication Union

- Pulse Code Modulation

- Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP

- Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP Anexo A

- Global System for Mobile Communications

- Residual Excited Linear Prediction

- Dispositivo de hardware ou software que codifica e decodifica sinais.

ENCODER - Codificador do sinal de voz amostrado

- Line Spectrum Frequency

- Line Spectrum Pair

- Banco de dados de 630 oradores em 8 dialetos do ingls Americano.

- Software de anlise e manipulao de sinais de udio.

O sistema de telecomunicaes abrange uma gama de sinais e servios e os sinais

da implementao do algoritmo do PESQ (Perceptual Evaluation of Speech Quality) no

captulos conforme abaixo:

Anlise do Aparelho Fonador

O processo de produo da fala utilizado para a comunicao entre os interlocutores

Processo Fisiolgico de Produo de Voz

Figura 2-1 rgos de produo da fala Sistema do Trato Vocal.

A descrio do trato vocal (OSHAUGHNESSY, 1999) relata que os pulmes so

Sistema de produo de voz e as suas formantes

O sistema de produo de voz formado por um conjunto de frequncias de

Abaixo a anlise do espectro de frequncia de pitch realizada no sinal da figura 2.2.

Figura 2-3 Ptch do sinal de voz amostrado

O sistema vocal, conforme excitao do trato vocal, classifica-se em trs categorias:

som fricativo. Um exemplo a produo do som da vogal f (compresso do trato vocal

Figura 2-4 Exemplo de historiograma da frequncia fundamental

Modelo de Produo do Sinal de Voz

Figura 2-5 Diagrama em blocos do modelo para produo de voz.

Figura 2-6 Diagrama em blocos do sinal de excitao para sons sonoros

Para representar a frequncia fundamental do sinal, um gerador de impulso produz o

A funo g n tem comprimento finito e sua transformada Z apresenta apenas zeros.

A representao para g n , utilizando um modelo de dois plos, pode ser formulada

para representar G Z , tendo a seguinte formulao:

No domnio da frequncia, o pulso glotal introduz um efeito passa-baixas, onde a

Modelagem do Trato vocal