You are on page 1of 51

LUCAS FRANÇOLIN DA PAIXÃO

GRR20062344

PADRÕES DE COMPACTAÇÃO DE ÁUDIO

Monografia apresentada à disciplina HA


093 - Trabalho de Graduação II como
requisito parcial à conclusão do Curso de
Produção Sonora, Departamento de
Artes, SCHLA, Universidade Federal do
Paraná.

Orientador: Prof. Dr. Hugo S. Melo

Curitiba
2009
ii

RESUMO

Esse trabalho abrange dois processos: compreender os principais formatos de


áudio digital existentes e detalhar suas diferenças. Para isso é explicado sinteticamente
como é feita a digitalização do sinal de áudio analógico através do padrão PCM. Os
formatos são categorizados em três tipos: Sem compactação, compactado sem perdas e
compactado com perdas. Por fim, são apresentados quatro métodos para estabelecer
comparações entre os padrões e exemplos escolhidos para este trabalho, alguns
resultados de aplicações dos métodos foram armazenados num CD-ROM anexo.

ABSTRACT

This monograph includes two processes: to understand the main existent digital
audio formats and detail the differences among them. It includes an explanation about
how analog audio is converted to digital using PCM. The digital formats are categorized
in three types: No compression, lossless compression and lossy compression. At last,
are presented four methods to determine a comparison among the standards and are
included examples of the comparisons. Some results of the methods are included in the
attached CD-ROM.
iii

SUMÁRIO

1. INTRODUÇÃO .................................................................................................................... 1
2. NOÇÕES DE SISTEMAS DIGITAIS ................................................................................. 6
2.1 Modulação por código de pulsos .............................................................................. 7
2.2 Quantização ............................................................................................................. 7
2.3 Taxa de amostragem ................................................................................................ 8
2.3.1 Teorema de Nyquist ..................................................................................... 9
2.3.2 Anti-aliasing ................................................................................................. 9
2.3.3 Jitter ............................................................................................................ 10
2.4 Conversores Analógico/Digital e Digital/Analógico ............................................. 11
2.5 Compactação de dados .......................................................................................... 12
2.5.1 Compactação de áudio com auxílio de codificação perceptiva.................. 14
3. FORMATOS DE ÁUDIO ................................................................................................. 17
3.1 Sem compactação ................................................................................................... 17
3.2 Compactação com perdas ...................................................................................... 18
3.3 Compactação sem perdas ...................................................................................... 20
4. CODIFICADORES E DECODIFICADORES .................................................................. 22
5. METODOLOGIA .............................................................................................................. 24
5.1 Processos de comparação ....................................................................................... 24
5.1.1 Verificação de bits ...................................................................................... 24
5.1.2 Verificação de artefatos .............................................................................. 25
5.1.3 Teste ABX .................................................................................................. 26
5.1.4 Análise de espectrogramas ......................................................................... 27
5.2 Fatores de influência............................................................................................... 30
5.2.1 Taxa de compactação.................................................................................. 30
5.2.2 Consumo de recursos do sistema................................................................ 30
5.3 Métodos de comparação ......................................................................................... 30
6. CONCLUSÃO ................................................................................................................... 33
7. REFERÊNCIAS ................................................................................................................. 45
7.1 Livros ..................................................................................................................... 45
7.2 Internet ................................................................................................................... 45
7.3 Periódicos .............................................................................................................. 45
8. ANEXOS ............................................................................................................................ 47
1. INTRODUÇÃO

O desenvolvimento de novas tecnologias para armazenamento de dados reduziu


o custo de armazenar informações digitais e a popularização dos computadores
viabilizou digitalizar inúmeras formas de informações: publicações em papel (que
abrangem jornais, revistas, livros, gráficos, gravuras, fotografia) e registros de sons e
imagens em movimento (por fotogramas e vídeo).
São vantagens de armazenar informações em formato digital:
• Redução do espaço físico (“bits ocupam menos espaço que átomos”)1;
• Menor custo;
• Maior duração do registro;
• Facilidade e rapidez em transmitir e copiar fielmente;
• Ausência de desgaste em sua manipulação.
São desvantagens em armazenar informações em formato digital:
• Possível perda de qualidade no processo de digitalização;
• Necessidade de fonte energética para acesso às informações;
• Maior dificuldade em controlar a pirataria (cópia ilegal de informações);
• Incompatibilidade entre formatos, mídias e equipamentos;
• Obsolescência das tecnologias.

A digitalização de grandes acervos foi bastante explorada na década de 1990 e o


volume armazenado aumenta conforme o custo em armazenar diminui e são
estabelecidos padrões de mídia (material físico para armazenar dados). As mídias mais
usadas para armazenar informações são: eletromagnéticas (fitas, disquetes e discos-
rígidos), ópticas (CD, DVD2 e Blu-Ray) e de “memórias flash”3 (chips de cartão e
aparelho celular, pen-drive e SSD)4. Conforme aumenta o uso padrão de tecnologias,

1
Adaptado, forma abstrata para comparar as diferentes naturezas físicas entre bits e átomos
(NEGROPONTE, 1995, Cap. 1)
2
Acrônimos de Compact Disc e Digital Video Disc. (HOLMES, 2006, p. 55 – 56)
3
Memória de computador não volátil (não perde informações quando desligada) que pode ser apagada e
reprogramada.
4
Chip termo informal para circuito integrado, pen-drive é o termo popular para dispositivo flash com
barramento serial universal (USB) e SSD é acrônimo de Solid Stage Drive, dispositivo que possivelmente
substituirá os discos rígidos em equipamentos portáteis devido a sua melhor eficiência energética e
ausência de partes mecânicas móveis.
2

seu custo é barateado, a incompatibilidade entre formatos diminui e sua capacidade


aumenta. Novos formatos de armazenamento em circuito integrado estão diminuindo
muito o consumo de energia para acesso dos dados. Uma importante desvantagem é a
dificuldade em controlar a distribuição5 e verificar autenticidade das informações6.

É cada vez mais comum a geração de informações diretamente num padrão


digital que são transmitidas principalmente pela Internet. A Internet é o veículo de
comunicação que mais integrou diferentes padrões de informação digital, além de
possibilitar maior uso e tráfego de informações digitais. A geração de dados diretamente
em padrão digital começou principalmente para informações de texto, depois passou a
ser utilizada para gráficos, fotos, áudio e vídeo. Isso se deve ao fato de que armazenar
informações de texto consome muito menos bits que informações de áudio e vídeo.
No início da era de informações digitais, em particular com o advento do CD no
início da década de 19807, o alto consumo de bits para armazenar tais informações foi o
fator que inviabilizou o armazenamento das informações em código binário. O custo de
armazenamento digital de material fotográfico em alta resolução era demasiado caro em
comparação com impressão das fotos em papel de alta qualidade. No entanto, com a
popularização e adoção das novas tecnologias, o custo por bit diminuiu muito a ponto
de se tornar viável o registro de fotos diretamente em formato digital.
Juntamente com o barateamento dos bits, outro aspecto muito importante
viabilizou o aumento significativo na velocidade de adoção e uso das informações
digitais: a tecnologia de compactação de dados.
A compactação de dados está presente em diversas mídias. As imagens exibidas
em páginas da internet são em maioria nos formatos JPEG e GIF, modems usam
compactação, receptores de sinal digital de TV usam MPEG-2 e sites de
compartilhamento de vídeos usam vários padrões de compactação.

5
A dificuldade de controle de distribuição de arquivos digitais facilitou a prática de cópias e distribuição
ilegal de material de propriedade autoral em redes como a Internet.
6
O fato de não haver uma forma confiável de verificar a autenticidade das informações digitais sem
consulta ao autor é um dos motivos pelos quais as informações digitais ainda não são consideradas
seguras como única forma de divulgação.
7
A referência ao início da década de 1980 também é realizada como “revolução de música digital” no
período em que a distribuição de músicas em CD superou a de vinis. (FRIES, 2000, Cap. 1. HOLMES,
2006, p. 53)
3

Comprimir é diferente de compactar. Por exemplo, ao pressionar o êmbolo de


uma seringa vedada preenchida por ar, as moléculas de ar são amontoadas num menor
volume, o que podemos chamar de compressão do ar. A mesma quantidade de ar passou
a ocupar menos espaço.
Já a compactação implica em mudar os parâmetros de representação, para que os
dados originais possam ser representados por um número menor de informações, e que
possa ser revertido, fornecendo de volta a informação original. Na compactação de
dados digitais, pode ocorrer um grau variável de arredondamento de valores, o que
resulta em uma compactação ainda mais eficiente, mas com leve alteração nos dados,
que é a compactação com perdas. Pode-se perceber os efeitos arredondamento de
valores em compactação de imagens como na compressão de fotos em formato JPEG,
muito usada em câmeras digitais. No céu, por exemplo, centenas de diferentes tons de
azul podem ser aproximados para um número de menor de tons de azul, que dão mais
homogeneidade à imagem, assim como em fotos de pessoas em que o arredondamento
de valores pode homogeneizar tons de cores da pele, não representando com detalhes
imperfeições como veias, espinhas e pequenos pelos, “melhorando” seu aspecto final.
Esses são exemplos de artefatos de compactação com perdas que não prejudicam a
qualidade do produto final, podendo até ser considerados como efeitos desejados.8 Em
arquivos de áudio, até certo grau, a compactação pode não provocar efeitos perceptíveis.
A existência de artefatos no processo de compactação é evidência de uso de um
algoritmo que possibilita perdas de dados com intuito de aumentar intensidade da
compactação.9
Nesse trabalho de graduação o termo compactação é usado no lugar de
compressão para evitar ambiguidade com o processo de controle de dinâmica em áudio
conhecido como “compressão de áudio”. A compressão de dinâmica do áudio pode ter
relações indiretas com o tema “compactação de áudio” como efeito colateral
(artefato10).11

8
Existem filtros específicos para manipular imagens digitais e causar efeitos como ocultar imperfeições
indesejadas. Nesse caso o processo é intencional e dirigido, e não um artefato causado por compressão de
imagens.
9
No capítulo 2.3 estão categorizados os tipos de compactação de dados e no capítulo 3 são tratados os
formatos de compactação de áudio.
10
O termo artefato designa ao resultado de imperfeição artificial.
11
O uso dos termos “compressão”, “compactação de áudio” está adaptado conforme o guia de tecnologia.
(HOLMES, 2006, p. 55 – 56)
4

Foram desenvolvidos nos últimos 30 anos diversos padrões de compactação de


dados, cada padrão tem eficiências diferentes para cada determinado tipo de
informação. Existem algoritmos codificadores que podem ser aplicados a qualquer tipo
de informação e algoritmos restritos a informações armazenadas em formatos de
arquivos específicos. Os algoritmos de compactação específicos têm melhor eficiência
que os “genéricos”. Existem algoritmos específicos para diversos tipos de arquivos que
envolvem desde texto formatado até áudio e vídeo.
Uma informação compactada demanda menor capacidade de armazenamento,
mas requer a existência de um sistema capaz de decodificar a compactação de forma
que ele seja descompactado para que a informação possa ser utilizada. Pode-se
comparar a qualquer móvel, como uma cadeira que pode ser armazenada e transportada
ocupando pouco espaço físico ao ser empilhada, mas não pode ser utilizada antes de ser
desfeito o empilhamento. Assim como nos arquivos, a cadeira pode ser empilhada de
formas diferentes, sendo que uma pode ser mais eficaz que outras e também aplicável
ou não a outros móveis ou diferentes formatos de cadeiras. Cada diferente maneira de
empilhar objetos requer uma específica maneira de desfazer o empilhamento. Cada
diferente compactador de arquivos requer um descompactador compatível para acessar
os dados.
Assim como informações de áudio e vídeo são mais complexas que informações
de texto, a compactação dessas informações também é mais complexa. A quantidade de
informações requerida para armazenar áudio e imagens é muito maior que a quantidade
requerida para texto. A maior necessidade de espaço de armazenamento requereu
desenvolver tecnologias específicas para compactação de áudio e vídeo. Na verdade, as
primeiras pesquisas para compactação de áudio estavam atreladas à compactação de
vídeo com objetivo de alcançar um padrão para transmissão de sinal de áudio e vídeo
digitais para televisão com menor uso da banda de frequências.
As pesquisas resultaram em alguns padrões que puderam isolar informações de
áudio das de vídeo e permitiu que elas fossem utilizadas independentes uma da outras.
Foi assim que surgiu o formato MP312, formato que se tornou muito popular juntamente

12
MPEG Layer III. Desenvolvido por Instituto Fraunhofer. (ISO/IEC 11172-3, ISO/IEC 13818-3)
5

com o surgimento de aparelhos reprodutores desse formato como o iPod13. A adoção em


massa de arquivos de áudio compactados para armazenamento e audição de material
musical em aparelhos portáteis alterou substancialmente a relação do ouvinte e a música
abrangendo a maneira como é tocada, apreciada, organizada, distribuída e está a alterar
processos de produção musical desde sua composição até processos finais de pós-
produção que são pensados particularmente para a maior probabilidade em audição
específica para equipamentos portáteis e pequenos fones de ouvido em ambientes
ruidosos.14
Atualmente há inúmeros formatos e padrões diferentes para representar
informações de áudio em menos bits. São esses formatos e padrões que esse trabalho
busca comparar, estabelecer diferenças e orientar quanto a seu uso. Para tal serão
abordados sinteticamente alguns processos relacionados à digitalização de sinal de
áudio, as diferentes formas de compactação confrontando suas diferenças. É importante
salientar que nesse trabalho não são abordadas assuntos relacionados à representação
elétrica de sinal mecânico sonoro (áudio).

13
iPod é um reprodutor portátil de mídias de autoria da empresa Apple Inc.
14
A influência causada por reprodutores de música portáteis e disseminação de música pela Internet na
maneira como as pessoas adquirem e ouvem música é também referenciada por vários autores.
(KAHNEY, 2005, p. 5. MOSTERT; APOLZON, 2007 p. 144. FRIES, 2000, p. 9 - 40)
6

2. NOÇÕES DE SISTEMAS DIGITAIS

Todo e qualquer sistema digital entende apenas dois tipos de informação: 0 e 1.


Ele é chamado de sistema (ou código) binário. Para entender como esse sistema
funciona, a Tabela 1 compara representações em sistema binário e em sistema decimal:
Decimal Binário Decimal Binário
0 = 0 16 = 10000
1 = 1 32 = 100000
2 = 10 64 = 1000000
3 = 11 128 = 10000000
4 = 100 256 = 100000000
5 = 101 512 = 1000000000
6 = 110 1024 = 10000000000
7 = 111 2048 = 100000000000
8 = 1000 4096 = 1000000000000
9 1001 8192 = 10000000000000
10 = 1010 16384 = 100000000000000
11 = 1011 32768 = 1000000000000000
12 = 1100 65536 = 10000000000000000
13 = 1101 131072 = 100000000000000000
14 = 1110 262144 = 1000000000000000000
15 = 1111 524288 = 10000000000000000000
Tabela 1: Sistemas binário e decimal

Assim como o sistema decimal, o sistema binário agrupa números para


representar mais valores. Para representar 16 valores usamos 4 bits, para representar 256
usamos 8 bits e assim por diante conforme a lógica matemática 2n=V em que “2”
representa o uso dos bits 0 e 1, “n” representa a quantidade agrupada e “V” a quantidade
de valores. Nos equipamentos há diferentes tipos de agrupamentos, os mais usados são:
8, 16, 24, 32 e 64 bits. O número representa a quantidade de bits agrupada.
A primeira mídia fabricada em larga escala especificamente para o
armazenamento de música em formato digital foi o CD. Este formato representa o áudio
em um padrão de 16 bits, ou seja, pode representar até 65.536 valores por agrupamento.
A codificação do áudio armazenado no CD é feita através do processo PCM15. Esse
processo também é utilizado por outros padrões de mídia e diversos formatos de
arquivos de áudio.

15
Acrônimo em inglês Pulse Code Modulation. (HOLMES, 2006, p. 231)
7

2.1 Modulação por código de pulsos


A modulação por código de pulsos (PCM) é a maneira de representar o áudio em
informações digitais, a informação é amostrada em intervalos de tempo regulares. É
dessa forma que o áudio é representado em mídia como o CD16 e o DAT.
Em PCM o método de quantização é feito por tempo distinto e amplitude
distinta sem auxílio de memória, portanto não utiliza critérios de análise de dados para
representação.17
A representação do sinal é constante e independente do som a ser gravado, ou
seja, não importa se o som a ser representado possui grandes variações dinâmicas ou é
composto por formas de ondas bastante diferentes, a quantidade de informação será
sempre a mesma variando apenas de acordo com a quantidade de tempo registrado.
Em PCM a quantização do formato da onda é realizada de forma escalar, cada
amostra é quantizada individualmente, e não paramétrica, o sinal atual é quantizado
independente do sinal anterior e posterior.

2.2 Quantização

Figura 1: Representações gráfica e binária da amostragem e quantização


de sinal analógico em padrão PCM 4bits

A Figura 1 representa os processos de amostragem e quantização do sinal de


áudio num padrão PCM em 4 bits. O número da taxa de bits é o expoente sobre base 2.
Logo, um sistema de 4 bits possibilita 16 valores (representados de 0 até 15). Os valores
7, 9, 11, 12, 13, 14, 14, 15, 15, 15, etc representam a quantização do sinal contínuo,

16
Compact Disc (red book) e Digital Audio Tape.(HOLMES, 2006, p. 53 – 55 e p. 67 – 68)
17
São exemplos de quantizadores que utilizam memória: DPCM, DM e ADPCM. (SPANIAS, PAINTER,
ATTI. 2007, p.51)
8

esses valores são convertidos para o código binário. Os números decimais estão
representados em binários agrupados em 4 bits. Verifica-se que mesmo que o valor
possa ser representado com apenas 1 bit (como os valores 0 ou 1) todos são
representados sempre com 4 bits. No entanto, 16 valores são insuficientes para desenhar
formas de ondas que se assemelhem com o sinal acústico.
Sistemas de 4 bits apenas são usados para produzir sinais sonoros tipicamente
eletrônicos como beeps. Sistemas de 8 bits possibilitam desenhar ondas mais
complexas, sintetizadores de 8 bits foram muito utilizados nos primeiros jogos
eletrônicos e em campainhas sofisticadas. Num sistema 16 bits são possíveis 65.536
valores, isso possibilita desenhar formas de onda bastante complexas e com isso
registrar satisfatoriamente material musical. Existem sistemas de 24 e 32 bits18 usados
utilizados no processo de digitalização do áudio para garantir melhor representação das
formas de ondas. Quanto maior a taxa de bits, maiores são as possibilidades de
representação dos sons e mais aproximada é a representação do sinal analógico em
digital.
O sinal quantizado juntamente com o sinal discreto formam o sinal digital que
representa o áudio.19

2.3 Taxa de amostragem

Figura 2: Exemplo de conversão de sinal contínuo para sinal discreto

Taxa de amostragem define o número de amostras que são registradas de um


sinal contínuo de áudio por segundo para gerar um sinal discreto. No padrão PCM a
taxa de amostragem é sempre fixa e independe do sinal contínuo a ser representado.
Mesmo que um som de baixa frequência possa ser representado com uma baixa

18
Sistemas 24 e 36 bits são capazes de representar respectivamente 16 milhões e 4,3 bilhões de valores.
19
WATKINSON, 1994b, p. 199
9

quantidade de amostras, o padrão PCM a representa de acordo com a configuração


determinada, o mesmo ocorre para sinais de alta frequência que passam a ser ignorados.
A Figura 2 apresenta um exemplo de amostragem com taxa fixa arbitrária de um
sinal contínuo para um sinal discreto. A taxa de amostragem é sempre medida em
amostras por segundo e representado em Hertz20. Caso o sinal contínuo possua espectro
frequecial acima da taxa de amostragem essas informações não são registradas
corretamente podendo até interferir no processo gerando falsas frequências.

2.3.1 Teorema de Nyquist21


O teorema de Nyquist é uma representação matemática que prova que a maior
frequência possível de ser representada em um sistema digital é a correspondente à
metade da taxa de amostragem. Qualquer frequência maior que a metade da taxa irá
provocar perda de ciclos, pois ciclos completos podem acabar sendo representados por
apenas um ponto, o que impediria sua recuperação na reconversão para analógico.
Pode-se entender o teorema como o valor da taxa de amostragem digital
necessária para obter um sinal sem distorções sendo a metade dessa frequência, todas as
frequências abaixo da metade da taxa de amostragem podem ser representadas. Esse
teorema é usado para determinar a frequência na qual os filtros analógicos devem cortar
antes de iniciar a amostragem do sinal de áudio.

2.3.2 Anti-aliasing22
No CD o sinal contínuo de áudio (analógico) passa por um circuito-filtro (low-
pass filter) que corta frequências mais altas que 20 kHz (frequência de Nyquist mais
10% de margem23) antes de ser codificado em digital. Essa é a maneira mais simples de
evitar que a energia dessas frequências interfira no processo de conversão do sinal
analógico para digital gerando falsas frequências. Essa técnica se chama anti-aliasing.

20
Unidade de medida em homenagem ao físico alemão Heinrich Rudolf Hertz (unidade também
representada por Hz).
21
Explicação do teorema está suficientemente reduzida apenas para adequar as propostas desse trabalho.
O teorema de Nyquist é composto por inúmeras operações algébricas aqui não mencionadas.
22
Conceituração conforme os autores. (WATKINSON, 1994b, p. 198-202. HOLMES, 2006, p. 5)
23
Atualmente a margem de corte de frequências em reprodutores de CD varia de acordo com o fabricante
e tecnologia empregada.
10

O aliasing ocorre quando a taxa de amostragem é menor que o dobro da maior


frequência a ser registrada. Devido à impossibilidade de fabricar filtros analógicos
perfeitos, foram desenvolvidos também outros procedimentos usados em conjunto para
melhorar a técnica de anti-aliasing como oversampling24.
O efeito aliasing não é percebido apenas em áudio digital podendo ser
facilmente notado também em equipamentos de vídeo com câmeras ou monitores de
baixa resolução (baixa nitidez).

Figura 3: Exemplo de aliasing em equipamentos gráficos

A Figura 3 mostra um exemplo de aliasing gráfico em que a imagem à esquerda


teve sua resolução diminuída sem o uso de um filtro anti-aliasing, revelando a
existência do efeito.

2.3.3 Jitter25
Jitter é uma distorção causada pela instabilidade de um sinal sincronizador, ou
seja, os conversores de sinais digital para analógico e analógico para digital não
capturam amostras com exatamente a mesmo tempo como deveriam, então é gerada
uma distorção no sinal. Quanto mais instáveis são os conversores de sinal maior a
quantidade de Jitter do sistema.
Em vídeo podem ser percebidos pequenas flutuações e vibrações na imagem
causando irregularidades na exibição, normalmente são linhas horizontais tão finas
quanto as próprias linhas do monitor de vídeo ou da televisão.

24
Método utilizado para aumentar a amostragem acima da amostragem do teorema de Nyquist, isso
permite que o sinal seja filtrado digitalmente ao invés de usar filtros como o low-pass analógico. O
resultado é uma maneira mais efetiva de eliminar as frequências acima da faixa audível. (HOLMES,
2006, p. 220)
25
Representação resumida de Jitter conforme a conceituação dos autores. (WATKINSON, 1994b, p. 211-
215. ZÖLZER, 2008, p. 80)
11

Figura 4: Gráfico mostrando a variação do Jitter conforme a amplitude

Em áudio a distorção gera ruído sempre em frequências mais altas e a relação de


amplitude (dinâmica) entre o sinal e o ruído é mais próxima quanto maior for a
frequência amostrada. Logo, equipamentos capazes de registrar e reproduzir altas
frequências com alta variação dinâmica necessitam ter conversores mais estáveis.
Existe uma forma de minimizar a incidência de Jitter na reprodução com um sistema de
correção de tempo com uso de RAM26. Esse sistema é capaz de corrigir a instabilidade
de geração de frequências do cristal27 rejeitando totalmente a incidência de Jitter.

2.4 Conversores Analógico/Digital e Digital/Analógico


Os conversores A/D e D/A são os circuitos responsáveis por transformar
informações digitais em analógicas e vice-versa. Basicamente o que um conversor
digital analógico faz é transformar tensão elétrica em números binários e o conversor
analógico digital realiza o processo contrário.
Um exemplo simples de A/D: Um conversor pode ser fabricado para trabalhar
com tensão elétrica variando de 0 a 5 volts e representar as variações em um sistema 8
bits (256 níveis) em que o valor 00000000 (nível 0) representará 0 volts e 11111111

26
Acrônimo de Random Acess Memory, memória volátil (perde informações ao ser desligada) de
computador capaz de armazenar informações.
27
Componente eletrônico composto por uma lâmina de cristal comprimida com características
piezoelétricas que tende a ressonar em determinada frequência. A frequência depende do material,
dimensões e temperatura.
12

(nível 255) representará 5 volts, logo 2,5 volts será representado por 10000000 (nível
128) e assim por diante.
Os conversores podem ser calibrados para trabalhar com uma infinidade de
equipamentos. Os conversores são fundamentais para que as pessoas possam usar
computadores de uma forma mais intuitiva. Os computadores têm uma grande
quantidade de conversores A/D que conhecemos como câmera de vídeo, escâner, leitor
de impressão digital, sensores de temperatura e movimentos, entrada da placa de áudio,
entre outros. Conversores D/A também são conhecidos como monitores de vídeo,
impressoras, LEDs no painel e no teclado, bipes emitidos pela placa-mãe, saída da placa
de áudio, movimentos de um robô entre outros. Sem esses conversores o uso de
computadores só seria possível através de cartões perfurados, talvez o conversor mais
rústico existente.
Em áudio os conversores intermediam informações digitais (da maioria das
vezes codificada em PCM) para áudio analógico. A eficácia dos conversores interfere
diretamente na qualidade de gravação e reprodução do sinal de áudio.

2.5 Compactação de dados


A compactação de dados é um processo que codifica a informação usando
menos bits, em outras palavras, a informação é representada com menos dados. Esse
processo reduz o tamanho e economiza quantidade de informação digital. A
compactação de dados pode ser realizada com todo tipo de informação digital, sendo
mais eficiente em algumas do que outras.
Existem várias formas de diminuir a quantidade de dados ao registrar uma
informação. A maneira mais simples de compactação é representar dados redundantes
por códigos. Por exemplo: O valor 27,99999999 pode ser representado como 27,[8]9 ou
simplesmente como 28.
A primeira representação conta a quantidade de números repetidos e coloca o
valor entre colchetes (oito algarismos 9). A segunda representação simplesmente
considera que o valor é próximo de 28 e o arredonda. Vê-se que a primeira
representação contém exatamente o valor real, mas a segunda não, apenas o representa
de uma maneira aproximada. Ambos processos registram a informação com menos
dados. A diferença entre os processos é conhecida respectivamente como:
13

“compactação sem perdas” (lossless compression) e “compactação com perdas” (lossy


compression), sendo que o processo de decodificação da primeira informação revela a
informação idêntica a original e a segunda representa a informação original sem
preservar todos seus aspectos, mas a segunda é capaz de representar a informação com
menos dados que a primeira, pois seu algoritmo possibilita arredondar ou truncar alguns
valores.
É possível distinguir compactação sem perdas, pois esta permite reconstruir o
original de forma idêntica, já a compactação com perdas permite apenas reconstruir uma
aproximação do original. A compactação sem perdas é frequentemente usada em textos,
pois a perda de informações em texto pode comprometer demasiadamente seu conteúdo.
Compactação com perdas é frequentemente usada para transmissão de som e imagem
em meios de comunicação como a Internet.

É cada vez mais comum o armazenamento de gravações musicais em formatos


compactados. A facilidade em transmitir os arquivos pela Internet e a popularização do
formato MP3 tornou o formato padrão para transmissão de músicas via Internet. No
final da década passada surgiram alguns tocadores portáteis de música no formato MP3
e pouco depois, com o lançamento e sucesso do iPod, mais formatos de compactação de
áudio foram popularizados e também estabeleceu uma tendência de substituição dos
acervos de músicas em discotecas28 para discos rígidos em formatos compactados.29
É importante referir que várias empresas desenvolviam seus próprios padrões e
algoritmos de codificação perceptivo de áudio como Philips, AT&T, Lucent, Dolby e
Sony. Alguns formatos foram desenvolvidos juntamente com um novo padrão de mídia.
O ATRAC, por exemplo, foi lançado em 1992 juntamente com a mídia MD.30 No
entanto essa mídia não se popularizou tanto como o CD obtendo sucesso principalmente
no Japão. O ATRAC ainda existe e continua em desenvolvimento.

28
O termo discoteca aqui se refere ao acervo de gravações em discos .
29
Desenvolvimento do MP3 a partir da década de 1980. Lançamento do IPOD em Setembro de 2001.
MP3 como padrão para músicas na Internet e datas de desenvolvimento e comercialização de novas
tecnologias conforme as referências. (SPANIAS, PAINTER, ATTI. 2007)
30
ATRAC (Adaptive Transform Acoustic Coding) e MD (MiniDisc) são marcas em desenvolvimento e de
propriedade de Sony Corporation. ATRAC é um formato de compactação de áudio com perdas.
14

Figura 5: Esquema simplificado do processo de codificação e decodificação

A saída de compactação de áudio é chamada de corrente elementar e ainda é


informação binária, mas não um sinal PCM, portanto não pode ser encaminhada a um
conversor digital analógico de áudio. A informação precisa antes ser decodificada para
um sinal PCM para então alimentar o conversor. Os processos de codificação e
decodificação utilizam recursos de sistema.

2.5.1 Compactação de áudio com auxílio de codificação perceptiva


As codificações perceptivas de áudio usam algoritmos com modelos criados de
acordo com estudos psicoacústicos. A finalidade desses algoritmos criados a partir de
estudos psicoacústicos é ignorar apenas informações potencialmente não perceptíveis
pela audição humana.

All audio data reduction relies on an understanding of the hearing mechanism


and so is a form of perceptual coding. The ear is only able to extract a certain
proportion of the information in given sound. This could be called the
perceptual entropy, and all additional sound is redundant. An ideal system
would remove all redundancy, leaving only the entropy; thus there is a limit to
the degree of data reduction which can be achieved even with an ideal coder.
(WATKINSON, 1994a, p. 131)

De acordo com Watkinson, a codificação perceptiva faz uso da limitação da


capacidade humana de audição. Nosso sistema auditivo é capaz de extrair apenas uma
parte das informações dos sons e a essa informação selecionada o autor chama de
entropia31. Portanto, a codificação de áudio pode ignorar informações redundantes de

31
No que se refere a uma informação particular, mensagem ou linguagem.
15

modo a aumentar a proporção de compactação sem causar diferenças perceptivas desde


que não realize perdas de dados em informações de entropia.
Um dos fenômenos psicoacústicos mais utilizados por codificadores perceptivos
é o “mascaramento”. O mascaramento consiste na habilidade que um som tem de
impedir a percepção de outros. O efeito de mascaramento é influenciado por quatro
elementos: tempo, frequência, nível e natureza do som.

Figura 6: Gráfico ilustrativo do efeito de mascaramento espectral

O mascaramento espectral ocorre quando um som de grande nível torna


inaudíveis sons de níveis mais baixos de frequências vizinhas. A Figura 6 representa um
gráfico em que a frequência com maior nível (500 Hz) cria o efeito de mascaramento
nas 3 frequências de menor valor assinaladas. O espectro frequencial inaudível está
representado na área interna ao triângulo gerado pela linha que limita o efeito de
mascaramento e a base. Nota-se que o efeito possui maior coeficiente nas frequências
mais próximas.

Há também o mascaramento temporal que ocorre quando um som torna


inaudíveis momentos imediatamente anteriores e posteriores a ele. O mascaramento de
sons posteriores dura cerca de 50 a 200 milisegundos e o mascaramento anterior dura
cerca de um décimo da duração posterior.32

32
SOLARI, 1997
16

At each layer, MPEG Audio coding allows input sampling rates of 32, 44.1 and
48 kHz and supports output bit rates of 32, 48, 56, 64, 96, 112, 128, 192, 256
and 384 kbits/s. The transmission can be mono, dual-channel (e.g. bilingual),
or stereo. Another possibility is the use of joint stereo mode in which the audio
becomes mono above a certain frequency. This allows a lower bit rate with the
obvious penalty of reduced stereo fidelity.
(WATKINSON, 1994b, p. 303)

Outro aspecto psicoacústico muito utilizado por codificação perceptiva está


relacionado ao efeito estereofônico. Nos momentos em que o sinal chega aos ouvidos
alinhados com o mesmo valor de amplitude e mesma fase nossa audição percebe o som
como vindo de um fonte posicionada em algum ponto equidistante de nossos ouvidos
(central). Nessa caso não há necessidade de representar independentemente o sinal em
cada canal.
Vários formatos utilizam essa habilidade para compactação com diferentes
nomes terminologias e técnicas, no caso dos formatos AAC, FLAC, MP3 e Vorbis o
termo usado é “Joint stereo”. Os codificadores seguem padrões diferentes para
aplicação desta técnica, alguns possibilitam configurar manualmente o modo Joint
stereo com técnicas chamadas de MS e LR.
17

3. FORMATOS DE ÁUDIO

Podemos categorizar didaticamente em três os formatos de áudio atualmente


existentes: sem compactação, com compactação com perdas e com compactação sem
perdas.

3.1 Sem compactação


Na época em que foram criados os primeiros formatos de áudio digital as
limitações da tecnologia inviabilizavam qualquer forma de compactação do áudio.
Portanto, foram desenvolvidos primeiro formatos de áudio desprovidos de algoritmos
compactadores. Diversos padrões e formatos de áudio digital foram desenvolvidos com
tecnologias diferentes. Alguns deles ainda são encontrados, mas são cada vez menos
utilizados, como o SD233 e AU34. Os formatos WAVE35 e AIFF36 foram estabelecidos
em meados da década de 1980 e são os formatos mais comumente usados para gravação
e armazenamento de áudio sem compactação.
Esses formatos são usados por profissionais que editam e processam áudio, pois
esses usam o mínimo de recursos do computador para serem acessados, em
contrapartida ocupam bastante espaço. O espaço a ser ocupado por um formato de áudio
não comprimido depende diretamente de quatro fatores: número de canais, taxa de
amostragem (Hz), agrupamento de bits e duração. A multiplicação dos três fatores
sempre resultará no tamanho em bytes do arquivo.
Ambos formatos WAVE e AIFF codificam o áudio em PCM por padrão.37 Mas,
suas codificações são diferentes, devido a isso possuem algumas diferenças. O formato
WAVE é capaz de representar áudio em PCM em diferentes configurações de taxa de
amostragem e quantização que o AIFF, mas o WAVE possui limitação de tamanho
atrelado ao seu integrador de 32 bits que AIFF não tem.

33
Sound Design 2, autoria de Digidesign
34
Audio Unit, autoria de Sun Microsystems
35
Resource Interchange File Format, autoria de Microsoft e IBM
36
Audio Interchange File Format, autoria de Apple e Electronic Arts
37
Existem formatos AIFF e WAVE compactados (normalmente mencionados como AIFC e
WAVPACK)
18

Os formatos WAVE e AIFF não podem conter informações de metadados38, ou


seja, informações que descrevem o arquivo e não são áudio. Para suprir essa
necessidade foi criado o BWF (Broadcast Wave Format, European Broadcasting
Union) que é uma extensão do formato WAVE que pode conter informações de
metadados. BWF é compatível com os decodificadores WAVE padrão.

3.2 Com compactação com perdas


Os primeiros formatos de compactação específica de áudio criados utilizam
algoritmos que arredondam ou truncam valores específicos conforme a codificação
perceptiva já explanada no capítulo 2.5.1. A esse tipo de processo é dado o nome de
compactação de áudio com perdas.

A compactação de áudio tornou-se bastante comum com a comercialização de


pequenos dispositivos eletrônicos capazes de reproduzir músicas armazenadas em áudio
compactado (principalmente em formato MP3). Outro fator que contribuiu foram as
redes gratuitas de compartilhamento de arquivos na Internet. Os dois motivos que
popularizaram formatos de compactação de áudio estão extremamente atrelados ao
surgimento do MP3:
• Distribuição livre via Internet. O MP3 foi o primeiro padrão de áudio
comprimido distribuído transmitido de forma gratuita pela Internet
(iniciada na “era Napster”)
• Permitiu a existência de um novo segmento de tocadores de música
portáteis, os tocadores de MP3 são fabricados por diversas empresas
desde o lançamento do primeiro chip capaz de decodificar MP3 criado
pela empresa alemã Intermetall Micronas.39
A popularização do formato MP3 fez com que várias empresas licenciassem as
tecnologias de codificação e decodificação do Instituto Fraunhofer para uso em
produtos como telefones celulares, tocadores de música portáteis, aparelhos domésticos
e aparelhos para automóveis.

38
Os metadados podem conter nome da música, do compositor, dos músicos participantes, número da
faixa, título do álbum, letra da música, informações sobre direito de cópia e até foto ou arte do álbum.
39
A criação do primeiro chip decodificador de MP3 foi liderada pelo engenheiro alemão Otto Witte.
(Fraunhofer Magazine 2.2000 p. 22 - 25 e 39)
19

O lançamento do Ipod é considerado por muitos40 como o aparelho mais


responsável pela difusão de música em formatos de compactação de áudio.

Na década de 1980 o Moving Picture Experts Group (MPEG) era formado


principalmente por engenheiros do instituto Fraunhofer (Alemanha), laboratórios
AT&T-Bell e Thomson (Estados Unidos) com interesse comum em criar um padrão de
compressão eficaz para transmissão de sinal digital de áudio e vídeo. A necessidade de
desenvolver compressão de dados foi necessária porque a largura de banda para tráfego
de dados era limitada e incapaz de trafegar o fluxo de informações de áudio e vídeo não
comprimidos em tempo real.
A compactação conseguida na camada 3 de áudio do formato MPEG-1
desenvolveu-se satisfatoriamente, pois possibilitou uma grande variedade de
amostragens e taxas de transmissão. Esse padrão é capaz de diminuir de 4 a 40 vezes o
tamanho original, sempre usando compactação com perdas de dados. Logo, essa camada
de áudio foi isolada num arquivo que se tornou conhecido como MP3.
Os formatos de áudio com compactação com perdas de dados usam critérios
psicoacústicos para minimizar a distorção audível. Em compactação de dados e em
psicoacústica é dado o termo transparência ao resultado ideal de compactação de dados
com perdas. Ou seja, caso o som da compactação com perdas seja perceptivamente
indistinguível comparado ao som original, então a compactação tem resultado ideal e é
considerada transparente.
É importante lembrar que qualquer processo de digitalização de sinal de áudio
já contém perdas de espectro sonoro por natureza, ou seja, nenhuma gravação de áudio
digital é perfeitamente fiel à sua fonte sonora.
Apesar do formato MP3 possuir um algoritmo de decodificação padronizado,
não há algoritmo definido para codificação. Isso possibilitou a existência de vários
codificadores MP3 com algoritmos e qualidades diferentes. LAME, FhG41, Xing. A
Mesmo se tratando apenas do formato MP3, existem diversos codificadores
diferentes que realizam com mesmas configurações, mas por diferentes algoritmos que
resultam em diferentes tamanhos de arquivos MP3 e com sonoridades distintas.

40
KAHNEY, 2005
41
FhG é o acrônimo registrado do codificador de propriedade do Instituto Fraunhofer.
20

Assim como o MP3 existem inúmeros outros formatos de compactação sem


perdas em uso, poucos criados antes e muitos após o sucesso do MP3, sendo uma
continuação do grupo MPEG (como o AAC42 e Musepack) ou por outros grupos (como
ATRAC, Dolby AC-3, OGG e WMA).

3.3 Com compactação sem perdas


A compactação de dados sem perdas representa informação de um modo a
utilizar menor quantidade de dados desde que seu processo de descompactação revele a
informação inicial de forma idêntica. Nessas condições os algoritmos que trabalham as
informações não causam arredondamentos de valores, toda a informação inicial pode ser
reconstituída integralmente.
Os formatos de compactação de áudio sem perdas são de desenvolvimento mais
recente, pois ao contrário dos formatos de compactação com perdas que objetivaram
inicialmente a transmissão em tempo real de áudio, sua principal finalidade é gerar
formas de diminuir a quantidade de informação de áudio preservando todas as
informações originais. As instruções para realizar esse trabalho são mais específicas e
complexas de realização.
A informação compactada não é reconhecida como a informação original sem
antes ser decodificada para seu formato original. Tanto os processos de codificação e
decodificação utilizam recursos do sistema.43
Os formatos de compactação de áudio sem perdas foram idealizados tanto para
serem usados como um formato de arquivamento de áudio como para padrões de
transmissão específicos que precisem manter intactas todo o conteúdo sem perda de
qualidade. Transmitir áudio compactado sem perdas é bastante útil para interligação de
estúdios de gravação possibilitando desde envio transferência de arquivos gravados
previamente como realizar gravações em tempo real a distância.44

42
AAC é acrônimo de Advanced Audio Coding. Um formato compactado com perdas de áudio parte do
família de padrões MPEG-2 (ISO/IEC 13818-7 e HOLMES, 2006, p. 4).
43
Mais informações sobre os processos de codificação e decodificação são encontrados no capítulo 4.
44
Sistema de transmissão de áudio multicanal via Internet para gravação disponível pelo software Source-
connect (http://www.sourceelements.com)
21

Em 1965, Gordon Moore, que mais tarde fundou a Intel45 ao lado de Bob
Noyce, previu que a capacidade de um chip de computador dobraria
anualmente. (...) Até hoje46 as previsões para os chips se mantiveram e a média
– uma duplicação a cada dois dezoito meses – é chamada, entre os engenheiros,
de Lei de Moore.
(GATES, 1995, p. 48)

Devido ao crescente aumento da capacidade de processamento dos dispositivos


(e barateamento consequente), a tendência será que todo tipo de produto final contendo
áudio digital passe a adotar algum formato de compactação sem perdas. No entanto,
equipamentos reprodutores de mídia portáteis só poderão reproduzir os formatos se o
dispositivo o reconhece como áudio, para que isso seja possível é necessário que os
fabricantes desses equipamentos introduzam componentes e conjunto de informações
capazes de decodificar em tempo os formatos compactados específicos. Do contrário,
para serem reproduzidos no equipamento haverá necessidade de um computador capaz
de converter os formatos.
Devido ao recente desenvolvimento de formatos de compactação de áudio sem
perdas não foram encontradas bibliografias que tratem especificamente desse segmento,
mas há uma vasta quantidade de informações na Internet que o populariza. No site
Hydrogenaudio.org há um wiki47 com grande acervo sobre esses novos formatos. Foi
mencionado que um dos mais antigos formatos de compactação de áudio sem perdas e o
primeiro a se tornar popular é o SHORTEN.
A partir de então passaram a ser desenvolvidos paralelamente muitos outros
formatos. No wiki, até o fechamento dessa versão de monografia, foram catalogados e
comparados os 14 formatos a seguir: ALAC, FLAC, LA, LPAC, MONKEY’S, MPEG-
4 ALS, MPEG-4 SLS, OPTIMFROG, REAL LOSSLESS, SHORTEN, TAK, TTA,
WAVPACK, WMA LOSSLESS. Estão disponibilizadas várias tabelas comparativas no
anexo deste trabalho.

45
Empresa fabricante de circuitos integrados e processadores mais presentes nos computadores até hoje.
46
A “lei de Moore” não é mais verdadeira a partir de meados da década de 2000, pois a capacidade dos
chips de computador alcançou um nível complicado de ser aumentado devido a limitações diversas. Hoje
os chips continuam a ser melhorados, mas não seguem as previsões de Moore.
47
Wiki (ou Wikiweb) é um modelo de página da Internet que possui um sistema capaz de ser atualizado
coletivamente pelos usuários, assim como a enciclopédia Wikipédia. No entanto, o modelo wiki passou a
ser adotada por vários outros sites especializados (principalmente por programadores de software) com
fim de tornar mais fácil o uso da Internet desse sistema para desenvolver um banco de informações
dinâmico sobre pesquisas em andamento principalmente na área da informática e tecnologia.
(http://wiki.hydrogenaudio.org/)
22

4. CODIFICADORES E DECODIFICADORES

Qualquer arquivo de mídia precisa de um conjunto de informações capaz de


reconhecer sua estrutura e informar ao sistema como o arquivo deve ser acessado e
processado. A esse conjunto de informações é dado o nome de “decodificador”.
Para registrar qualquer arquivo de mídia é necessário um conjunto de
informações que estabelece a maneira como os dados irão compor o arquivo. A esse
conjunto de informações é dado o nome de “codificador”.
Pode-se compreender que os codificadores e decodificadores são interpretadores
de informações. Num formato compactado a compactação e descompactação compõem
os processos de codificação e decodificação do formato. Portanto, num formato
compactado seus codificadores e decodificadores são mais complexos que num formato
não compactado. A complexidade do processo é proporcional ao consumo de recursos
do sistema.

A cada formato os processos de codificação e decodificação são diferentes e


podem ou não ser compatíveis. Em alguns formatos a proporção de complexidade entre
codificação e decodificação são diferentes, de forma que a maioria dos formatos são de
grande complexidade para sua codificação, mas a complexidade de decodificação é
menor, o que garante que o material pode ser reproduzido em diversos sistemas de
poucos recursos, mas exige que o sistema a codificar do formato possua grande
quantidade de recursos para ser realizado em tempo real.
A codificação para padrões compactados é mais complexa que para padrões sem
compactação. Nem todos os sistemas capazes de codificar áudio em tempo real em
formatos sem compactação são capazes de fazê-lo em formatos compactados. Nesses
sistemas é necessário realizar primeiro a codificação em um formato sem compactação
para depois recodificá-lo em um formato compactado.
Existem formatos de compactação de áudio específicos para codificação de voz
que não foram abordados nesse trabalho. A existência desses formatos possibilita que
equipamentos portáteis de poucos recursos de sistema sejam capazes de realizar a
gravação de voz diretamente em formato compactado. Os gravadores digitais portáteis
de baixa qualidade são muito utilizados por profissionais como jornalistas.
23

Pode-se adquirir, ou baixar gratuitamente via Internet, pacotes contendo


codificadores e decodificadores conhecidos por codecs (codificador/decodificador).
Como já foi mencionado no capítulo 3.2, podem existir diversos codificadores para um
mesmo formato.
Existem testes comparativos entre decodificadores de um mesmo formato e
também de diferentes formatos. Em busca de melhorar sua eficiência os decodificadores
existentes continuam em desenvolvimento, mesmo dentre os formatos antigos como o
MP3. A existência de vários decodificadores de um mesmo formato e a continuidade de
seu desenvolvimento dificultam estabelecer comparações de eficiência entre diversos
formatos.

Neste trabalho de graduação foram realizados vários testes com os codificadores


de MP3 LAME e Fhg. Um outro codificador do formato MP3 chamado Xing, de
desenvolvimento já descontinuado, tinha a virtude de codificar mais rapidamente e
usava menos recursos de sistema, mas gerava arquivos MP3 com qualidade inferior,
com mais perdas que os outros de modo que não era adequado para compactar
músicas.48

48
De acordo com vários fóruns (http://wiki.hydrogenaudio.org/index.php?title=Xing)
24

5. METODOLOGIA

Um dos propósitos deste trabalho é comparar diferentes tipos de compactação de


áudio com e sem perdas, estabelecendo critérios de comparação e verificar as diferenças
entre cada padrão comparado.
Basicamente serão comparados formatos de áudio de duas categorias:
compactados com e sem perdas. Dessa forma a comparação deve ser realizada
distintamente de acordo com sua categoria, os formatos compactados com perdas
seguirão uma metodologia diferente dos formatos sem perdas.
Nos formatos sem perdas a comparação pode ser realizada entre a taxa de
redução e uso dos recursos do computador no processo de escrita e leitura. Nos
formatos com perdas é necessário mensurar a quantidade de perdas do formato e
comparar sua redução de tamanho, também pode ser verificado o uso de recursos do
computador.
Além dessas, pode-se verificar a compatibilidade dos formatos com dispositivos
de reprodução sonora. Os fabricantes de equipamentos projetam equipamentos contendo
um circuito capaz de ler e reproduzir arquivos de áudio comprimidos diretamente da
mídia sem a necessidade de um computador para convertê-lo. Normalmente, mesmo
que existam formatos considerados melhores49, os fabricantes desenvolvem
equipamentos compatíveis com os formatos mais popularmente utilizados.

5.1 Processos de comparação


Foram estabelecidos quatro processos para comparação de formatos de áudio
compactados e sem compactação.

5.1.1 Verificação de bits


Existem programas de computadores capazes de comparar dois arquivos e
revelar se há e quais são as diferenças. Essa forma basicamente detecta, bit por bit, se os
arquivos comparados são idênticos, e se não forem apresentam suas diferenças, essa

49
O uso do termo “melhores formatos” considera os que possuem maior redução de tamanho, menor uso
de recursos do sistema e menor perda de informações (aplicável a formatos com perdas).
25

técnica é útil para provar cientificamente que o formato de compactação sem perdas é
realmente eficaz.
A verificação mais simples é observar se o áudio apresenta exatamente o mesmo
tamanho inicial ao ser compactado e descompactado pelo formato em questão. Caso
apresente alguma diferença de tamanho em bits o formato necessariamente o modificou
e isso o tira da categoria de formato de sem perdas.
Mesmo apresentando o mesmo tamanho em bits os processos de codificação e
decodificação podem ter alterado alguma informação. Pode-se verificar se o arquivo
final é idêntico ao original usando software de comparação binária50, esse método
compara os arquivos bit por bit e mostra se há diferenças. Caso sejam encontradas
diferenças o processo de codificação e decodificação alterou o conteúdo do arquivo.
Existem programas que comparam especificamente o conteúdo PCM de vários
formatos de áudio como o software gratuito “libsndfile”51.
Esse software é capaz de comparar o conteúdo PCM dos seguintes formatos:
AIF, AIFC, CAF, FLAC, HTK, MAT4, MAT5, PAF, PVF, RAW, SD2, SF, SND,
SVX, VOC, W64 e WAV. A comparação do conteúdo PCM é útil e bastante direta, pois
permite comparar diretamente o formato original e compactado. “libsndfile” não possui
interface gráfica e opera somente em modo de comando.

5.1.2 Verificação de artefatos


Esse processo é capaz de verificar acusticamente a existência de resíduos
artificiais (artefatos) no som de forma acústica e também verificar a quantidade de nível
desses artefatos. Nesse método um dos sinais do áudio tem sua fase invertida e depois
somada com o outro áudio. É necessário que os arquivos de áudio possuam exatamente
a mesma duração e que o som esteja perfeitamente alinhado.
Caso os arquivos possuam exatamente a mesma informação de áudio deverá
obter-se um sinal nulo. Se houver qualquer sinal nessas circunstâncias ele é um resíduo

50
Há comandos que realizam comparação binária que são partes de sistemas operacionais como o “fc”
que é parte dos sistemas Microsoft Windows NT, os comandos “diff” e “cmp” são parte dos sistemas
operacionais UNIX/Linux. Para sistemas Apple MacOS não há comandos de comparação incluídos, mas
podem ser utilizados softwares compiláveis em OSX como o “KDiff”, software livre (GNU/GPL) de
autoria de Joachim Eibl. (http://kdiff3.sourceforge.net/)
51
libsndfile é software livre registrado sob GNU/LGPL pelo programador Australiano Erik de Castro
Lopo. (http://www.mega-nerd.com/libsndfile/)
26

artificial. Quanto maior o nível desse resíduo mais diferentes são os sinais de áudio
entre os dois arquivos.

5.1.3 Teste ABX52


Forma subjetiva de teste que utiliza um método que compara dois estímulos
sensoriais para identificar se há diferenças detectáveis. Pode ser utilizado para comparar
dois registros sonoros como arquivos de áudio. O teste compreende em escutar os dois
sons em momentos distintos sendo que o ouvinte não é informado sobre a ordem de
execução, o ouvinte identifica então se há diferença entre os dois sons.
O uso desse método pode ser aplicado para comparar auditivamente o som
gerado pelo áudio original e o compactado com perdas e permite que pessoas
identifiquem se há diferenças. No entanto, esse tipo de experiência implica em inúmeros
fatores que influenciam o teste: a qualidade do decodificador de áudio, conversor digital
para analógico, pré-amplificador, amplificador de potência, conectores e cabos de som,
fones-de-ouvido (ou alto-falantes e acústica do ambiente).
Outros fatores subjetivos podem influenciar negativamente o teste. É possível
que o ouvinte identifique diferenças nos sons mesmo que os dois sons usados no teste
sejam o mesmo. Logo, é recomendado que o teste seja realizado no mínimo 10 vezes e
no máximo 25 vezes por cada ouvinte. O número mínimo de acertos no teste deve ser
igual ou superior a 95% para que os resultados sejam considerados estatisticamente
significantes53.
Todo cuidado que evita possíveis interferências no som deve ser atendido. Para
que o equipamento não interfira na comparação durante as audições é preciso usar
sempre as mesmas configurações e se faz necessário uso de equipamentos referenciados
com alta qualidade e resposta linear para possibilitar reprodução nítida de detalhes. O
ambiente em que o teste é realizado precisa ser acusticamente isolado e de reverberação
adequada para audição de material musical.

52
Também conhecido como “teste cego”.
53
A Estatística usa níveis de significância para garantir que o resultado não aconteça por acaso, a
significância de um teste é a probabilidade máxima de rejeitar acidentalmente uma hipótese nula.
27

Existem programas de computador que escritos para aplicar o teste ABX. A


existência desses programas permite que uma pessoa sozinha possa efetuar o teste
intermediado pelo computador.54

5.1.4 Análise de espectrogramas


Pode-se gerar uma imagem de espectrogramas de um arquivo de áudio para
mensurar quais as frequências existentes no formato sem a necessidade de reproduzi-las.
Com essa análise é possível determinar graficamente a quantidade de perdas
comparando arquivos originais com os formatos comprimidos com perdas.
O espectrograma representa a quantidade de energia do áudio num gráfico com
eixos vertical em frequências (função logarítmica) e horizontal em tempo (função
linear).

Figura 7: Espectrograma de arpejo de duas oitavas em Dó maior

As áreas com cores55 mais intensas representam concentrações de energia. Na


Figura 7 (aqui resumida em escala cinza) é possível verificar graficamente as notas do
arpejo tocado por um sintetizador analógico de onda senoidal. É possível também
verificar energia em frequências superiores, são harmônicos gerados pelo amplificador e
alto-falante do sintetizador.
O processo que representa áudio em gráfico depende do algoritmo Fast Fourier
Transform. O FFT é uma forma mais rápida de calcular a Discrete Fourier Transform
na qual é necessária para obter as funções matemáticas do gráfico do espectrograma.

54
Exemplos de softwares para aplicação do teste ABX: ABX comparator (foobar plug-in), LinABX,
MacABX, PCABX e WinABX.
55
Os espectrogramas fazem uso de mais cores (e também de legenda) para detalhar melhor as variações
de intensidade de energia, as cores estão mantidas nos espectrogramas contidos no CD-ROM em anexo a
esse trabalho.
28

Existem diversos softwares que possibilitam gerar espectrogramas:


• Há um plug-in embutido no “foobar2000” que gera espectrograma em
tempo real (conforme a música é reproduzida) e com resolução
configurável, mas não fornece a possibilidade de salvar o gráfico;56
• O software “Spectro”57 gera um espectrograma com resolução limitada,
mas gera também um gráfico adicional “intensidade x frequências” e
dados relevantes sobre o formato, é possível salvar o gráfico facilmente;
• A coleção de softwares “sndfile-tools”58 contém “sndfile-spectrogram”
que é capaz de gerar espectrogramas com qualquer resolução e salvá-lo.
É possível gerar espectrogramas de altíssima resolução para análise
detalhada. Este software não possui interface gráfica e opera somente em
modo de comando, é necessário um outro software para visualização do
gráfico.

Normalmente quando um formato de compactação possui perdas verifica-se que


a intensidade de nível em frequências mais altas é diminuída ou cortada. O corte ou
diminuição de nível em frequências altas é comum entre os diferentes formatos com
perdas em baixas resoluções.

56
foobar2000 é gratuito e compatível com sistemas NT. É possível gerar espectrogramas de qualquer
formato de áudio compatível com foobar2000. (http://www.foobar2000.org/)
57
Spectro é compatível com sistemas NT. Na versão 1.0.93 é possível gerar espectrogramas de resolução
limitada a partir dos formatos: APE, FLAC, MP3 e WAV. (http://spectro.enpts.com/)
58
sndfile-tools é software livre registrado sob GNU LGPL pelo programador Australiano Erik de Castro
Lopo Esse pacote de softwares é de fácil compilação na maioria dos sistemas UNIX e LINUX (bem como
Mac OSX) e pode ser portado para sistemas NT. (http://www.mega-nerd.com/libsndfile/tools/)
29

59
Figura 8: Gráfico do limiar absoluto de audição de um jovem no silêncio

A Figura 8 mostra o limiar absoluto de audição humana de um jovem num


ambiente livre de ruídos. Este limiar absoluto está associado ao estímulo de um tom
puro. Pode-se perceber um grande aclive no gráfico a partir de frequências próximas a
10 kHz. É possível verificar que sons em frequências próximas a 20 kHz necessitam de
muito mais energia para serem percebidas.

As altas frequências requerem maior quantidade de informações para serem


representadas em comparação com frequências mais baixas.
Estudos da anatomia da audição humana revelam que é necessário grande
energia para perceber sons acima de 15 kHz, mostram ainda que apenas uma pequena
parte da população percebe sons próximos a 20 kHz e que também existe uma perda
natural de audição dos sons em altas frequências principalmente para homens. Além
disso, a maior parte dos sistemas de som comumente utilizados em computadores,
automóveis e aparelhos portáteis são incapazes de reproduzir frequências próximas de
20 kHz.

59
Gráfico adaptado (SPANIAS; PAINTER; ATTI, figura 5.1 p. 114)
30

5.2 Fatores de influência


Os fatores que influenciam o uso dos formatos de compactação de dados são:
taxa de compactação e consumo de recursos do sistema.

5.2.1 Taxa de compactação


Um dos aspectos de grande importância para identificar a eficiência da
compactação de dados é mensurar sua taxa de compactação. É um simples
procedimento que divide o número em bytes do arquivo compactado pelo arquivo não
compactado. A razão obtida é a taxa de compactação.

5.2.2 Consumo de recursos do sistema


Outro aspecto importante para mensurar a eficácia do compactador é obter dados
do consumo de recursos do sistema, ou seja, quanto os procedimentos de codificação e
decodificação exigem do computador para serem realizados.
Para obter maior taxa de compactação muitos compactadores têm algoritmos que
analisam com usando diversos critérios complexos para estabelecer a melhor forma de
reduzir a informação. Quanto mais complexo é o algoritmo de compactação mais
recursos do sistema o processo necessita e mais tempo é necessário para sua realização.
Caso o tempo do processo de decodificação no sistema seja superior a duração do áudio
o sistema é incapaz de reproduzi-lo ininterruptamente sem conversão anterior.
Obviamente, quanto mais eficaz é um algoritmo (melhor relação entre o
consumo de recursos e compactação proveniente) maior tende a ser sua adoção e uso.

5.3 Métodos de comparação


Compreendidos as formas de comparação e os fatores de influência é necessário
estabelecer um método para comparar os diferentes formatos de compactação de áudio.

A relação entre a quantidade de redução de dados e a quantidade de consumo de


recursos do sistema nos processos de codificação e decodificação estabelece o quanto
eficaz é o formato.
31

Para comparar entre o formato original e de compactação sem perdas pode ser
usado o método de verificação de bits apenas para constatar que a compactação
realmente é capaz de decodificar exatamente o sinal de áudio original.
Para comparar entre o formato original e de compactação com perdas podem ser
usados os métodos de verificação de artefatos, teste ABX e análise de espectrogramas.

A verificação de artefatos revela a diferença entre o som do áudio original para o


som compactado com perdas, ou seja, as perdas no processo de compactação resultarão
em sons artificiais no momento em que forem confrontados os áudios em que algum
está em inversão de fase. Quanto maior a quantidade de artefatos maior a perda de
informações. Se esse processo é utilizado em formatos de compactação sem perdas o
resultado é obrigatoriamente um sinal nulo, ou seja, não existem artefatos.
O teste ABX possibilitará a verificação acústica e perceptiva de quão
transparente é a compactação com perdas. Desta forma é possível verificar o quanto o
som é prejudicado e estabelecer referências entre os formatos que possuem perdas
perceptivas.
Com análise de espectrograma é preciso gerar o gráfico do arquivo fonte e do
arquivo comprimido com perdas. A comparação entre os dois gráficos mostrará maior
ou menor perda de energia em determinados momentos. Quanto maior a diferença entre
os gráficos, maior é a perda de dados. Pode ser usado qualquer software que gere
gráficos para análise de espectrogramas.

Para essa pesquisa foi utilizado o software gratuito Spectro. Esse software foi
escolhido por ser capaz de ler diretamente formatos APE, FLAC, MP3 e WAV,
evitando a necessidade de um software intermediador para recodificar os formatos ou
visualizar o gráfico, Spectro também foi escolhido por sua facilidade de uso. Spectro
ainda foi capaz de identificar o codificador nos arquivos gerados por LAME, mas não
nos arquivos gerados pelo FhG usado no teste, felizmente isso não altera a eficácia dos
gráficos.

Também foi realizado um teste suplementar para verificação do corte de


frequências dos codificadores LAME e FhG em diferentes configurações. Para isso foi
32

gerado um som com forma de senóide que varia de 0.1 Hz até 20 kHz durante 20
segundos em função gráfica linear com ajuda do software livre sndfile-generate-chirp60.
O som gerado foi compactado nos padrões 320, 256, 128 e 96 kbps. A configuração de
geração do som foi realizada de modo que o som aumente em 1 kHz a cada segundo,
facilitando a identificação da frequência de corte auditivamente.61 Também foram
realizados gráficos com o software Spectro.

60
O software sndfile-generate-chirp faz parte do pacote de softwares sndfile-tools já mencionado no
capítulo 5.1.4.
61
Existem várias outras experiências realizadas para verificar corte de frequências entre codificadores.
(http://sombrasil.ig.com.br/centralmp3/teste_frequencias.htm)
33

6. CONCLUSÃO

Conforme os resultados das comparações já efetuadas, os arquivos com


compactação sem perdas realmente reduzem o tamanho do arquivo sem causar perdas
de dados, no entanto utilizam maior quantidade de recursos do computador tanto no
processo de escrita quanto leitura de dados. Seu uso é eficiente para transferência de
dados em redes de computadores com limitação de banda e mesmo transferência de
dados em mídias com pouca capacidade, mas não se recomenda uso diretamente em
edição e processamento de áudio devido a sua utilização maior de recursos do
computador.

As perdas no processo de compactação restringem-se às diferenças entre o áudio


do arquivo compactado e do arquivo original. Mas, é importante lembrar que qualquer
representação digital de informação sonora é infiel ao som gravado original e que
qualquer áudio digitalizado já pode apresentar perdas em relação ao áudio original.
Pode-se dizer que as gravações são um registro, uma lembrança, do som
executado. Em teoria, por mais desenvolvido que seja um registro sonoro ele nunca
alcançará absoluta fidelidade, pois sempre conterá perdas e distorções. O som
reproduzido de gravações em alto-falantes pode apresentar um efeito melhor ou pior que
o som gravado, mas nunca fiel.

A compactação sem perdas é eficiente para manter a qualidade sonora e,


portanto, eficiente para reprodução de som “high-end”62. Com a evolução da capacidade
de processamento dos computadores o uso de compactação de áudio sem perdas deve
aumentar, as mídias de armazenamento de dados também terão suas capacidades
aumentadas, de modo que surgirão formatos sem compactação e com compactação sem
perdas, com mais qualidade.

62
“High-end”: Termo usado comercialmente para designar equipamentos de áudio doméstico com
componentes de alta performance usados para audiófilos. A qualidade dos componentes pode interferir no
resultado sonoro. (também referido como “Hi-end”)
34

A compactação com perdas é naturalmente um processo que pode diminuir mais


o tamanho do arquivo de áudio em comparação as compactações sem perdas devido ao
fato de representarem menor quantidade de informações. No entanto, a qualidade do
som pode ser prejudicada a ponto de ser perceptível. Logo não é apropriado usar
compactação com perdas em equipamentos fabricados com componentes de alto
desempenho.
Devido à existência do fator de arredondamento de informações, mesmo que
sejam imperceptíveis acusticamente, não é apropriado o uso de áudio compactado com
perdas em processos de pós-produção. Ao se arredondar valores são perdidos detalhes
regularmente usados no processamento. O resultado do processamento com áudio
compactado com perdas não alcança a mesma qualidade que o processamento com
formato original. Outro fator que também não favorece o uso de qualquer compactação
em pós-produção é o maior consumo de recursos do sistema para a decodificação do
áudio.

Um cabo de fibra ótica de longa distância que transmite 1,7 bilhão de bits de
informação de uma estação repetidora (algo como um amplificador) para outra
tem largura de banda suficiente para fazer 25 mil ligações telefônicas
simultâneas. O número de ligações possíveis cresce significativamente se elas
forem comprimidas63, pela remoção de informação redundante, tais como as
pausas entre palavras e frases, de forma que cada ligação consuma menos bits.
(GATES, 1995, p. 128)

Para Gates, em seu livro que tratou da adoção de comunicação intermediada por
computador, o uso de tecnologia de compactação de dados aumenta a capacidade de
ligações simultâneas numa mesma infra-estrutura. E, de fato, grande parte das
comunicações telefônicas digitais já utilizam compactação de dados de áudio em tempo
real em suas centrais.
Vários softwares de vídeo-conferência via Internet utilizam compactadores de
áudio e vídeo que adequam a transmissão de dados de acordo com a largura de banda do
dinamicamente a fim de possibilitar intercomunicar usuários com diferentes condições

63
Aqui o termo compression foi traduzido como compressão, o uso do termo não se refere ao controle
dinâmico de nível (compressor de áudio), mas sim à compactação de áudio como utilizado nessa
monografia.
35

de acesso à Internet. O primeiro software de grande repercussão mundial que deu acesso
ao serviço de vídeo-conferência e a VOIP64 foi o Skype65.

Where there is a practical or economic restriction on channel bandwidth or


storage capacity, data reduction becomes essential. In broadcasting, bandwidth
is at a premium as sound radio has to share the spectrum with other services.
In DCC66 it was a goal that the cassette would use conventional oxide tape for
low cost, and a simple transport mechanism was a requirement. In MiniDisc
data reduction allows a smaller player for portable use.
(WATKINSON, 1994a, p. 131)

O uso de áudio em formatos de compactação com perdas é essencial em


situações que há limitação de armazenamento ou de banda para transferência de dados
ou ainda em situações em que a fidelidade sonora não representa importância como
escutar música em ambientes ruidosos ou em equipamentos portáteis de baixo consumo
energético como aparelhos celulares, reprodutores de música móveis, e outros
equipamentos que usam amplificadores classe “H”67 para adaptar-se a condições de
baixo consumo e portabilidade.
Mesmo os registros de informações em alta-definição tornar-se-ão mais
detalhados e de fácil indexação com ajuda das novas capacidades de compactação de
dados com catalogação automatizada.
A tecnologia de compactação de dados é utilizada para a transmissão de dados
digitais. Isso envolve comunicação entre computadores via Internet, rádio digital,
televisão digital e telefonia. Ela é usada tanto para imagens quanto para sons e torna
possível maior tráfego de informações em menor quantidade de cabos e conexões. O
uso da tecnologia de compactação de dados barateia significativamente a implantação
de infra-estrutura para telecomunicações e economiza recursos naturais, pode-se dizer
que também é uma alternativa ecologicamente viável.
Compactação é essencial para serviços de transmissão digital de som, pois a
largura de banda necessária para transmitir sinais PCM sem compactação seria

64
Acrônimo de “voz sobre protocolo de Internet”. Sistema que possibilita intercomunicar computadores
com o sistemas telefônicos externos à Internet.
65
Skype é propriedade de Skype Limited
66
Acrônimo de Digital Compact Cassette gravador e reprodutor digital de fita com direitos registrados
por Philips e Matsushita (HOLMES, 2006, p. 75)
67
Amplificador de classe H corresponde a uma categoria de projeto eletrônico de baixo consumo elétrico,
leve e possível de ser miniaturizado.
36

excessiva, reduziria bastante a quantidade de canais e tornaria o custo de implantação


desses sistemas muito mais alto.68

A compressão de dados tornou possível realizar registros e trafegar mais


informações com menos dados economizando infra-estrutura e permitindo melhor vazão
de informações. A compressão de dados também tornou possível a implantação rápida
de tecnologias que alteraram a maneira como as pessoas se comunicam, ouvem músicas
e assistem filmes, provavelmente tornará possível tecnologias que influenciarão outros
hábitos.
A tendência ao barateamento do armazenamento de informações digitais aliada à
tendência em desenvolver circuitos integrados cada vez menores e mais eficientes, a
tecnologia de compressão de dados será constantemente modificada a fim de adequar-se
aos novos padrões. O barateamento em ter informações digitais possibilitará que
façamos registros de som e imagem cada vez mais realistas e duradouros. A compressão
dos dados tornará viável transferência de informações em meios de infra-estruturas com
diferentes capacidades, de forma a uniformizar a maneira como as pessoas experienciam
e compartilham seus registros com outros.

O registro de material sonoro, seja em um sistema rudimentar que desenha


mecanicamente o som em um disco de cera ou num sistema complexo que digitaliza as
informações e as codifica em um sistema de distante interpretação humana, não é
exatamente idêntico ao original. A quantidade de interferências nos processos que
envolvem o registro do som causam modificações inerentes de cada método e cada
equipamento.
Mesmo dispondo de alta tecnologia pode-se dizer que a música gravada é uma
lembrança do que foi realizado sonoramente. É possível fazer uma relação com a
origem da fotografia, os registros de imagens e de sons foram criados primeiramente
para possibilitar a existência de uma lembrança material possível de ser armazenada e
perpetuada. Mas, assim como a fotografia, a produção do registro sonoro passou a
anexar ao material gravado um valor artístico. É esse valor em que as pessoas mais

68
WATKINSON, 1994b, p. 21
37

identificam quando reproduzem em seu equipamento preferido alguma música de sua


“discoteca”.
Desde a existência da indústria fonográfica é dado ao material sonoro gravado
um valor que viabilizou economicamente o desenvolvimento de tecnologias específicas
para aumentar a proximidade entre o registro sonoro e o som original. A possibilidade
em manipular o material sonoro após seu registro foi desenvolvida inicialmente para
corrigir deficiências do registro sonoro original. Mas, paralelamente a isso, possibilitou
manipulação do material sonoro registrado de forma a torná-lo extra-realista, mais do
que realista ou simplesmente diferente do acústico (do som original).
Os primeiros trabalhos de manipulação do material sonoro registrado que
obtiveram valor artístico foram classificados como eletroacústicos. Os compositores
eletroacústicos não têm a intenção em estabelecer uma proximidade dos sons acústicos,
mas sim usar de uma forma ordenada sons modificados ou gerados eletronicamente para
serem identificados com artificialidade.
A compactação de áudio usa como fonte um registro infiel ao som original. Ou
seja, o registro já possui perdas na sua concepção. O processo de compactar áudio pode
adicionar perdas ou manter exatas as informações. Entretanto, é importante
compreender que todo processo de digitalização de áudio já possui perdas na sua
concepção.
Teoricamente, nenhum processo pode, de forma alguma, recuperar perdas
originais da digitalização do áudio ou da compactação do áudio. A compactação do
áudio pode apenas causar mais perdas. O único processo capaz de recuperar parte das
perdas decorrentes da digitalização é a re-digitalização do mesmo material por um
sistema melhor que o primeiro.
Processos que aparentemente recuperam informações originais a partir de um
sinal digitalizado são, na verdade, ações de filtros aditivos diversos regulados para
amenizar eventuais perdas acústicas. É comum o uso de filtros geradores de harmônicos
que adicionam altas frequências a partir do som registrado. Nesse caso as altas
frequências não foram recuperadas, mas sim criadas a partir de um fragmento. O
resultado acústico do processo pode ser considerado melhor, mas é diferente da
informação original.
38

A magnitude da perda em formatos compactados depende do algoritmo usado e


sempre pode ser identificada por processos de comparação de áudio. Entretanto, a
magnitude da perda é difícil de ser mensurada, um dos processos mais eficazes para
identificação das perdas é humana e portanto variável e subjetiva69. Existem vários
fatores de influência que alteram significativamente o resultado da identificação
humana, os mais comuns são fatores psicológicos, fisiológicos, de capacidade auditiva,
etc...
Se, mesmo considerando as perdas dos processos de digitalização e compactação
for possível identificar o evento sonoro original, em outras palavras, se as perdas do
material gravado não interferirem na identificação do evento sonoro original, o registro
sonoro é capaz de representar o evento.
É possível isolar acusticamente os resultados da perda causada pela compactação
comparando o som original como o compactado. A esse resultado acústico é dado o
nome de artefato do processo de compactação. O processo de isolar os artefatos
compreende inverter a fase do sinal de áudio do áudio compactado ou do áudio original
e somá-los, para isso é preciso que a duração dos dois sejam idênticos e que o sinal
esteja alinhado (sem defasagem no tempo).

70
Figura 9: Gráfico mostrando a falha repentina em compactação com perdas

69
Identificação humana refere-se ao processo de identificar as perdas do processo de compactação de
áudio por comparação das percepções acústica entre o material original e o de compressão com perdas.
70
Gráfico adaptado (WATKINSON, 1994b, figura 5.7, p. 286)
39

Até certo ponto a compactação com perdas pode diminuir o tamanho do arquivo
removendo sons adicionais fora da entropia perceptiva, ou seja, sem que a qualidade do
som seja afetada de forma sensível a audição humana. Após esse ponto a qualidade é
cada vez mais degradada e cada vez mais audível.
Em alguns algoritmos, principalmente usados por codificadores configurados no
modo rápido, a queda de qualidade é repentina e bastante acentuada como mostrada no
gráfico da Figura 9. Compactadores com perdas mais eficientes são capazes de realizar
maiores taxas de compactação causando menos distorções perceptíveis, dessa forma o
gráfico resultante possui uma curva menos intensa. Compactadores sem perdas realizam
compactação sem afetar a qualidade perceptível, dessa forma a resultante do gráfico
será uma linha reta paralela ao eixo horizontal.
Existe um limite para compactação sem perdas, esse limite é diferente para cada
algoritmo específico. Na maioria dos casos quanto maior a compactação sem perdas,
mais uso de recursos de sistema faz e mais lento é o processo. Há diversas tabelas no
CD-ROM anexo a esse trabalho. Dentre as tabelas há uma com uma grande quantidade
de resultados comparando diferentes gêneros musicais, é possível verificar que músicas
que contém elementos constantes (como a constante batida comum em músicas
eletrônicas) foram mais eficazmente compactadas que outras com menos constâncias.

A realização dos testes de espectrograma mostraram visualmente a quantidade


de perda de informações entre formatos originais e compactados com perdas. A maior
parte das perdas de informações acontece na área superior do gráfico, área que
representa as frequências agudas. Quanto mais o formato compacta o áudio, maior é o
corte de frequências nas regiões agudas.
Os resultados variaram significativamente com a música usada. As músicas com
captação de instrumentos acústicos como sopros e coro possuem menos quantidade de
agudo que músicas com instrumentos elétricos e grande quantidade de compressão
dinâmica. Nas músicas com maior interferência de recursos de pós-produção em estúdio
notavelmente são alteradas de forma a garantir uma sonoridade mais presente em nível e
frequências, principalmente em gravações mais recentes.
A menor existência de altas frequências em músicas com instrumentos acústicos
apresentaram menores diferenças gráficas comparadas ao som original que as músicas
40

com maior quantidade de altas frequências. É possível constatar que, os critérios


psicoacústicos adotados pelos formatos de compactação com perdas testados descartam
primeiramente informações de frequências mais altas.
Comparações entre os testes de corte de frequências dos codificadores LAME e
FhG usados nesse trabalho de graduação mostraram que o primeiro obteve uma pequena
vantagem ao representar frequências maiores principalmente nas configurações 96 e 128
kbps, mas obteve pior resultado em 256 kbps Todos espectrogramas obtidos foram
gravados no CD-ROM anexo a esse trabalho.

Os resultados dos testes realizados com análise de espectrograma revelaram que


existem diferenças consideráveis entre os codificadores LAME e FhG de formato MP3.
A comparação dos gráficos resultante das codificadores, ambos com mesmas
configurações, mostraram que em todos os casos o codificador LAME gerou resultados
que graficamente eram mais semelhantes ao original que o codificador FhG. Os dois
codificadores criaram arquivos com o mesmo tamanho em bytes e quase o mesmo
tempo de processo e uso de recursos de sistema.
Pode-se dizer que o codificador LAME mostrou ser mais eficiente nos
resultados de análise de espectrograma quando comparado ao FhG. Uma possível
justificativa para esse fator é que o codificador LAME continua a ser desenvolvido e
atualizado, esse desenvolvimento continuado pode aproveitar estudos mais recentes
sobre psicoacustica e utilizar novos pacotes de instruções dos novos modelos de
processadores que diminuem o tempo de realização de um mesmo trabalho.

Noise shaping & psycho acoustic algorithms:


-q <arg> <arg> = 0...9. Default -q 5
-q 0: Highest quality, very slow
-q 9: Poor quality, but fast
-h Same as -q 2. Recommended.
-f Same as -q 7. Fast, ok quality
71
Figura 10: Reprodução de parte da resposta ao comando “lame –longhelp”

De fato, de acordo com as pesquisas realizadas e com a Figura 10, pode-se


identificar uma razão inversamente proporcional comum para os codificadores com

71
Resposta ao comando exibida pelo codificador LAME 3.98.2 em terminal de comando em sistema
Microsoft Windows NT.
41

perdas entre “velocidade versus qualidade”. Também se aplica a codificadores sem


perdas na razão inversa “velocidade versus redução de informação”

Os testes de verificação de bits obtiveram resultados que confirmaram a


diferença entre compactação com perdas e sem perdas. O teste é útil sempre que o
usuário desconhecer ou desconfiar da natureza do formato de áudio compactado.

A verificação de artefatos é um processo eficiente para revelar acusticamente o


nível de diferenças entre o formato compactado com perdas e o original, para que ele
seja eficaz é preciso que os dois sinais de áudio estejam perfeitamente alinhados.
Pode haver grande dificuldade no alinhamento manual que quase sempre é
necessário antes de realizar o teste, pois muitos formatos de compactação com perdas
alteram a duração da mídia adicionando uma certa quantidade de amostras no início e
no final.72 Portanto, o simples fato de compactar e descompactar um áudio altera sua
duração total e inviabiliza a comparação de bits ou conteúdo PCM por computador sem
correção manual.
A ausência de um padrão entre cada codificador torna necessário o alinhamento
manual que também é bastante prejudicado devido a dificuldade em localizar um sinal
que sirva de referência para o alinhamento já que os formatos com perdas modificam o
aspecto das formas de ondas. É necessário analisar com cautela os formatos de onda ou
identificar se há sempre um padrão constante de amostras adicionadas no codificador.
Se descoberto um padrão, é possível gerar um código que automaticamente retira as
amostras adicionadas.
Nos testes de verificação de artefatos realizados neste trabalho de graduação
foram confrontados os codificadores LAME e FhG.73 Ambos obtiveram sempre um
resultado sonoro ruidoso e distorcido do material original. Também foi identificado que

72
A quantidade de amostras adicionadas varia conforme o codificador e decodificador, foram verificados
valores entre 528 (LAME) e 1160 (FhG).
73
Foi utilizada a música “Communication” do grupo “Bela Fleck & The Flecktones” extraída do álbum
“Greatest Hits of the 20th Century” de 1999.
42

ambos obtiveram proporcionalmente mais nível74 de artefatos em compactadores


configurados com menor taxa de bits comparados com maior taxa de bits.
Dentre as diferenças constatou-se que, em média, o codificador LAME produziu
menor nível de artefatos que o FhG e que o som dos artefatos é significativamente
diferente. O primeiro obteve sonoridade mais aproximada do som original que o
segundo, o segundo apresentou muito mais ruídos em altas frequências em comparação
ao primeiro e também ao áudio original.
Para comprovação experimental, também foram verificados os artefatos dos
compactadores sem perdas FLAC e Monkey’s Audio e ambos geraram um áudio nulo
(sem nível, mudo). A experiência comprovou que esses formatos realmente não geram
artefatos e que não foram perdidos dados nos processos de codificação e decodificação.

O computador, através de análises de dados, é capaz de perceber qualquer


mínima diferença entre dois arquivos, essa diferença percebida não significa que há
diferenças sonoras e mesmo se as diferenças são percebidas auditivamente por pessoas.
Pois essa diferença pode ser relacionada a informações de metadados ou ainda amostras
adicionadas pelo codificador no início e fim do áudio. Para verificar de fato se as
diferenças são perceptível ao ouvido pode ser efetuado o teste ABX.
O teste ABX possibilita que seja verificado acusticamente se há diferenças
perceptivas nos formatos de compactação com perdas. Devido a natureza dos testes o
resultado é variável de acordo com o participante. A adoção do critério estatístico de
95% de acertos mínimos é importante para descartar resultados casuais.
É importante salientar que o teste ABX é vulnerável também as condições
técnicas do equipamento usado para reprodução das músicas. Um equipamento bem
ajustado pode revelar mais diferenças auditivas no teste ABX que outro. Por esse
motivo, é importante que os testes sejam realizados sempre no mesmo equipamento e
no mesmo ambiente.

As tecnologias de compactação de áudio são relativamente novas e estão sendo


desenvolvidas simultaneamente em diversos países por empresas, comunidades de

74
Nível de dB Full Scale. Escala usada para mensurar o nível em áudio digital, varia de 0 (valor máximo)
até menos infinito (valor mínimo)
43

audiófilos e pessoas independentes. Os testes entre codificadores podem se tornar


obsoletos como já abordado nas desvantagens de armazenar informações em formato
digital no Capítulo 1. Porém, mesmo com o lançamento de novos formatos de
compactação conhecidamente mais eficazes como o AAC, o formato MP3 continua a
ser o mais comum dentre o acervo musical circulante na Internet e continua a ter alguns
codificadores melhorados. Possivelmente, assim como ocorre em marcas de produtos
que popularmente representam uma espécie de produto, mesmo que outro formato se
torne mais usado o termo MP3 pode ter seu uso continuado para representar
genericamente qualquer formato de música compactada ou de equipamento portátil
capaz de reproduzir música.

Em suma, não é possível afirmar que um formato de compactação é mais


apropriado que outro para determinada música. Sabe-se que sons de fácil previsibilidade
como o barulho de um relógio podem ser representados com menos informações que
sons de difícil previsão como o barulho da chuva ou de aplausos.
Sabe-se também que músicas com menor gama de frequências podem ser
representadas com menos informações, portanto, é possível afirmar que músicas cujo
áudio foi trabalhado por processos de pós-produção para criar uma sonoridade extra-
realista são mais complexas de ser compactadas que um música cujo áudio é
essencialmente acústico.

Audiófilos sempre estão em busca de “sons perfeitos” e investem grandes


quantidades de dinheiro em equipamentos de áudio. Em contrapartida, grande parte da
população se contenta em ouvir música em mínimas e deficientes caixas de som
amplificadas para computador. Fora isto, há ainda uma parte que confunde
deliberadamente nível de potência sonora com nível de qualidade de som.
Um formato de compactação não é escolhido de acordo com a música a ser
apreciada, mas sim de acordo com a “ideologia” do público.

No CD-ROM anexo podem ser verificados os resultados gráficos comparativos


entre os codificadores de MP3 LAME e FhG com o formato original extraído de CD
44

através do software Exact Audio Copy75, programa capaz de extrair áudio de CDs com
verificação de precisão exata. Durante o processo de extração de áudio de CDs podem
ocorrer perdas de informações devido à erros normalmente não reportados pela maioria
dos programas que efetuam esse procedimento.
Estão armazenados também diversos pacotes de softwares gratuitos como
foobar2000, KDiff3, libsndfile, sndfile-tools, Spectro e os codificadores FLAC e
LAME.

75
Exact Audio Copy (EAC) é um software alemão gratuito sob a licença Postcartware e está disponível
em: http://www.exactaudiocopy.de/
45

7. REFERÊNCIAS

7.1 Livros

ALDRICH, Nika. Digital audio explained: For the audio engineering. 2ª ed. –
BookSurge. 2004 - 403 p. ISBN: 141960001X

FRIES, Bruce. The mp3 and internet audio handbook: your guide to the digital music
revolution, 1.ª ed., Burtonsville: Teamcom books, 2000 - 268 p. ISBN 1-928791-
10-7

GATES, Bill. A Estrada para do futuro. Tradução de Beth Vieira. São Paulo:
Companhia das Letras. 1995 – 347 p. ISBN: 85-7164-509-4

HOLMES, Thom. The routledge guide to music technology. 1.ª ed. New York: Taylor
and Francis Group. 2006 – 373 p. ISBN: 0-415-97324-4

KAHNEY, Leander. The cult of ipod. 1.ª ed. San Francisco: No starch press. 2005 – 151
p. ISBN: 1-59327-066-6

MOSTERT, Frederick W.; APOLZON, Lawrence E. From Edison to iPod. New York:
DK Publishing. 2007 – 288 p. ISBN: 978-0-7566-2602-0

NICHOLAS, Negroponte. Being digital. 1.ª ed. New York: Vintage Books. 1996 – 255
p. ISBN: 0-679-76290-6

RATTON, Miguel. Dicionário de áudio e tecnologia musical. 2.ª ed. Rio de Janeiro:
Música & Tecnologia. 2009 – 190 p. ISBN: 978-85-89402-13-2

_____. Midi total: Fundamentos e aplicações. 1.ª ed. Rio de Janeiro: Música &
Tecnologia 2005 - 369 p. ISBN: 85-89402-05-3

SOLARI, Stephen J. Digital vídeo and áudio compression. 1.ª ed. New York:McGram-
Hill Professional. 1997 – p. 187 – 211 ISBN: 0-07-059538-0

SPANIAS, Andréas; PAINTER, Ted; ATTI, Venkatraman. Audio signal processing and
coding. 1.ª ed. New Jersey: John Wiley & Sons, Inc. 2007 – 464 p. ISBN: 978-0-
471-79147-8

WATKINSON, John. An introduction to digital audio. Woburn: Focal Press. 1994a –


392 p. ISBN: 0-240-51378-9

_____. The art of digital audio. 3.ª ed. Woburn: Focal Press. 1994b – 753 p. ISBN: 0-
240-51587-0
46

_____. The mpeg handbook. 1.ª ed. Woburn: Focal Press. 2001 – p.130-131 ISBN: 0-
240-51656-7

ZÖLZER, Udo. Digital audio signal processing. 2.ª ed. Hamburg: Helmut Schmidt
University. 2008 – 334 p. ISBN: 978-0-470-99785-7

7.2 Internet

Boston Audio Society – ABX Testing article:


http://www.bostonaudiosociety.org/bas_speaker/abx_testing.htm
Acessado em 17 de maio de 2009

Exact Audio Copy: http://www.exactaudiocopy.de/ Acessado em: 10 de Outubro de


2009

FLAC – Free Lossless Audio Codec: http://flac.sourceforge.net/ Acessado em: 10 de


Outubro de 2009

Hydrogenaudio Knowledgebase – the audio technology enthusiast’s resource:


http://wiki.hydrogenaudio.org/ Acessado em: 10 de Outubro de 2009

KDiff3: http://kdiff3.sourceforge.net/ Acessado em: 10 de Outubro de 2009

LAME MP3 Encoder: http://lame.sourceforge.net/ Acessado em: 10 de Outubro de 2009

libsndfile: http://www.mega-nerd.com/libsndfile/ Acessado em: 10 de Outubro de 2009

Spectro - Freeware Audio File Analyzer: http://spectro.enpts.com/ Acessado em: 10 de


Outubro de 2009

7.3 Periódicos

Fraunhofer magazine – Research, technology and innovation. Munich: Fraunhofer-


Gesellschaft – N.º 2.2000 - 48 p. – ISSN: 1615-7028 - Também disponível na internet:
http://www.fraunhofer.de/archiv/magazin/pflege.zv.fhg.de/english/publications/df/df20
00/magazine2_2000.pdf
(Acessado em 9 de Outubro de 2009)
47

8. ANEXOS

Existem diversos anexos gravados em uma mídia CD-ROM como parte


integrante desse trabalho. Nesse capítulo apenas como foi feita a organização e cito o
conteúdo do disco.

Na raiz do disco há 3 pastas (Software, Tabelas e Testes) e 1 arquivo de texto


identificando a mídia.
• Software - estão cópias de vários softwares de uso gratuito usados nesse trabalho
de graduação para realização dos experimentos como mencionados nos capítulos
anteriores:

o FLAC
o Foobar2000
o KDiff3
o LAME
o libsndfile
o sndfile-tools
o Spectro

• Tabelas – Estão arquivos em formato PDF de vários testes publicados em sites


específicos sobre compactação de áudio na Internet;

• Testes – Estão os arquivos dos testes divididos em 7 pastas, todos as músicas


foram extraídas dos CDs de áudio originais pelo software Exact Audio Copy sem
apresentar erros.

o “Beatles - Here Comes The Sun“;


o “Bela Fleck & The Flecktones – Communication”;
o “Haggard - Chapter V – Courante” e “Haggard - Chapter V -
Rachmaninov-Choir”;
o “Bach - Toccata and Fugue in D minor, BWV 565 Toccata”;
o “John Mayer – Daughters”;
o “Pink Floyd – Money”;
o Sweep linear – Som de teste gerado pelo software sndfile-generate-chirp.
48

Em “Testes” os arquivos de áudio compactados estão divididos em pastas


categorizadas:da seguinte maneira:

o Nome do compositor ou grupo


 Espectrogramas
 MP3
♦ FhG encoder
⇒ 128kbps
⇒ 256kbps
⇒ 320kbps
♦ LAME encoder
⇒ 128kbps
⇒ 256kbps
⇒ 320kbps

You might also like