You are on page 1of 4

2.

6 Hbridos y anlisis por sntesis (ABS) codificadores de voz

2.6.1 Principio

En secciones anteriores hemos estudiado dos tipos de codificadores: Codificadores de forma de onda que
eliminan la correlacin entre muestras mediante la prediccin lineal.El esquema de codificacin diferencial
utilizado con cuantificadores adaptativos da buenos resultados con una velocidad de bits entre 32 kbit / s y 24
kbit / s.
Los codificadores predictivos lineales (o vocoders) usan un modelo simple de produccin de voz (tipos
sonoros o no vocales), modelado por un filtro lentamente variable (actualizado sobre una base de 20-30 ms)
que da forma al espectro del discurso decodificado.Los codificadores LPC se usan para codificadores de
voz de muy bajo nivel de bits (1.200-2.400 bit / s), pero la calidad del habla es baja (calidad "sinttica").

Los hbridos y los codificadores de anlisis por sntesis (ABS) combinan el mejor de los dos enfoques para
construir esquemas de codificacin eficientes usando un bitrate entre 6 kbit / s y 16 kbit / s.
Los codificadores ABS utilizan un marco de muestras para calcular los coeficientes del filtro LPC que
modelan el tracto vocal, as como un filtro predictivo a largo plazo (LTP) que elimina el "pitch"

Figura 2.46 La seal de error residual despus de filtrar el habla por el filtro inverso.

correlacin. Ambos coeficientes LPC y LTP estn codificados (la cuantificacin vectorial se utiliza con
frecuencia) y se transmiten. Sin embargo, a diferencia de los codificadores LPC que necesitan clasificar el
tipo de voz entre 'v oiced' o 'unvoiced' y transmitir esta informacin, los hbridos y los codificadores de habla
ABS evitan tal clasificacin encontrando algunos medios de codificar la seal de error residual entre el LPC /
LTP inverso (Vase la figura 2.46) y la seal original.
En los codificadores de voz de prediccin lineal excitada (RELP) residual, la seal residual se alimenta a
un filtro de paso bajo y la seal resultante se codifica clsicamente en forma de PCM.Los codificadores RELP
dan buenos resultados alrededor de 10 kbit / s transmitiendo los coeficientes LPC / LTP y la seal residual
codificada.Los codificadores de voz RELP no intentan eliminar la contribucin de tono (no aplican un filtro
predictivo dedicado a largo plazo).
Los codificadores de voz de anlisis por sntesis (ABS) utilizan un mtodo ligeramente diferente. En lugar
de codificar la seal de error dual resi (un mtodo enfocado en la 'salida'), intentan calcular qu seal de
entrada de excitacin al filtro LPC / LTP inverso resultar en una seal de voz descodificada lo ms cerca
posible de la seal original.Los parmetros de excitacin se transfieren al decodificador.
El principio ABS se muestra en la Figura 2.47.
Figura 2.47 Anlisis por el principio del encoder ABS.

El algoritmo de optimizacin del codificador de voz de ABS encuentra el 'mejor' vector de parmetros de
configuracin para el generador de excitacin. Este mejor vector se busca utilizando un bucle de
minimizacin de errores basado en el error perceptual entre el habla original y la seal sintetizada.El filtro de
sntesis es una cascada del filtro LPC inverso y del filtro inverso LTP. Los codificadores ABS pueden ser
considerados tanto como filtros de sntesis (enfoque LPC / LTP) como codificadores de forma de onda
(minimizacin de un error de forma de onda); Tambin se les llama codificadores hbridos de voz de forma de
onda.Un descodificador ABS es muy simple como se muestra en la Figura 2.48.

2.6.2 El codificador de voz RPE-LTP de tarifa completa GSM (GSM 06.10)

El codificador de voz ABS ms utilizado es el cdec GSM full-rate, estandarizado por el ETSI en 1988 para
el sistema mvil digital celular.Este esquema de codificacin fue propuesto por PKI, IBM France y France
Telecom. Utiliza la excitacin de pulso regular (RPE) con prediccin a largo plazo (LTP) , o RPE-LTP ,
a una velocidad de transferencia de 13 kbit / s [A16].El codificador GSM alimenta el filtro ABS inverso con
una seal de excitacin optimizada para minimizar la seal de error.GSM utiliza una serie de pulsos regulares,
casos especiales de "multi-pulso" seales de excitacin que se estudiar ms tarde. La eleccin de RPE para '
codificar ' la seal residual permite una implementacin de menor complejidad comparada con la
optimizacin general de mltiples pulsos.
En el codificador de velocidad completa GSM, la seal es primero tamponada en un marco de 20 ms (160
muestras), entonces el anlisis LPC clsico encuentra los ocho coeficientes que modelan el tracto vocal. Estos
coeficientes (tambin llamados paradores para la relacin parcial ) se codifican y se transmiten en el flujo de
bits.El buffer de entrada entero es filtrado inversamente por el filtro LPC inverso, dando como resultado 160
muestras residuales (LPC).
Estas 160 muestras residuales se subdividen en cuatro subtramas de 40 muestras. En cada subtrama, el
algoritmo busca la ganancia y el retardo ptimo del filtro LTP. El filtro LTP se describi en la Seccin 2.4.3.
El uso de subtramas refleja el hecho de que el tono (que est entre 75 Hz y 400 Hz dependiendo de la edad y
el gnero del hablante) vara ms rpidamente que las caractersticas del tracto vocal.El retardo y la ganancia
de LTP se codifican y transmiten para cada subtrama.
La contribucin LTP es entonces restada de la seal residual para cada subtrama de 40 muestras.
Esta seal de diferencia se codifica a continuacin utilizando el procedimiento RPE, que divide las 40
muestras originales de la seal de diferencia en cuatro subseries de muestras:

El primero comienza con el valor del ndice de muestra 0, luego elige un valor de muestra de 4, desde

el ndice 3 hasta el ndice 36.

El segundo comienza con el ndice 1, luego escoge un valor de la muestra de 4, desde el ndice 4 hasta
el 37.
Figura 2.48 Principio del decodificador ABS.

El tercero comienza con el ndice 2, luego selecciona un valor de la muestra de 4, del ndice 5 al 38.

El ltimo comienza con el ndice 3, luego elige un valor de muestra de 4, desde el ndice 6 hasta el
ltimo ndice del subtrama.

De las cuatro series, se selecciona la que mejor se adapta a las 40 muestras residuales originales ; Se requieren
dos bits por subtrama para indicar la eleccin al receptor.La mxima energa de las muestras en las
subsecuencias seleccionadas tambin se codifica, utilizando 6 bits. Todas las muestras de la subsecuencia se
normalizan mediante esta energa cuantificada, luego se cuantifican escalares con 3 bits.Cada serie consiste en
un proceso subampleado que es un filtro de paso bajo duro con una frecuencia de corte alrededor de 1.300 Hz.
Esto privilegia la voz masculina sobre las voces femeninas o infantiles.
La asignacin b it para una trama del codificador de voz GSM RPE-LTP se da en la Tabla 2.8.El principio
del codificador GSM RPE-LTP se muestra en la figura 2.49 y el decodificador en la figura 2.50.
Aunque el RPE-LTP produce una calidad de voz ligeramente inferior a la telefona estndar , es muy
adecuado para sistemas de comunicaciones mviles porque resiste bastante bien los errores de transmisin.La
cifra MOS de la RPE-LTP es de alrededor de 3,8 en comparacin con 4,2 de la PCM G.711.
La recomendacin ETSI 06-10 GSM RPE-LTP incluye una descripcin detallada de aritmtica de punto
fijo basada en el uso de "operadores bsicos".Tambin se proporcionan secuencias de prueba digitales para
verificar la conformidad con la norma. Aunque algunas versiones flotantes de este estndar existen y se
utilizan en el software de VoIP, algunos problemas sutiles pueden aumentar la interoperabilidad con la
versin de punto fijo genuina.
Adems de la codificacin de voz bsica, se aadi al codificador un esquema VAD (deteccin de
actividad de voz), DTX (transmisin discontinua) y CNG (generacin de ruido de confort) .VAD detecta
si est presente un discurso vocal y de otro modo transmite (menos frecuentemente) parmetros que contienen
la informacin de ruido.En el caso de GSM, estos parmetros se basan en los parmetros LPC y en la energa
del ruido. Se envasan en un marco SID (descripcin de silencio ) que se enva cada 80 ms (cuatro cuadros
comparados con

Cuadro 2.8 Asignacin de bits GSM a plena velocidad


Longitud de trama RPE-LTP = 160 muestras = 20 ms

Tracto vocal: coeficientes LPC; 8 parques

8
LTP lagLTP gainTotal Cuantizacin escalar de 13 24
muestrasMximo de energa de la serie seleccionadaGrid 156
28
selection Subframe == longitud 72bitsbits = 2 = bits 40 8
muestras == 13 = * 63 bits = 39 bits 260

Velocidad de bits = 260/20 ms = 13 kbit / s


Figura 2.49 Principio bsico del codificador de voz GSM de tarifa completa RPE-LTP (13 kbit / s).

Figura 2.50 Principio bsico del decodificador de voz GSM RPE-LTP de plena velocidad (13 kbit / s).

La trama del habla de 20 ms). Debe sealarse que el diseo de un algoritmo VAD bueno y eficiente es casi
tan complejo como el diseo de un buen codificador de voz.
El codificador GSM 6.10 refleja las limitaciones de la potencia de procesamiento comnmente disponible
en 1988; Est siendo reemplazado progresivamente por GSM 6.60.
El codificador GSM 6,60 se basa en la tecnologa ACELP propuesta por Nokia y la Universidad de
Sherbrooke. Slo utiliza 12,2 kb / s (menos de los 13 kbit / s de GSM 6.10, dejando cierta capacidad de
proteccin contra errores).Cuando no hay errores en el canal de transmisin, la calidad de voz es equivalente a
G.726 a 32 kbit / s (calidad de peaje).

You might also like