viernes, 16 de octubre de 2009

Compresión de Vídeo

Determinada por la reducción del volumen de datos que deben manejarse para su almacenamiento en algún tipo de soporte, como para su transmisión por canales de comunicación existentes.

En sistema de televisión analógica (PAL, NTSC, SECAM), se transmite una señal de video compuesto que integra la información de la luminancia y la crominancia de la imagen. Los sistemas de video digital trabajan con una representación de la señal de vídeo en componentes que se basa en el empleo de una señal de luminancia y de dos señales de diferencia de color (o bien, señales de rojo, verde, azul).

Las muestras de luminancia y de diferencia de color, se codifican utilizando Modulación de Pulsos Codificados (PCM, Pulse Code Mudulation) con cuantificación uniforme y 8 bits por muestra. Y toma valores positivos entre 16(negro) y 235(blanco), mientras que las señales de diferencia de color, Cr y Cb utilizan códigos de 16 a 240, siendo 128 el nivel cero de crominancia.

Pel o pixel: superficie más pequeña de la imagen óptica que se puede reproducir fielmente, formado por tres muestras Y, Cr y Cb.

La digitalización de la señal completa generaría un regimen binario de:

(13'5+6'75+6'75)*10^6 muestras/seg * 8 bits/muestra = 216' Mb/seg

Con objetivo de reducir el régimen, a menudo se eliminan los intervalos de sincronización y supresión de la señal y solo se digitalizará la parte visible de la imagen. La supresión no produce degradación den la imagen.

Régimen binario resultante , para transmitir y almacenar.
Para 625 lineas:
[(720*288)+2*(360*288)]muestras/campo * 8bits/muestra * 50campo/seg = 165'88 Mb/seg

Para 525 lineas:
[(720*240)+2*(360*240)]muestras/campo * 8bits/muestra * 59'94campo/seg = 165'722b/seg

Codificación Híbrida:
La compresión de la señal de vídeo digital se realiza eliminando la redundancia. Hay dos tipos de redundancias, por un lado relacionado por la naturaleza de la señal, y por otro, la que atañe a las características del receptor, es decir, del sistema de visión humano.
  • La primera se denomina redundancia estadística y viene motivada por la alta correlación espacio-temporal entre las muestras adyacentes de la señal de vídeo. Como dicha señal es tridimensional (espacio y tiempo) el término adyacente se refiera a la que existe entre imágenes sucesivas (redundancia temporal).
  • En cuanto al segundo tipo, denominado redundancia de percepción, trata de aprovechar las deficiencias del sistema de visión humano, para eliminar de la señal de vídeo aquella información que el receptor no es capaz de apreciar. Como por ejemplo de este tipo de imperfecciones pueden citarse: la mayor sensibilidad a la luz que al color o la baja sensibilidad a las altas frecuencias espaciales.
La codificación híbrida combina técnicas de predicción y transformación para reducir la redundancia.
La transformación más usada en codificación de imágenes es la Transformada Discreta del Coseno (DCT), por ser ortogonal, separable y existir algoritmos rápidos para su cómputo.

Para reducir la tasa binaria se emplean las siguientes técnicas:
Cuantificación(Q): Permite reducir el número de bits necesarios para representar los coeficientes de frecuencia de la DCT. Este proceso es irreversible y es la principal fuente de pérdidas en el codificador. La finalidad de este proceso es hacer cero todos los coeficientes de la DCT manteniendo un nivel de calidad aceptable.
Codificación de Longitud Variable(Variable Length Coding, VLC): También llamada codificación por entropía, aprovecha las propiedades estadísticas de la señal de salida del cuantificador y codifica con menor número de bits aquellos códigos más probables y con mayor números de bits los que tienen una frecuencia de aparición más baja.

Estándares de Compresión de Vídeo

Recomendación H.261
Estándar para compresión de vídeo desarrollado para facilitar los servicios de videoconferencia y videotelefonía sobre la red digital de servicios integrados (RDSI).
Se utiliza el formato CIF(Common Intermediate Format) para compatibilizar 625/50 y 525/60.

MPEG-1

El estándar ISO 11172 [ISO92], más conocido como MPEG-1, ha sido desarrollado para el almacenamiento de vídeo y el sonido asociado con un régimen binario de hasta 1.5 Mb/seg en soportes tales como CD-ROM, DAT, etc. También puede ser usado para la transmisión de vídeo.

La principal diferencia entre MPEG-1 y H.261 es que el primero permite la compensación de movimiento bidireccional. La secuencia de vídeo se divide en grupos de N imágenes (Group Of Pictures, GOP) que contienen tres 7 tipos de imágenes diferentes:

  • La primera imagen de cada GOP, denominada imagen tipo I, se codifica sin predicción (modo intra). El grado de compresión alcanzado es menor, pero a cambio se dispone de puntos de entrada a la secuencia que permiten realizar las funciones de avance y retroceso rápidos.
  • Las imágenes que ocupan las posiciones M + 1, 2M + 1, 3M + 1,... dentro del GOP se denominan imágenes tipo P y se codifican utilizando predicción (modo inter) con respecto a una imagen I o P anterior.
  • El resto de imágenes (tipo B) se codifican con predicción respecto a una imagen I o P anterior, posterior o ambas (predicción bidireccional) y son las que alcanzan mayor grado de compresión.

Debido a la necesidad de imágenes futuras para codificar las de tipo B, el orden de codificación de las mismas y su posterior envío en la trama de bits difiere del orden en que son visualizadas. La figura 2.2 muestra un ejemplo de GOP para N = 12 y M = 3.

MPEG-2.

La calidad del vídeo comprimido MPEG-1 (1.2 Mb/seg) no resulta adecuada para aplicaciones de entretenimiento. Por ello, se ha desarrollado un nuevo estándar ISO 13818 [ISO94] (Recomendación H.262 de la ITU-T), más conocido como MPEG-2.

El objetivo original de MPEG-2 fue definir un estándar genérico que pudiera utilizarse en el mayor número de aplicaciones posible. Entre los requisitos de partida, se encontraban:

· Compatibilidad con MPEG-1 y H.261,

· Buena calidad de imagen en el rango de 3 Mb/seg a 10 Mb/seg,

· Soporte de varios formatos de vídeo entrelazado y progresivo,

· Capacidad de acceso aleatorio,

· Avance rápido, avance lento, retroceso rápido.

· Escalabilidad de la trama de bits, adaptación a varios esquemas de transmisión y almacenamiento y capacidad de codificación con bajo retardo.

MPEG-2 también emplea codificación híbrida y, análogamente a MPEG-1, la secuencia de imágenes se organiza en GOPs y las mismas pueden ser de tipo I, P o B. Sin embargo, MPEG-2 también soporta vídeo entrelazado, en cuyo caso la señal de vídeo consiste en una secuencia de campos. Para su manejo se definen dos estructuras de imagen:

  • Imágenes con estructura de campo (field-pictures): Son imágenes formadas por un solo campo dividido en macrobloques y que se codifica por separado.
  • Imágenes con estructura de cuadro (frame-pictures): Se forman entrelazando los pels de ambos campos para formar el cuadro que se divide en macrobloques y se codifica.

Una de las principales diferencias entre MPEG-1 y MPEG-2 es la capacidad de este último de manejar eficientemente señales de vídeo entrelazado. Para ello se usan una serie de modos de predicción:

  • Predicción de cuadro para imágenes con estructura de cuadro (Frame prediction for frame-pictures): Este modo se usa sólo para las imágenes con estructura de cuadro y es idéntico al empleado en MPEG-1.
  • Predicción de campo para imágenes con estructura de campo (Field prediction for field-pictures): Este modo es específico de MPEG-2 y sólo se usa en imágenes con estructura de campo. Conceptualmente es similar al anterior.
  • Predicción de campo para imágenes con estructura de cuadro (Field prediction for frame-pictures): En este modo cada macrobloque de la imagen con estructura de cuadro se divide en dos, disgregando los pels pertenecientes a cada campo (top y bottom). Para las imágenes P, cada uno de los dos bloques de 16 x 8 pels en que se divide el macrobloque se predice independientemente a partir de alguno de los campos pertenecientes a la última imagen con estructura de cuadro, I o P, codificada. Análogamente, para las imágenes B, se realizan dos o cuatro predicciones. Este tipo de predicción es útil cuando la imagen presenta movimientos rápidos.
  • Predicción 16 x 8 MC para imágenes con estructura de campo (16 8 MC for field-pictures): Cada macrobloque de la imagen con estructura de campo se divide en dos separando su mitad superior (upper) de la inferior (lower). Para cada bloque se realiza independientemente predicción de campo. Para imágenes P se realizan dos predicciones y para imágenes B, dos o cuatro. Este modo de predicción resulta útil cuando la imagen presenta movimientos irregulares.

1 comentarios:

brutal on 17 de octubre de 2009, 23:28 dijo...

deja de subir a tu blog las diapositivas que tu profe te da para que estudies

 

Tecnologia, Electronica, Deportes y Mucho Mas Copyright © 2009 WoodMag is Designed by Ipietoon for Free Blogger Template