jueves, 24 de diciembre de 2009

Como (no) emborracharse en Navidad

Nuevamente llegan las fiestas de fin de año, y con ellas los consabidos brindis. No es ningún secreto que más de un lector de -alguna vez- se habrá pasado con el nivel de efusividad a la hora de festejar, y terminado con una resaca de campeonato. Afortunadamente, hay científicos que se encargan de investigar seriamente estas cosas para que no volvamos a cometer errores semejantes. La Dra. Damaris Rohsenow y sus colegas han aprovechado estas fechas para elaborar un estudio que intenta desvelar que es mejor en Navidad: emborracharse con bourbon o whisky, o hacerlo con vodka o ginebra.

Independientemente de nuestras creencias religiosas, por estas fechas nos juntamos con amigos y familiares para festejar la Navidad, el comienzo del nuevo año y -ya entrados en clima- lo que sea. Además de las cantidades astronómicas de comidas de diferentes estilos que madres, tías, abuelas y -por que no- amantes preparan con tanto cariño para que nosotros (los cerdos de la casa) demos cuenta rápidamente, se ingieren cantidades poco habituales de alcohol. Como es lógico, tanta bebida termina “afectando” nuestros cuerpecitos. Mucho se ha discutido si lo que nos emborracha irremediablemente es la cantidad, la calidad o la mezcla de alcoholes que metemos en nuestro organismo, pero pocas veces hemos visto que un grupo de científicos se pongan a investigar seriamente la cuestión. Eso es justamente lo que la doctora Damaris Rohsenow y sus colegas han intentado en esta oportunidad, quizás buscando ser los ganadores indiscutidos de los premios Ig Nobel del año próximo.

No existen diferencias entre hombres y mujeres: todos se emborrachan en el mismo grado.

El artículo fue publicado el último número de la revista Nature bajo el titulo “Intoxication With Bourbon Versus Vodka: Effects on Hangover, Sleep, and Next-Day Neurocognitive Performance in Young Adults,” y básicamente intenta responder la siguiente pregunta: “¿Las bebidas alcohólicas con color oscuro (como el bourbon o el whisky) producen peores resacas tras una borrachera que las bebidas sin color (como el vodka o la ginebra)?” Realmente, al leer una y otra vez la disyuntiva que se ha tomado como base para este sesudo análisis, uno se convence que el equipo de Rohsenow eligió este tema cuando se encontraban en el bar más cercano al laboratorio festejando algo. Luego de hacer “algunos experimentos”, entre los que se incluyen resacas provocadas intencionadamente a 95 voluntarios, han llegado a una conclusión. El bourbon o el whisky nos provocan resacas más molestas debido a que contienen sustancias diferentes del alcohol (etanol) formadas durante la fermentación de la bebida. Entre trago y trago, Damaris descubrió que el bourbon contiene 37 veces más congéneros que el vodka. Parece que lo que nos causa las borracheras es el etanol, pero lo que nos hace sentir terribles resacas son los congéneros, que empeoran sus efectos.

Ya puestos en esto, los científicos se pusieron a investigar los efectos que tienen estas bebidas en una persona que intenta hacer alguna tarea repetitivas que requiera simultáneamente atención sostenida y velocidad, como conducir un coche (nunca manejes si has bebido), manejar una máquina compleja o -por que no- servirte otro trago. Los resultados demostraron que ambos tipos de bebidas afectan por igual nuestro poder de concentración y coordinación, independientemente de su color. El motivo de esto es, sin dudas, que nuestro cerebro es incapaz de funcionar bien cuando lo hemos bañado en etanol. A lo largo de los experimentos se estudiaron a sujetos voluntarios (seguramente no les costó trabajo encontrar a unos cuantos que hicieran las pruebas gratis) a quienes emborracharon con vodka o bourbon hasta que alcanzaron diferentes niveles de intoxicación. Como hacen los buenos científicos cuando están sobrios, los miembros del equipo cuantificaron los síntomas que presentaban los “conejillos de indias” en sus resacas tras una noche “durmiendo la mona.”

Parece que todas emborrachan igual, independientemente de su color.

Al igual que ocurre en los ensayos con nuevos medicamentos, algunos de los participantes fueron “emborrachados con un placebo”, como bebidas cola descafeinadas, para poder comparar su estado con los sujetos que realmente se habían emborrachado. Leyendo el artículo uno se encuentra con resultados curiosos aunque esperables, como que los efectos del alcohol dependen de la edad. Parece que los más jóvenes sufren resacas más leves, y que no existen diferencias entre hombres y mujeres: todos se emborrachan en el mismo grado. La infatigable doctora Rohsenow, acompañada por su devoto grupo de colaboradores, ya están trabajando en el diseño de un nuevo experimento. Esta vez, intentan determinar exactamente cuales son los efectos que tiene la cerveza con y sin cafeína en la conducción de automóviles. El estudio, que han llamado “Acute and Residual Effects of Beer vs. Caffeinated Beer on Simulated Driving”, estará listo para el próximo verano, justo a tiempo para la temporada de la cerveza. ¿Alguien se anota como voluntario?

Continue Reading...

Realidad Aumentada en el fútbol

"¡¿Fuera de juego?! ¡Métete la bandera bien en el...!" Esta y otras tantas frases coloridas suelen ser parte del fútbol y la interacción del público con las decisiones tomadas por los jueces de línea. Hay ocasiones en las que determinar un fuera de juego es tan difícil como intentar explicárselo a alguien que no tiene la menor idea sobre fútbol. Sin embargo, los fanáticos tendrán la posibilidad de confirmar si tenían razón o no utilizando a un teléfono móvil. ¿Cómo? A través de la asistencia que provee la realidad aumentada. El equipo holandés PSV Eindhoven ha unido fuerzas con la empresa Layar para presentar un concepto de aplicación que detecta si el juez de línea se equivocó o no al levantar la bandera.

El presidente de la FIFA Joseph Blatter fue terminante al descartar cualquier clase de asistencia tecnológica en los partidos de fútbol. Si bien este es un tópico que ha sido discutido en múltiples ocasiones, recientemente ha adquirido un matiz especial después de la demostración de básquet que Henry hizo para la selección francesa durante su partido contra Irlanda. Sin embargo, el que no se pueda recurrir a la tecnología dentro del campo de juego no quiere decir que no se pueda hacer lo mismo fuera de él. Varios canales de televisión alrededor del mundo han implementado diferentes técnicas para detectar ciertas condiciones en jugadas ajustadas, en donde las acciones de fuera de juego tienen un papel fundamental. La naturaleza misma de la posición fuera de juego hace que sea extremadamente difícil de detectar en algunos casos, provocando errores involuntarios en los jueces de línea, aunque hay veces en las que simplemente, se equivocan feo.


El concepto que ha presentado el club holandés PSV Eindhoven en conjunto con la empresa especializada en realidad aumentada Layar nos muestra cómo un iPhone puede ser utilizado para registrar la actividad durante un partido y determinar si un jugador atacante se encuentra en posición fuera de juego. Cada vez que el jugador está en posición ilegal, la línea se vuelve roja, mientras que el color cambia a verde cuando está habilitado. El vídeo sólo nos muestra a una línea siguiendo a un jugador, pero lo cierto es que la posición fuera de juego puede ser mucho más compleja que eso. Varios integrantes de un equipo pueden formar parte de la jugada, por lo que sería necesario rastrear más líneas, y también habría que tener en cuenta el factor de "posición pasiva", ya que una jugada válida podría resultar malinterpretada por el programa.


La idea es excelente, pero requerirá una interpretación perfecta de la ley del fuera de juego. Probablemente sea la regla más complicada de explicar y aplicar dentro de un partido de fútbol, e incluso habrá que considerar los posibles márgenes de error que el sistema pueda tener. Las capacidades de detección de la cámara, la iluminación disponible, el clima durante el partido... los factores a evaluar son muchos, y deberán ser tenidos en cuenta si esta aplicación busca llegar a buen puerto. Seguir a un jugador con una línea dibujada en la pantalla puede parecer algo sencillo, pero la ley de fuera de juego definitivamente no lo es.
Continue Reading...

viernes, 11 de diciembre de 2009

Comunicación inalámbrica cerebro-ordenador

El profesor Frank Guenther, de la Universidad de Boston, acaba de poner a punto un sistema que permite “conectar” nuestro cerebro con una PC mediante ondas de radio. El dispositivo, que requiere del implante de una serie de electrodos en la corteza cerebral, convierte los impulsos eléctricos generados por el cerebro en señales inalámbricas que son enviadas a un receptor e interpretadas por un ordenador. Gracias al invento, Erik Ramsey, un paciente que había sufrido un accidente de tránsito, ha vuelto a “hablar

Hace diez años, cuanto tenía 16, Erik Ramsey sufrió un horrible accidente de tránsito que cambió su vida. Desde ese entonces ha vivido dentro de un cuerpo paralizado casi por completo, que ni siquiera le permite hablar. Pero el trabajo de Frank Guenther, un científico de la Universidad de Boston, acaba de hacer menos penosa su vida. Guenther ha desarrollado un sistema que permite recoger las señales del cerebro de una persona, convertirlas en señales de frecuencia modulada, y transmitirlas a un receptor. Una vez allí, esas señales son convertidas nuevamente en información que puede ser procesada por un ordenador. Con el software adecuado, el ordenador puede realizar algunas tareas por Erik. Por ejemplo, hablar.

Por ahora, Ramsey sólo puede expresar los sonidos de las vocales a través del ordenador. Esto es mucho menos de lo que se ha logrado utilizando interfaces “cableadas” directamente entre el cerebro y el ordenador -de hecho, un mono ha logrado controlar un brazo robótico- pero no deja de ser un avance prometedor. Este tipo de dispositivos reciben genéricamente el nombre de Brain Computer Interface System (BCIS, o interfaces cerebro-ordenador). “Todos los grupos de trabajo relacionados con BCIS han comenzado a trabajar en la búsqueda de soluciones inalámbricas. Son muy superiores”, dice Frank Guenther. En la última década estas interfaces han abandonado definitivamente el estado de “podría ser posible” para convertirse en una realidad médica. Uno de los primeros en aprovechar estos sistemas fue el tetrapléjico Matthew Nagle, que hace cuatro años fue noticia al demostrar que podía jugar al Pong utilizando solo sus pensamientos. Otros pacientes utilizan sistemas similares para dirigir sillas de ruedas o incluso enviar mensajes a Twitter. Sin embargo, el campo de las “comunicaciones inalámbricas” entre nuestra mente y los ordenadores recién está comenzando a ser explorado.

Como ocurre a menudo, estos avances plantean a los expertos en ética algunas cuestiones bastante espinosas. Por ejemplo,
¿pueden implantarse estos sistemas en personas sanas para mejorar su rendimiento? Ni falta hace decir que más de uno -si fuese posible, barato y seguro- iría corriendo a ponerse uno de estos cacharros en el cerebro para desterrar definitivamente de su escritorio el teclado y ratón. Por otra parte, y aunque quizás sea muy pronto para preocuparse, existe algún temor respecto de la seguridad. ¿Que amenaza representan los hackers? O peor aún, ¿puede el fabricante de tus prótesis utilizar criptografía para controlar que puedes y que no hacer con tu propio cerebro? Este último punto no es tan descabellado como parece, ya que hemos visto esquemas parecidos en cámaras de fotos y marcapasos.

Hasta ahora se han implantado solo tres electrodos en el cerebro de Ramsey.

Los sistemas “tradicionales” que recogen las señales cerebrales mediante sensores colocados sobre el cuero cabelludo son notoriamente lentos. Utilizando una interfaz de ese tipo, Ramsey era capaz de articular no más de una palabra por minuto. Si bien era un adelanto, seguía siendo bastante incomodo de utilizar. Al colocar los electrodos directamente en su cerebro, la velocidad se incrementa lo suficiente como para poder hablar normalmente. “El sistema introduce una demora de solo 50 milisegundos. Ese es el tiempo que tarda en aparecer el sonido en los parlantes del ordenador cuando el paciente da la orden correspondiente”, dice Guenther. Obviamente, colocar electrodos directamente en el cerebro de un paciente plantea la posibilidad de una infección peligrosa.
Utilizando un modelo construido por el propio Guenther, la actividad cerebral de Ramsey relacionada con la boca los movimientos de la mandíbula es la encargada de controlar el implante. De alguna manera, basta con que el paciente ordene a su paralizado cuerpo que hable para que los sonidos salgan por los altavoces del ordenador. Hasta ahora se han implantado solo tres electrodos en el cerebro de Ramsey, que son suficientes para recoger los sonidos de las vocales. Pero Guenther planea agregar 32 electrodos más. De esa forma, su paciente podría emitir los mismos sonidos que una persona sana.

Continue Reading...

lunes, 7 de diciembre de 2009

Novio interrumpe su boda para actualizar su Twitter y Facebook

Esta es una noticia muy curiosa que lo encontré revisando una página española.

La noticia trata de un novio que interrumpió su boda para actualizar su estado en Facebook y Twitter y por si fuera poco, se dio un tiempo para subir un vídeo al Youtube.

Esto demuestra que las redes sociales están en todas, a continuación les dejo el mensaje que dejó el novio en Twitter y luego el respectivo vídeo del hecho.

"¡De pie en el altar con @TracyPage donde hace solo un segundo, se convirtió en mi mujer! Me tengo que ir, es momento de besar a mi esposa. #diadeboda 1:48 PM 21 de noviembre de Twittelator."

Continue Reading...

domingo, 6 de diciembre de 2009

Sudáfrica 2010 en 3D de la mano de Sony

Como ya es habitual, Sony ha ganado una puja que se disputaban todos los grandes exponentes de la industria electrónica mundial: tener la posibilidad de mostrar al mundo los avances en tecnología 3D para transmisión de imágenes de televisión. FIFA ha sellado un acuerdo con el gigante nipón abriéndole las puertas para transmitir 25 partidos de fútbol correspondientes a la Copa del Mundo FIFA 2010 a un selecto grupo de ciudades del mundo donde se podrán ver las imágenes de los encuentros deportivos en tres dimensiones y en pantallas LED gigantes de hasta 280 pulgadas. Imágenes con sensación de profundidad y real percepción del espacio son los pilares en los que se sustenta esta tecnología que aparece en escena dispuesta a dar una nueva vuelta de hoja en la historia de la televisión mundial.

Para muchas culturas, el fútbol o balompié es un juego que atrae la atención de gran cantidad de aficionados. Sin embargo, para otras es una pasión desenfrenada que no sabe de límites, esfuerzos y sacrificios en pos de disfrutar, vivir y sentir hasta el más ínfimo de los detalles que hacen a cada encuentro deportivo. Los grandes fabricantes mundiales de aparatos de televisión saben y conocen muy bien este fenómeno y comprendieron, hace ya mucho tiempo, que cada cuatro años es el momento de aprovechar este volcán incontenible y facturar muchos millones con las ventas de equipos de televisión de última generación. SONY no ha dejado pasar esta oportunidad y ha rubricado un jugoso contrato con FIFA para presentar en sociedad su nueva tecnología 3D en transmisiones televisivas.

Principio de funcionamiento del sistema 3D de Sony

El acuerdo incluye la transmisión de 25 partidos para un selecto grupo de ciudades alrededor del mundo. Los partidos se exhibirán en los distintos puntos de venta que SONY posee en México, Río de Janeiro, Berlín, Londres, París, Roma y Sydney durante los meses de junio y julio. Para aquellos que no puedan estar presentes en los lugares elegidos, Sony Pictures ha anunciado que venderá una versión en video Blu-ray de los encuentros grabados con esta tecnología. Lo que aún no ha quedado del todo claro es si los eventos deportivos sólo se grabarán para luego ser emitidos en tiempo diferido o si se tendrá la posibilidad de disfrutarlos en directo. En el cuadro superior, puedes apreciar el proceso que requiere la información obtenida antes de ser entregada al televidente en la propuesta 3D de SONY.

Por ahora la utilización de gafas especiales es inevitable

Se estima que para el momento de la demostración, la tecnología habrá permitido eliminar la necesidad de utilizar gafas especiales. Estas gafas le transmiten a cada ojo del espectador la información exacta para crear la sensación de profundidad que requiere una imagen 3D. Este fenómeno es muy claro en el siguiente video donde la imagen de fondo "parece" distorsionada. Además, con la firme intención de utilizar la novedosa y prometedora resolución4k2k”, que representa el doble de la resolución actual de los equipos FullHD, las presentaciones públicas a través de enormes pantallas LED ubicadas en plena calle apuntarán a ser un espectáculo digno de disfrutar.

Hasta ahora y con la obtención de este acuerdo, SONY se presenta como la gran vencedora para imponer en el mercado su tecnología 3D. De lo que estamos seguros es que los dividendos millonarios que le quedarán a la compañía en conceptos de publicidad y ventas de sus pantallas BRAVIA serán enormes. Hasta el 11 de junio de 2010, momento en que comenzará a rodar la pelota por los campos de juego, la tecnología definitiva a apreciar será todo un misterio guardado bajo siete llaves con la finalidad de lograr el impacto esperado entre los que concurran a estas multitudinarias presentaciones públicas.

La expectativa es mundial y todos esperamos ver un gran espectáculo
Continue Reading...

viernes, 4 de diciembre de 2009

Compresión de Vídeo MPEG

COMPRESIÓN DE VÍDEO

1. Compresión de Imágenes en Movimiento

La necesidad de reducir el volumen de datos que se manejan para almacenamiento en algún soporte o la transmisión por canales de comunicación, son motivos por el cual se comprime las imágenes.

El método de codificación híbrida es la más usada por la mayoría de los estándares.

1.1 La Señal de Vídeo Digital

En los actuales sistemas de televisión analógica (NTSC, PAL, SECAM) solo consta de una componente de luminancia (Y) y una de crominancia, en cambio la señal digital, cumpliendo la recomendación 601 del CCIR válido para sistemas de 525 y 625 líneas, se componen de una señal de luminancia (o brillo) y dos de crominancia (que dan el color) muestreadas a 15.3MHz y 6.75MHZ respectivamente. Dicha relación de frecuencias de muestreo se denomina 4:2:2. Ambas señales se codifican usando modulación por impulsos codificados (PCM) con cuantificación uniforme y 8 bits por muestra.

Con las frecuencias antes mencionadas se toman 864 muestras (pixel) para la luminancia y 432 muestras para la crominancia (para el sistema de 625 líneas) y de 858 muestras para la luminancia y 429 muestras para la crominancia (para el sistema de 525 líneas), las cuales al eliminar los pixeles que no contienen información se tiene 720 muestras para la luminancia y 360 muestras para la crominancia en ambos sistemas.

Cada muestra se codifica en 8 bits, de esta manera se obtiene un régimen binario de:

(13.5 + 2*6.15) MHz * 8bits = 216 Mb/s

Con el fin de reducir la velocidad se eliminarán los pixeles que no contienen información, sin degradar la imagen, obteniendo un régimen binario para el sistema de 625 líneas:

(720*288 + 2*360*288)muestra/campo * 8bits/muestra *50 campo/seg = 165.88Mb/s

Para 525 líneas:

(720*240 + 2*360*240)muestra/campo * 8bits/muestra *59.94 campo/seg = 165.88Mb/s

Estos resultados siguen evidenciando la necesidad de compresión de este volumen para poder adaptarlo a los canales y soportes de almacenamiento.

Elemento de imagen, pel o pixel: superficie más pequeña de la imagen óptica que se puede reproducir fielmente.

La señal de televisión esta entrelazada con una relación de 2:1 la cual quiere decir que cada cuadro de imagen (frame) está formada por dos campos (field).

1.2 Codificación Híbrida

La compresión de la señal de vídeo se realiza mediante la eliminación de información redundante en la misma. Existen dos tipos de redundancia, por un lado la relacionada con la naturaleza de la señal, y por otro, la que atañe a las características del receptor (sistema de visión humano):

· Redundancia estadística, viene dada por la alta correlación espacio – temporal entre las muestras adyacentes de la señal de vídeo. Con adyacente se refiere a las muestras dentro de una misma imagen (redundancia espacial) y a la que existe entre imágenes sucesivas (redundancia temporal).

· Redundancia de percepción, elimina la información que el ojo humano no puede captar.

La codificación híbrida combina técnicas de predicción y transformación para reducir redundancia en la señal de vídeo. La técnica de codificación híbrida más popular, utiliza predicción en el dominio temporal, usando compensación de movimiento y transformación en ambas dimensiones.

La imagen a codificar se divide en bloques de N*N pixeles para cada bloque se genera una predicción por compensación de movimiento a partir de una imagen ya codificada. Si entre ambas imágenes existe cierta redundancia espacial, el error entre la predicción y el bloque original tendrá menor energía.

La transformación que más se emplea en codificación de imágenes es la transformada discreta del coseno DCT, por ser ortogonal, separable y existir algoritmos rápidos para su computo. La DCT permite reducir la tasa de codificación y la velocidad de transmisión, se divide la imagen en sectores de 8*8 pixeles, denominado Xij, que después de aplicar la DCT se convierte en una matriz 8*8 denominada Tmn. La DCT aprovecha la redundancia espacial de la imagen.

Para reducir las tasas binarias se emplean las siguientes técnicas:

· Cuantificación (Q): Este proceso es irreversible y donde se producen más pérdidas en el codificador. El resultado de este proceso es de hacer cero el mayor número posible de los coeficientes de la DCT manteniendo el nivel de calidad aceptable.

· Codificación de longitud de variable (VCL): llamada también codificación por entropía, codifica con mayor número de bits a los códigos con menos probabilidad de ocurrencia, y con un número menor de bits a aquellos que tienen mayor probabilidad de ocurrencia.

Para terminar, la codificación híbrida utiliza el sub-muestreo para disminuir el régimen binario, teniendo una reducción en la calidad de la imagen, pero solo se usa para las señales de crominancia aprovechando las deficiencias del sistema visual humano a este tipo de información. Así se utiliza la estructura de muestreo 4:2:0, en la que por cada cuatro muestras de Y, se toma solo una de CR y CB.

2. Estándares de Compresión de Vídeo

2.1 H.261

Es un estándar de compresión de vídeo desarrollado para facilitar los servicios de videoconferencias y videotelefonía. Utilizando canales de 64Kb/s por lo cual se conoce también por pX64 (p=1,..,30). La máxima capacidad disponible es de 1.92Mb/s (p=30).

Con el fin de compatibilizar los sistemas de 625/50 y 525/60, el codificador opera con imágenes en un formato común denominado CIF (Common Intermediate Format) cuya resolución es de 352*288 pixeles para la luminancia y 176*144 pixeles para las dos componentes de crominancia.

El método de compresión que utiliza es un híbrido de predicción y transformación.

2.2 MPEG-1

Desarrollado para el almacenamiento de video y sonido asociado a una tasa de bit de 1.5Mb/s en soporte tales como CD-ROM, DAT, etc. También puede ser usado para la transmisión de vídeo.

MPEG-1 utiliza un método de codificación predicción/transformación parecida a la de H.261 pero con algunas características adicionales y mayor complejidad, con la diferencia de que MPEG-1 permite compensación de movimiento bidireccional. La secuencia de vídeo se divide en grupos de N imágenes (Group Of Pictures, GOP) que contienen tres tipos de imágenes diferentes:

· La primera se denomina I, se codifican sin ninguna referencia temporal a cuadros anteriores o posteriores (sin predicción), provocando una compresión menor, pero se pueden usar estos cuadros como punto de acceso a la secuencia que permite realizar funciones de avance y retroceso rápido.

· Imágenes de tipo P, se codifican más eficientemente debido a que se emplea predicción por compensación de movimiento sobre un cuadro I o P anterior. Se ubican de acuerdo a: M+1, 2M+1, 3M+1,…

· Imágenes del tipo B, son las que más se comprimen, al utilizar predicción bidireccional respecto a una señal I o P anterior, posterior o ambas.

El orden de codificación y su posterior envío e n la trama de bits difiere del orden de visualización.

Aunque MPEG-1 permite formatos de imágenes mayores, se define un formato SIF (Source Input Format) con una resolución de 360*240 pixeles para 30 imágenes por segundo o de 360*288 para 25 imágenes por segundo.

2.3 MPEG-2

El objetivo principal del MPEG-2 fue definir un estándar genérico que pudiera aplicarse en el mayor número de aplicaciones posibles. Los requisitos que se plantearon fue la compatibilidad con los formatos anteriormente mencionados, una calidad de imagen en el rango de 3Mb/s y 10Mb/s, soporte a varios formatos de vídeo entrelazado y progresivo, estabilidad en la trama de bits, adaptación a varios sistemas de transmisión y almacenamiento y capacidad de codificación con bajo retardo.

Para poder abordar el amplio rango de aplicaciones, el estándar tiene definidos una serie de perfiles (profiles) y niveles (levels) que se utilizan de acuerdo a la aplicación:

· Perfiles: Sencillo, principal, SNR, espacial y alto.

· Niveles: Bajo, principal , alto con 1440 y alto. Se imponen en la resolución como en la velocidad binaria.

MPEG-2 también emplea codificación híbrida y la secuencia de imágenes se organizan en GOP. Pero MPEG-2 soporta vídeo entrelazado, en cuyo caso la señal se vídeo consiste en una secuencia de campos. Para su manejo se definen dos estructuras de imagen:

· Imágenes con estructura de campo (field-pictures): Imágenes formadas por un solo campo dividida en macro bloques y se codifican por separado. Se usan en parejas (Top-field y Bottom-field) y juntas constituyen un cuadro.

· Imágenes con estructura de cuadro (frame-pictures): Se forman entrelazando los pixeles de los campos para formar el cuadro en macro bloques y se codifica.

En MPEG-2 se admiten tres formatos de macro bloques correspondientes a su estructura de muestreo 4:2:0, 4:2:2 y 4:4:4.

La principal diferencia entre MPEG-1 y MPEG-2 es la capacidad de este ultimo de soportar señales de vídeo entrelazadas, para lo cual se usas diversos modos de predicción:

· Predicción de cuadro para imágenes con estructura de cuadro (Frame prediction for frame-pictures).

· Predicción de campo para imágenes con estructura de campo (Field prediction for field-pictures): Específico de MPEG-2.

· Predicción de campo para imágenes con estructura de cuadro (Field prediction for frame-pictures).

· Predicción de 16X8MC para imágenes con estructura de campo (16X8MC for field-pictures). Este modo de predicción resulta inútil cuando la imagen presenta movimientos irregulares.

Resumen de los modos de predicción:



3. Estimación de Movimiento

El objetivo de la estimación de movimiento es de buscar para cada bloque de imagen otro bloque de igual tamaño (predicción) y perteneciente a una imagen ya codificada anteriormente que consiga que el error de predicción resultante se pueda codificar con el menor número posible de bits.

Se definen cuestiones de tipo general como el número de vectores por macro bloque, la precisión o el tamaño de los vectores.

Una de las técnicas usadas para la estimación de movimiento realiza un seguimiento de las características de la imagen para medir su desplazamiento. Dentro de este grupo se engloba lo que es la técnica de correlación cruzada y en la comparación de bloques. La correlación cruzada resulta adecuada cuando los objetos no cambian considerablemente de forma, tamaño u orientación. En escenas con múltiples objetos moviéndose, solo se obtiene el movimiento más destacado. Para evitar este problema se descompone la imagen en bloques y se aplica la correlación a cada bloque en lugar de hacerlo a la imagen global.

Las técnicas de comparación realizan la partición de la imagen en celdas y estudian el movimiento de dichas celdas respecto a la imagen previa. Dentro de esta técnica existen dos tendencias:

· Los algoritmos recursivos denominados pixel-recursive.

· Los algoritmos de ajustes de bloques.

El modelo más empleado debido a su sencillez de implementación es el de ajuste de bloques (Block-Matching Algorithms, BMA), el cual consiste en la “búsqueda" de cada bloque en la imagen actual sobre una area reducida de una imagen anteriormente codificada. Es resultado de la estimación es un vector, denominado vector de movimiento, que identifica el desplazamiento entre el bloque de referencia y la predicción.

3.1. Función de coste

La búsqueda hecha referencia anteriormente se realiza optimizando una determinada función coste. La función más usada se muestra en la siguiente figura:

El error cuadrático medio (MSE) y el error absoluto medio (MAE) son las funciones más utilizadas. El MAE permite obtener resultados aceptablemente parecidos al MSE. Pero precisa la ventaja de no precisar multiplicador. Pero el MSE no es el más utilizado en realizaciones hardware, sino que para evitar la división entre N2 se utiliza el MAE.

Recientemente ha sido propuesta otra función coste basada en la clasificación de pixeles con relación a un umbral. Esta nueva función presenta la ventaja de ser más sencilla en realización hardware.

3.2. Algoritmo de búsqueda

El algoritmo más preciso es el exhaustivo (full-search) que consiste en evaluar la función de coste en todas y cada una de las posibles ubicaciones del bloque de referencia sobre el área de búsqueda. Pero su coste resulta muy elevado para casos cuando el área de búsqueda es muy grande.

Algoritmos que reducen el número de evaluaciones de la función de error: paso logarítmico y búsqueda jerárquica, las cuales destacaron por su repercusión posterior:

· Busqueda en la dirección de error mínimo (Direction of Minimun Distortion, DMD): utiliza MSE como función de coste. Comienza en cinco posiciones, que son la central, una a cada lado de ella en dirección vertical y otras dos en dirección horizontal, con un paso de tamaño igual a p/2 o a la potencia de 2 más próxima a p/2. Se repetirá hasta que los mínimos de dos etapas coinciden. En este momento se divide el tamaño del paso por 2 y se repite el proceso hasta que el paso sea 1.

· Búsqueda en tres pasos (Three Step Search, TSS) similar al anterior pero con la diferencia de que utiliza el MAE como función de coste y una diferencia en el patrón de búsqueda:

· Búsqueda en una sola dirección (Conjugate Direction Search): tiene una versión simplificada muy popular por su sencillez que se denomina One-at-a-Time Search OTS. Que comienza su búsqueda en dirección horizontal con paso de un pixel comenzando por la posición central y las dos adyacentes y continuando en el sentido de la que produzca menor error hasta que se encuentre un mínimo. Y de dicho mínimo se seguirá la búsqueda en dirección vertical.

Por su parte, los métodos de búsqueda jerárquica también utilizan, en general, estrategias de búsqueda rápida pero además manejan diferentes resoluciones del área de búsqueda y del bloque de referencia según el paso.

Continue Reading...
 

Tecnologia, Electronica, Deportes y Mucho Mas Copyright © 2009 WoodMag is Designed by Ipietoon for Free Blogger Template