jueves, 24 de diciembre de 2009

Como (no) emborracharse en Navidad

Nuevamente llegan las fiestas de fin de año, y con ellas los consabidos brindis. No es ningún secreto que más de un lector de -alguna vez- se habrá pasado con el nivel de efusividad a la hora de festejar, y terminado con una resaca de campeonato. Afortunadamente, hay científicos que se encargan de investigar seriamente estas cosas para que no volvamos a cometer errores semejantes. La Dra. Damaris Rohsenow y sus colegas han aprovechado estas fechas para elaborar un estudio que intenta desvelar que es mejor en Navidad: emborracharse con bourbon o whisky, o hacerlo con vodka o ginebra.

Independientemente de nuestras creencias religiosas, por estas fechas nos juntamos con amigos y familiares para festejar la Navidad, el comienzo del nuevo año y -ya entrados en clima- lo que sea. Además de las cantidades astronómicas de comidas de diferentes estilos que madres, tías, abuelas y -por que no- amantes preparan con tanto cariño para que nosotros (los cerdos de la casa) demos cuenta rápidamente, se ingieren cantidades poco habituales de alcohol. Como es lógico, tanta bebida termina “afectando” nuestros cuerpecitos. Mucho se ha discutido si lo que nos emborracha irremediablemente es la cantidad, la calidad o la mezcla de alcoholes que metemos en nuestro organismo, pero pocas veces hemos visto que un grupo de científicos se pongan a investigar seriamente la cuestión. Eso es justamente lo que la doctora Damaris Rohsenow y sus colegas han intentado en esta oportunidad, quizás buscando ser los ganadores indiscutidos de los premios Ig Nobel del año próximo.

No existen diferencias entre hombres y mujeres: todos se emborrachan en el mismo grado.

El artículo fue publicado el último número de la revista Nature bajo el titulo “Intoxication With Bourbon Versus Vodka: Effects on Hangover, Sleep, and Next-Day Neurocognitive Performance in Young Adults,” y básicamente intenta responder la siguiente pregunta: “¿Las bebidas alcohólicas con color oscuro (como el bourbon o el whisky) producen peores resacas tras una borrachera que las bebidas sin color (como el vodka o la ginebra)?” Realmente, al leer una y otra vez la disyuntiva que se ha tomado como base para este sesudo análisis, uno se convence que el equipo de Rohsenow eligió este tema cuando se encontraban en el bar más cercano al laboratorio festejando algo. Luego de hacer “algunos experimentos”, entre los que se incluyen resacas provocadas intencionadamente a 95 voluntarios, han llegado a una conclusión. El bourbon o el whisky nos provocan resacas más molestas debido a que contienen sustancias diferentes del alcohol (etanol) formadas durante la fermentación de la bebida. Entre trago y trago, Damaris descubrió que el bourbon contiene 37 veces más congéneros que el vodka. Parece que lo que nos causa las borracheras es el etanol, pero lo que nos hace sentir terribles resacas son los congéneros, que empeoran sus efectos.

Ya puestos en esto, los científicos se pusieron a investigar los efectos que tienen estas bebidas en una persona que intenta hacer alguna tarea repetitivas que requiera simultáneamente atención sostenida y velocidad, como conducir un coche (nunca manejes si has bebido), manejar una máquina compleja o -por que no- servirte otro trago. Los resultados demostraron que ambos tipos de bebidas afectan por igual nuestro poder de concentración y coordinación, independientemente de su color. El motivo de esto es, sin dudas, que nuestro cerebro es incapaz de funcionar bien cuando lo hemos bañado en etanol. A lo largo de los experimentos se estudiaron a sujetos voluntarios (seguramente no les costó trabajo encontrar a unos cuantos que hicieran las pruebas gratis) a quienes emborracharon con vodka o bourbon hasta que alcanzaron diferentes niveles de intoxicación. Como hacen los buenos científicos cuando están sobrios, los miembros del equipo cuantificaron los síntomas que presentaban los “conejillos de indias” en sus resacas tras una noche “durmiendo la mona.”

Parece que todas emborrachan igual, independientemente de su color.

Al igual que ocurre en los ensayos con nuevos medicamentos, algunos de los participantes fueron “emborrachados con un placebo”, como bebidas cola descafeinadas, para poder comparar su estado con los sujetos que realmente se habían emborrachado. Leyendo el artículo uno se encuentra con resultados curiosos aunque esperables, como que los efectos del alcohol dependen de la edad. Parece que los más jóvenes sufren resacas más leves, y que no existen diferencias entre hombres y mujeres: todos se emborrachan en el mismo grado. La infatigable doctora Rohsenow, acompañada por su devoto grupo de colaboradores, ya están trabajando en el diseño de un nuevo experimento. Esta vez, intentan determinar exactamente cuales son los efectos que tiene la cerveza con y sin cafeína en la conducción de automóviles. El estudio, que han llamado “Acute and Residual Effects of Beer vs. Caffeinated Beer on Simulated Driving”, estará listo para el próximo verano, justo a tiempo para la temporada de la cerveza. ¿Alguien se anota como voluntario?

Continue Reading...

Realidad Aumentada en el fútbol

"¡¿Fuera de juego?! ¡Métete la bandera bien en el...!" Esta y otras tantas frases coloridas suelen ser parte del fútbol y la interacción del público con las decisiones tomadas por los jueces de línea. Hay ocasiones en las que determinar un fuera de juego es tan difícil como intentar explicárselo a alguien que no tiene la menor idea sobre fútbol. Sin embargo, los fanáticos tendrán la posibilidad de confirmar si tenían razón o no utilizando a un teléfono móvil. ¿Cómo? A través de la asistencia que provee la realidad aumentada. El equipo holandés PSV Eindhoven ha unido fuerzas con la empresa Layar para presentar un concepto de aplicación que detecta si el juez de línea se equivocó o no al levantar la bandera.

El presidente de la FIFA Joseph Blatter fue terminante al descartar cualquier clase de asistencia tecnológica en los partidos de fútbol. Si bien este es un tópico que ha sido discutido en múltiples ocasiones, recientemente ha adquirido un matiz especial después de la demostración de básquet que Henry hizo para la selección francesa durante su partido contra Irlanda. Sin embargo, el que no se pueda recurrir a la tecnología dentro del campo de juego no quiere decir que no se pueda hacer lo mismo fuera de él. Varios canales de televisión alrededor del mundo han implementado diferentes técnicas para detectar ciertas condiciones en jugadas ajustadas, en donde las acciones de fuera de juego tienen un papel fundamental. La naturaleza misma de la posición fuera de juego hace que sea extremadamente difícil de detectar en algunos casos, provocando errores involuntarios en los jueces de línea, aunque hay veces en las que simplemente, se equivocan feo.


El concepto que ha presentado el club holandés PSV Eindhoven en conjunto con la empresa especializada en realidad aumentada Layar nos muestra cómo un iPhone puede ser utilizado para registrar la actividad durante un partido y determinar si un jugador atacante se encuentra en posición fuera de juego. Cada vez que el jugador está en posición ilegal, la línea se vuelve roja, mientras que el color cambia a verde cuando está habilitado. El vídeo sólo nos muestra a una línea siguiendo a un jugador, pero lo cierto es que la posición fuera de juego puede ser mucho más compleja que eso. Varios integrantes de un equipo pueden formar parte de la jugada, por lo que sería necesario rastrear más líneas, y también habría que tener en cuenta el factor de "posición pasiva", ya que una jugada válida podría resultar malinterpretada por el programa.


La idea es excelente, pero requerirá una interpretación perfecta de la ley del fuera de juego. Probablemente sea la regla más complicada de explicar y aplicar dentro de un partido de fútbol, e incluso habrá que considerar los posibles márgenes de error que el sistema pueda tener. Las capacidades de detección de la cámara, la iluminación disponible, el clima durante el partido... los factores a evaluar son muchos, y deberán ser tenidos en cuenta si esta aplicación busca llegar a buen puerto. Seguir a un jugador con una línea dibujada en la pantalla puede parecer algo sencillo, pero la ley de fuera de juego definitivamente no lo es.
Continue Reading...

viernes, 11 de diciembre de 2009

Comunicación inalámbrica cerebro-ordenador

El profesor Frank Guenther, de la Universidad de Boston, acaba de poner a punto un sistema que permite “conectar” nuestro cerebro con una PC mediante ondas de radio. El dispositivo, que requiere del implante de una serie de electrodos en la corteza cerebral, convierte los impulsos eléctricos generados por el cerebro en señales inalámbricas que son enviadas a un receptor e interpretadas por un ordenador. Gracias al invento, Erik Ramsey, un paciente que había sufrido un accidente de tránsito, ha vuelto a “hablar

Hace diez años, cuanto tenía 16, Erik Ramsey sufrió un horrible accidente de tránsito que cambió su vida. Desde ese entonces ha vivido dentro de un cuerpo paralizado casi por completo, que ni siquiera le permite hablar. Pero el trabajo de Frank Guenther, un científico de la Universidad de Boston, acaba de hacer menos penosa su vida. Guenther ha desarrollado un sistema que permite recoger las señales del cerebro de una persona, convertirlas en señales de frecuencia modulada, y transmitirlas a un receptor. Una vez allí, esas señales son convertidas nuevamente en información que puede ser procesada por un ordenador. Con el software adecuado, el ordenador puede realizar algunas tareas por Erik. Por ejemplo, hablar.

Por ahora, Ramsey sólo puede expresar los sonidos de las vocales a través del ordenador. Esto es mucho menos de lo que se ha logrado utilizando interfaces “cableadas” directamente entre el cerebro y el ordenador -de hecho, un mono ha logrado controlar un brazo robótico- pero no deja de ser un avance prometedor. Este tipo de dispositivos reciben genéricamente el nombre de Brain Computer Interface System (BCIS, o interfaces cerebro-ordenador). “Todos los grupos de trabajo relacionados con BCIS han comenzado a trabajar en la búsqueda de soluciones inalámbricas. Son muy superiores”, dice Frank Guenther. En la última década estas interfaces han abandonado definitivamente el estado de “podría ser posible” para convertirse en una realidad médica. Uno de los primeros en aprovechar estos sistemas fue el tetrapléjico Matthew Nagle, que hace cuatro años fue noticia al demostrar que podía jugar al Pong utilizando solo sus pensamientos. Otros pacientes utilizan sistemas similares para dirigir sillas de ruedas o incluso enviar mensajes a Twitter. Sin embargo, el campo de las “comunicaciones inalámbricas” entre nuestra mente y los ordenadores recién está comenzando a ser explorado.

Como ocurre a menudo, estos avances plantean a los expertos en ética algunas cuestiones bastante espinosas. Por ejemplo,
¿pueden implantarse estos sistemas en personas sanas para mejorar su rendimiento? Ni falta hace decir que más de uno -si fuese posible, barato y seguro- iría corriendo a ponerse uno de estos cacharros en el cerebro para desterrar definitivamente de su escritorio el teclado y ratón. Por otra parte, y aunque quizás sea muy pronto para preocuparse, existe algún temor respecto de la seguridad. ¿Que amenaza representan los hackers? O peor aún, ¿puede el fabricante de tus prótesis utilizar criptografía para controlar que puedes y que no hacer con tu propio cerebro? Este último punto no es tan descabellado como parece, ya que hemos visto esquemas parecidos en cámaras de fotos y marcapasos.

Hasta ahora se han implantado solo tres electrodos en el cerebro de Ramsey.

Los sistemas “tradicionales” que recogen las señales cerebrales mediante sensores colocados sobre el cuero cabelludo son notoriamente lentos. Utilizando una interfaz de ese tipo, Ramsey era capaz de articular no más de una palabra por minuto. Si bien era un adelanto, seguía siendo bastante incomodo de utilizar. Al colocar los electrodos directamente en su cerebro, la velocidad se incrementa lo suficiente como para poder hablar normalmente. “El sistema introduce una demora de solo 50 milisegundos. Ese es el tiempo que tarda en aparecer el sonido en los parlantes del ordenador cuando el paciente da la orden correspondiente”, dice Guenther. Obviamente, colocar electrodos directamente en el cerebro de un paciente plantea la posibilidad de una infección peligrosa.
Utilizando un modelo construido por el propio Guenther, la actividad cerebral de Ramsey relacionada con la boca los movimientos de la mandíbula es la encargada de controlar el implante. De alguna manera, basta con que el paciente ordene a su paralizado cuerpo que hable para que los sonidos salgan por los altavoces del ordenador. Hasta ahora se han implantado solo tres electrodos en el cerebro de Ramsey, que son suficientes para recoger los sonidos de las vocales. Pero Guenther planea agregar 32 electrodos más. De esa forma, su paciente podría emitir los mismos sonidos que una persona sana.

Continue Reading...

lunes, 7 de diciembre de 2009

Novio interrumpe su boda para actualizar su Twitter y Facebook

Esta es una noticia muy curiosa que lo encontré revisando una página española.

La noticia trata de un novio que interrumpió su boda para actualizar su estado en Facebook y Twitter y por si fuera poco, se dio un tiempo para subir un vídeo al Youtube.

Esto demuestra que las redes sociales están en todas, a continuación les dejo el mensaje que dejó el novio en Twitter y luego el respectivo vídeo del hecho.

"¡De pie en el altar con @TracyPage donde hace solo un segundo, se convirtió en mi mujer! Me tengo que ir, es momento de besar a mi esposa. #diadeboda 1:48 PM 21 de noviembre de Twittelator."

Continue Reading...

domingo, 6 de diciembre de 2009

Sudáfrica 2010 en 3D de la mano de Sony

Como ya es habitual, Sony ha ganado una puja que se disputaban todos los grandes exponentes de la industria electrónica mundial: tener la posibilidad de mostrar al mundo los avances en tecnología 3D para transmisión de imágenes de televisión. FIFA ha sellado un acuerdo con el gigante nipón abriéndole las puertas para transmitir 25 partidos de fútbol correspondientes a la Copa del Mundo FIFA 2010 a un selecto grupo de ciudades del mundo donde se podrán ver las imágenes de los encuentros deportivos en tres dimensiones y en pantallas LED gigantes de hasta 280 pulgadas. Imágenes con sensación de profundidad y real percepción del espacio son los pilares en los que se sustenta esta tecnología que aparece en escena dispuesta a dar una nueva vuelta de hoja en la historia de la televisión mundial.

Para muchas culturas, el fútbol o balompié es un juego que atrae la atención de gran cantidad de aficionados. Sin embargo, para otras es una pasión desenfrenada que no sabe de límites, esfuerzos y sacrificios en pos de disfrutar, vivir y sentir hasta el más ínfimo de los detalles que hacen a cada encuentro deportivo. Los grandes fabricantes mundiales de aparatos de televisión saben y conocen muy bien este fenómeno y comprendieron, hace ya mucho tiempo, que cada cuatro años es el momento de aprovechar este volcán incontenible y facturar muchos millones con las ventas de equipos de televisión de última generación. SONY no ha dejado pasar esta oportunidad y ha rubricado un jugoso contrato con FIFA para presentar en sociedad su nueva tecnología 3D en transmisiones televisivas.

Principio de funcionamiento del sistema 3D de Sony

El acuerdo incluye la transmisión de 25 partidos para un selecto grupo de ciudades alrededor del mundo. Los partidos se exhibirán en los distintos puntos de venta que SONY posee en México, Río de Janeiro, Berlín, Londres, París, Roma y Sydney durante los meses de junio y julio. Para aquellos que no puedan estar presentes en los lugares elegidos, Sony Pictures ha anunciado que venderá una versión en video Blu-ray de los encuentros grabados con esta tecnología. Lo que aún no ha quedado del todo claro es si los eventos deportivos sólo se grabarán para luego ser emitidos en tiempo diferido o si se tendrá la posibilidad de disfrutarlos en directo. En el cuadro superior, puedes apreciar el proceso que requiere la información obtenida antes de ser entregada al televidente en la propuesta 3D de SONY.

Por ahora la utilización de gafas especiales es inevitable

Se estima que para el momento de la demostración, la tecnología habrá permitido eliminar la necesidad de utilizar gafas especiales. Estas gafas le transmiten a cada ojo del espectador la información exacta para crear la sensación de profundidad que requiere una imagen 3D. Este fenómeno es muy claro en el siguiente video donde la imagen de fondo "parece" distorsionada. Además, con la firme intención de utilizar la novedosa y prometedora resolución4k2k”, que representa el doble de la resolución actual de los equipos FullHD, las presentaciones públicas a través de enormes pantallas LED ubicadas en plena calle apuntarán a ser un espectáculo digno de disfrutar.

Hasta ahora y con la obtención de este acuerdo, SONY se presenta como la gran vencedora para imponer en el mercado su tecnología 3D. De lo que estamos seguros es que los dividendos millonarios que le quedarán a la compañía en conceptos de publicidad y ventas de sus pantallas BRAVIA serán enormes. Hasta el 11 de junio de 2010, momento en que comenzará a rodar la pelota por los campos de juego, la tecnología definitiva a apreciar será todo un misterio guardado bajo siete llaves con la finalidad de lograr el impacto esperado entre los que concurran a estas multitudinarias presentaciones públicas.

La expectativa es mundial y todos esperamos ver un gran espectáculo
Continue Reading...

viernes, 4 de diciembre de 2009

Compresión de Vídeo MPEG

COMPRESIÓN DE VÍDEO

1. Compresión de Imágenes en Movimiento

La necesidad de reducir el volumen de datos que se manejan para almacenamiento en algún soporte o la transmisión por canales de comunicación, son motivos por el cual se comprime las imágenes.

El método de codificación híbrida es la más usada por la mayoría de los estándares.

1.1 La Señal de Vídeo Digital

En los actuales sistemas de televisión analógica (NTSC, PAL, SECAM) solo consta de una componente de luminancia (Y) y una de crominancia, en cambio la señal digital, cumpliendo la recomendación 601 del CCIR válido para sistemas de 525 y 625 líneas, se componen de una señal de luminancia (o brillo) y dos de crominancia (que dan el color) muestreadas a 15.3MHz y 6.75MHZ respectivamente. Dicha relación de frecuencias de muestreo se denomina 4:2:2. Ambas señales se codifican usando modulación por impulsos codificados (PCM) con cuantificación uniforme y 8 bits por muestra.

Con las frecuencias antes mencionadas se toman 864 muestras (pixel) para la luminancia y 432 muestras para la crominancia (para el sistema de 625 líneas) y de 858 muestras para la luminancia y 429 muestras para la crominancia (para el sistema de 525 líneas), las cuales al eliminar los pixeles que no contienen información se tiene 720 muestras para la luminancia y 360 muestras para la crominancia en ambos sistemas.

Cada muestra se codifica en 8 bits, de esta manera se obtiene un régimen binario de:

(13.5 + 2*6.15) MHz * 8bits = 216 Mb/s

Con el fin de reducir la velocidad se eliminarán los pixeles que no contienen información, sin degradar la imagen, obteniendo un régimen binario para el sistema de 625 líneas:

(720*288 + 2*360*288)muestra/campo * 8bits/muestra *50 campo/seg = 165.88Mb/s

Para 525 líneas:

(720*240 + 2*360*240)muestra/campo * 8bits/muestra *59.94 campo/seg = 165.88Mb/s

Estos resultados siguen evidenciando la necesidad de compresión de este volumen para poder adaptarlo a los canales y soportes de almacenamiento.

Elemento de imagen, pel o pixel: superficie más pequeña de la imagen óptica que se puede reproducir fielmente.

La señal de televisión esta entrelazada con una relación de 2:1 la cual quiere decir que cada cuadro de imagen (frame) está formada por dos campos (field).

1.2 Codificación Híbrida

La compresión de la señal de vídeo se realiza mediante la eliminación de información redundante en la misma. Existen dos tipos de redundancia, por un lado la relacionada con la naturaleza de la señal, y por otro, la que atañe a las características del receptor (sistema de visión humano):

· Redundancia estadística, viene dada por la alta correlación espacio – temporal entre las muestras adyacentes de la señal de vídeo. Con adyacente se refiere a las muestras dentro de una misma imagen (redundancia espacial) y a la que existe entre imágenes sucesivas (redundancia temporal).

· Redundancia de percepción, elimina la información que el ojo humano no puede captar.

La codificación híbrida combina técnicas de predicción y transformación para reducir redundancia en la señal de vídeo. La técnica de codificación híbrida más popular, utiliza predicción en el dominio temporal, usando compensación de movimiento y transformación en ambas dimensiones.

La imagen a codificar se divide en bloques de N*N pixeles para cada bloque se genera una predicción por compensación de movimiento a partir de una imagen ya codificada. Si entre ambas imágenes existe cierta redundancia espacial, el error entre la predicción y el bloque original tendrá menor energía.

La transformación que más se emplea en codificación de imágenes es la transformada discreta del coseno DCT, por ser ortogonal, separable y existir algoritmos rápidos para su computo. La DCT permite reducir la tasa de codificación y la velocidad de transmisión, se divide la imagen en sectores de 8*8 pixeles, denominado Xij, que después de aplicar la DCT se convierte en una matriz 8*8 denominada Tmn. La DCT aprovecha la redundancia espacial de la imagen.

Para reducir las tasas binarias se emplean las siguientes técnicas:

· Cuantificación (Q): Este proceso es irreversible y donde se producen más pérdidas en el codificador. El resultado de este proceso es de hacer cero el mayor número posible de los coeficientes de la DCT manteniendo el nivel de calidad aceptable.

· Codificación de longitud de variable (VCL): llamada también codificación por entropía, codifica con mayor número de bits a los códigos con menos probabilidad de ocurrencia, y con un número menor de bits a aquellos que tienen mayor probabilidad de ocurrencia.

Para terminar, la codificación híbrida utiliza el sub-muestreo para disminuir el régimen binario, teniendo una reducción en la calidad de la imagen, pero solo se usa para las señales de crominancia aprovechando las deficiencias del sistema visual humano a este tipo de información. Así se utiliza la estructura de muestreo 4:2:0, en la que por cada cuatro muestras de Y, se toma solo una de CR y CB.

2. Estándares de Compresión de Vídeo

2.1 H.261

Es un estándar de compresión de vídeo desarrollado para facilitar los servicios de videoconferencias y videotelefonía. Utilizando canales de 64Kb/s por lo cual se conoce también por pX64 (p=1,..,30). La máxima capacidad disponible es de 1.92Mb/s (p=30).

Con el fin de compatibilizar los sistemas de 625/50 y 525/60, el codificador opera con imágenes en un formato común denominado CIF (Common Intermediate Format) cuya resolución es de 352*288 pixeles para la luminancia y 176*144 pixeles para las dos componentes de crominancia.

El método de compresión que utiliza es un híbrido de predicción y transformación.

2.2 MPEG-1

Desarrollado para el almacenamiento de video y sonido asociado a una tasa de bit de 1.5Mb/s en soporte tales como CD-ROM, DAT, etc. También puede ser usado para la transmisión de vídeo.

MPEG-1 utiliza un método de codificación predicción/transformación parecida a la de H.261 pero con algunas características adicionales y mayor complejidad, con la diferencia de que MPEG-1 permite compensación de movimiento bidireccional. La secuencia de vídeo se divide en grupos de N imágenes (Group Of Pictures, GOP) que contienen tres tipos de imágenes diferentes:

· La primera se denomina I, se codifican sin ninguna referencia temporal a cuadros anteriores o posteriores (sin predicción), provocando una compresión menor, pero se pueden usar estos cuadros como punto de acceso a la secuencia que permite realizar funciones de avance y retroceso rápido.

· Imágenes de tipo P, se codifican más eficientemente debido a que se emplea predicción por compensación de movimiento sobre un cuadro I o P anterior. Se ubican de acuerdo a: M+1, 2M+1, 3M+1,…

· Imágenes del tipo B, son las que más se comprimen, al utilizar predicción bidireccional respecto a una señal I o P anterior, posterior o ambas.

El orden de codificación y su posterior envío e n la trama de bits difiere del orden de visualización.

Aunque MPEG-1 permite formatos de imágenes mayores, se define un formato SIF (Source Input Format) con una resolución de 360*240 pixeles para 30 imágenes por segundo o de 360*288 para 25 imágenes por segundo.

2.3 MPEG-2

El objetivo principal del MPEG-2 fue definir un estándar genérico que pudiera aplicarse en el mayor número de aplicaciones posibles. Los requisitos que se plantearon fue la compatibilidad con los formatos anteriormente mencionados, una calidad de imagen en el rango de 3Mb/s y 10Mb/s, soporte a varios formatos de vídeo entrelazado y progresivo, estabilidad en la trama de bits, adaptación a varios sistemas de transmisión y almacenamiento y capacidad de codificación con bajo retardo.

Para poder abordar el amplio rango de aplicaciones, el estándar tiene definidos una serie de perfiles (profiles) y niveles (levels) que se utilizan de acuerdo a la aplicación:

· Perfiles: Sencillo, principal, SNR, espacial y alto.

· Niveles: Bajo, principal , alto con 1440 y alto. Se imponen en la resolución como en la velocidad binaria.

MPEG-2 también emplea codificación híbrida y la secuencia de imágenes se organizan en GOP. Pero MPEG-2 soporta vídeo entrelazado, en cuyo caso la señal se vídeo consiste en una secuencia de campos. Para su manejo se definen dos estructuras de imagen:

· Imágenes con estructura de campo (field-pictures): Imágenes formadas por un solo campo dividida en macro bloques y se codifican por separado. Se usan en parejas (Top-field y Bottom-field) y juntas constituyen un cuadro.

· Imágenes con estructura de cuadro (frame-pictures): Se forman entrelazando los pixeles de los campos para formar el cuadro en macro bloques y se codifica.

En MPEG-2 se admiten tres formatos de macro bloques correspondientes a su estructura de muestreo 4:2:0, 4:2:2 y 4:4:4.

La principal diferencia entre MPEG-1 y MPEG-2 es la capacidad de este ultimo de soportar señales de vídeo entrelazadas, para lo cual se usas diversos modos de predicción:

· Predicción de cuadro para imágenes con estructura de cuadro (Frame prediction for frame-pictures).

· Predicción de campo para imágenes con estructura de campo (Field prediction for field-pictures): Específico de MPEG-2.

· Predicción de campo para imágenes con estructura de cuadro (Field prediction for frame-pictures).

· Predicción de 16X8MC para imágenes con estructura de campo (16X8MC for field-pictures). Este modo de predicción resulta inútil cuando la imagen presenta movimientos irregulares.

Resumen de los modos de predicción:



3. Estimación de Movimiento

El objetivo de la estimación de movimiento es de buscar para cada bloque de imagen otro bloque de igual tamaño (predicción) y perteneciente a una imagen ya codificada anteriormente que consiga que el error de predicción resultante se pueda codificar con el menor número posible de bits.

Se definen cuestiones de tipo general como el número de vectores por macro bloque, la precisión o el tamaño de los vectores.

Una de las técnicas usadas para la estimación de movimiento realiza un seguimiento de las características de la imagen para medir su desplazamiento. Dentro de este grupo se engloba lo que es la técnica de correlación cruzada y en la comparación de bloques. La correlación cruzada resulta adecuada cuando los objetos no cambian considerablemente de forma, tamaño u orientación. En escenas con múltiples objetos moviéndose, solo se obtiene el movimiento más destacado. Para evitar este problema se descompone la imagen en bloques y se aplica la correlación a cada bloque en lugar de hacerlo a la imagen global.

Las técnicas de comparación realizan la partición de la imagen en celdas y estudian el movimiento de dichas celdas respecto a la imagen previa. Dentro de esta técnica existen dos tendencias:

· Los algoritmos recursivos denominados pixel-recursive.

· Los algoritmos de ajustes de bloques.

El modelo más empleado debido a su sencillez de implementación es el de ajuste de bloques (Block-Matching Algorithms, BMA), el cual consiste en la “búsqueda" de cada bloque en la imagen actual sobre una area reducida de una imagen anteriormente codificada. Es resultado de la estimación es un vector, denominado vector de movimiento, que identifica el desplazamiento entre el bloque de referencia y la predicción.

3.1. Función de coste

La búsqueda hecha referencia anteriormente se realiza optimizando una determinada función coste. La función más usada se muestra en la siguiente figura:

El error cuadrático medio (MSE) y el error absoluto medio (MAE) son las funciones más utilizadas. El MAE permite obtener resultados aceptablemente parecidos al MSE. Pero precisa la ventaja de no precisar multiplicador. Pero el MSE no es el más utilizado en realizaciones hardware, sino que para evitar la división entre N2 se utiliza el MAE.

Recientemente ha sido propuesta otra función coste basada en la clasificación de pixeles con relación a un umbral. Esta nueva función presenta la ventaja de ser más sencilla en realización hardware.

3.2. Algoritmo de búsqueda

El algoritmo más preciso es el exhaustivo (full-search) que consiste en evaluar la función de coste en todas y cada una de las posibles ubicaciones del bloque de referencia sobre el área de búsqueda. Pero su coste resulta muy elevado para casos cuando el área de búsqueda es muy grande.

Algoritmos que reducen el número de evaluaciones de la función de error: paso logarítmico y búsqueda jerárquica, las cuales destacaron por su repercusión posterior:

· Busqueda en la dirección de error mínimo (Direction of Minimun Distortion, DMD): utiliza MSE como función de coste. Comienza en cinco posiciones, que son la central, una a cada lado de ella en dirección vertical y otras dos en dirección horizontal, con un paso de tamaño igual a p/2 o a la potencia de 2 más próxima a p/2. Se repetirá hasta que los mínimos de dos etapas coinciden. En este momento se divide el tamaño del paso por 2 y se repite el proceso hasta que el paso sea 1.

· Búsqueda en tres pasos (Three Step Search, TSS) similar al anterior pero con la diferencia de que utiliza el MAE como función de coste y una diferencia en el patrón de búsqueda:

· Búsqueda en una sola dirección (Conjugate Direction Search): tiene una versión simplificada muy popular por su sencillez que se denomina One-at-a-Time Search OTS. Que comienza su búsqueda en dirección horizontal con paso de un pixel comenzando por la posición central y las dos adyacentes y continuando en el sentido de la que produzca menor error hasta que se encuentre un mínimo. Y de dicho mínimo se seguirá la búsqueda en dirección vertical.

Por su parte, los métodos de búsqueda jerárquica también utilizan, en general, estrategias de búsqueda rápida pero además manejan diferentes resoluciones del área de búsqueda y del bloque de referencia según el paso.

Continue Reading...

sábado, 28 de noviembre de 2009

IREX 2009: Exhibición Internacional de Robots

Hoy finaliza la Exposición Internacional de Robots IREX 2009, que comenzó hace tres días en Tokio. Por el centro del Tokyo Big Sight desfilan todos los modelos de robots que puedas imaginar, incluidos modelos orientados a la industria, la educación, el entretenimiento y el transporte. Pudieron verse desde modelos capaces de reconocer colores y formas hasta uno diseñado para recoger y tirar rocas de la Luna. ¿Cual obtendrá el galardón al Robot del Año?

Nadie duda que Japón es el país en que más importancia se le da a la robótica. Tiene su lógica: esa nación fabrica más del 50% de los robots que se utilizan en todo el mundo. Por eso no es raro que la mayor exposición internacional de robots se celebre justamente en Japón. La IREX 2009, que comenzó el miércoles 25 de noviembre y finaliza hoy, ha servido de escaparate para exhibir los modelos mas curiosos y avanzados que la industria robótica de todo el mundo ha creado en los últimos meses. Según la Asociación de Robótica de Japón, se calcula que el mercado para los robots dedicados al sector servicios será de unos 15.000 millones de dólares en 2015. En la feria participan casi 200 empresas, todas interesadas en quedarse con una porción de tan apetitoso pastel.

Hiro puede identificar a las personas "mirando" su rostro.

Es difícil determinar cual fue el mejor o más llamativo robot que se presentó en la muestra. La verdad es que resulta sorprendente la forma en que esta industria se supera a si misma cada año. De hecho, fue un robot el encargado de cortar la cinta de acceso al salón de exposiciones durante la ceremonia de inauguración. Entre los modelos que mas admiración despertaron por parte del publico se encuentra los del tipo humanoide, que en el último año mejoraron sus “sentidos” gracias a los avances en el desarrollo de sensores eléctricos. “Hiro”, por ejemplo, es un robot creado por la empresa nipona Kawada Industries, que gracias a las cámaras de sus “ojos” es capaz de reconocer colores y formas. Gracias a estas características y a un sistema operativo de tiempo real, Hiro puede identificar a las personas por su rostro.

Shadow Dextrous Hand

Otro modelo que asombró a los visitantes fue el Robot Ping Pong, un androide al que resulta bastante difícil ganarle un partido a ese juego. Otro artefacto interesante es Herby, un muñeco con forma de bebé que posee sensores capaces de medir la frecuencia de los latidos cardiacos o efectuar un electrocardiograma de quien lo estreche contra su pecho. Seguramente será utilizado para tratar con niños, sobre todo aquellos que son poco amigos de someterse a exámenes médicos. En el mismo grupo se encuentra Paro, una foca de peluche cuyos sensores y motores incorporados le permiten comportarse como si fuera un animal real, moviéndose, emitiendo sonidos y reaccionando a estímulos.

Robot Ping Pong, un androide al que resulta bastante difícil ganarle.

Hoy, al finalizar la feria, se entregará el galardón al Robot del Año, un premio que en ediciones anteriores ha sido otorgado a un robot capaz de limpiar un edificio de oficinas moviéndose de piso en piso. Seguramente mañana tendremos el nombre y las características del ganador.

Continue Reading...

Espintrónica, la electrónica del futuro

Gracias al los experimentos realizados por Ron Jansen, de la Universidad de Twente (Países Bajos), los chips del futuro basarán su funcionamiento en el spin de los electrones en lugar de utilizar su carga eléctrica como lo hacen en la actualidad. El trabajo de este científico ha sentado las bases para la creación de circuitos integrados de consumo masivo, construidos en silicio pero basados en la espintrónica, que serán capaces de funcionar a temperatura ambiente y con un consumo de energía ultra bajo.

Se trata de una palabra nueva, que posiblemente no hayas oído o leído hasta hoy: espintrónica. Sin embargo, este neologismo construido a partir de "espín" y "electrónica" -conocido a veces como "magnetoelectrónica" está destinado a ponerse de moda. En esencia, la espintrónica no es más que una tecnología emergente que posee un enorme potencial en el campo de la electrónica y el almacenamiento y transmisión de datos. Esta nueva forma de "utilizar" los electrones explota tanto su carga como su "spin". Se denomina spin de un electrón a un estado de energía magnética débil que puede tomar solo dos valores: los correspondientes a la mitad del valor de la constante de Planck dividida por dos veces el valor de PI, con signo positivo o negativo. Puede que comprender el concepto de spin resulte bastante engorroso, pero lo concreto es que puede tener solo dos valores perfectamente determinados, algo que a la aritmética binaria le viene como anillo al dedo.

Esta nueva forma de "utilizar" los electrones explota su "spin".

A pesar de ser pocos conocidos, los experimentos relacionados con la espintrónica vienen realizándose desde hace varios años. La empresa IBM, por ejemplo, demostró en 2002 que podía tener un impacto radical en los dispositivos de almacenamiento masivo del futuro. Utilizando esta tecnología lograron almacenar cantidades enormes de datos en un área diminuta, alcanzando densidades del orden de los 155.000 millones de bits por centímetro cuadrado. Obviamente, falta aún bastante tiempo para que un dispositivo así llegue a las tiendas, pero sirve perfectamente como muestra de qué puede hacer por nosotros esta nueva rama de la ciencia.

Uno de los problemas que sin duda retrasa la utilización de la espintrónica en los chips de los ordenadores o gadgets es que -hasta ahora- no funcionaba demasiado bien sin un costoso, caro y enorme sistema de enfriamiento. Sin embargo, el trabajo realizado por Jon Jansen, de la Universidad de Twente en los Países Bajos, parece que finalmente permitirá a la próxima generación de ordenadores basar su funcionamiento en el spin de los electrones en lugar de utilizar su carga eléctrica. En lugar de codificar los ceros y unos del sistema binario como ausencia o presencia de una diferencia de potencial eléctrico, se utilizarán el sentido de estos "giros" como forma de representar valores binarios. Jansen ha logrado utilizar el spin de los electrones en el silicio a temperatura ambiente por primera vez.

Una de las principales ventajas que tiene este sistema frente a los circuitos electrónicos convencionales es que necesitan de mucha menos energía para funcionar. Ocurre que la "electrónica normal" es el campo eléctrico el encargado de empujar a los electrones a través del circuito, y este proceso es poco eficiente ya que disipa una gran cantidad de energía en forma de calor. Por el contrario, el spin de los electrones puede manipularse mediante un campo magnético que no posee prácticamente perdidas en forma de calor. Los expertos aseguran que usando este sistema se consumiría mucha menos energía y se disiparía menor calor. La idea es alcanzar un control sobre el spin de los electrones similar al que se tiene actualmente sobre la carga de estas partículas. Los experimentos realizados hasta ahora sólo habían tenido éxito utilizando como base materiales semiconductores exóticos -como el arseniuro de galio- a bajas temperaturas. Pero Jansen, al haber encontrado la forma de hacer esto con silicio (el material que más utiliza la industria electrónica) y a temperatura ambiente, prácticamente garantiza que los dispositivos espintrónicos del futuro podrían fabricarse a escala comercial con relativa facilidad.

Continue Reading...

domingo, 22 de noviembre de 2009

Intel anuncia implantes cerebrales para 2020

En Pittsburg, Intel Corporation está trabajando seriamente en el desarrollo de implantes cerebrales que les permitan a las personas navegar por Internet, controlar pequeños gadgets y otras acciones concretas que hasta hace pocos años podrían haber sido consideradas como ilógicas e impropias de un ser humano. A pesar de los variados y valiosos implantes que ayudan a muchas personas alrededor del mundo a escuchar mejor o a ver mejor, ¿tú crees que llegará el momento en que con la mente podamos navegar por la Web u operar con facilidad la flamante telefonía móvil sin necesidad de utilizar ninguno de nuestros sentidos?

El sueño de controlar todo tipo de dispositivos electrónicos que se encuentren a nuestro alrededor es materia de estudio por parte de Intel Corporation, que estima que para el año 2020 ya existirán personas con implantes cerebrales que serán capaces de operar dispositivos tales como teléfonos inteligentes, reproductores de música y hasta sistemas mecánicos elementales.

Intel pretende ingresar a este mercado para 2020

Los científicos están convencidos de que los consumidores se adaptarán rápida y fácilmente a este nuevo concepto así como también estarán muy deseosos de que ese día llegue cuanto antes a sus vidas. De hecho, afirman que ansían la libertad de poder trabajar sin necesidad de un teclado, de un ratón o de cualquier mando a distancia del que tengan que depender para interactuar con el mundo digital. A pesar de que aún queda mucho camino por recorrer y muchos puntos por aclarar en este tema, es bien sabido que Intel ya ha estado haciendo exploraciones en el campo del fMRI (functional Magnetic Resonance Imaging) tratando de buscar coincidencias entre patrones cerebrales que puedan coordinar pensamientos afines entre sí. Y así, muchos otros centros de investigación han logrado pequeños avances en la materia. Toyota, por su parte, ha realizado hace poco tiempo demostraciones con sillas de ruedas movilizadas por ondas cerebrales, mientras que en la Universidad de UTA los científicos están perfeccionando transmisores inalámbricos que permiten que el cerebro de un mono pueda controlar un brazo robótico.

functional Magnetic Resonance Imaging

Miguel Nicolelis, profesor de neurobiología de la Universidad de Duke y uno de los principales impulsores del proyecto, dijo que los investigadores esperan que su labor resulte útil para ayudar a las personas con deficiencias motoras a que puedan volver a caminar. Un mes antes, un científico de la Universidad de Arizona, informó que había logrado construir un robot que podía ser guiado por el cerebro y los ojos de una polilla. Charles Higgins, un profesor asociado en la universidad, predijo que en 10 a 15 años la gente va a utilizar y familiarizarse con equipos "híbridos" que sean capaces de conjugar una combinación de tecnología electrónica y de tejidos orgánicos vivos.

La idea de avanzar hacia horizontes auxiliares de personas que poseen sus capacidades físicas alteradas es una línea que no dejará de trazarse mientras exista una persona con cualquier grado de minusvalía y/o imposibilidad de manifestarse en plenitud. Por ahora, la ciencia está aún muy lejos de obtener una interfaz de comunicación efectiva con el cerebro humano. Pero si ya está logrando transformar las ondas y señales recuperadas desde nuestra mente en acciones concretas, no existe razón para pensar que no sería posible la creación de un mundo virtual con un amplio espectro de actividad ligada a las ondas cerebrales.

Las personas con dificultades motrices serán las primeras beneficiadas

El vicepresidente de investigación de Intel, Andrew Chien, expresando su opinión sobre el tema, aseguró que la gente jamás imaginó hace 20 años que estaría llevando consigo un ordenador y que éste tendría dimensiones tan reducidas que sería capaz de guardarse en un bolso de mano. “Yo no quiero eso. Yo no necesito eso y no creo que eso algún día suceda”, habrían asegurado entonces. Hoy, la gente que transporta y utiliza ordenadores portátiles constituye una marea creciente, imposible de detener. De hecho, la movilidad y la accesibilidad desde cualquier punto son los conceptos fundamentales que rigen la tendencia a futuro de las comunicaciones interpersonales. Y el público acompaña a las empresas que viajan en esa dirección. Las interfaces de usuario de mayor aceptación en el mercado giran en torno a conceptos tales como la intuición, la utilización de materias orgánicas en su desarrollo y el compromiso que adoptan los fabricantes en torno a la preservación del medio ambiente.

Los desarrolladores de Intel aseguran que si se puede llegar al punto de detectar con precisión ciertas palabras específicas y las reacciones que provocan en el cerebro, se estará a un pequeño paso de aplicar la ingeniería inversa de estimular el cerebro para lograr que emita las órdenes necesarias que una interfaz requiera para escribir. Además, comentaron que cada avance que van sumando ayudará a desarrollar microprocesadores más eficientes. “Si podemos ver cómo lo hace el cerebro, entonces podemos ayudar a construir ordenadores más inteligentes”.

Continue Reading...

lunes, 19 de octubre de 2009

Hologramas en espejos retrovisores


Aunque el coche hoy en día no es una trampa mortal ni mucho menos, todavía ofrece posibilidades de accidentes, principalmente causadas por los conductores mismos. Es por eso que se ha intentando encontrar diferentes maneras de ofrecer al conductor, la mayor información posible. Una de éstas, es agregando un HUD (Heads-Up Display) en el espejo retrovisor. La empresa inglesa, Light Blue Optics, ha estado trabajando en un prototipo que muestra información en el espejo, mediante proyección holográfica.

Con la llegada de nuevas pantallas más económicas y pequeñas, coches tradicionales podrán tener tecnología de punta. Uno de éstos ejemplos son los HUDs (Heads-Up Display) que le proyectan al conductor, información sobre su vista del camino. Mientras que ésta última tecnología solo aparece en coches de alto calibre, pantallas más compactas (que pueden entrar en el espejo retrovisor) podrían hacer su aparición en coches más económicos.

Éste prototipo ha sido desarrollado por la compañía inglesa, Light Blue Optics y funciona mediante una tecnología llamada proyección holográfica. Utiliza interferencias de luz constructivas y destructivas para componer la imagen holográfica, lo que permite que quepa en lugares más pequeños, a diferencia de los HUDs actuales. Como se puede ver en la imagen, la información aparece superpuesta sobre el camino reflejado, de ésta manera parece estar ubicada frente al espejo, en vez de ser proyectada.

Aunque ésta tecnología no crea hologramas, sí utiliza los principios de la holografía para proyectar la imagen mediante interferencias ópticas. De ésta manera, podría aumentar aún más la seguridad en el camino. Según Edward Buckley, cabeza de la compañía detrás del proyecto: “las ópticas definen un punto en el espacio donde el conductor puede ver la imagen, pero fuera de eso, no hay nada.” Además, cree que aumentará la seguridad en el vehículo, ya que retirar la vista del camino y cambiar el foco para ver el espejo puede ser peligroso. De ésta manera, el conductor miraría el espejo y ya tendría la información a mano.

El prototipo fue presentado por primera vez en un simposio en Estados Unidos y parece que todavía tiene un largo trecho. Más allá de eso, éste tipo de tecnologías parece la manera correcta de mejorar la seguridad en los coches. Por el momento, Light Blue Optics ha estado hablando con varias fábricas, sin embargo, Buckley explica que “tomá como mínimo cuatro años traer al mercado un concepto de investigación maduro.
Continue Reading...

domingo, 18 de octubre de 2009

Retroceder el tiempo?

Curioseando por youtube, encontre un video realmente interesante. Alguna vez pensaron si se podía retroceder en el tiempo??? o alguna vez pensaron en querer retroceder el tiempo?? el vídeo que a continuación les dejo trato sobre el tema, disfrútenlo.

Continue Reading...

viernes, 16 de octubre de 2009

Compresión de Vídeo

Determinada por la reducción del volumen de datos que deben manejarse para su almacenamiento en algún tipo de soporte, como para su transmisión por canales de comunicación existentes.

En sistema de televisión analógica (PAL, NTSC, SECAM), se transmite una señal de video compuesto que integra la información de la luminancia y la crominancia de la imagen. Los sistemas de video digital trabajan con una representación de la señal de vídeo en componentes que se basa en el empleo de una señal de luminancia y de dos señales de diferencia de color (o bien, señales de rojo, verde, azul).

Las muestras de luminancia y de diferencia de color, se codifican utilizando Modulación de Pulsos Codificados (PCM, Pulse Code Mudulation) con cuantificación uniforme y 8 bits por muestra. Y toma valores positivos entre 16(negro) y 235(blanco), mientras que las señales de diferencia de color, Cr y Cb utilizan códigos de 16 a 240, siendo 128 el nivel cero de crominancia.

Pel o pixel: superficie más pequeña de la imagen óptica que se puede reproducir fielmente, formado por tres muestras Y, Cr y Cb.

La digitalización de la señal completa generaría un regimen binario de:

(13'5+6'75+6'75)*10^6 muestras/seg * 8 bits/muestra = 216' Mb/seg

Con objetivo de reducir el régimen, a menudo se eliminan los intervalos de sincronización y supresión de la señal y solo se digitalizará la parte visible de la imagen. La supresión no produce degradación den la imagen.

Régimen binario resultante , para transmitir y almacenar.
Para 625 lineas:
[(720*288)+2*(360*288)]muestras/campo * 8bits/muestra * 50campo/seg = 165'88 Mb/seg

Para 525 lineas:
[(720*240)+2*(360*240)]muestras/campo * 8bits/muestra * 59'94campo/seg = 165'722b/seg

Codificación Híbrida:
La compresión de la señal de vídeo digital se realiza eliminando la redundancia. Hay dos tipos de redundancias, por un lado relacionado por la naturaleza de la señal, y por otro, la que atañe a las características del receptor, es decir, del sistema de visión humano.
  • La primera se denomina redundancia estadística y viene motivada por la alta correlación espacio-temporal entre las muestras adyacentes de la señal de vídeo. Como dicha señal es tridimensional (espacio y tiempo) el término adyacente se refiera a la que existe entre imágenes sucesivas (redundancia temporal).
  • En cuanto al segundo tipo, denominado redundancia de percepción, trata de aprovechar las deficiencias del sistema de visión humano, para eliminar de la señal de vídeo aquella información que el receptor no es capaz de apreciar. Como por ejemplo de este tipo de imperfecciones pueden citarse: la mayor sensibilidad a la luz que al color o la baja sensibilidad a las altas frecuencias espaciales.
La codificación híbrida combina técnicas de predicción y transformación para reducir la redundancia.
La transformación más usada en codificación de imágenes es la Transformada Discreta del Coseno (DCT), por ser ortogonal, separable y existir algoritmos rápidos para su cómputo.

Para reducir la tasa binaria se emplean las siguientes técnicas:
Cuantificación(Q): Permite reducir el número de bits necesarios para representar los coeficientes de frecuencia de la DCT. Este proceso es irreversible y es la principal fuente de pérdidas en el codificador. La finalidad de este proceso es hacer cero todos los coeficientes de la DCT manteniendo un nivel de calidad aceptable.
Codificación de Longitud Variable(Variable Length Coding, VLC): También llamada codificación por entropía, aprovecha las propiedades estadísticas de la señal de salida del cuantificador y codifica con menor número de bits aquellos códigos más probables y con mayor números de bits los que tienen una frecuencia de aparición más baja.

Estándares de Compresión de Vídeo

Recomendación H.261
Estándar para compresión de vídeo desarrollado para facilitar los servicios de videoconferencia y videotelefonía sobre la red digital de servicios integrados (RDSI).
Se utiliza el formato CIF(Common Intermediate Format) para compatibilizar 625/50 y 525/60.

MPEG-1

El estándar ISO 11172 [ISO92], más conocido como MPEG-1, ha sido desarrollado para el almacenamiento de vídeo y el sonido asociado con un régimen binario de hasta 1.5 Mb/seg en soportes tales como CD-ROM, DAT, etc. También puede ser usado para la transmisión de vídeo.

La principal diferencia entre MPEG-1 y H.261 es que el primero permite la compensación de movimiento bidireccional. La secuencia de vídeo se divide en grupos de N imágenes (Group Of Pictures, GOP) que contienen tres 7 tipos de imágenes diferentes:

  • La primera imagen de cada GOP, denominada imagen tipo I, se codifica sin predicción (modo intra). El grado de compresión alcanzado es menor, pero a cambio se dispone de puntos de entrada a la secuencia que permiten realizar las funciones de avance y retroceso rápidos.
  • Las imágenes que ocupan las posiciones M + 1, 2M + 1, 3M + 1,... dentro del GOP se denominan imágenes tipo P y se codifican utilizando predicción (modo inter) con respecto a una imagen I o P anterior.
  • El resto de imágenes (tipo B) se codifican con predicción respecto a una imagen I o P anterior, posterior o ambas (predicción bidireccional) y son las que alcanzan mayor grado de compresión.

Debido a la necesidad de imágenes futuras para codificar las de tipo B, el orden de codificación de las mismas y su posterior envío en la trama de bits difiere del orden en que son visualizadas. La figura 2.2 muestra un ejemplo de GOP para N = 12 y M = 3.

MPEG-2.

La calidad del vídeo comprimido MPEG-1 (1.2 Mb/seg) no resulta adecuada para aplicaciones de entretenimiento. Por ello, se ha desarrollado un nuevo estándar ISO 13818 [ISO94] (Recomendación H.262 de la ITU-T), más conocido como MPEG-2.

El objetivo original de MPEG-2 fue definir un estándar genérico que pudiera utilizarse en el mayor número de aplicaciones posible. Entre los requisitos de partida, se encontraban:

· Compatibilidad con MPEG-1 y H.261,

· Buena calidad de imagen en el rango de 3 Mb/seg a 10 Mb/seg,

· Soporte de varios formatos de vídeo entrelazado y progresivo,

· Capacidad de acceso aleatorio,

· Avance rápido, avance lento, retroceso rápido.

· Escalabilidad de la trama de bits, adaptación a varios esquemas de transmisión y almacenamiento y capacidad de codificación con bajo retardo.

MPEG-2 también emplea codificación híbrida y, análogamente a MPEG-1, la secuencia de imágenes se organiza en GOPs y las mismas pueden ser de tipo I, P o B. Sin embargo, MPEG-2 también soporta vídeo entrelazado, en cuyo caso la señal de vídeo consiste en una secuencia de campos. Para su manejo se definen dos estructuras de imagen:

  • Imágenes con estructura de campo (field-pictures): Son imágenes formadas por un solo campo dividido en macrobloques y que se codifica por separado.
  • Imágenes con estructura de cuadro (frame-pictures): Se forman entrelazando los pels de ambos campos para formar el cuadro que se divide en macrobloques y se codifica.

Una de las principales diferencias entre MPEG-1 y MPEG-2 es la capacidad de este último de manejar eficientemente señales de vídeo entrelazado. Para ello se usan una serie de modos de predicción:

  • Predicción de cuadro para imágenes con estructura de cuadro (Frame prediction for frame-pictures): Este modo se usa sólo para las imágenes con estructura de cuadro y es idéntico al empleado en MPEG-1.
  • Predicción de campo para imágenes con estructura de campo (Field prediction for field-pictures): Este modo es específico de MPEG-2 y sólo se usa en imágenes con estructura de campo. Conceptualmente es similar al anterior.
  • Predicción de campo para imágenes con estructura de cuadro (Field prediction for frame-pictures): En este modo cada macrobloque de la imagen con estructura de cuadro se divide en dos, disgregando los pels pertenecientes a cada campo (top y bottom). Para las imágenes P, cada uno de los dos bloques de 16 x 8 pels en que se divide el macrobloque se predice independientemente a partir de alguno de los campos pertenecientes a la última imagen con estructura de cuadro, I o P, codificada. Análogamente, para las imágenes B, se realizan dos o cuatro predicciones. Este tipo de predicción es útil cuando la imagen presenta movimientos rápidos.
  • Predicción 16 x 8 MC para imágenes con estructura de campo (16 8 MC for field-pictures): Cada macrobloque de la imagen con estructura de campo se divide en dos separando su mitad superior (upper) de la inferior (lower). Para cada bloque se realiza independientemente predicción de campo. Para imágenes P se realizan dos predicciones y para imágenes B, dos o cuatro. Este modo de predicción resulta útil cuando la imagen presenta movimientos irregulares.
Continue Reading...
 

Tecnologia, Electronica, Deportes y Mucho Mas Copyright © 2009 WoodMag is Designed by Ipietoon for Free Blogger Template