Red de conocimiento de abogados - Derecho de sociedades - 2. Conocimientos básicos de codificación y decodificación de vídeo.

2. Conocimientos básicos de codificación y decodificación de vídeo.

Los datos de vídeo originales generados después de recopilar la información de la imagen tienen una gran cantidad de datos. Para algunas aplicaciones que se reproducen localmente directamente después de la recopilación, no es necesario considerar la tecnología de compresión. Sin embargo, en realidad, más aplicaciones implican la transmisión y el almacenamiento de videos. La red de transmisión y los dispositivos de almacenamiento no pueden tolerar el enorme volumen de datos del video original. Los datos del video original deben codificarse y comprimirse antes de la transmisión y el almacenamiento.

(1) La cantidad de datos en el vídeo digital sin comprimir es enorme

(2) El almacenamiento es difícil, por ejemplo: un DVD sólo puede almacenar unos pocos segundos de vídeo digital sin comprimir

(3) Dificultades de transmisión, por ejemplo: se necesitan aproximadamente 4 minutos para transmitir un segundo de video de TV digital con un ancho de banda de 1 megabit, 720p RGB, 15 cuadros por segundo, cálculo de velocidad de código: 1280 x 720 x 3 x 15 ≈ 41 MB ≈ 331 Mb

Elimina información redundante de los datos de vídeo y encuentra la correlación entre píxeles y la correlación entre fotogramas de imagen en diferentes momentos.

La codificación de vídeo es el proceso de comprimir y posiblemente cambiar el formato del contenido de vídeo, a veces incluso cambiar una fuente analógica a una fuente digital. Cuando se trata de compresión, el objetivo es reducir la huella. Esto se debe a que es un proceso con pérdidas que desecha información relacionada con el vídeo. Al descomprimir para reproducir, se crea una aproximación del original. Cuanta más compresión aplique, más datos descartará y peor será la aproximación en comparación con los datos originales.

Los códecs de vídeo son estándares para la compresión de vídeo realizada a través de aplicaciones de software o hardware. Códecs como: H.264, VP8, RV40 y otros estándares o superiores (VP9)

Nota: Códecs de audio como: LAME/MP3, Fraunhofer FDK AAC, FLAC, etc.

Obtenga un valor predicho en función de la información del bloque codificado, de modo que solo necesite codificar la diferencia entre el valor real y el valor predicho.

Eliminación de la redundancia espacial:

Predicción intracuadro: obtenga datos de predicción basados ​​​​en información de bloques codificados adyacentes en el mismo cuadro y codifique datos de diferencia

Eliminación de redundancia temporal:

Predicción entre cuadros: obtiene datos de predicción basados ​​en la información del bloque en el cuadro codificado y codifica datos de diferencia

Cuadro I: solo se utiliza la tecnología de compresión dentro del cuadro. utilizado para comprimir La eficiencia más baja, la codificación y decodificación no requiere el uso de información de otros cuadros y es el punto de partida del GOP.

Cuadro P: cuadro de predicción directa, la codificación y decodificación solo se refiere al cuadro anterior, que se puede utilizar como cuadro de referencia al codificar otras imágenes. Es una tecnología de compresión entre cuadros.

Cuadro B: cuadro de predicción bidireccional, la codificación y decodificación se refiere tanto al cuadro anterior como al siguiente. Tiene la mayor eficiencia de compresión, alta complejidad y gran retraso. Es una tecnología de compresión entre cuadros. .

GOP (grupo de imágenes) generalmente se refiere al número de intervalos entre dos fotogramas I. Entre dos fotogramas I hay una secuencia de imágenes, y solo hay un fotograma I en una secuencia de imágenes.

El flujo de código original H.264 (llamado flujo desnudo) se compone de dos NALU conectadas una tras otra, y su función se divide en dos capas: capa de codificación de video VCL y capa de extracción de red NAL.

VCL es responsable de representar eficazmente el contenido de los datos del vídeo.

Además de realizar la compresión de video, H264 también proporciona las estrategias de fragmentación y codificación de video correspondientes para facilitar la transmisión de la red, similar a encapsular datos de la red en marcos IP, en H264 se llama Grupo (gop), segmento (slice); ), y el macrobloque (Macroblock) juntos forman la estructura jerárquica del flujo de código H264. H264 lo organiza en una secuencia (GOP), una imagen (pictrue), un segmento (Slice) y un macrobloque. ) y subbloque (subbloque).

Macrobloque: la unidad básica de codificación de vídeo. El tamaño habitual de macrobloque de h264 es 16x16 píxeles, por lo que el codificador generalmente tiene requisitos para el ancho y alto de la imagen, que deben ser múltiplos de 16.

Sector: Sector, la división de una imagen. Un cuadro de imagen se puede codificar en uno o más sectores, y cada sector contiene un número entero de macrobloques.

SPS: Conjunto de parámetros de secuencia, que contiene elementos de sintaxis aplicados a la secuencia de vídeo completa, como ancho, alto de la imagen, etc.

PPS: Conjunto de parámetros de imagen, que contiene elementos de sintaxis aplicados a imágenes codificadas, como parámetros de cuantificación, tamaño de lista de cuadros de referencia, etc.

NAL define el formato de encapsulación de datos y la interfaz de red unificada, y es responsable de formatear los datos VCL y proporcionar información de encabezado para garantizar que los datos sean adecuados para la transmisión en varios canales y medios de almacenamiento.

La unidad básica de NAL es NALU. Cada NALU contiene un byte de información de encabezado y datos de carga útil posteriores.

Documentos de referencia

/p/31056455

/p/1b3f8187b271

/p/31056455

/ p/0c296b05ef2a

La plataforma Android es compatible con las soluciones codificadas de la mayoría de los fabricantes de chips del mercado, como Qualcomm, Samsung Exynos, MediaTek, HiSilicon, etc.; la plataforma Windows es compatible con Intel qsv hard. -soluciones codificadas.

Resolución: El largo y ancho de la imagen (rectangular), es decir, el tamaño de la imagen. Afecta el tamaño de la imagen y es proporcional al tamaño de la imagen; cuanto mayor es la resolución, cuanto más grande es la imagen, menor es la resolución, más pequeña es la imagen.

La resolución se refiere a cuántas partes se divide la imagen del vídeo horizontal y verticalmente.

La diferencia entre 1080P, 3MP y 4K

P 720P y 1080P representan la "función total de píxeles de vídeo", 'P' (abreviatura de Progressive) representa "escaneo progresivo" "

K 2K, 4K, etc. representan "el número total de columnas de píxeles de vídeo". 4K representa el número de píxeles del vídeo con 4000 columnas, específicamente 3840 columnas o 4096 columnas.

MP representa el número total de píxeles, que se refiere al resultado (megapíxeles) de multiplicar el número de filas (P) y el número de columnas (K) de píxeles.

La velocidad de fotogramas se refiere al número de imágenes por segundo. Un fotograma representa una imagen fija y los fotogramas consecutivos forman una animación. Afecta la suavidad de la imagen y es directamente proporcional a la suavidad de la imagen: cuanto mayor es la velocidad de fotogramas, más suave es la imagen, menor es la velocidad de fotogramas y más nerviosa es la imagen; La velocidad de fotogramas es la cantidad de fotogramas de imágenes transmitidas en un segundo. También puede entenderse como cuántas veces el procesador de gráficos puede actualizarse por segundo.

La velocidad de código se refiere al tamaño de los datos compilados por el codificador por segundo, la unidad es kbps.

El tráfico de datos utilizado por los archivos de vídeo por unidad de tiempo se refiere a la cantidad de datos después de comprimir las imágenes mostradas por segundo.

La influencia sobre el volumen es proporcional al volumen: cuanto mayor es la tasa de código, mayor es el volumen, cuanto menor es la tasa de código, menor es el volumen. (Volumen = tasa de código Cantidad/tasa de bits (para la misma fuente de vídeo y utilizando el mismo algoritmo de codificación de vídeo, cuanto mayor sea la relación de compresión, peor será la calidad de la imagen)

Claridad

Bajo la condición de una cierta tasa de bits, existe una relación inversa entre resolución y claridad: cuanto mayor es la resolución, menos clara es la imagen y cuanto menor es la resolución, más clara es la imagen.

Cuando la resolución es constante, la tasa de bits es directamente proporcional a la claridad. Cuanto mayor es la tasa de bits, más clara es la imagen; cuanto menor es la tasa de bits, menos clara es la imagen.

Buen artículo para comprender la relación entre resolución, velocidad de fotogramas y velocidad de bits: /qq_39759656/article/details/80701965

Si has visto esto, dale me gusta 0,0