¿Cuáles son las partes de alta y baja frecuencia de la imagen y cuál es el método para completar la imagen?
La frecuencia de la imagen: un indicador de la intensidad de los cambios en el valor de gris, que es el gradiente de gris en el espacio plano.
Baja frecuencia significa que el color cambia lentamente, es decir, la escala de grises cambia lentamente, lo que significa que es un área de gradiente continuo. Esta parte es la baja frecuencia para una imagen, excluida. la alta frecuencia es baja frecuencia, es decir, el contenido dentro del borde es de baja frecuencia, y el contenido dentro del borde es la mayor parte de la información de la imagen, es decir, la descripción general y el contorno de la imagen, que es la información aproximada de la imagen.
Por el contrario, alta frecuencia significa que la frecuencia cambia rápidamente. Cuando la escala de grises cambia rápidamente en la imagen, significa que la diferencia de escala de grises entre áreas adyacentes es grande, lo que significa que el cambio es rápido. Una imagen y generalmente hay diferencias obvias en los bordes del fondo, es decir, la escala de grises cambia rápidamente en ese borde, es decir, la parte con alta frecuencia de cambio. Por lo tanto, el valor de la escala de grises en el borde de la imagen. Cambia rápidamente, lo que corresponde a La frecuencia es alta, es decir, los bordes de la imagen se muestran en frecuencias altas. Los detalles de la imagen también son áreas donde el valor de gris cambia bruscamente. Es precisamente debido al cambio brusco del valor de gris que aparecen los detalles.
Además, lo mismo ocurre con el ruido (es decir, puntos de ruido). En la ubicación de un píxel, la razón por la que es un punto de ruido es porque es diferente del color del punto normal, que es el mismo. Significa que el valor de la escala de grises del punto de píxel es obvio. Es diferente, es decir, la escala de grises ha cambiado rápidamente, por lo que es una parte de alta frecuencia, por lo que hay ruido en las frecuencias altas.
Método de finalización de imágenes:
El primero: relleno de regiones y eliminación de objetos mediante pintura de imágenes basada en ejemplos
El proceso general del algoritmo:
1) Los píxeles en el límite del área a completar se calculan secuencialmente para la prioridad de finalización. Esta prioridad considera principalmente dos factores. Una es que las ubicaciones con alta credibilidad de los píxeles circundantes deben rellenarse primero, y la otra es que las ubicaciones donde el gradiente de la imagen cambia drásticamente deben rellenarse primero. Después de combinar los dos para obtener todas las prioridades, seleccione el píxel con mayor prioridad para completar
2) Para completar el píxel que se encuentra en el paso anterior, considere un parche pequeño (como 3*3 ) a su alrededor. Busque todos los parches en la parte conocida de la imagen y encuentre el parche más similar
3) Utilice la mejor coincidencia encontrada para completar la parte desconocida y actualice los valores relevantes
Pero no 't Es difícil encontrar problemas con este método: si no se pueden encontrar parches similares en partes conocidas de la imagen, el algoritmo no funcionará, este método sólo es adecuado para completar imágenes cuyos fondos estén dominados por información de baja frecuencia; texturas repetitivas; búsqueda de parches similares La complejidad computacional es muy alta y la eficiencia de operación del algoritmo es baja.
Segundo tipo: finalización de escena utilizando millones de fotografías
El proceso general del algoritmo:
1) Descargar dos millones de imágenes de Flickr para crear una base de datos. y " Busque imágenes de escenas al aire libre con palabras clave como "paisaje", "ciudad" y "parque".
2) Para completar una imagen, seleccione las 200 escenas más similares de la base de datos. Aquí, utilice el descriptor de escena esencial y la reducción de resolución de la imagen a 4*4 como vector de características coincidentes.
3) Utilice los 80 píxeles fuera del límite del área de finalización como contexto. Para cada imagen coincidente, busque todos los espacios de traducción y tres espacios de escala, seleccione la mejor posición de finalización según el error de coincidencia en la parte de contexto y luego use el algoritmo de corte de gráfico para resolver el mejor límite de fusión;
4) Utilice la fusión de Poisson estándar para procesar el límite de fusión.
5) Sume los costos coincidentes de los pasos anteriores y los costos recortados del gráfico, y devuelva los 20 resultados con el costo más pequeño para que el usuario elija.
Codificadores de contexto: aprendizaje de funciones mediante pintura interna
La estructura de red propuesta en el artículo es la siguiente e incluye 3 partes: codificador, capa completamente conectada por canales y decodificador. La estructura de Encoder se basa directamente en la estructura de capas convolucionales de las primeras cinco capas de AlexNet. La estructura específica es la siguiente. El tamaño del recorte de entrada es 227?227 y la estructura del mapa de características obtenida después de la convolución es 256 capas 6?6. Todos los pesos se inicializan aleatoriamente.
La capa completamente conectada por canales es una mejora con respecto a la capa fc ordinaria. La razón por la que se agrega la capa fc es para permitir que la información de cada capa del mapa de características se comunique internamente. Sin embargo, la capa fc tradicional tiene demasiados parámetros, por lo que el autor propuso que el intercambio de información entre las capas del mapa de características se pueda eliminar en fc, reduciendo así la escala de los parámetros. Después de fc, se conectará una capa convolucional con un paso de 1 para realizar el intercambio de información entre capas.