Edición facial de rostros en vídeos mediante IA y los desafíos para mejorar sus resultados

Rostro

Las redes generativas adversarias, que son algoritmos de aprendizaje profundo ampliamente usados en la generación de imágenes, han permitido la edición realista de capturas faciales. No obstante, la extensión de esta tecnología a la edición de video no ha sido fácil, puesto que impone un desafío adicional: mantener coherencia con el tiempo.

Un artículo de investigación reciente propone enfrentar esta problemática mediante el uso de las técnicas de edición latente comúnmente empleadas con un modelo StyleGAN no temporal y listo para usar.

Propuesta científica para mejorar la edición mediante IA de rostros en vídeos

Modificar un rostro no es tarea fácil dentro de la edición de vídeo. A pesar de aquello, es una tarea que es necesaria abordar en diversos proyectos audiovisuales que lo demandan. En busca de una solución, con el apoyo de tecnologías de IA, un equipo de investigación de la Escuela de Ciencias de la Computación de la Universidad de Tel Aviv presentó su propuesta.

Los investigadores se basan en la suposición de que el video inicial ya es consistente y la edición solo necesita mantenerlo. Se identifican los puntos donde pueden surgir inconsistencias temporales y se proponen herramientas que puedan mitigar estas inconsistencias. «Faltan conjuntos de videos faciales de alta calidad, y trabajar con videos introduce una barrera fundamental a superar: la coherencia temporal. Proponemos que esta barrera es en gran medida artificial», señala parte de la introducción de este estudio.

La canalización de edición sugerida puede aplicar sin problemas modificaciones semánticas basadas en latentes a las caras en videos reales. Puede editar incluso videos de cabezas parlantes desafiantes con un movimiento considerable y fondos complejos, que los métodos actuales no logran abordar. «Nos basamos en estas ideas y proponemos un marco para la edición semántica de rostros en videos, demostrando mejoras significativas sobre el estado actual del arte. Nuestro método produce manipulaciones faciales significativas, mantiene un mayor grado de consistencia temporal y se puede aplicar a videos de cabezas parlantes desafiantes y de alta calidad con los que luchan los métodos actuales», agregaron en su presentación.

La capacidad de las redes generativas adversarias para codificar una semántica rica dentro de su espacio latente ha sido ampliamente adoptada para la edición de imágenes faciales, como en los deepfakes, por ejemplo. Sin embargo, ha resultado todo un desafío replicar su éxito con videos, algo que pretenden solucionar los investigadores tras este estudio con su propuesta, cuyos resultados pueden verse ejemplificados en este sitio de GitHub, mantenido justamente por aquel equipo. Ahí, con rostros de personajes conocidos como Barack Obama, Emma Watson o parte del elenco de The Office, se presenta cómo se pueden alterar los rangos de edad y las expresiones faciales de ciertas emociones mediante este sistema.

Si te ha gustado el contenido Invítanos a un café. ¡Gracias por seguir leyéndonos!