Por qué la IA debe perder un poco para reconocer mejor tu rostro
En los últimos años, se han logrado avances significativos en el reconocimiento facial. Esta revisión ofrece una visión general de las tareas clave, modelos y métodos de solución, con un enfoque especial en la evolución de las funciones de pérdida.
El reconocimiento facial es una técnica que permite identificar o verificar la identidad de una persona utilizando fotos, videos o imágenes en tiempo real. En esta revisión, se explorará la identificación basada en una sola imagen digital o un fotograma de video.
El reconocimiento facial tiene aplicaciones en diversos sectores, incluyendo el financiero, la ciberseguridad, la vigilancia por video, los servicios para hogares inteligentes y la autenticación multifactor. Además de estos usos prácticos, los modelos de reconocimiento facial desempeñan un papel crucial en modelos generativos modernos.
En Q2BSTUDIO, empresa de desarrollo y servicios tecnológicos, trabajamos con tecnologías avanzadas de inteligencia artificial y aprendizaje profundo para ofrecer soluciones innovadoras en reconocimiento facial. Nuestro equipo de expertos desarrolla e implementa modelos personalizados según las necesidades específicas de cada industria, garantizando seguridad, precisión y eficiencia.
Un elemento clave en el reconocimiento facial es la función de pérdida utilizada durante el entrenamiento del modelo. ArcFace ha sido una de las funciones más utilizadas en los últimos años, mientras que CosFace y FaceNet también han sido exploradas.
El proceso de reconocimiento facial sigue un pipeline que incluye varias etapas: detección facial, recorte y alineación. Generalmente, se utilizan detectores adicionales para definir los contornos del rostro y los puntos clave faciales. Posteriormente, la imagen procesada se introduce en el modelo.
Los modelos de reconocimiento facial suelen constar de dos componentes principales:
Backbone. Es el extractor de características, encargado de convertir una imagen de rostro en un vector de características. Se utilizan redes neuronales convolucionales como ResNet, VGGNet, SE-ResNet, Vision Transformer y otros modelos avanzados.
Función de pérdida. Su objetivo es dirigir el entrenamiento del modelo para que genere embeddings similares para fotos de la misma persona y distintos para personas diferentes. Para medir estas diferencias, se emplean métricas como la distancia coseno o la distancia L2.
Las funciones de pérdida se pueden clasificar en dos grandes categorías: las basadas en pares y las basadas en clasificación.
Funciones de pérdida basadas en pares: Estas incluyen Contrastive loss, Triplet loss y N-pairs loss. Funcionan emparejando imágenes positivas y negativas para mejorar la representación de las características faciales, aunque pueden incrementar significativamente el tamaño de los datos.
Funciones de pérdida basadas en clasificación: Incluyen Softmax loss, CosFace y ArcFace. Estas técnicas utilizan prototipos o centros de clases que se actualizan durante el entrenamiento del modelo.
ArcFace, desarrollado en 2018, marcó un avance al modificar la función Softmax tradicional, proporcionando una mejor delimitación entre clases mediante la utilización de ángulos en vez de similitud coseno.
Otros modelos posteriores han tratado de mejorar el manejo del ruido en los datos y la optimización de los márgenes, tales como Sub-center ArcFace (2020), AdaCos (2019), X2-Softmax (2023) y SFace (2022). Estas nuevas funciones buscan equilibrar la convergencia del modelo y la discriminación entre clases sin amplificar el ruido.
Una nueva tendencia en reconocimiento facial es la representación del prototipo de una identidad como una distribución en lugar de un solo punto en el espacio de características. Modelos como VPL y EPL exploran este enfoque para reducir el impacto de valores atípicos y mejorar la precisión del reconocimiento.
Asimismo, la incorporación de arquitecturas basadas en transformadores ha surgido como una solución para mejorar la discriminación del modelo, como en el caso de Transformer-ArcFace, combinando redes convolucionales con redes de atención para potenciar la capacidad del modelo.
En Q2BSTUDIO, exploramos y desarrollamos soluciones tecnológicas que integran estos avances en reconocimiento facial, garantizando un rendimiento óptimo y seguro para nuestros clientes. Nuestro enfoque se basa en la innovación y en la aplicación de algoritmos de vanguardia que permiten mejorar la identificación biométrica en distintos sectores.
Esta revisión ha cubierto algunas de las funciones de pérdida más relevantes en el reconocimiento facial, pero hay muchos otros aspectos a considerar en futuros estudios:
- Arquitecturas de modelos de reconocimiento facial
- Soluciones para casos especiales como identificación con oclusión, envejecimiento, iluminación variable y diferentes poses
- Reconocimiento 3D y dinámico
- Revisión de datasets utilizados en entrenamiento
En Q2BSTUDIO, continuamos investigando y aplicando estos avances tecnológicos para ofrecer soluciones de vanguardia en reconocimiento facial, asegurando seguridad, precisión y eficiencia en cada implementación.