Tabla de Contenidos
- Introducción
- Conocimiento Oculto
- Procedimiento de Destilación
- Experimento en MNIST
- Experimento Adicional en MNIST
1. Introducción
En este artículo exploraremos el proceso de destilación de conocimiento en inteligencia artificial: cómo funciona, su importancia y las razones para utilizarlo.
¿Cómo podemos comprimir y transferir conocimiento de un modelo grande o un conjunto de modelos entrenados en conjuntos de datos extensos a un solo modelo pequeño sin perder mucho rendimiento?
Entrenamos modelos grandes porque buscamos extraer patrones de grandes volúmenes de datos mediante técnicas como el dropout o la ampliación de datos. Sin embargo, en la fase de predicción, nuestro objetivo es obtener resultados rápidamente, lo que hace costoso utilizar un modelo grande.
Geoffrey Hinton, Oriol Vinyals y Jeff Dean introdujeron un método llamado destilación para transferir conocimiento a modelos más pequeños de manera eficiente.
2. Conocimiento Oculto
En el aprendizaje automático, un modelo generalmente aprende a diferenciar entre múltiples clases maximizando la probabilidad del resultado correcto. Sin embargo, también genera probabilidades para respuestas incorrectas, lo que aporta información de valor sobre la generalización del modelo.
Por ejemplo, en la clasificación de MNIST, un dígito 2 podría tener una probabilidad mínima de ser clasificado como 3 o como 7, pero estas probabilidades, aunque bajas, revelan similitudes entre los datos. Esta información, conocida como conocimiento oculto, permite que los modelos pequeños también aprendan a generalizar.
3. Procedimiento de Destilación
Para transferir la capacidad de generalización del modelo grande al pequeño, utilizamos las probabilidades de clase como objetivos suavizados o soft targets. El proceso consiste en:
- Generar predicciones del modelo grande sobre el mismo conjunto de entrenamiento.
- Aplicar una temperatura T a la función softmax para ampliar la distribución de probabilidades y resaltar las similitudes ocultas.
- Entrenar el modelo pequeño con estas soft targets en combinación con las etiquetas reales.
Este procedimiento reduce la necesidad de grandes modelos sin perder capacidad de predicción.
4. Experimento en MNIST
Se realizaron pruebas en la base de datos MNIST con dos modelos:
- Un modelo pequeño (784 ? 800 ? 800 ? 10), que sin regularización obtuvo 146 errores en pruebas.
- Un modelo grande (784 ? 1200 ? 1200 ? 10) con técnicas avanzadas de entrenamiento, logrando solo 67 errores.
Aplicando destilación, el modelo pequeño pudo reducir errores a 74, demostrando que la técnica permite transferir la capacidad de generalización del modelo grande al modelo pequeño.
5. Experimento Adicional en MNIST
En un experimento adicional, se eliminó el dígito 3 del conjunto de entrenamiento del modelo pequeño. Aun sin haber visto nunca un 3, el modelo destilado logró predecir correctamente en 133 de 1010 casos del test. Esto confirmó que la destilación transfiere conocimiento eficazmente.
En Q2BSTUDIO, empresa especializada en desarrollo y servicios tecnológicos, aplicamos innovaciones como la destilación de conocimiento para optimizar modelos de inteligencia artificial. Nuestro equipo trabaja en implementar soluciones eficientes que permitan a nuestros clientes aprovechar los avances más recientes en IA sin comprometer el rendimiento.