En esta publicación les comparto mi experiencia entrenando loras para Flux de manera local utilizando la tarjeta Nvidia RTX3060 con 12gb de Ram.
Para empezar tengo que decirles que quise empezar entrenando loras con 16 de RAM y me resultó un dolor de cabeza ya que todos los Workflow que utilizaba me dejaban sin memoria, se caía el entrenamiento.
Primer entrenamiento Comfyui
Con 32 de Ram pude correr el workflow FLUX LoRA trainer on ComfyUI v.1.1 , pero un entrenamiento con 30 imagenes de 512 se llegaba a tardar minimo 60 horas. Una locura que hacía que mi vram llegara a los limites de su trabajo.
La verdad me desesperé y lo quité.
Si tienes una Vram de más de 16 gigas puede que a ti si te sirva.
Segundo entrenamiento Lora Comfyui
Este segundo entrenamiento sólo me tardó 2 horas en terminar.
Investigando un poco me encontré con varias personas que decían que se podían bajar los tiempos a 6 horas, logrando una mejor configuración del mismo primer entrenamiento con FLUX LoRA trainer on ComfyUI v.1.1.
Los parametros que cambie del primero fue que utilicé imagenes de 512.
Batch Size 1
Cometí dos errores
La muestra que utilicé era muy pobre en cuestión visual.
Estos fueron los dos resultados que me envió y aunque no son lo que esperaba no están tan mal hechos.
Como pueden ver el resultado no es malo, pero la verdad es que no se parece para nada a mi, aunque así me veo más guapo jajaja.
Aqui te dejo tambien las gráficas de entrenamiento.
Esta es la imagen del workflow y la configuración
Tercer entrenamiento y el mejor para una rtx3060 12gb
Tardó 8 horas, las justas que ocupo en la noche para dormir.
RESULTADOS
Este workflow me lo encontré en una publicación de Reddit, en donde comparten un workflow mucho menos pesado que el primero, lo voy a probar.
Este es el workflow DESCARGA. Te va a descargar un archivo de texto, sólo tienes que editar el nombre quitando el .txt y deja conterminación JSON.
En la publicación de reddit puedes seguir los pasos para ponerlo a funcionar.
Utilicé una muestra completamente diferente a 720 pixeles
Las imagenes, aunque fueron menos (15 imagenes) son mucho más variadas y eso ayudó muchisimo al resultado:
Resultado
Este si se parece mucho más a lo que soy yo. (la imagen puede mejorar mucho más con algunos nodos de upscale y de retoque de rostro)
Te comparto la curva de aprendizaje que se manejó en este tercer intento. Como puedes ver la última gráfica del último entrenamiento es una gráfica perfecta de entrenamiento.