Deja que ChatGPT interprete todos los parámetros LoRA
Base de conocimientos de IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 1.8K 00
establecer | opciones (como en la configuración de programas informáticos) | descripciones | inconvenientes |
---|---|---|---|
modelo_base | Ruta del fichero del modelo base | Esta opción especifica la ruta al archivo del modelo base que se utilizará como punto de partida para entrenar un nuevo modelo. El modelo se ajustará con los nuevos datos proporcionados. | Es importante elegir el modelo subyacente que sea relevante para la tarea y los datos; de lo contrario, el proceso de ajuste puede no mejorar el rendimiento. |
carpeta_img | Ruta de la carpeta que contiene las imágenes de entrenamiento | Esta opción especifica la ruta a la carpeta que contiene las imágenes de entrenamiento utilizadas para entrenar el modelo. | La calidad y la cantidad de las imágenes de entrenamiento pueden afectar en gran medida al rendimiento del modelo. Disponer de imágenes suficientemente diversas y de alta calidad es crucial para el aprendizaje del modelo. |
carpeta_de_salida | Ruta de la carpeta donde se almacena el modelo de salida | Esta opción especifica la ruta de la carpeta donde se guarda el modelo de salida después del entrenamiento. | La carpeta de salida debe tener espacio suficiente para guardar los archivos del modelo. Es importante hacer copias de seguridad periódicas de los archivos del modelo por si se pierden datos y se pierde trabajo. |
cambiar_nombre_salida | booleano | Especifica si se cambia el nombre de salida del modelo de entrenamiento. Si se establece en True, el nombre de salida cambiará, de lo contrario permanecerá sin cambios. | N/A |
guardar_carpeta_json | cadena (informática) | Ruta a la carpeta donde se guardará el archivo json del modelo de entrenamiento. | N/A |
load_json_path | cadena (informática) | La ruta al archivo json que se utilizará para cargar los parámetros del modelo. Esto es útil para continuar el entrenamiento desde un punto de control anterior. | El archivo especificado por load_json_path debe existir y ser un archivo json válido. |
json_load_skip_list | lista de cadenas | Especifica una lista de cadenas para las claves de la configuración del modelo que no se cargan en el archivo .json guardado. | Si incluye accidentalmente las claves necesarias en json_load_skip_list, es posible que el modelo no funcione como se espera. |
multi_run_folder | cadena (informática) | El nombre de la carpeta donde se almacenan los resultados de varias ejecuciones de entrenamiento, con el formato {carpeta_de_ejecuciones_multiples}/ejecución{número_de_ejecución}/. | Si se realizan varias ejecuciones sin cambiar el nombre de la carpeta_multi_ejecución, se sobrescribirán los resultados anteriores. |
save_json_only | booleano | Si se establece en True, sólo se guarda el archivo de configuración del modelo (formato .json), no los puntos de control completos del modelo. | El archivo .json por sí solo no recuperará el modelo, y si save_json_only se establece en True, deberá comenzar el entrenamiento desde cero. |
caption_dropout_rate | Números de coma flotante entre 0 y 1 | Especifica la tasa de descarte aleatorio de títulos durante el entrenamiento. | Si este valor es demasiado alto, es posible que se pierda información importante del título, con lo que se obtendrán resultados de menor calidad. |
caption_dropout_every_n_epochs | entero (matem.) | Especifique la frecuencia (en rondas) con la que se realizan las retiradas de títulos durante el entrenamiento. | Si este valor es demasiado alto, es posible que el modelo no esté expuesto a suficiente diversidad de títulos durante el entrenamiento, lo que provocaría un sobreajuste. Si se fija demasiado bajo, puede que el modelo no tenga tiempo suficiente para aprender de los titulares antes de ser descartado. |
caption_tag_dropout_rate | Números de coma flotante entre 0 y 1 | Controla la tasa de descarte aleatorio de títulos al entrenar el modelo. Un valor alto significa que se descartarán más títulos, mientras que un valor bajo significa que se descartarán menos títulos. | Establecer valores altos puede provocar la pérdida de información importante en el título, lo que lleva a resultados de menor calidad. |
limite_red | entero (matem.) | Este parámetro determina el número de unidades ocultas en la arquitectura de red del modelo. Los valores de net_dim mayores dan como resultado un modelo más complejo y de mayor tamaño, pero también requieren más recursos informáticos y pueden dar lugar a un sobreajuste si el modelo es demasiado grande y no hay suficientes datos de entrenamiento. | Sobreajuste, aumento de los recursos informáticos |
alfa | coma flotante | Este ajuste determina la capacidad de aprendizaje utilizada durante el entrenamiento. Los valores alfa más altos pueden acelerar la convergencia, pero si se ajustan demasiado altos, también pueden provocar un sobreajuste del modelo o la convergencia a soluciones subóptimas. Los valores alfa más pequeños pueden provocar una convergencia lenta o ninguna convergencia en absoluto. | Solución subóptima, convergencia lenta |
programador | cadena (informática) | Este ajuste determina el programa de velocidad de aprendizaje utilizado durante el entrenamiento. Las opciones más comunes son "escalón", "coseno" y "meseta". El plan escalonado reduce la tasa de aprendizaje en un factor fijo después de un número especificado de iteraciones, mientras que el plan coseno reduce la tasa de aprendizaje en una función coseno. El plan de meseta reduce la tasa de aprendizaje cuando la pérdida de validación deja de mejorar. | Solución subóptima, convergencia lenta, dificultad para elegir un plan adecuado |
coseno_reinicia | entero (matem.) | El número de veces que debe reiniciarse el esquema de recocido del coseno. Un mayor número de reinicios permite que la tasa de aprendizaje cambie con más frecuencia, reduciendo el riesgo de caer en una tasa de aprendizaje subóptima. | Aumentar el número de reinicios puede provocar cambios más frecuentes en el ritmo de aprendizaje, lo que puede hacer que el proceso de formación sea más inestable y difícil de ajustar. |
potencia_programadora | coma flotante | El parámetro de potencia del programador. Los valores de potencia mayores significan que el ritmo de aprendizaje cambia más lentamente. | Establecer valores de potencia más altos puede dar lugar a una tasa de aprendizaje demasiado lenta para converger en un tiempo razonable. Por otro lado, establecer valores de potencia más bajos puede dar lugar a una tasa de aprendizaje demasiado agresiva, que haga que el modelo se ajuste en exceso a los datos de entrenamiento. |
warmup_lr_ratio | coma flotante | La relación entre la velocidad de aprendizaje máxima y la velocidad de aprendizaje inicial durante el periodo de calentamiento. El ritmo de aprendizaje aumenta gradualmente desde el valor inicial hasta el valor máximo. | Una tasa de aprendizaje de calentamiento alta puede hacer que el modelo converja lentamente o no converja en absoluto. Por otro lado, una tasa de aprendizaje de calentamiento baja puede dar lugar a una tasa de aprendizaje demasiado baja para entrenar eficazmente el modelo. |
tasa_de_aprendizaje | coma flotante | Esta opción establece la tasa de aprendizaje del optimizador utilizado para entrenar el modelo. Determina el tamaño del paso al que el optimizador actualiza los parámetros del modelo. El valor por defecto es 0,0001. | Una tasa de aprendizaje alta puede hacer que el modelo converja demasiado rápido a una solución subóptima, mientras que una tasa de aprendizaje baja puede dar lugar a un proceso de entrenamiento lento que puede converger a una solución pobre. La tasa de aprendizaje debe establecerse cuidadosamente para equilibrar estas compensaciones. |
codificador_texto_lr | coma flotante | Esta opción establece específicamente la tasa de aprendizaje del componente codificador de texto del modelo. Si este valor es distinto de learning_rate, permite un ajuste fino especial del codificador de texto. | Establecer text_encoder_lr a un valor diferente de learning_rate puede resultar en un sobreajuste del codificador de texto y puede no generalizar bien a nuevos datos. |
unet_lr | coma flotante | Esta opción establece específicamente la tasa de aprendizaje del componente UNet del modelo. Si este valor se establece en un valor diferente de learning_rate, permite afinar UNet específicamente. | Establecer unet_lr a un valor diferente de learning_rate puede resultar en un sobreajuste a UNet y puede no generalizar bien a nuevos datos. |
número_trabajadores | entero (matem.) | Especifica el número de subprocesos de trabajo para cargar los datos. Aumentar el número de subprocesos de trabajador puede acelerar la carga de datos y el entrenamiento, pero también puede aumentar el uso de memoria. | Demasiados subprocesos de trabajo pueden desbordar la memoria y ralentizar el proceso de formación. |
trabajadores_persistentes | booleano | Determine si desea utilizar subprocesos de trabajador persistentes. Los subprocesos de trabajador persistentes mantienen una cola de muestras de datos, lo que permite cargar los datos de forma más eficiente. | Puede degradar el rendimiento del sistema, especialmente en sistemas con recursos limitados como memoria o E/S de disco. |
tamaño_lote | entero (matem.) | Especifica el número de muestras incluidas en cada lote. Los lotes más grandes pueden dar lugar a un entrenamiento más eficiente, pero también pueden aumentar el uso de memoria y ralentizar la convergencia. | Un tamaño de lote demasiado grande puede provocar un desbordamiento de la memoria y ralentizar el proceso de entrenamiento, mientras que un tamaño de lote demasiado pequeño puede provocar una convergencia lenta. |
número_epocas | entero (matem.) | Especifica cuántos recorridos completos deben realizarse en los datos de entrenamiento. Un mayor número de recorridos dará como resultado un modelo más preciso, pero también tardará más tiempo en ejecutarse. | Los tiempos de entrenamiento más largos pueden sobreajustar los datos si se utilizan demasiadas rondas. |
save_every_n_epochs | entero (matem.) | Especifica la frecuencia con la que debe guardarse el modelo durante el entrenamiento. Por ejemplo, si se establece en 5, el modelo se guardará cada 5 rondas. | ocupan más espacio de almacenamiento porque los modelos se guardarán con más frecuencia. |
shuffle_captions | booleano | Especifica si los datos de entrenamiento deben barajarse entre rondas. Barajar puede ayudar a evitar que el modelo caiga en mínimos locales, pero también puede hacer que el entrenamiento sea inconsistente. | Si el orden de los datos de entrenamiento es significativo, puede dar lugar a un entrenamiento incoherente. |
guardar_tokens | entero (matem.) | El corpus de texto utilizado para el entrenamiento de los más frecuentes Ficha Cantidad. Los tokens con una frecuencia de aparición inferior a keep_tokens se sustituirán por un token desconocido (""). Un valor más pequeño dará lugar a un vocabulario de menor tamaño, lo que puede reducir los requisitos de memoria del modelo, pero también puede dar lugar a una pérdida de información. | Si keep_tokens se ajusta a un valor demasiado bajo, puede perderse información. |
pasos_máx | entero (matem.) | El número máximo de pasos a dar durante el entrenamiento. Una vez que el modelo vea el lote de datos max_steps, el entrenamiento se detendrá. | Si max_steps es demasiado bajo, puede que el modelo no esté completamente entrenado. Si es demasiado alto, el entrenamiento puede llevar mucho tiempo. |
tag_occurrence_txt_file | cadena (informática) | Ruta a un archivo de texto que contiene información sobre la aparición de etiquetas. Esta información se utiliza para ponderar la función de pérdida durante el entrenamiento. | Si las etiquetas parecen tener información no disponible o no están especificadas correctamente, es posible que el modelo no se haya entrenado correctamente. |
sort_tag_occurrence_alphabetically | verdadero o falso | Si se establece en true, las etiquetas en tag_occurrence_txt_file se ordenarán alfabéticamente. Esta opción se puede utilizar para mantener el orden de las etiquetas coherente y garantizar que las etiquetas similares se agrupen. | N/A |
entrenar_resolución | valor entero | Este valor determina la resolución de la imagen de entrenamiento. Las resoluciones más altas producen imágenes más detalladas, pero también requieren más memoria y recursos informáticos. | Aumentar la resolución puede incrementar significativamente el tiempo de entrenamiento y los requisitos de memoria, especialmente si los datos de entrenamiento son grandes. |
min_bucket_resolution | valor entero | Este valor determina el tamaño mínimo del cubo utilizado para el entrenamiento. Un tamaño de cubo más pequeño puede acelerar el proceso de entrenamiento, pero también puede provocar un sobreajuste o reducir la calidad de los resultados. | Una reducción excesiva del tamaño del cubo puede dar lugar a un entrenamiento menos eficaz y a una menor calidad de los resultados. |
max_bucket_resolution | entero (matem.) | Especifica la resolución máxima de imagen de los datos de entrenamiento. Si la resolución de los datos de entrenamiento es mayor que max_bucket_resolution, se reducirá la muestra. | Un valor alto de max_bucket_resolution puede provocar un mayor tiempo de entrenamiento y un mayor uso de memoria, mientras que un valor bajo puede reducir la calidad de la imagen generada. |
lora_model_for_resume | cadena (informática) | Especifica una ruta a un modelo LoRA preentrenado que se utilizará para reanudar el entrenamiento desde un punto de control anterior. | Reanudar el entrenamiento a partir de un modelo preentrenado puede llevar a un sobreajuste si los nuevos datos de entrenamiento son significativamente diferentes de los datos de entrenamiento originales. |
guardar_estado | booleano | Especifica si se guarda el estado de entrenamiento después de cada ronda. Si se establece en True, el estado de entrenamiento se guardará en el archivo lora_model_for_resume. | Guardar los estados de entrenamiento con frecuencia puede provocar tiempos de entrenamiento más largos y un mayor uso del disco. |
cargar_estado_guardado_anterior | verdadero o falso | Especifica si se carga el estado previamente guardado del modelo durante el entrenamiento. Si se establece en True, el entrenamiento se reanudará desde el estado previamente guardado. Si se establece en False, el entrenamiento comenzará desde cero. | Si un estado previamente guardado no está disponible o se ha corrompido, el entrenamiento no se recuperará y se empezará desde cero, lo que puede provocar tiempos de entrenamiento más largos y una degradación del rendimiento. |
comentario_formación | cadena (informática) | Especifica el comentario que se añadirá al nombre del modelo guardado. Esto se puede utilizar para distinguir entre diferentes modelos entrenados con diferentes ajustes o parámetros. | no tener |
unet_only | verdadero o falso | Especifica si sólo se entrenarán los componentes UNet del modelo. Si se establece en True, sólo se entrenará el componente UNet del modelo y no se entrenará el componente codificador de texto. Si se establece en False, se entrenarán tanto los componentes UNet como el codificador de texto del modelo. | Entrenar sólo el componente UNet del modelo puede dar lugar a un menor rendimiento que entrenar ambos componentes al mismo tiempo, ya que el componente codificador de texto es una parte importante del modelo y ayuda a codificar la información textual en el proceso de entrenamiento. |
sólo_texto | verdadero o falso | Determina si el modelo se entrena sólo con texto o con texto e imágenes. Si se establece en True, el entrenamiento será más rápido pero la generación de imágenes será de menor calidad. Si se establece en False, el entrenamiento será más lento pero la generación de imágenes será de mayor calidad. | Si se ajusta a True, la imagen resultante no será tan precisa o detallada como si se ajusta a False. |
reg_img_folder | cadena (informática) | La ruta al directorio de imágenes utilizado para la formación. | Esta opción sólo es relevante si text_only está en False. Si no se proporcionan imágenes, el modelo se entrenará sólo con texto y no se generarán imágenes. |
clip_skip | verdadero o falso | Determina si el modelo debe omitir las imágenes recortadas en los datos de entrenamiento. Las imágenes recortadas son aquellas cuyo tamaño es demasiado pequeño o demasiado grande en comparación con train_resolution. | Si se establece en True, es posible que el modelo no pueda aprender de algunas imágenes de los datos de entrenamiento. Si se establece en False, el entrenamiento puede llevar más tiempo porque el modelo necesita procesar todas las imágenes, incluso las editadas. |
semilla_prueba | entero (matem.) | Especifique una semilla aleatoria para la generación y evaluación de datos de prueba. Establecer la semilla garantiza que se generen los mismos datos de prueba cada vez que se ejecute el script. | Diferentes semillas pueden dar lugar a diferentes datos de prueba y resultados de evaluación, lo que dificulta la comparación del rendimiento entre ejecuciones. |
pérdida_de_peso_anterior | coma flotante | Especifique el peso del término de pérdida a priori en el cálculo de la pérdida total. El término de pérdida a priori se utiliza para animar al modelo a generar resultados similares a la distribución a priori de los datos de entrenamiento. | Ajustar los pesos demasiado altos puede dar lugar a un resultado demasiado similar al anterior, lo que reduce la creatividad del modelo. Si las ponderaciones son demasiado bajas, el resultado puede alejarse demasiado del anterior y no ser lo bastante coherente. |
gradient_checkpointing | booleano | Especifica si se utilizan puntos de control de gradiente para reducir el uso de memoria durante el entrenamiento. La comprobación de gradiente implica guardar y recargar selectivamente las activaciones durante la retropropagación, lo que reduce el uso de memoria a costa de aumentar el tiempo de cálculo. | El uso de puntos de control de gradiente puede ralentizar el proceso de entrenamiento y puede no ser necesario para modelos pequeños o dispositivos con suficiente memoria. |
gradiente_acc_pasos | entero (matem.) | Especifica el número de pasos para la acumulación de gradiente durante el entrenamiento. Aumentar este valor reduce el uso de memoria y ayuda a la estabilidad del entrenamiento. | Los valores más altos de gradient_acc_steps aumentan el número de operaciones y pueden ralentizar el proceso de entrenamiento. |
precisión mixta | booleano | Especifica si se utiliza el entrenamiento de precisión mixta, que utiliza tipos de datos de baja precisión para acelerar el entrenamiento. | El entrenamiento con precisión mixta puede reducir la precisión y provocar un entrenamiento inestable. |
guardar_precisión | coma flotante | Especifica la precisión a utilizar cuando se guardan los pesos del modelo. Normalmente se establece en 32 o 16 dependiendo de la precisión utilizada durante el entrenamiento. | Los valores de precisión más bajos pueden provocar una pérdida de información al guardar las ponderaciones del modelo, lo que se traduce en una menor precisión. |
guardar_como | cadena (informática) | Especifica el formato de archivo en el que se guardará el modelo de entrenamiento. Los formatos compatibles son: ckpt, safetensors, pt, bin. | El formato del archivo debe coincidir con el tipo de modelo de arte AI de difusión estable para el que se utilizará el modelo LoRA. |
caption_extension | cadena (informática) | Especifica la extensión del archivo de texto que contiene las cabeceras de los datos de entrenamiento. | La extensión debe coincidir con la extensión real del archivo del título. |
max_clip_token_length | entero (matem.) | Especifique el número máximo de fichas permitidas en un único título. Los títulos que superen esta longitud se omitirán durante el entrenamiento. | Establecer valores más altos puede aumentar el uso de memoria durante el entrenamiento. Un valor más bajo puede provocar la pérdida de información importante en la cabecera. |
cubos | lista de números enteros | Especifique el tamaño del algoritmo de cubos. Por ejemplo, si buckets se establece en [5,10,15], los datos se dividirán en tres buckets, los datos con la longitud de 5 Token están en un bucket, los datos con la longitud de 10 Token están en otro bucket, y los datos con la longitud de 15 Token están en el tercer bucket. | El número y el tamaño de los cubos deben elegirse cuidadosamente para obtener buenos resultados. Si el número de cubos es demasiado pequeño, el modelo puede no funcionar bien, mientras que si el número de cubos es demasiado grande, el modelo puede estar sobreajustado. |
xformers | lista de cadenas | Especifique el transformador que se utilizará durante el entrenamiento. El transformador puede utilizarse para aplicar técnicas de mejora de datos como recorte aleatorio, volteo, rotación, etc. | La elección del transformador puede afectar en gran medida al rendimiento del modelo, por lo que es importante seleccionar el transformador que mejor se adapte a la tarea concreta. |
use_8bit_adam | booleano | Especifica si se utiliza el optimizador Adam de 8 bits. Esta opción puede utilizarse para reducir los requisitos de memoria del proceso de entrenamiento. | Si esta opción es True, los requisitos de memoria para el proceso de entrenamiento se reducirán, pero el entrenamiento puede ser más lento y el modelo puede ser menos preciso. |
cache_latents | booleano | Si se establece en True, los valores potenciales de los datos de entrenamiento se almacenan en caché para acelerar el entrenamiento. Esto puede reducir el tiempo que se tarda en entrenar el modelo, pero también puede utilizar más memoria y aumentar el tiempo para iniciar el entrenamiento. | Mayor uso de memoria y tiempos de arranque más lentos. |
color_aug | booleano | Si se establece en Verdadero, la mejora del color se realiza durante el entrenamiento. Esto puede aumentar la diversidad de los datos de entrenamiento, pero también puede ralentizar el entrenamiento. | El tiempo de entrenamiento se ralentiza. |
flip_aug | booleano | Si se establece en True, se realiza una mejora del flip durante el entrenamiento. Esto puede aumentar la diversidad de los datos de entrenamiento, pero también puede ralentizar el entrenamiento. | El tiempo de entrenamiento se ralentiza. |
cultivo_aleatorio | Verdadero/Falso | Especifica si se aplica un recorte aleatorio a la imagen de entrenamiento. Si se establece en True, la imagen de entrenamiento se recortará aleatoriamente al tamaño especificado antes de introducirla en el modelo. | El uso de recortes aleatorios aumenta la diversidad de los datos de entrenamiento, pero también aumenta el coste computacional del entrenamiento y puede ralentizar el proceso de entrenamiento. |
vae | Verdadero/Falso | Especifica si se utiliza un autocoder variacional (VAE) como columna vertebral del modelo. Si se establece en True, el modelo se entrenará como un VAE. | El uso de VAE puede proporcionar una representación más flexible de los datos, pero también puede dificultar el entrenamiento y requerir más ajustes. |
no_meta | Verdadero/Falso | Especifica si se excluyen los metadatos (por ejemplo, etiquetas de categoría, atributos, etc.) del proceso de entrenamiento. Si se establece en True, el modelo no tendrá acceso a ningún metadato durante el entrenamiento. | Excluir los metadatos puede simplificar el proceso de formación, pero puede dar lugar a un modelo de menor calidad que no aproveche la información adicional proporcionada por los metadatos. |
log_dir | cadena (informática) | La ruta al directorio donde se almacenan los archivos de registro de entrenamiento. | Si el directorio ya existe y no está vacío, la formación puede sobrescribir los registros anteriores almacenados en ese directorio, lo que provocaría una pérdida de datos. |
bucket_reso_steps | entero (matem.) | Número de pasos para aumentar la resolución de la imagen. La resolución de la imagen comienza en max_bucket_resolution y aumenta en un factor de 2 después de cada paso. | Un valor demasiado alto puede provocar errores de memoria y tiempos de entrenamiento más largos, ya que el tamaño de la imagen aumenta en cada paso. Un valor demasiado bajo puede reducir la calidad de la imagen. |
bucket_no_upscale | booleano | Indica si se debe limitar el aumento de la resolución de la imagen más allá de su tamaño original. | Si se establece en Verdadero, la resolución de la imagen no aumentará más allá de su tamaño original, lo que puede resultar en una menor calidad de imagen. |
v2 | verdadero o falso | Este ajuste especifica si se utiliza la versión 2 de la arquitectura del modelo. | El uso de diferentes versiones de la arquitectura del modelo puede cambiar la calidad y el rendimiento del arte generado, por lo que es importante experimentar y comparar los resultados para determinar la mejor opción para una tarea determinada. |
v_parametrización | norma_espectral", "norma_de_instancia" o "norma_de_lote". | Este ajuste determina cómo se normalizan los parámetros del modelo durante el entrenamiento. La normalización espectral, la normalización de instancias y la normalización por lotes son diferentes enfoques para evitar el sobreajuste, cada uno con sus propias compensaciones en términos de coste computacional y rendimiento. | Elegir el método de normalización equivocado puede repercutir negativamente en el rendimiento del modelo, por lo que es importante probar distintas opciones para determinar cuál es la más adecuada para una tarea determinada. |
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...