Revista El Color del Dinero

Bienvenidos a Spain News Today.

Una guía sencilla para operar la difusión estable en el hogar • Historia

Una guía sencilla para operar la difusión estable en el hogar • Historia

Tomados de la mano El lanzamiento de las PC Copilot+ AI de Microsoft ofrece una gran cantidad de funciones impulsadas por el aprendizaje automático, incluido un generador de imágenes integrado directamente en MS Paint que se ejecuta de forma nativa y convierte sus dibujos en arte.

El único problema es que necesitarás una PC nueva y brillante con Copilot+ AI para desbloquear estas funciones. Bien, para abrir Microsoft crear una junta de todos modos. Si tiene una tarjeta gráfica bastante moderna, o incluso una buena tarjeta gráfica integrada, probablemente tenga todo lo que necesita para intentar crear imágenes de IA localmente en su dispositivo.

Desde su debut hace casi dos años, los modelos Stable Diffusion de Stable AI se han convertido en la solución ideal para la generación de imágenes locales, debido a su tamaño increíblemente pequeño, licencias relativamente permisivas y facilidad de acceso. A diferencia de muchos modelos propietarios, como Midjourney o Dall-e de OpenAI, puedes descargar el modelo y ejecutarlo tú mismo.

Por este motivo, en los últimos años han surgido una gran cantidad de aplicaciones y servicios diseñados para facilitar el despliegue de modelos derivados de Stable Diffusion en todo tipo de dispositivos.

En este tutorial, veremos cómo funcionan realmente los modelos de difusión y exploraremos una de las aplicaciones más populares para ejecutarlos localmente en su dispositivo.

Requerimientos básicos:

La interfaz de usuario web de difusión estable de Automatic1111 se ejecuta en una amplia gama de dispositivos y, en comparación con algunos de nuestros otros tutoriales de IA, tampoco requiere muchos recursos. Esto es lo que necesitarás:

  • Para esta guía, necesitará una PC con Windows o Linux (estamos usando Ubuntu 24.04 y Windows 11) o una Apple Silicon Mac.
  • Una tarjeta gráfica Nvidia o AMD compatible con al menos 4 GB de vRAM. Cualquier tarjeta gráfica razonablemente moderna de Nvidia o la mayoría de las tarjetas gráficas de la serie 7000 (algunas tarjetas de la serie 6000 de mayor calidad también pueden funcionar) deberían funcionar sin ningún problema. Probamos esto con Tesla P4, RTX 3060 12G y RTX 6000 Ada Generation de Nvidia, así como con RX 7900 XT de AMD.
  • Los controladores de gráficos más recientes para su GPU.
READ  La startup japonesa ispace presenta una nueva nave de aterrizaje en la luna con fecha de lanzamiento prevista en 2024 - Technology News, Firstpost

Fundamentos de los modelos de difusión.

Antes de pasar a implementar y ejecutar modelos de difusión, podría resultar útil analizar de alto nivel cómo funcionan realmente.

En resumen, los modelos de difusión están entrenados para captar ruido aleatorio y, a través de una serie de pasos de eliminación de ruido, llegar a una imagen reconocible o una muestra de audio que represente un vector específico.

El proceso de entrenamiento de estos modelos es bastante simple, al menos conceptualmente. Importa un gran catálogo de imágenes etiquetadas, gráficos o muestras de audio (a menudo extraídas de Internet) y les aplica niveles crecientes de ruido. A lo largo de millones o incluso miles de millones de muestras, el modelo se entrena para revertir este proceso, pasando del ruido puro a una imagen reconocible.

Durante este proceso, tanto los datos como sus etiquetas se convierten en vectores vinculados. Estos vectores actúan como guía durante el razonamiento. Cuando se le pregunte al modelo “Cachorro jugando en un campo de césped”, utilizará esta información para guiar cada paso del proceso de eliminación de ruido hacia el resultado deseado.

Para ser claros, esto es una gran simplificación, pero proporciona una descripción básica de cómo los modelos de difusión pueden crear imágenes. Están sucediendo muchas cosas bajo el capó y recomendamos consultar Stable Diffusion de Computerphile. explicador Si está interesado en aprender más sobre este tipo específico de modelo de IA.

Comience con Automatic1111

Podría decirse que la herramienta más popular para ejecutar modelos de difusión localmente es la interfaz de usuario web Static Diffusion de Automatic1111.

Como sugiere el nombre, la aplicación proporciona una GUI basada en web clara y autohospedada para crear imágenes generadas por IA. Es compatible con Windows, Linux y macOS, y puede ejecutarse en Nvidia, AMD, Intel y Apple Silicon, con algunas advertencias que abordaremos más adelante.

La instalación real varía según su sistema operativo y hardware, así que no dude en pasar a la sección correspondiente a su configuración.

NÓTESE BIEN: Para facilitar el uso de esta guía, la hemos dividido en cuatro secciones:

  1. Introducción e instalación en Linux.
  2. Hazlo funcionar en Windows y MacOS
  3. Utilice la interfaz de usuario web de implementación estable
  4. Integración y deducción

Soporte de gráficos Intel

Al momento de escribir este artículo, la interfaz de usuario web de difusión estable de Automatic1111 no es compatible con gráficos Intel de forma nativa. Sin embargo, existe una rama de OpenVINO que admite tanto Windows como Linux. Lamentablemente, no pudimos probar este método, por lo que su experiencia puede variar. Puedes encontrar más información sobre el proyecto. aquí.

Instalación de Automatic1111 en Linux: AMD y Nvidia

Para comenzar, comenzaremos con la interfaz de usuario web de Difusión estable Automatic1111, a la que llamaremos A1111 de ahora en adelante, en funcionamiento en Ubuntu 24.04. Estas instrucciones deberían funcionar con GPU AMD y Nvidia.

Si está utilizando una versión diferente de Linux, le recomendamos consultar el A1111 repositorio de GitHub Para obtener más información sobre las implementaciones de distribución.

Antes de comenzar, necesitamos instalar algunas dependencias, a saber git Y el software-properties-common desalojo:

sudo apt install git software-properties-common -y

También necesitaremos obtener Python 3.10. Para bien o para mal, Ubuntu 24.04 no incluye esta versión en sus repositorios, por lo que tendremos que agregar el PPA de Deadsnakes antes de poder extraer los paquetes que necesitamos.

sudo add-apt-repository ppa:deadsnakes/ppa -y
sudo apt install python3.10-venv -y

Nota: En nuestras pruebas, descubrimos que las GPU AMD requieren algunos paquetes adicionales para funcionar, además de un reinicio.

#AMD GPUS ONLY
sudo apt install libamd-comgr2 libhsa-runtime64-1 librccl1 librocalution0 librocblas0 librocfft0 librocm-smi64-1 librocsolver0 librocsparse0 rocm-device-libs-17 rocm-smi rocminfo hipcc libhiprand1 libhiprtc-builtins5 radeontop
# AMD GPUS ONLY
sudo usermod -aG render,video $USER
# AMD GPUS ONLY
sudo reboot

Con nuestras dependencias ordenadas, ahora podemos abrir la interfaz de usuario web A1111 usando git.

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui && cd stable-diffusion-webui
python3.10 -m venv venv

Finalmente, podemos iniciar la interfaz de usuario web ejecutando lo siguiente.

./webui.sh

El script comenzará a descargar los paquetes relevantes para su sistema específico, además de extraer el archivo de muestra de Stable Diffusion 1.5.

READ  La actualización del controlador anti-lag de AMD se canceló después de causar un bloqueo de VAC en CS2

Si la interfaz de usuario web de Stable Diffusion no se carga en las GPU AMD, es posible que necesite una modificación webui-user.shEsto parece estar relacionado con la compatibilidad con el hardware en la versión ROCm que se envía con el A1111. Según tenemos entendido, este problema debería resolverse cuando la aplicación migre a ROCm 6 o posterior.

#AMD GPUS OMLY
echo "export HSA_OVERRIDE_GFX_VERSION=11.0.0" >> ~/stable-diffusion-webui/webui-user.sh

Si aún tiene problemas, consulte la sección Indicadores útiles para obtener consejos adicionales.

En la siguiente sección, veremos cómo ejecutar A1111 en Windows y macOS.