12 maneres d’utilitzar la difusió estable sense codificació

Després de Dall-E 2 i Midjourney, el model d’aprenentatge profund Stable Diffusion (SD) va marcar un salt endavant en el domini de text a imatge. Desenvolupat per Stability.AI, SD democratitza la generació d’imatges condicionades al text a causa de la seva eficiència en l’execució en GPU de qualitat del client.

La SD és increïble, però, malauradament, no és trivial de configurar (especialment per a persones sense bones GPU).

Aquí teniu una llista d’eines construïdes en SD amb habilitats tècniques zero necessàries!

Programes que inclouen SD en un programa instal·lable, sense instal·lació separada i amb la menor quantitat d’habilitats git/tècniques necessàries, normalment agrupant una o més IU.

  1. Emissió d’abella

Amb un instal·lador d’un sol clic, Diffusion Bee és una manera molt senzilla d’executar SD localment a M1 Mac. No calen dependències ni coneixements tècnics. S’executa localment en un ordinador; no s’envien dades al núvol, excepte les sol·licituds per descarregar els pesos i comprovar si hi ha actualitzacions de programari.

Requisits del sistema:

  • M1/M2 Mac
  • Es prefereix 16 GB de RAM, ja que funcionarà lentament amb 8 GB de RAM
  • macOS 12.5.1 o posterior

Consulteu el repositori de GitHub aquí.

  1. Interfície d’usuari de difusió estable

Un altre instal·lador d’un sol clic que proporciona una interfície d’usuari del navegador per generar imatges a partir de missatges de text i imatge. Només heu d’introduir el vostre missatge de text i veure la imatge generada. Actualment, no funciona amb Mac.

Requisits del sistema:

  • Windows 10/11 o Linux. Aviat arribarà el suport experimental per a Mac.
  • Targeta gràfica NVIDIA, preferiblement amb 4 GB o més de VRAM. Sense una targeta gràfica compatible, s’executarà automàticament en el “Mode CPU” més lent.
  • Mínim 8 GB de RAM.

Consulteu el repositori de GitHub aquí.

  1. Charl E

CHARL-E empaqueta SD en una aplicació senzilla. No es requereix cap configuració complexa, dependències o Internet; només cal que baixeu i digueu el que voleu veure.

Consulteu el repositori de GitHub aquí.

  1. GUI de difusió estable de NMKD – Generador d’imatges AI

Un conjunt d’eines ML per a la generació de text a imatge per al vostre maquinari local. De moment, el programa només funciona amb les GPU Nvidia (les GPU AMD no són compatibles).

Requisits del sistema:

Mínim:

  • GPU: GPU Nvidia amb 4 GB de VRAM, Maxwell Architecture (2014) o més recent
  • RAM: 8 GB de RAM (Nota: el fitxer de pàgina s’ha d’habilitar perquè l’intercanvi es produirà amb només 8 GB!)
  • Disc: 12 GB (es recomana un altre 2 GB gratuït per a fitxers temporals)

Recomanat:

  • GPU: GPU Nvidia amb 8 GB de VRAM, Pascal Architecture (2016) o més recent
  • RAM: 16 GB de RAM
  • Disc: 12 GB en SSD (es recomana un altre 2 GB gratuït per a fitxers temporals)

Consulteu el repositori de GitHub aquí.

  1. Imaginari

Generació Pythonic d’imatges SD amb només instal·lar pip ImaginAIry. “Només funciona” a Linux i macOS (M1). Les actualitzacions recents inclouen millores en l’eficiència de la memòria, edició basada en missatges, millora facial, ampliació d’escala, imatges en mosaic, img2img, matrius d’indicadors, variables d’indicació, subtítols d’imatges BLIP, juntament amb dockerfile/colab.

Requisits del sistema:

  • ~10 GB d’espai per descarregar models.
  • Un ordinador amb una targeta gràfica compatible amb CUDA o amb un processador M1.
  • Python 3.10 instal·lat.
  • Per a macOS, cal instal·lar rust i setuptools-rust per compilar la biblioteca de tokenizer. (Es pot instal·lar mitjançant: curl –proto ‘=https’ –tlsv1.2 -sSf https://sh.rustup.rs | sh and pip install setuptools-rust).

Consulteu el repositori de GitHub aquí.

Distros web

  1. Mag de l’espai

SD sense filtres per a la generació de text a imatge. L’última característica inclou Image2Image, que us permet triar una imatge per combinar-la amb el vostre missatge.

Consulteu el lloc web aquí.

  1. art de somni

Actualment, el lloc web és completament gratuït durant uns quants dies més. Si us quedeu sense crèdits, aneu a la pàgina “Comprar crèdits” i feu clic a “Comprar”. No se us cobrarà. El saldo es restablirà un cop sortim de la prova beta i afegim pagaments.

Consulteu el lloc web aquí.

  1. FindAnything.App

Trobar imatges a través d’un motor de cerca és difícil i és possible que acabis publicant accidentalment imatges amb drets d’autor o gastant molts diners per aconseguir les imatges que necessites.

L’extensió del navegador afegeix imatges noves juntament amb les cerques d’imatges de Google. Ja no us limiteu a algunes opcions, com en el cas de la majoria d’imatges d’arxiu.

Consulteu el lloc web aquí.

Major SD Forks

Les opcions següents us permeten fer canvis en un projecte sense afectar el repositori original. Es poden obtenir actualitzacions o enviar canvis al repositori original amb sol·licituds d’extracció.

  1. Automatic1111: interfície d’usuari web SD

Una interfície de navegador basada en la biblioteca Gradio per a SD. Modes originals de text a imatge i imatge a imatge. Instal·leu i executeu l’script amb un sol clic (però encara heu d’instal·lar Python i git). Les característiques inclouen la pintura exterior, la pintura interna, la matriu ràpida, la difusió estable de luxe i molt més.

Assegureu-vos que es compleixin les dependències necessàries i seguiu les instruccions tant per a les GPU NVidia (recomanat) com per a AMD.

Consulteu el repositori de GitHub aquí.

  1. Invoca AI

Aquesta versió SD inclou una WebGUI elegant, un script de línia d’ordres interactiu que combina la funcionalitat de text a imatge i imatge a imatge en una interfície d’estil “dream bot” i múltiples funcions i altres millores. La versió s’executa en màquines Windows, Mac i Linux.

Requisits del sistema:

  • Targeta gràfica basada en NVIDIA ~ 4 GB o més de memòria VRAM.
  • Un ordinador Apple amb xip M1.
  • ~12 GB de memòria RAM principal.
  • ~12 GB d’espai en disc per al model ML, Python i totes les seves dependències.

Consulteu el repositori de GitHub aquí.

  1. Emissió Waifu

Waifu Diffusion és un projecte basat en CompVis/Stable-Diffusion. El model Stable Diffusion està ajustat a coses web. Un model format a Danbooru (lloc de dibuix d’anime/manga) amb més de 56.000 imatges.

Requisits del sistema:

  • Es necessiten ~30 GB de VRAM.
  • ~30 GB d’emmagatzematge si no us importa netejar de tant en tant.

Consulteu el repositori de GitHub aquí.

  1. Basujindal: difusió estable optimitzada

Aquest repositori és una versió modificada, optimitzada per utilitzar menys VRAM que l’original sacrificant la velocitat d’inferència. Per reduir l’ús de VRAM, el model de difusió estable es divideix en quatre parts que s’envien a la GPU quan sigui necessari. Després del càlcul, es retornen a la CPU. El càlcul de l’atenció es fa per parts.

Consulteu el repositori de GitHub aquí.

Leave a Comment

Your email address will not be published. Required fields are marked *