Coneix aquest conjunt de dades d’imatges d’intel·ligència artificial (IA) anomenat “DIFFUSIONDB”, que consta de 2 milions d’imatges de difusió estable i els seus missatges de text i hiperparàmetres

El primer conjunt de dades extens de missatges de text a imatge s’anomena DiffusionDB. Té 2 milions de fotos generades per Stable Diffusion que es van produir mitjançant indicacions i hiperparàmetres proporcionats pels usuaris reals.

Els usuaris ara poden crear fotos d’alta qualitat escrivint instruccions de text en llenguatge natural. No obstant això, produir fotografies amb els detalls adequats requereix els estímuls adequats, però de vegades cal aclarir com respondrà un model a diverses indicacions o quines són les indicacions ideals. Els investigadors presenten DIFFUSIONDB, el primer conjunt de dades extens de text a imatge, per ajudar els investigadors a abordar aquests problemes importants. 2 milions de fotos produïdes per Stable Diffusion utilitzant indicacions i hiperparàmetres donats pels usuaris reals es troben a DIFFUSIONDB. Examinen les indicacions del conjunt de dades i parlen de les seves característiques principals. La mida i la diversitat excepcionals d’aquest conjunt de dades accionades per humans ofereixen perspectives d’investigació fascinants per esbrinar com interactuen els models generatius i les indicacions, detectar falsificacions profundes i desenvolupar sistemes accionats per humans.

Font: https://arxiv.org/pdf/2210.14896.pdf

Suport de tasques i taules de classificació

La mida i la diversitat inigualables d’aquest conjunt de dades accionat per humans ofereixen oportunitats de recerca fascinants per entendre la interacció entre les indicacions i els models generatius, detectar falsificacions profundes i desenvolupar eines per a la interacció humà-IA per facilitar l’adopció d’aquests models per part dels usuaris.

Afegir subconjunts de conjunt de dades

DiffusionDB mesura 1,6 TB de mida. Tanmateix, gràcies a la nostra estructura de fitxers modularitzada, podeu importar ràpidament la quantitat desitjada de fotos juntament amb les seves indicacions i hiperparàmetres. Mostren tres maneres de carregar una part de DiffusionDB.

L’ús del CARREGADOR DE CONJUNTS DE DADES HUGGING FACE és el mètode 1

La biblioteca Hugging Face Datasets facilita la càrrega de preguntes i imatges de DiffusionDB. Van predefinir 16 subconjunts de DiffusionDB utilitzant el nombre d’instàncies.

MÈTODE 2: Baixeu l’aplicació Poloclub

Podeu descarregar i carregar DiffusionDB mitjançant el descarregador de Python download.py inclòs en aquest repositori. Des de la línia d’ordres, podeu utilitzar-lo.

obtenció d’un expedient solitari

A HuggingFace, el número al final del fitxer indica quin fitxer específic cal descarregar. El programa inflarà automàticament el número i produirà l’URL.

obtenció de diferents fitxers

Els paràmetres -i i -r estableixen els límits superior i inferior de la llista de fitxers a descarregar.

Utilitzeu metadata.parquet al Mètode 3 (NOMÉS TEXT)

Podeu accedir fàcilment als 2 milions d’indicacions i hiperparàmetres de la taula metadata.parquet si la vostra tasca no requereix imatges.

DiffusionDB és el resultat del raspat d’imatges generades per l’usuari al servidor oficial de Stable Diffusion Discord. El servidor té regles estrictes contra la generació i la compartició d’imatges il·legals, d’odi o NSFW (no aptes per a la feina). També impedeix als usuaris escriure o compartir indicacions amb informació personal.

Creació d’un conjunt de dades

Justificació de la curació

Els models de difusió recents s’han tornat força populars perquè permeten generar imatges controlades i d’alta qualitat a partir de senyals de text utilitzant llenguatge natural. Des de la publicació d’aquests models, persones d’altres camps els han utilitzat ràpidament per produir pel·lícules hiperrealistes, exploracions radiològiques sintètiques i fins i tot obres d’art premiades.

Tanmateix, crear imatges amb la informació adequada requereix temps perquè els usuaris han de formular correctament les indicacions que expliquin els resultats precisos que busquen. Aquests impulsos s’han de desenvolupar per assaig i error, que sovint semblen aleatoris i sense principis. Un investigador compara les indicacions d’escriptura amb els mags que adquireixen “encanteris màgics”; És possible que els usuaris no entenguin per què algunes indicacions són efectives, però, tanmateix, les afegiran al seu “llibre d’encanteris”. Per exemple, s’ha acostumat a incloure frases úniques com “tendència a l’estació artística” i “motor irreal” al missatge per produir fotos extremadament detallades.

En el marc de la generació de text a text, l’enginyeria ràpida s’ha convertit en un tema d’estudi on els investigadors analitzen sistemàticament com crear indicacions per completar amb èxit diverses activitats posteriors. Els grans models de text a imatge encara estan en la seva infància, per tant, és crucial entendre com responen a les indicacions, com crear indicacions convincents i com crear eines que ajudin els usuaris a crear imatges. Desenvolupen DiffusionDB, el primer conjunt de dades d’avís a gran escala amb 2 milions de parells reals d’imatges d’avís, per ajudar els acadèmics a abordar aquests problemes importants.

Impacte social del conjunt de dades: consideracions sobre l’ús de dades

Aquest conjunt de dades pretén donar suport al desenvolupament de models generatius de text a imatge escalables massivament. La riquesa i diversitat inigualables d’aquest conjunt de dades accionat per humans ofereixen oportunitats de recerca interessants per entendre la relació entre les indicacions i els models generatius, detectar falsificacions profundes i desenvolupar eines per a la interacció humana-IA per facilitar l’adopció d’aquests models per part dels usuaris.

És important tenir en compte que treuen indicacions i visuals del servidor Stable Diffusion Discord. Els usuaris tenen prohibit crear o compartir fotos perjudicials o NSFW (no acceptables per a la feina, com ara contingut sexual i violent) al servidor de Discord. El model de difusió estable del servidor també inclou un filtre NSFW que distorsiona els gràfics generats quan troba material NSFW. Encara és possible que alguns usuaris hagin creat fotos perjudicials que el filtre NSFW no va capturar o que els moderadors del servidor no hagin eliminat. Com a resultat, DiffusionDB pot tenir aquestes imatges. Ofereixen un formulari de Google al lloc web de DiffusionDB on els usuaris poden denunciar imatges i indicacions ofensives o inadequades per tal de reduir el possible dany. Aquest formulari es mirarà activament i totes les fotos o les sol·licituds informades s’eliminaran de DiffusionDB.

És possible que les indicacions de DiffusionDB no representin amb precisió les fotos penjades pels provadors beta, ja que es van fer en canals on un bot podia provar Stable Diffusion amb antelació. És probable que aquests usuaris coneguin models alternatius de generació de text a imatge perquè van començar a utilitzar Diffusion abans que el model estigués disponible al públic en general.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'DIFFUSIONDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, dataset and project.
Please Don't Forget To Join Our ML Subreddit


Ashish Kumar és consultor en pràctiques a MarktechPost. Actualment està cursant el seu Btech a l’Institut Indi de Tecnologia (IIT), Kanpur. Li apassiona explorar els nous avenços en tecnologies i la seva aplicació a la vida real.


Leave a Comment

Your email address will not be published. Required fields are marked *