Generative models based on diffusion

master
dc.abstract.enDiffusion models are a relatively new addition to the family of generative models used for image synthesis. They already achieved superb results, with diffusion based models like Midjourney or Stable Diffusion being widely used for high quality text-to-image generation. This work presents results of two different research initiatives related to this models.The first section of the work describes our approach to generating augmentations using diffusion models. While classic methods degrade the semantic content of the image by using simple transformations like rotations or cropping, we want to maintain the essential features and structure of the original image, while still introducing variability. I shown three of ours most promising ideas, compared results and emphasized difficulties related to them. The second part of the work introduces alternative approach to classifier guidance in diffusion models. We proposed geometric guidance (GeoGuide), which is transitioning from a probabilistic framework to a metric-based approach. It controls updates using the norm of the classification gradient, making guidance impactful and more stable during the entire sampling process. This methods shows superior results compared to the probabilistic approach in terms of FID score and image quality, with the differences being the most evident in case of unconditional models, where we improved FID score from 12.00 to 4.59.pl
dc.abstract.plModele dyfuzyjne są stosunkowo nowym dodatkiem do rodziny modeli generatywnych wykorzystywanych do syntezy obrazu. Osiągnęły one już doskonałe wyniki, a modele oparte na dyfuzji, takie jak Midjourney lub Stable Diffusion, są szeroko stosowane do generowania wysokiej jakości obrazów na podstawie tekstu. Niniejsza praca przedstawia wyniki dwóch różnych inicjatyw badawczych związanych z tymi modelami.Pierwsza część pracy opisuje nasze podejście do generowania augmentacji przy użyciu modeli dyfuzyjnych. Podczas gdy klasyczne metody degradują semantyczną zawartość obrazu za pomocą prostych transformacji, takich jak obracanie lub przycinanie, my chcemy zachować podstawowe cechy i strukturę oryginalnego obrazu, jednocześnie wprowadzając zmienność. Przedstawiłem trzy z naszych najbardziej obiecujących pomysłów, porównałem wyniki i podkreśliłem trudności z nimi związane. Druga część pracy przedstawia alternatywne podejście do naprowadzania z wykorzystaniem klasyfikatora w modelach dyfuzyjnych. Zaproponowaliśmy naprowadzanie geometryczne (GeoGuide), które przechodzi od ram probabilistycznych do podejścia opartego na metrykach. Kontroluje ono aktualizacje przy użyciu normy gradientu klasyfikacji, dzięki czemu naprowadzanie jest bardziej skuteczne i stabilne podczas całego procesu generacji obrazu. Metoda ta wykazuje lepsze wyniki w porównaniu z podejściem probabilistycznym pod względem wyniku FID i jakości obrazu, przy czym różnice są najbardziej widoczne w przypadku modeli bez warunkowania, w których poprawiliśmy wynik FID z 12.00 do 4.59.pl
dc.affiliationWydział Matematyki i Informatykipl
dc.areaobszar nauk ścisłychpl
dc.contributor.advisorSpurek, Przemysław - 135993 pl
dc.contributor.authorPoleski, Mateusz - USOS259459 pl
dc.contributor.departmentbycodeUJK/WMI2pl
dc.contributor.reviewerSpurek, Przemysław - 135993 pl
dc.contributor.reviewerTabor, Jacek - 132362 pl
dc.date.accessioned2024-09-18T22:34:03Z
dc.date.available2024-09-18T22:34:03Z
dc.date.submitted2024-09-16pl
dc.fieldofstudyinformatykapl
dc.identifier.apddiploma-174644-259459pl
dc.identifier.urihttps://ruj.uj.edu.pl/handle/item/445328
dc.languageengpl
dc.subject.endiffusion models, generative models, augmentations, classifier guidance, geometric guidance, GeoGuidepl
dc.subject.plmodele dyfuzyjne, modele dyfuzyjne, augmentacje, naprowadzanie klasyfikatorem, naprowadzanie geometryczne, GeoGuidepl
dc.titleGenerative models based on diffusionpl
dc.title.alternativeModele generatywne oparte na dyfuzjipl
dc.typemasterpl
dspace.entity.typePublication
dc.abstract.enpl
Diffusion models are a relatively new addition to the family of generative models used for image synthesis. They already achieved superb results, with diffusion based models like Midjourney or Stable Diffusion being widely used for high quality text-to-image generation. This work presents results of two different research initiatives related to this models.The first section of the work describes our approach to generating augmentations using diffusion models. While classic methods degrade the semantic content of the image by using simple transformations like rotations or cropping, we want to maintain the essential features and structure of the original image, while still introducing variability. I shown three of ours most promising ideas, compared results and emphasized difficulties related to them. The second part of the work introduces alternative approach to classifier guidance in diffusion models. We proposed geometric guidance (GeoGuide), which is transitioning from a probabilistic framework to a metric-based approach. It controls updates using the norm of the classification gradient, making guidance impactful and more stable during the entire sampling process. This methods shows superior results compared to the probabilistic approach in terms of FID score and image quality, with the differences being the most evident in case of unconditional models, where we improved FID score from 12.00 to 4.59.
dc.abstract.plpl
Modele dyfuzyjne są stosunkowo nowym dodatkiem do rodziny modeli generatywnych wykorzystywanych do syntezy obrazu. Osiągnęły one już doskonałe wyniki, a modele oparte na dyfuzji, takie jak Midjourney lub Stable Diffusion, są szeroko stosowane do generowania wysokiej jakości obrazów na podstawie tekstu. Niniejsza praca przedstawia wyniki dwóch różnych inicjatyw badawczych związanych z tymi modelami.Pierwsza część pracy opisuje nasze podejście do generowania augmentacji przy użyciu modeli dyfuzyjnych. Podczas gdy klasyczne metody degradują semantyczną zawartość obrazu za pomocą prostych transformacji, takich jak obracanie lub przycinanie, my chcemy zachować podstawowe cechy i strukturę oryginalnego obrazu, jednocześnie wprowadzając zmienność. Przedstawiłem trzy z naszych najbardziej obiecujących pomysłów, porównałem wyniki i podkreśliłem trudności z nimi związane. Druga część pracy przedstawia alternatywne podejście do naprowadzania z wykorzystaniem klasyfikatora w modelach dyfuzyjnych. Zaproponowaliśmy naprowadzanie geometryczne (GeoGuide), które przechodzi od ram probabilistycznych do podejścia opartego na metrykach. Kontroluje ono aktualizacje przy użyciu normy gradientu klasyfikacji, dzięki czemu naprowadzanie jest bardziej skuteczne i stabilne podczas całego procesu generacji obrazu. Metoda ta wykazuje lepsze wyniki w porównaniu z podejściem probabilistycznym pod względem wyniku FID i jakości obrazu, przy czym różnice są najbardziej widoczne w przypadku modeli bez warunkowania, w których poprawiliśmy wynik FID z 12.00 do 4.59.
dc.affiliationpl
Wydział Matematyki i Informatyki
dc.areapl
obszar nauk ścisłych
dc.contributor.advisorpl
Spurek, Przemysław - 135993
dc.contributor.authorpl
Poleski, Mateusz - USOS259459
dc.contributor.departmentbycodepl
UJK/WMI2
dc.contributor.reviewerpl
Spurek, Przemysław - 135993
dc.contributor.reviewerpl
Tabor, Jacek - 132362
dc.date.accessioned
2024-09-18T22:34:03Z
dc.date.available
2024-09-18T22:34:03Z
dc.date.submittedpl
2024-09-16
dc.fieldofstudypl
informatyka
dc.identifier.apdpl
diploma-174644-259459
dc.identifier.uri
https://ruj.uj.edu.pl/handle/item/445328
dc.languagepl
eng
dc.subject.enpl
diffusion models, generative models, augmentations, classifier guidance, geometric guidance, GeoGuide
dc.subject.plpl
modele dyfuzyjne, modele dyfuzyjne, augmentacje, naprowadzanie klasyfikatorem, naprowadzanie geometryczne, GeoGuide
dc.titlepl
Generative models based on diffusion
dc.title.alternativepl
Modele generatywne oparte na dyfuzji
dc.typepl
master
dspace.entity.type
Publication
Affiliations

* The migration of download and view statistics prior to the date of April 8, 2024 is in progress.

Views
89
Views per month
Views per city
Krakow
18
Warsaw
16
Lodz
5
Gdansk
4
Poznan
4
Proszowice
4
Criciúma
3
Wroclaw
3
Bialystok
2
Singapore
2

No access

No Thumbnail Available
Collections