Simple view
Full metadata view
Authors
Statistics
Generative models based on diffusion
Modele generatywne oparte na dyfuzji
modele dyfuzyjne, modele dyfuzyjne, augmentacje, naprowadzanie klasyfikatorem, naprowadzanie geometryczne, GeoGuide
diffusion models, generative models, augmentations, classifier guidance, geometric guidance, GeoGuide
Modele dyfuzyjne są stosunkowo nowym dodatkiem do rodziny modeli generatywnych wykorzystywanych do syntezy obrazu. Osiągnęły one już doskonałe wyniki, a modele oparte na dyfuzji, takie jak Midjourney lub Stable Diffusion, są szeroko stosowane do generowania wysokiej jakości obrazów na podstawie tekstu. Niniejsza praca przedstawia wyniki dwóch różnych inicjatyw badawczych związanych z tymi modelami.Pierwsza część pracy opisuje nasze podejście do generowania augmentacji przy użyciu modeli dyfuzyjnych. Podczas gdy klasyczne metody degradują semantyczną zawartość obrazu za pomocą prostych transformacji, takich jak obracanie lub przycinanie, my chcemy zachować podstawowe cechy i strukturę oryginalnego obrazu, jednocześnie wprowadzając zmienność. Przedstawiłem trzy z naszych najbardziej obiecujących pomysłów, porównałem wyniki i podkreśliłem trudności z nimi związane. Druga część pracy przedstawia alternatywne podejście do naprowadzania z wykorzystaniem klasyfikatora w modelach dyfuzyjnych. Zaproponowaliśmy naprowadzanie geometryczne (GeoGuide), które przechodzi od ram probabilistycznych do podejścia opartego na metrykach. Kontroluje ono aktualizacje przy użyciu normy gradientu klasyfikacji, dzięki czemu naprowadzanie jest bardziej skuteczne i stabilne podczas całego procesu generacji obrazu. Metoda ta wykazuje lepsze wyniki w porównaniu z podejściem probabilistycznym pod względem wyniku FID i jakości obrazu, przy czym różnice są najbardziej widoczne w przypadku modeli bez warunkowania, w których poprawiliśmy wynik FID z 12.00 do 4.59.
Diffusion models are a relatively new addition to the family of generative models used for image synthesis. They already achieved superb results, with diffusion based models like Midjourney or Stable Diffusion being widely used for high quality text-to-image generation. This work presents results of two different research initiatives related to this models.The first section of the work describes our approach to generating augmentations using diffusion models. While classic methods degrade the semantic content of the image by using simple transformations like rotations or cropping, we want to maintain the essential features and structure of the original image, while still introducing variability. I shown three of ours most promising ideas, compared results and emphasized difficulties related to them. The second part of the work introduces alternative approach to classifier guidance in diffusion models. We proposed geometric guidance (GeoGuide), which is transitioning from a probabilistic framework to a metric-based approach. It controls updates using the norm of the classification gradient, making guidance impactful and more stable during the entire sampling process. This methods shows superior results compared to the probabilistic approach in terms of FID score and image quality, with the differences being the most evident in case of unconditional models, where we improved FID score from 12.00 to 4.59.
dc.abstract.en | Diffusion models are a relatively new addition to the family of generative models used for image synthesis. They already achieved superb results, with diffusion based models like Midjourney or Stable Diffusion being widely used for high quality text-to-image generation. This work presents results of two different research initiatives related to this models.The first section of the work describes our approach to generating augmentations using diffusion models. While classic methods degrade the semantic content of the image by using simple transformations like rotations or cropping, we want to maintain the essential features and structure of the original image, while still introducing variability. I shown three of ours most promising ideas, compared results and emphasized difficulties related to them. The second part of the work introduces alternative approach to classifier guidance in diffusion models. We proposed geometric guidance (GeoGuide), which is transitioning from a probabilistic framework to a metric-based approach. It controls updates using the norm of the classification gradient, making guidance impactful and more stable during the entire sampling process. This methods shows superior results compared to the probabilistic approach in terms of FID score and image quality, with the differences being the most evident in case of unconditional models, where we improved FID score from 12.00 to 4.59. | pl |
dc.abstract.pl | Modele dyfuzyjne są stosunkowo nowym dodatkiem do rodziny modeli generatywnych wykorzystywanych do syntezy obrazu. Osiągnęły one już doskonałe wyniki, a modele oparte na dyfuzji, takie jak Midjourney lub Stable Diffusion, są szeroko stosowane do generowania wysokiej jakości obrazów na podstawie tekstu. Niniejsza praca przedstawia wyniki dwóch różnych inicjatyw badawczych związanych z tymi modelami.Pierwsza część pracy opisuje nasze podejście do generowania augmentacji przy użyciu modeli dyfuzyjnych. Podczas gdy klasyczne metody degradują semantyczną zawartość obrazu za pomocą prostych transformacji, takich jak obracanie lub przycinanie, my chcemy zachować podstawowe cechy i strukturę oryginalnego obrazu, jednocześnie wprowadzając zmienność. Przedstawiłem trzy z naszych najbardziej obiecujących pomysłów, porównałem wyniki i podkreśliłem trudności z nimi związane. Druga część pracy przedstawia alternatywne podejście do naprowadzania z wykorzystaniem klasyfikatora w modelach dyfuzyjnych. Zaproponowaliśmy naprowadzanie geometryczne (GeoGuide), które przechodzi od ram probabilistycznych do podejścia opartego na metrykach. Kontroluje ono aktualizacje przy użyciu normy gradientu klasyfikacji, dzięki czemu naprowadzanie jest bardziej skuteczne i stabilne podczas całego procesu generacji obrazu. Metoda ta wykazuje lepsze wyniki w porównaniu z podejściem probabilistycznym pod względem wyniku FID i jakości obrazu, przy czym różnice są najbardziej widoczne w przypadku modeli bez warunkowania, w których poprawiliśmy wynik FID z 12.00 do 4.59. | pl |
dc.affiliation | Wydział Matematyki i Informatyki | pl |
dc.area | obszar nauk ścisłych | pl |
dc.contributor.advisor | Spurek, Przemysław - 135993 | pl |
dc.contributor.author | Poleski, Mateusz - USOS259459 | pl |
dc.contributor.departmentbycode | UJK/WMI2 | pl |
dc.contributor.reviewer | Spurek, Przemysław - 135993 | pl |
dc.contributor.reviewer | Tabor, Jacek - 132362 | pl |
dc.date.accessioned | 2024-09-18T22:34:03Z | |
dc.date.available | 2024-09-18T22:34:03Z | |
dc.date.submitted | 2024-09-16 | pl |
dc.fieldofstudy | informatyka | pl |
dc.identifier.apd | diploma-174644-259459 | pl |
dc.identifier.uri | https://ruj.uj.edu.pl/handle/item/445328 | |
dc.language | eng | pl |
dc.subject.en | diffusion models, generative models, augmentations, classifier guidance, geometric guidance, GeoGuide | pl |
dc.subject.pl | modele dyfuzyjne, modele dyfuzyjne, augmentacje, naprowadzanie klasyfikatorem, naprowadzanie geometryczne, GeoGuide | pl |
dc.title | Generative models based on diffusion | pl |
dc.title.alternative | Modele generatywne oparte na dyfuzji | pl |
dc.type | master | pl |
dspace.entity.type | Publication |