title: | Galaxy-Star-Quasar separation in the infrared WISE data |
alternative title: |
Separacja galaktyk, gwiazd i kwazarów w danych podczerwieni teleskopu WISE |
author: | Krupa Magdalena |
reviewer: | Szydłowski Marek ![]() ![]() |
advisor: | Pollo Agnieszka ![]() |
date of submittion : | 2014-09-05 |
language: | English |
abstract in Polish: | Cele: Celem pracy przedstawionej w tej pracy magisterskiej była efektywna separacja galaktyk, gwiazd i kwazarów w danych podczerwonych z przeglądu całego nieba WISE. Trudność tego zadania wynika z dwóch kwestii: (i) dużych liczb - baza danych przeglądu WISE zawiera informacje fotometryczne i pozycyjne dla 563 milionów obiektów, oraz (ii) faktu, że dla wielu źródeł dostępne są jedynie bardzo ograniczone dane w podczerwieni.Metody: Technika, której użyłam do klasyfikacji źródeł WISE bazuje na maszynach wektorów nośnych (SVM), które definiują hiperpłaszczyznę oddzielającą różne klasy źródeł w wielowymiarowej przestrzeni dowolnie wybranych parametrów. Pierwszym krokiem używania klasyfikatorów bazujących na SVM jest wybór próbki trenującej. Następnie musimy wybrać optymalną przestrzeń parametrów i wytrenować klasyfikator. W celu stworzenia próbek trenujących i przeprowadzenia dalszych testów użyłam zestawu danych uzyskanych przez kroskorelację katalogu WISE z bazą danych z 10th Release of the Sloan Digital Sky Survey (SDSSxWISE). Aby przetestować zależność efektywności metody od jasności obserwowanej, podzieliłam dane na biny ograniczone ze względu na magnitudy i dodatkowo na biny bazujące na wartości lokalnej ekstynkcji. Klasyfikatory były wytrenowane i przetestowane w każdym binie osobno. Zostały wzięte pod uwagę następujące parametry: magnituda WISE na 3.4 µm (W1), kolor podczerwony W1 - W2, dany przez różnicę jasności na 3.4 µm (W1) i na 4.6 µm (W2), różnica pomiędzy jasnościami w dwóch aperturach w W1 (w1mag1 - w1mag3) oraz ruchy własne (pm). Ponieważ użycie wszystkich dostępnych danych jest fizycznie niemożliwe, sprawdziłam jaka jest optymalna liczba źródeł w próbce trenującej, aby zapewnić zarówno wysoką efektywność wytrenowanego klasyfikatora jak i rozsądne wykorzystanie zasobów komputerowych. Wytrenowałam klasyfikator na bazie SVM na próbce trenującej i przetestowałam go w binach ograniczonych ze względu na jasności i ekstynkcję, zarówno na źródłach z próbki trenującej (self-check) jak i na źródłach losowo wybranych z całego zestawu danych SDSSxWISE (cross-test).Wyniki i wnioski: Stwierdziłam, że optymalny rozmiar próbki trenującej to około 9,000: 3,000 dla każdej z trzech klas źródeł. W binach, w których liczba źródeł danej klasy nie była wystarczająco wysoka, została zastosowana technika nadpróbkowania (ang. oversampling). Klasyfikator osiągał najlepszą wydajność, gdy użyto trzech parametrów (W1, W1 - W2 oraz w1mag1 - w1mag3). Użycie tylko dwóch pierwszych parametrów (jasność i kolor) widocznie obniża dokładność wyników, podczas gdy użycie ruchów własnych nie wpływa znacząco na wyniki. Klasyfikator wytrenowany z użyciem tych trzech parametrów zapewnia kompletność uzyskanej próbki galaktyk na poziomie wyższym niż 90%. Jak można było przewidywać, kompletność maleje ze wzrostem jasności i ekstynkcji, ale pozostaje wysoka dla wszystkich analizowanych binów. Podsumowując, stwierdzam, że klasyfikatory oparte na SVM wytrenowane w przestrzeni trzech parametrów (W1, W1 - W2 i w1mag1 - w1mag3) mogą być wiarygodną i efektywną metodą separacji gwiazd, galaktyk i kwazarów dla danych WISE. |
abstract in English: | Aims: The goal of the work presented in this thesis was to separate effectively galaxies, stars and quasars in the infrared WISE all-sky survey data. The difficulty of this task is related to two things: (i) large numbers - the WISE all-sky database contains photometric and positional information for 563 million objects and (ii) the fact that for many of these sources only limited information in the infrared is available. Methods: The technique I employed to classify the WISE sources was based on the Support Vector Machines (SVM), which define the hyperplane dividing different classes of sources in a multidimensional space of arbitrarily chosen parameters. The first step when using the SVM-based classifiers is the selection of the training sample. Next, we need to choose the optimal parameter space, and to train the classifier. To create training samples, and to perform further tests, I used the data set obtained by cross-correlation of the WISE catalogue with the 10th Release of the Sloan Digital Sky Survey database (SDSSxWISE). In order to test the dependence of the efficiency of the method on the apparent luminosities of sources, I divided the data into the magnitude-limited bins, and additionally into the bins based by the local extinction value. The classifiers were then trained and tested in all the bins separately. The parameters taken into account were: the WISE magnitude at 3.4 µm (W1), the WISE infrared colour W1-W2, given by difference of magnitudes at 3.4 µm (W1) and 4.6 µm (W2), the difference between two different aperture magnitudes at W1 (w1mag1 - w1mag3), and proper motions (pm). Since it is technically impossible to use all the available data, I tested what the optimal number of the sources in the training sample is, to ensure both high efficiency of the trained classifier and the reasonable use of the computer resources. I trained the SVM-based classifier on the training sample and tested it both on the sources from the training sample (self-check) and on the sources selected at random from the whole SDSSxWISE data set in the applied magnitude- and extinction-limited bins (cross-test).Results and Conclusions: I found that the optimal size of the training sample is around 9000: 3000 for each of three classes of sources. In the bins where the number of sources of a certain class was not high enough, an oversampling technique can be used. The best performance of the classifier is reached when three parameters (W1, W1 - W2 and w1mag1 - w1mag3) are used. Using only two first parameters (magnitude and colour) visibly decreases the accuracy of the results, while the usage of proper motions does not affect the results significantly. The classifier trained using these three parameters ensures the completeness of the obtained galaxy sample at the level higher than 90%. Not surprisingly, the completeness decreases with increasing magnitude and extinction, but remains high for all the analysed bins. I conclude that the SVM-based classifiers trained in the three parameter space (W1, W1 - W2 and w1mag1 - w1mag3) can be a reliable and effective method of star-galaxy-quasar separation for the WISE data. |
keywords in Polish: | separacja gwiazd i galaktyk, svm, WISE, ewolucja galaktyk, kosmologia |
keywords in English: | star-galaxy separation, svm, WISE, galaxy evolution, cosmology |
affiliation: | Wydział Fizyki, Astronomii i Informatyki Stosowanej |
type: | master work |
Files | Size | Format | View |
---|---|---|---|
There are no files associated with this item. |