Zainteresowania naukowe

Selekcja cech jest kluczowym problemem w modelowaniu obiektów, procesów i zjawisk, istotnym w rozpoznawaniu obrazów, uczeniu maszynowym, eksploracji danych i w sztucznej inteligencji. Celem selekcji cech jest redukcja wymiaru wektora wejściowego (obrazu) poprzez znalezienie podzbioru cech (zmiennych) opisujących obiekt w najlepszy sposób i zapewniających najwyższą jakość modelu (np. klasyfikatora, aproksymatora). Cechy nie przenoszące informacji, nieistotne lub nadmiarowe zostają wyeliminowane. Spodziewanym rezultatem selekcji cech jest redukcja „przekleństwa wymiarowości”, poprawa dokładności i uproszczenie modelu, poprawa generalizacji, skrócenie czasu konstrukcji modelu oraz redukcja kosztu pozyskania danych.

Pierwsze moje prace z tego zakresu dotyczą selekcji symptomów w badaniach diagnostycznych za pomocą algorytmów genetycznych [45] i symulowanego wyżarzania [46]. Są to stochastyczne algorytmy selekcji typu wrapper. W [47] opisałem ważona selekcję cech za pomocą algorytmów genetycznych. W tym podejściu każda cecha posiada wagę informującą o stopniu jej istotności. Wagi wykorzystuje się do wyznaczania odległości pomiędzy obrazami w klasyfikatorach minimalno-odległościowych.

W [48] do selekcji cech zaproponowałem algorytm genetyczny z nowymi operatorami mutacji, w których prawdopodobieństwo mutacji bitu nie jest stałe, tak jak w klasycznym algorytmie genetycznym. W proponowanej metodzie to prawdopodobieństwo podlega adaptacji zależnie od przebiegu procesu ewolucyjnego. Loci, których mutacja z 0 na 1 (z 1 na 0) we wcześniejszych generacjach poprawiła ocenę chromosomu, mutowane są częściej z 0 na 1 (z 1 na 0). Do ustalenia prawdopodobieństwa mutacji bitu zaproponowałem metodę koła ruletki oraz metodę turniejową.

Nowy algorytm selekcji cech, zwany turniejową selekcją cech opisałem w [49]. Jest to algorytm stochastyczny generujący zbiór rozwiązań próbnych z rozwiązania bazowego za pomocą operatora mutacji. Najlepsze rozwiązanie próbne zastępuje rozwiązanie bazowe w następnej iteracji, nawet jeśli jest ono gorsze od rozwiązania bazowego. Ten mechanizm wymiany zapewnia możliwość ucieczki z ekstremum lokalnego. Jedynym parametrem algorytmu jest rozmiar turnieju. Parametr ten pozwala sterować charakterem przeszukiwania przestrzeni rozwiązań (eksploracją i eksploatacją). Testy wykazały lepsze działanie turniejowej selekcji cech niż algorytmu genetycznego, symulowanego wyżarzania i deterministycznych algorytmów selekcji cech w zadaniach klasyfikacji danych. W [50] wprowadziłem ukierunkowaną mutację do algorytmu turniejowego. Prawdopodobieństwo mutacji zmienia się tu adaptacyjnie zależnie od historii przeszukiwania przestrzeni rozwiązań. Do selekcji mutowanych bitów zgodnie z tym prawdopodobieństwem używa się metody ruletkowej i turniejowej. Mutacja ukierunkowana pozwoliła przyspieszyć zbieżność algorytmu. Biologicznym odpowiednikiem mutacji ukierunkowanej jest hipoteza ukierunkowanej mutagenezy mówiąca o tym, że organizmy mogą odpowiadać na nacisk środowiska poprzez ukierunkowaną mutację pewnych genów lub ich fragmentów (Cairns J., Overbaugh J., Miller S.: The Origin of Mutants. Nature 335, 142-145 (1988)).

Literatura