Klasyfikacja danych

Drugi nurt moich zainteresowań naukowych związany jest z konstrukcją klasyfikatorów.
W 2004 r. odbyłem staż w University of Pittsburgh Medical Center, gdzie zdobywałem doświadczenia w zakresie algorytmu identyfikacji akceptowalnych niezgodności na poziomie aminokwasów antygenów HLA, którego twórcą jest prof. R. Duquesnoy. Duquesnoy zaobserwował, że w wiązaniu przeciwciał i antygenów biorą udział tylko niektóre reszty aminikwasowe, które określił mianem energetycznych. Skupiska tych reszt na eksponowanej powierzchni molekuły Duquesnoy nazwał epletami. Wiele epletów reprezentuje krótkie ciągłe sekwencje reszt aminokwasowych, inne skupiają reszty odseparowane od siebie w strukturze pierwszorzędowej białka, lecz zgrupowane razem na powierzchni molekuły. Tak więc epitop i paratop zdefiniowane są przez niewielką liczbę polimorficznych reszt aminokwasowych leżących na powierzchni molekuły.

Reszty, które w wyniku pofałdowania proteiny leżą „w głębi” cząsteczki nie wpływają na siłę wiązania. Zainspirowało mnie to do konstrukcji klasyfikatora z przeciwciałami jako jednostkami rozpoznającymi, które wykształcają specyficzne paratopy do poprawnego rozpoznania antygenów reprezentujących obrazy należące do kilku klas. Proces kształtowania paratopów w wyniku selekcji klonalnej (czyli detekcja reszt energetycznych) odpowiada procesowi selekcji cech istotnych z punktu widzenia prawidłowej klasyfikacji. Selekcja cech ma charakter lokalny – każde przeciwciało reprezentujące pewien region w podprzestrzeni obrazów wykształca swoisty paratop wyrażający podzbiór cech istotnych. Model należy do klasy metod pamięciowych uczenia nadzorowanego (memory-based, instance-based), których popularnym reprezentantem jest metoda k najbliższych sąsiadów (k-NS). Metody najbliższego sąsiada posiadają bardzo pożądaną własność – asymptotyczna optymalność, tj. zbieżność do błędu Bayesa, gdy liczność zbioru uczącego N zmierza do nieskończoności, a k/N zmierza do zera. Sztuczny system immunologiczny z lokalną selekcją cech (SSILSC) jest wariantem metody najbliższego sąsiedztwa, przy czym „obszar rozpoznania” każdego elementu rozpoznającego (przeciwciała) nie jest stały, lecz zależny od lokalizacji danych uczących w przestrzeni cech. Lokalne algorytmy adaptacyjne, takie jak SSILSC, mogą znacząco przewyższać algorytmy globalne w pewnych zastosowaniach. Ostateczna decyzja o klasie rozpoznawanego obrazu podejmowana jest w SSILSC kolektywnie przez stymulowane przeciwciała. Główna wada metod pamięciowych – wysoki koszt obliczeniowy dla dużych zbiorów danych, może być ograniczony tutaj przez selekcję przeciwciał w procesie apoptozy (nadmiarowe przeciwciała, których obszary recepcyjne zawierają się w sobie będą odrzucane, co w przełożeniu na język metod pamięciowych oznacza redukcję liczby elementów w zbiorze odniesienia niezbędnych do utworzenie poprawnego klasyfikatora). Końcowy zbiór elementów rozpoznających jest redukowany bez utraty dokładności modelu. Mechanizm lokalnej redukcji wymiarowości, który ogranicza zjawisko „przekleństwa wymiarowości” jest unikalną cechą tego modelu (istniejące metody selekcji cech mają charakter globalny w sensie geometrycznym).

W SSILSC aktywowane przeciwciała formują lokalne komitety, tj. dla różnych klasyfikowanych obrazów wejściowych tworzony jest komitet przeciwciał, do którego zalicza się te przeciwciała, które pokrywają obraz wejściowy w różnych podprzestrzeniach. Idea wielu detektorów, które rozpoznają obrazy niezależnie i wspólnie kształtują odpowiedź, bliska jest koncepcji degeneracji rozwijanej ostatnio na polu SSI oraz koncepcji komitetu słabych uczniów (ensamble of weak learners). Spodziewaną korzyścią ze zdegenerowanych detektorów jest zwiększenie skalowalności i generalizacji w stosunku do istniejących SSI.

W SSILSC, tak jak w boostingu, zbiór słabych uczniów jest agregowany w mocny algorytm uczący. Zwiększenie siły reprezentacji osiągane jest tutaj przez zróżnicowanie poszczególnych elementów rozpoznających (zdefiniowanych w niskowymiarowych podprzestrzeniach) i zwiększenie stabilności modelu poprzez integrację elementów rozpoznających.
SSILSC opisałem w [44]. Przedstawione tam badania symulacyjne pokazują skuteczność algorytmu na tle innych algorytmów immunologicznych, metody k najbliższych sąsiadów, lasów losowych oraz maszyny wektorów wspierających (SVM).

Literatura

Home

Research

Publications

Varia

Polish

Klasyfikacja danych