Spis treści:
- Podstawowe pojęcia
- Typy problemów w uczeniu maszynowym
- Najpopularniejsze algorytmy
- Ocena modelu
- Walidacja
- ML w badaniach medycznych
- Odkrywanie nowych zależności
Opieka zdrowotna nigdy nie dysponowała taką ilością danych jak dziś. Liderzy organizacji medycznych muszą więc zadać sobie fundamentalne pytanie – jak przekształcić ogromne zasoby informacji w realną poprawę jakości leczenia, efektywności operacyjnej i wyników zdrowotnych pacjentów?
Elektroniczne rekordy medyczne (Electronic Health Records, EHR) gromadzą historię chorób, wyniki badań i zlecenia farmakologiczne milionów pacjentów. Obrazowanie medyczne generuje petabajty danych rocznie – od tomografii komputerowej po sekwencjonowanie nowej generacji (NGS). Genomika personalizuje diagnostykę na poziomie molekularnym, a urządzenia wearable rejestrują parametry fizjologiczne na żywo, 24 godziny na dobę. Paradoksalnie bogactwo danych stało się wyzwaniem. Ludzki umysł – nawet wytrenowanego klinicysty z dekadami doświadczenia – ma ograniczoną zdolność do jednoczesnego przetwarzania setek zmiennych i wychwytywania subtelnych, wielowymiarowych wzorców. Tu z pomocą przychodzi uczenie maszynowe. Medycyna oparta na faktach (Evidence-Based Medicine, EBM) od lat 90. XX w. dąży do tego, by decyzje kliniczne były zakorzenione w rzetelnych danych naukowych, a nie wyłącznie w intuicji. Uczenie maszynowe stanowi naturalną ewolucję tej filozofii – to rozwiązanie, które pozwala wydobywać wiedzę z danych na niespotykaną dotąd skalę. Nie zastępuje klinicysty – dostarcza mu precyzyjniejszego narzędzia do podejmowania decyzji.
Uczenie maszynowe pozwala identyfikować wzorce w danych klinicznych, wspierać proces diagnostyczny oraz przewidywać przebieg choroby i skuteczność terapii. Co istotne, ML nie zastępuje lekarza, bo jego rolą jest jedynie wspieranie decyzji klinicznych poprzez analizę danych na skalę niemożliwą dla człowieka. Czym jest uczenie maszynowe i czym się różni od tradycyjnej statystyki? Machine learning to kolejna dziedzina sztucznej inteligencji, w której algorytm uczy się na podstawie danych, a nie zaprogramowanych reguł. Zamiast pisać: „jeśli stężenie PSA > 4 ng/ml, rozważ biopsję”, model ML analizuje tysiące przypadków i sam identyfikuje, jakie kombinacje zmiennych są diagnostycznie istotne.
Różnice między uczeniem maszynowym a klasyczną statystyką są subtelne, ale kluczowe (tab. 1). Oba podejścia są jednak komplementarne i w badaniach medycznych najlepsze rezultaty daje ich świadome łączenie.
Podstawowe pojęcia
Zanim przejdziemy do algorytmów, warto ugruntować kilka fundamentalnych pojęć.
Dane treningowe, walidacyjne i testowe
Każdy model ML potrzebuje informacji do nauki, ale nie można oceniać jego skuteczności na podstawie tych samych danych, na których był trenowany. Dlatego dostępny zbiór dzielimy na trzy rozłączne podzbiory:
- treningowy (training set) – na nim model uczy się, tzn. dopasowuje swoje parametry wewnętrzne. Zazwyczaj stanowi 60–80% wszystkich dostępnych danych;
- walidacyjny (validation set) – służy do strojenia modelu, tj. wyboru hiperparametrów, architektury czy strategii regularyzacji. Pozwala porównywać różne warianty narzędzia bez zaglądania do zbioru testowego;
- testowy (test set) – ostateczny, nienaruszony sprawdzian. Oceniamy na nim gotowy model tylko raz, dopiero po zakończeniu całego procesu budowy. Jest odpowiednikiem badania klinicznego na niezależnej kohorcie.
W kontekście medycznym szczególne znaczenie ma to, by zbiór testowy odzwierciedlał populację, w której model będzie stosowany – inaczej uzyskane wyniki będą mylące.
Features i target
Cechy (features) to zmienne wejściowe, które model wykorzystuje do predykcji. W badaniach onkologicznych mogą to być wyniki biopsji płynnej, poziomy biomarkerów, dane demograficzne pacjenta, histologia guza czy wyniki badań obrazowych. Zmienna docelowa (target) jest tym, co chcemy przewidzieć. Może to być odpowiedź na leczenie (tak/nie), czas przeżycia w miesiącach, ryzyko nawrotu w ciągu pięciu lat. Precyzyjne określenie zmiennej docelowej to jeden z najważniejszych kroków w projektowaniu badania – błędna definicja kliniczna prowadzi do modeli, które są matematycznie eleganckie, ale klinicznie bezużyteczne.
Dwa klasyczne problemy każdego modelu predykcyjnego to przeuczenie (overfitting) i niedouczenie (underfitting). Pierwszy występuje, gdy model zapamiętuje dane treningowe zamiast uogólnionych wzorców. Uzyskuje znakomite wyniki na zbiorze treningowym, ale dramatycznie zawodzi na nowych danych. W medycynie jest to szczególnie niebezpieczne, bo model może się nauczyć artefaktów specyficznych dla jednego szpitala czy grupy pacjentów.
Niedouczenie (underfitting) oznacza z kolei, że model jest zbyt prosty, by uchwycić istotne zależności w danych. Skutkuje to słabymi wynikami zarówno na danych treningowych, jak i testowych. Właściwe wyważenie między złożonością modelu a jego zdolnością do generalizacji to tzw. kompromis bias-wariancja.
Typy problemów w uczeniu maszynowym
Skoro już omówienie podstawowych pojęć mamy za sobą, a także wspomnieliśmy już o niektórych trudnościach związanych z treningiem modeli predykcyjnych, warto zwrócić uwagę również na możliwe wady machine learningu.
Klasyfikacja
Model przypisuje każdy przypadek do jednej z kilku kategorii. W medycynie: chory vs. zdrowy, progresja vs. remisja, ryzyko niskie/średnie/wysokie. Przykład z praktyki: predykcja patologicznej odpowiedzi na chemioterapię przedoperacyjną u pacjentów z nowotworem.
W przypadku regresji model przewiduje wartość ciągłą, np. czas przeżycia całkowitego (OS), poziom markera nowotworowego po leczeniu, dawkę leku optymalną dla danego pacjenta. Modele regresji są szczególnie użyteczne w planowaniu leczenia i ocenie rokowań.
Uczenie nadzorowane i nienadzorowane
Uczenie nadzorowane (supervised learning) wymaga etykietowanych danych – każdy przypadek treningowy musi mieć przypisaną prawidłową odpowiedź (np. wynik leczenia). Jest to dominujące podejście w klinicznych zastosowaniach predykcyjnych.
Uczenie nienadzorowane (unsupervised learning) działa bez etykiet, a model samodzielnie odkrywa strukturę w danych. Zastosowania w medycynie obejmują segmentację pacjentów na podgrupy o podobnym profilu molekularnym, identyfikację nieznanych wcześniej podtypów nowotworów czy redukcję wymiarowości danych genomicznych.
Najpopularniejsze algorytmy
Uczenie maszynowe uczeniu maszynowemu nierówne – wszystko bowiem zależy od zastosowanego algorytmu. Poniżej przedstawiamy kilka najpopularniejszych i wskazujemy ich przydatność w konkretnych zastosowaniach medycznych.
Regresja logistyczna
Mimo swojej prostoty regresja logistyczna pozostaje jednym z najczęściej stosowanych algorytmów w badaniach medycznych. Modeluje prawdopodobieństwo przynależności do danej klasy jako funkcję sigmoidalną kombinacji liniowej cech. Jej siłą jest interpretowalność – współczynniki ilorazów szans (OR) mają bezpośrednie znaczenie kliniczne. Słabością – założenie liniowości zależności między cechami a wynikiem.
Drzewa decyzyjne
To hierarchiczna sekwencja reguł: „jeśli biomarker X > próg, idź w lewo; w przeciwnym razie – w prawo”. Wynik końcowy to liść drzewa, odpowiadający klasie lub wartości. Drzewa są łatwe do wizualizacji i wytłumaczenia lekarzowi nieznającemu statystyki – co w kontekście klinicznym jest bezcenną zaletą. Wadą jest podatność na przeuczenie przy głębokich drzewach, tj. takich o dużej liczbie poziomów.
Lasy losowe
Las losowy (Random Forest) to ensemble setek lub tysięcy drzew decyzyjnych, z których każde trenowane jest na losowej próbce danych i losowym podzbiorze cech. Predykcja końcowa to agregat (głosowanie lub uśrednianie) wyników wszystkich drzew. Metoda jest wysoce odporna na przeuczenie, dobrze radzi sobie z brakującymi danymi i automatycznie szacuje ważność zmiennych (feature importance), co czyni ją szczególnie wartościową w eksploracji biomarkerów.
SVM
Maszyna wektorów nośnych (Support Vector Machine, SVM) szuka hiperpłaszczyzny maksymalnie separującej klasy w przestrzeni cech. Dzięki tzw. kernel trickowi może modelować nieliniowe granice decyzyjne. SVM sprawdza się znakomicie przy małych zbiorach danych z dużą liczbą cech – typowych dla badań genomicznych czy proteomicznych. Jest jednak wrażliwa na skalowanie danych i dobór hiperparametrów, co wymaga starannej walidacji.
Sieci neuronowe i głębokie uczenie
Sieci neuronowe naśladują architekturę biologicznych sieci nerwowych: dane przepływają przez warstwy węzłów (neuronów), z których każdy stosuje nieliniową funkcję aktywacji. Głębokie uczenie (deep learning), operujące na wielowarstwowych sieciach, zrewolucjonizowało analizę obrazów medycznych – osiągając radiologiczną dokładność w wykrywaniu zmian nowotworowych na zdjęciach rentgenowskich czy skanach histopatologicznych. Wymaga jednak dużych zbiorów danych i znacznych zasobów obliczeniowych, co ogranicza jego bezpośrednie zastosowanie w badaniach na małych kohortach klinicznych.
Ocena modelu
Dobór właściwych metryk ewaluacji jest w medycynie kwestią etyczną, nie tylko techniczną. Warto więc się przyjrzeć podstawowym czynnikom wpływającym na ocenę modelu uczenia maszynowego.
Dokładność
Accuracy to odsetek poprawnie sklasyfikowanych przypadków. W sytuacji, gdy chorzy stanowią tylko 10% populacji, model zawsze przewidujący wskaźnik „zdrowy” osiąga 90% dokładności, będąc przy tym zupełnie bezużyteczny klinicznie. W badaniach medycznych rzadko mamy do czynienia z równolicznymi klasami, dlatego dokładność nigdy nie powinna być jedyną miarą oceny.
Macierz pomyłek
Jest to tablica 2×2 zestawiająca cztery możliwe wyniki klasyfikacji binarnej – przedstawiamy ją w tab. 2. Na jej podstawie definiujemy kluczowe metryki:
- czułość (sensitivity, recall) = TP / (TP + FN) – odsetek chorych prawidłowo zidentyfikowanych przez model. Wysoka czułość minimalizuje liczbę przypadków przeoczonych (false negatives). W onkologii fałszywie ujemny wynik może oznaczać nieudzielenie leczenia pacjentowi, który go potrzebuje – jest więc klinicznie kosztowniejszy niż fałszywy alarm;
- swoistość (specificity) = TN / (TN + FP) – odsetek zdrowych prawidłowo zidentyfikowanych. Wysoka swoistość minimalizuje liczbę fałszywych alarmów, chroniąc pacjentów przed zbędnymi interwencjami i nadmiernym leczeniem.
Krzywa ROC i pole pod krzywą
Receiver Operating Characteristic (ROC) ilustruje zależność między czułością a wartością 1 − swoistością przy różnych progach klasyfikacji. Pole pod krzywą (Area Under the Curve, AUC) to syntetyczna, niezależna od progu, miara jakości modelu, w myśl której:
- AUC = 1,0 – model idealny;
- AUC = 0,5 – predykcja losowa;
- AUC ≥ 0,8 – dobry model kliniczny;
- AUC ≥ 0,9 – model doskonały.
Walidacja
Ocena narzędzia na danych, na których się uczył, prowadzi do systematycznie zawyżonych wyników. Model mógł zapamiętać szum statystyczny specyficzny dla próby zamiast rzeczywistych wzorców biologicznych – co ujawni się dopiero przy kontakcie z nowymi danymi.
Cross-validation
Walidacja krzyżowa k-krotna (k-fold cross-validation) dzieli zbiór na k równych części. Model trenowany jest k razy: za każdym razem jedna część służy jako zbiór testowy, pozostałe k−1 jako treningowy. Wynik finalny to średnia z k ewaluacji. Metoda ta maksymalizuje wykorzystanie dostępnych danych i daje rzetelne oszacowanie wydajności generalizacji.
Leave-One-Out
Szczególnym przypadkiem walidacji krzyżowej jest Leave-One-Out Cross- -Validation (LOOCV), w której k równa się liczbie przypadków w zbiorze. Każdorazowo jeden pacjent stanowi zbiór testowy, a model trenowany jest na wszystkich pozostałych. LOOCV jest metodą wybieraną w badaniach klinicznych z małą liczebnością próby – typowych dla rzadkich nowotworów, badań pilotażowych czy specjalistycznych kohort biomarkerowych. Choć obliczeniowo kosztowna, dostarcza prawie nieobciążoną ocenę wydajności modelu.
Zewnętrzna walidacja
Ostatecznym dowodem przydatności klinicznej modelu jest jego walidacja na niezależnej, zewnętrznej kohorcie, najlepiej z innej instytucji lub kraju czy też okresu. Tylko model, który utrzymuje swoje parametry wydajności w nowych warunkach, zasługuje na rozważenie wdrożenia klinicznego.
ML w badaniach medycznych
Teorię mamy już za sobą, warto więc zwrócić uwagę na praktyczne przykłady wykorzystywania uczenia maszynowego – zarówno w diagnostyce, jak i predykcji ryzyka czy personalizacji leczenia, a także w przypadku zależności biologicznych.
Wspomaganie diagnostyki
Algorytmy ML osiągają lub przekraczają ludzką dokładność w analizie obrazów histopatologicznych, identyfikacji zmian nowotworowych w mammografii czy interpretacji EKG. Modele wytrenowane na dużych zbiorach danych radiologicznych potrafią wykrywać subtelne zmiany niedostrzegalne dla ludzkiego oka i robią to w ułamku sekundy.
Predykcja ryzyka i stratyfikacja pacjentów
Modele prognostyczne przewidujące ryzyko sepsy, pooperacyjnych powikłań sercowo-naczyniowych czy nawroty nowotworu po leczeniu umożliwiają wczesną interwencję i racjonalne przydzielanie zasobów medycznych. Stratyfikacja pacjentów na grupy ryzyka pozwala intensyfikować opiekę tam, gdzie jest najbardziej potrzebna.
Medycyna personalizowana i predykcja
To jeden z najbardziej obiecujących kierunków: modele ML analizujące profil molekularny guza, dane genomiczne pacjenta i charakterystykę kliniczną, by przewidzieć, który schemat leczenia przyniesie największą korzyść. Predykcja odpowiedzi na neoadjuwantową chemioterapię na podstawie biomarkerów z biopsji płynnej jest doskonałym przykładem tego podejścia, pozwalając na wcześniejszą identyfikację pacjentów nieodpowiadających na leczenie i modyfikację terapii.
Odkrywanie nowych zależności
Metody uczenia nienadzorowanego pozwalają identyfikować nieznane wcześniej podtypy chorób, odkrywać nowe biomarkery prognostyczne i generować hipotezy badawcze niemożliwe do sformułowania metodami klasycznej statystyki.
Uczenie maszynowe otwiera nowy rozdział w historii medycyny, ale jego potencjał zrealizuje się tylko wtedy, gdy będziemy stosować je z metodologiczną rzetelnością, kliniczną mądrością i etyczną odpowiedzialnością. Zrozumienie podstawowych pojęć: podziału danych, typów algorytmów, metryk ewaluacji i zasad walidacji jest absolutnym minimum dla każdego badacza medycznego chcącego się poruszać w tym obszarze. W kolejnych artykułach tej serii przyjrzymy się bardziej szczegółowo wybranym zastosowaniom klinicznym, wyzwaniom pracy z modelami uczenia maszynowego oraz praktycznym aspektom budowania i raportowania modeli predykcyjnych w badaniach biomedycznych.
Autor
Ewelina Holm Bidstrup
Autorka jest inżynierką uczenia maszynowego, specjalizującą się w analityce danych medycznych. Na co dzień rozwija swoje kompetencje, współpracując z klientami z wielu krajów, co pozwala jej łączyć różnorodne perspektywy kliniczne i technologiczne.