Postępy poczynione w drodze od pierwszego sekwencjonowania genomu człowieka do zbliżającej się wielkimi krokami ery medycyny genomicznej były możliwe dzięki technikom sekwencjonowania z dużą przepustowością (HTS). Metoda ta umożliwia szybkie sekwencjonowanie dużych odcinków par zasad DNA i RNA, obejmujących całe genomy. Wyodrębnianie znaczących sygnałów biologicznych z danych HTS wymaga jednak zaawansowanych narzędzi statystycznych o dużej wydajności obliczeniowej.
Za cel finansowanego ze środków UE projektu
RADIANT (Rapid development and distribution of statistical tools for high-throughput sequencing data) przyjęto ulepszenie najpopularniejszych narzędzi analizy danych. Jego głównym założeniem było zintegrowanie pakietów oprogramowania opracowanych przez badaczy z Francji, Niemiec, Szwajcarii, Wielkiej Brytanii i Włoch w jedną platformę obliczeniową.
Jednym z nich jest napisana w języku Python biblioteka HTSeq, która dokonuje wstępnej obróbki danych z sekwencjonowania RNA pod kątem analizy różnicowej ekspresji genów. Pakiet DESeq2 udostępnia metody wykrywania różnicowo ekspresjonowanych genów przy użyciu uogólnionych modeli liniowych. Z kolei w pakiecie BitSeqVB implementowano bayesowską metodę wnioskowania na temat stężenia transkryptów RNA informacyjnego.
Badania prowadzone w ramach projektu RADIANT objęły wszystkie aspekty analizy danych HTS, od kontroli jakości do wizualizacji danych. Dla szeregu czasowego ekspresji genów zaproponowano hierarchiczne modelowanie bayesowskie umożliwiające uzupełnianie brakujących danych w sposób systematyczny, jak i losowy. Przeglądarka genomu RADIANT jest pierwszym narzędziem do wizualizacji danych dotyczących metylacji DNA.
Większość narzędzi zintegrowano w ramach platformy
Bioconductor, tworząc jednolite środowisko analizy, dokumentowania i dystrybucji danych HTS. Ogromna liczba pakietów dostępnych na platformie Bioconductor utrudnia jednak mniej doświadczonym użytkownikom rozwiązywanie konkretnych problemów. Opracowano zatem "ściągawkę" dla początkujących, stanowiącą proste, a zarazem kompletne wprowadzenie do zagadnień analizy danych sekwencjonowania RNA.
Dzięki możliwości niezwykle dokładnego badania genomu człowieka techniki sekwencjonowania są obecnie stosowane praktycznie we wszystkich gałęziach badań biologicznych i medycznych. Nowo opracowane narzędzia projektu RADIANT przyczynią się do ugruntowania pozycji analizy danych HTS jako nieodzownego narzędzia naukowego. Przewidywane zastosowania mogą odmienić oblicze badań genomicznych, otwierając drogę ku nieosiągalnym dotąd odkryciom.