Leírás
A Humán Genom Projekt keretében 2003-ban sikeresen leolvasták és összeillesztették a teljes emberi genom szekvenciát. Az elmúlt közel 20 évben a technológiai fejlődésnek köszönhetően a genom
szekvenálás ára exponenciálisan csökkent, így egyre nagyobb mértékben elerhető és tanulmányozható ilyen típusú adat.
Ma már valós-idejű DNS szekvenálásra is lehetőség van (Oxford Nanopore Technologies Ltd.), ami lehetővé teszi a gyors vizsgálatokat és minta szelekciót. Ezen feltételek mellett nem meglepő, hogy rengeteg területen kezdtek el gépi tanulást
alkalmazni, metilációs vizsgálatokra, transzkripciós faktor
jóslására, base-callingra, amely során közvetve olvassák le a
bázis szekvenciát. A gépi tanulás felfutásával, kezdetben
rekurrens hálókat, konvolúciós LSTM hálókat és ma már
Transformer alapú modelleket is használnak a genomika különböző
területein.
Az előadás során néhány témába vágó cikket fogok bemutatni,
amelyek elsősorban mai, természetes nyelv feldolgozási technikákat
alkamaznak a genomikára, ilyen az idén megjelent DNABERT [1], amely
gyakorlatilag DNS-nyelvfeldolgozást csinál és a fine-tuning
lépések után a figyelem mátrixból próbál kiolvasni releváns
információt. A valós idejű szekvenálást egyenlőre rosszabb
pontosságú, mint a korábban kifejlesztett technikák, de
kifejlesztése óta (2014) nagy lendülettel fejlesztik a vizsgálati
eszközöket, valamint a feldolgozó algoritmusokat is. Egy
áttekintő cikk [2] keretében felvázolom a jelenlegi algoritmusokat
[3] és bemutatok néhány újkeletűt is [4]. Ezen módszerek
lényege, hogy egy feszültség jelet alakítsanak át az annak
megfelelő bázis-szekvenciává, amelyben hasznosak lehetnek a mai
text-to-speech technikák.
[1] Ji, Yanrong, et al. "DNABERT: pre-trained Bidirectional Encoder
Representations from Transformers model for DNA-language in genome."
bioRxiv (2020).
[2] Rang, Franka J., Wigard P. Kloosterman, and Jeroen de Ridder.
"From squiggle to basepair: computational approaches for improving
nanopore sequencing read accuracy." Genome biology 19.1 (2018): 1-11.
[3] Teng, Haotian, et al. "Chiron: translating nanopore raw signal
directly into nucleotide sequence using deep learning." GigaScience
7.5 (2018): giy037.
[4] Lv, Xuan, et al. "An End-to-end Oxford Nanopore Basecaller Using
Convolution-augmented Transformer." 2020 IEEE International Conference
on Bioinformatics and Biomedicine (BIBM). IEEE, 2020.