OpenVaccine: pomoću inkrementalnog raščlanjivača koronavirus čitaju kao rečenicu

Tradicionalno, znanstvenici su koristili tehnike računalne biologije kako bi razdvojili strukturu RNK. Ali to nije jedini način, pa čak ni najbolji način da se to učini, objašnjava Liang Huang, istaknuti istraživač na Baidu Research USA i izvanredni profesor računalnih znanosti na Oregon State University. On je računalni lingvist i računalni biolog, fasciniran matematičkim vezama između te dvije znanstvene discipline.

Računalna lingvistika i biologija

Huangova istraživanja pokazuju kako primjena algoritama izvorno razvijenih za obradu prirodnog jezika (NLP) — koji računalima pomaže da analiziraju ljudski jezik — može znatno ubrzati predviđanja preklapanja RNK i dizajn sekvenci za izradu cjepiva.

CSIRO istraživači proučavaju SARS-CoV-2 koji ima jednolančani RNK genom, kako bi razumjeli kako se virus razvija
CSIRO istraživači proučavaju SARS-CoV-2 koji ima jednolančani RNK genom, kako bi razumjeli kako se virus razvija

Područja računalne lingvistike i računalne biologije mogu se činiti vrlo različitim, ali matematički govoreći, prilično su slična, o čemu je Huang progovorio u opširnom članku za IEEE Spectrum

Rečenica, objašnjava Huang, sastavljena je od riječi koje čine niz. Na vrhu tog niza nalazi se struktura, sintaktičko stablo koje uključuje imeničke i glagolske izraze. Te dvije komponente – slijed i struktura – zajedno daju značenje. Slično tome, lanac RNK sastoji se od niza nukleotida, a na vrhu tog slijeda postoji sekundarna struktura kako se lanac preklapa. 

Struktura RNK može se grafički prikazati kako bi se vidjeli nukleotidi koji se uparuju i oni u "petljama" (Liang Huang)
Struktura RNK može se grafički prikazati kako bi se vidjeli nukleotidi koji se uparuju i oni u “petljama” (Liang Huang)

U engleskom jeziku možete imati dvije riječi koje su udaljene u rečenici, ali usko povezane u smislu gramatike. Uzmite na primjer rečenicu “What do you want to serve the chicken with?” (Koji prilog želite uz piletinu?) Riječi “what” i “with” udaljene su jedna od druge, ali “what” je objekt prijedloga “with”. Slično, u RNK možete imati dva nukleotida udaljena na sekvenci, ali blizu jedan drugome u preklopljenoj strukturi.

Prilagodba alata

Huangov laboratorij iskoristio je ovu sličnost kako bi prilagodio NLP alate hitnim potrebama vremena. Udruživši snage s istraživačima računske biologije i dizajnerima lijekova, uspjeli su identificirati obećavajuće nove kandidate za RNK cjepiva protiv Covida-19 u zapanjujuće kratkom roku. 

Ilustracija koronavirusa SARS-Cov-2 sa šiljastim proteinima
Ilustracija koronavirusa SARS-Cov-2 sa šiljastim proteinima

Napredak se temelji na tehnici obrade prirodnog jezika nazvanoj “inkrementalno raščlanjivanje” (incremental parsing). Ljudi se tom tehnikom služe sve vrijeme: dok čitate ovu rečenicu, gradite njezino značenje u svom umu ne čekajući da dođete do točke.


No dugi niz godina računala koja su radila sličan zadatak razumijevanja nisu koristila inkrementalnu analizu. Problem je bio u tome što je jezik pun nejasnoća koje mogu zbuniti NLP programe. 

U popularnoj igri ​​Eterna 250.000 online igrača rješava probleme dizajna RNK
U popularnoj igri ​​Eterna 250.000 online igrača rješava probleme dizajna RNK

Kako rečenica postaje duža, broj mogućih značenja u njoj se umnožava. Zato klasični algoritmi za NLP raščlanjivanje nisu bili linearni – to jest, duljina vremena koja im je bila potrebna da razumiju rečenicu nije se linearno mjerila s duljinom rečenice. Umjesto toga, vrijeme razumijevanja skaliralo se kubično s duljinom rečenice, tako da ako udvostručite duljinu rečenice, raščlanjivanje je trajalo 8 puta duže. 

Genom koronavirusa

Srećom, većina rečenica nije jako duga. Rečenica u engleskom govoru rijetko ima više od 20 riječi, a čak i one u The Wall Street Journalu obično imaju manje od 40 riječi. Dakle, iako je kubično vrijeme usporavalo stvari, nije stvorilo probleme koje klasični algoritmi za analizu NLP-a ne bi mogli riješiti. 

No, duljina je veliki problem kad je riječ o RNK. Sljedovi RNK mogu biti nevjerojatno dugi: genom koronavirusa sadrži oko 30.000 nukleotida, što ga čini najdužim poznatim RNK virusom. Klasične tehnike predviđanja preklapanja RNK, gotovo identične klasičnim algoritmima za analizu NLP-a, pokazale su se nepraktičnima.

Staromodna NLP tehnika za raščlanjivanje rečenica bila je “odozdo prema gore”, što znači da bi program za raščlanjivanje prvo gledao parove uzastopnih riječi unutar rečenice, zatim skupove od tri uzastopne riječi, zatim četiri, i tako dalje dok ne uzme u obzir cijelu rečenicu.

Algoritam za predviđanje strukture RNK

Huangov inkrementalni raščlanjivač bavio se jezičnim nejasnoćama skeniranjem s lijeva na desno kroz rečenicu, konstruirajući mnoga moguća značenja. Kada bi došao do kraja rečenice, izabrao bi značenje koje je smatrao najvjerojatnijim. Uz ovu tehniku, vrijeme potrebno za raščlanjivanje linearno se povećava s duljinom rečenice.

Takozvane "rečenice vrtne staze" vode čitatelja u krivom smjeru i zbunjuju algoritme obrade prirodnog jezika. U ispravnom raščlanjivanju ove rečenice riječ "man" je glagol
Takozvane “rečenice vrtne staze” vode čitatelja u krivom smjeru i zbunjuju algoritme obrade prirodnog jezika. U ispravnom raščlanjivanju ove rečenice riječ “man” je glagol

Značajna razlika između lingvistike i biologije je količina značenja sadržana u svakom dijelu sekvence. Svaka engleska riječ nosi puno značenja; čak i jednostavna riječ poput “the” signalizira dolazak imeničkog atributa. Nasuprot tome, RNK nizovi sadrže samo četiri nukleotida: adenin, citozin, guanin i uracil, pri čemu svaki nukleotid za sebe nosi malo informacija. Zato je predviđanje strukture RNK iz njezina slijeda dugo bio veliki izazov u bioinformatici.


Koristeći princip inkrementalnog raščlanjivanja Huang i suradnici su razvili su LinearFold algoritam za predviđanje strukture RNK koji paralelno razmatra mnoge moguće strukture dok skenira RNK slijed nukleotida. Budući da postoji mnogo više mogućih sekundarnih struktura u dugoj sekvenci RNK nego u rečenici na engleskom jeziku, algoritam razmatra milijarde alternativa za svaku sekvencu.


igrači OpenVaccinea prema zadanim postavkama koriste LinearDesign kao početnu točku za svoje istraživanje kandidata za cjepivo
igrači OpenVaccinea prema zadanim postavkama koriste LinearDesign kao početnu točku za svoje istraživanje kandidata za cjepivo

Izbijanjem pandemije znanstvenici su LinearFoldom, najbržim svjetskim algoritmom za predviđanje sekundarne strukture RNK, analizirali SARS-CoV-2, virus koji uzrokuje COVID-19. Dok je standardnim metodama računalne biologije bilo potrebno 55 minuta da identificiraju strukturu, LinearFold je posao obavio za samo 27 sekundi. Algoritam su stavili na server kako bi algoritam učinili slobodno dostupnim drugim znanstvenicima. 

Igrom do rješenja problema

Huang je kontaktirao i Rhiju Dasa, izvanrednog profesora biokemije na Medicinskom fakultetu Sveučilišta Stanford i dugogodišnjeg korisnika LinearFolda. Ovaj specijalist za računalno modeliranje i dizajn RNK molekula stvorio je popularnu igru ​​Eterna u kojoj 250.000 online igrača rješava probleme dizajna RNK. Igračima se predstavlja željena struktura RNK i od njih traži da pronađu sekvence koje se preklapaju u taj oblik. Igrači su radili na RNK sekvencama za dijagnostički uređaj za tuberkulozu i za uređivanje gena CRISPR tehnikom.

Online poziv znanstvenicima da se uključe u potragu za cjepivom protiv Covida-19
Online poziv znanstvenicima da se uključe u potragu za cjepivom protiv Covida-19

Das je pokrenuo novi Eterna izazov OpenVaccine u kojem se od igrača tražilo da osmisle potencijalna RNK cjepiva koja bi bila robusnija i stabilnija od postojećih koja zahtijevaju ekstremno niske temperature tijekom transporta i skladištenja. OpenVaccine koristio je LinearFold za ubrzanje obrade, a Huang se prihvatio novog zadatka, razvoja algoritma koji bi izravno dizajnirao RNK strukture, nazvanog LinearDesign.


Algoritam, dovršen i objavljen u travnju prošle godine, dolazi s RNK sekvencama optimizirane za stabilnost i oslonjene na najčešće korištene kodone u tijelu, što dovodi do učinkovitije proizvodnje proteina. Danas igrači OpenVaccinea prema zadanim postavkama koriste LinearDesign kao početnu točku za svoje istraživanje kandidata za cjepivo.


Pregled dizajna regije kodiranja mRNA
Pregled dizajna regije kodiranja mRNA

LinearDesign korišten je i za proizvodnju kandidata za cjepivo, a njihove usluge koristi i šest farmaceutskih tvrtki u SAD-u, Europi i Kini koje razvijaju cjepiva protiv Covida-19. Ovaj algoritam može se koristiti i za dizajniranje boljih RNK cjepiva za druge vrste zaraznih bolesti, a čak bi se mogao koristiti i za razvoj cjepiva protiv raka i genskih terapija, kaže Huang.