piątek, 18 grudnia 2020

Zderzenie dwóch kodów

Pomyśl przez chwilę o całej różnorodności życia na Ziemi. Wiewiórka, kukurydza, pantofelek, pieczarka, ośmiornica, dziobak, arbuz, niesporczak, sekwoja… wszystkie te formy łączy ten sam kod źródłowy. DNA “programuje” życie. Ikoniczna spirala DNA jest nośnikiem informacji genetycznej w postaci sekwencji zasad, które łączą dwa zwinięte wokół siebie łańcuchy. Dlatego do zastosowań praktycznych można zapisywać ten kod jako GAATTC - ciąg liter pochodzących od nazw tych zasad...

Powinienem wspomnieć, że dzisiejsza notka będzie pełna ogromnych uproszczeń. No więc wspominam. Pewnie do każdego zdania można będzie tu dodać “tak, ale” albo “w pewnych przypadkach”, czy oczywiście “to bardziej skomplikowane, a ludzie spędzają nad tym całe życie”.

Wracając do uproszczeń. Na podstawie tego kodu komórki budują ciągi aminokwasów. Konkretnie jest to kod trójkowy - trzy literki DNA kodują jeden aminokwas. Genetyczny alfabet zawiera cztery litery (zasady), więc mamy 4 x 4 x 4 = 64 kombinacje. Jednakże kodują one tylko dwadzieścia jeden aminokwasów, bo niektóre trójki kodują te same aminokwasy (na przykład leucynę można zakodować na sześć sposobów), jest też kilka trójek, które nie kodują aminokwasów, ale są znakiem końca danego łańcucha, bo jak wspomniałem - komórki budują ciągi tych aminokwasów. A następnie robi się ciekawie…

Kod ten jest uniwersalny dla wszystkich organizmów żywych. Te same aminokwasy w dziobaku, orzęsku i pomidorze. Jednak liczba i kolejność daje niemal nieskończoną liczbę możliwości. Można powiedzieć, że wyglądają jak ciąg koralików, z jednej strony podobnych, ale różniących się “dyndającą” częścią, czyli tak zwanym łańcuchem bocznym. Mają one różne kształty geometryczne i właściwości - na przykład polarność, ładunek dodatki, ładunek ujemny… Wiem miało być ciekawie a nie skomplikowanie, no więc teraz dochodzimy do ciekawej części.

Taki sznurek aminokwasów, który może mieć setki tysiące a nawet dziesiątki tysięcy “ogniw”, po zejściu z taśmy produkcyjnej zaczyna się zwijać, składać i skręcać. Staje się białkiem. Białka to podstawowy budulec życia na tej planecie. Odpowiadają za ruch naszych mięśni, sprawiają, że nasze oczy widzą światło, błony komórek przepompowują chemikalia w odpowiednich kierunkach, pozwalają naszej krwi transportować tlen… Mogą robić to wszystko, bo przyjmują odpowiednie kształty. Bo plusy i minusy się przyciągają, bo taki a nie inny kształt “ogonka” aminokwasu sprawia że układa się w daną stronę, albo blokuje zgięcie innego fragmentu.

Białka są takimi zwitkami takich sprężynek i tasiemek. W jednych odpowiednie atomy ustawione “na zewnątrz” mogą wiązać pewne związki chemiczne lub rozbijać inne. W innych białkach sam kształt zapewnia pewną giętkość i umożliwia mechaniczną pracę. Na tym poziomie biologia spotyka fizykę i chemię. W tym miejscu możecie przypomnieć sobie notkę Kwantowy kocyk. Mówię w niej między innymi o tym, że wiązania między atomami nie są sztywne, że bliżej im do sprężynek.

I tu tkwi ogromny problem jaki stał przed naukami biologicznymi. Od przeszło pół wieku wiadomo było że podwójna spirala DNA koduje pojedynczą nić RNA a ta z kolei koduje ciągi aminokwasów, czyli białka. Wiedzieliśmy zatem, że DNA jednoznacznie mówi jakie aminokwasy następują po sobie, a zatem jakie białka tworzy. Wiedzieliśmy, że z DNA potencjalnie można odczytać kształt życia. Niestety proces tego zwijania jest obłędnie skomplikowany i trudny do przewidzenia. Sama świadomość jakie atomy i jak połączone wchodzą w skład białka to za mało. Wibrujące, sprężynujące atomy obijające się o siebie i o wszędobylskie w komórkach cząsteczki wody sprawiały, że łamały sobie na nich zęby tęgie umysły uzbrojone w najtęższe komputery.

Ładnych parę lat temu miałem dziwne hobby. Czytanie scenariuszy z tak zwanej “Czarnej listy”. Było to nieoficjalne doroczne zestawienie najlepszych, niezrealizowanych scenariuszy filmowych w Hollywood. Było tam sporo perełek, ja sięgałem oczywiście głównie po fantastykę1. Muszę powiedzieć, że oprócz przyjemnej lektury, był w tym pierwiastek masochizmu, a przynajmniej nutka goryczy. Po pierwsze, przykro mieć świadomość, jak dobre scenariusze i pomysły trafiają gdzieś na półkę by zbierać kurz. Po drugie przykro było w kilku przypadkach widzieć jak dobre scenariusze i pomysły przemielone przez bezlitosną machinę hollywood stają się okropnymi filmami. Choć nie jest to regułą.

Wśród lektur, jedną z moich ulubionych był Shadow 19. Było tam takie urządzenie, symulator biologiczny. Sonda wysłana na obcą planetę pobierała próbki DNA tamtejszych form życia i przesyłała je na Ziemię. Symulator na podstawie samego kodu DNA ekstrapolował wygląd obcych istot. Domyślam się, że dla większości brzmi to absurdalnie, jak kolejny hurraoptymistyczny wymysł ze starych Star Treków. A jednak zaryzykuję stwierdzenie, że nie jest to całkiem niemożliwe, tylko bardzo, bardzo, bardzo, bardzo trudne. Jasne, dobrze wiemy, że organizmy kształtuje nie tylko DNA, że czynników jest więcej, wpływają na ekspresję genów w tymże kodzie, że istnieje epigenetyka i niezliczone czynniki środowiskowe. Mimo to, odpowiednio potężny komputer w przyszłości, mógłby pewnie zaskoczyć niejednego sceptyka.

I możliwe, że w roku 2020 zbliżyliśmy się do takiej właśnie filmowej fantastyki naukowej. Stworzony przez DeepMind program AlphaFold 2 całkowicie zdeklasował konkurencję w odbywającej się co dwa lata rywalizacji CASP (Critical Assessment of protein Structure Prediction). Obok możecie zobaczyć jak wygląda jego wynik na tle konkurencji. Co więcej przewidział on kształt dwóch trzecich białek z ponad dziewięćdziesięcioprocentową dokładnością. W związku z tym powszechnie mówi się, że problem składania białek został właśnie rozwiązany. Dlatego nagłówki głośno mówiły “sztuczna inteligencja rozwiązała 50 letni problem w biologii”.

Wiecie jak to z reguły bywa, gdy media rozdmuchują pewne nowinki. Tym razem, myślę, że z perspektywy lat mamy szansę przekonać się, że ten przełom był wart każdego okrzyku zachwytu i głośnego nagłówka. Myślę, że są duże szanse, że pierwszy Nobel zdobyty przy pomocy technik uczenia maszynowego, zostanie przyznany w dziedzinie medycyny.

Rozgryzając tak fundamentalny aspekt biologii otwieramy drogę do niezliczonej ilości zastosowań. Lepiej zrozumiemy funkcje genów, zrozumiemy choroby, które są skutkiem źle składających się białek, przekujemy tą wiedzę na terapie, leki, opracujemy białka, które tępią szkodniki lub chronią plony rolnicze, będziemy mogli tworzyć biologiczne nanomaszyny, nowe klasy materiałów, samoorganizujących się struktur zdumiewających właściwościach, medycyna będzie bardziej spersonalizowana, bezpieczna, wycelowana precyzyjnie w dolegliwości… Powstanie też szereg innych, niemożliwych jeszcze do przewidzenia zastosowań.

Oczywiście, jeszcze długa droga przed nami. Dwie trzecie białek to nie trzy trzecie. Dziewięćdziesiąt procent to nie sto procent. Ale to kolejny krok by genetyka stała się technologią informatyczną. A wtedy będzie mieć potencjał do wykładniczego rozwoju. Zastosowania będą niemal nieograniczone.

Jeśli jeszcze jej nie znacie, to warto zapamiętać nazwę firmy DeepMind, która stworzyła AlphaFold. Wcześniej to oni stworzyli AlphaGo, który pokonał najlepszego gracza w Go. Na sieciach neuronowych się nie znam, ale spece mówią, że AlphaFold 2 opiera się na “Transformersach”, które kilka lat temu odmieniły tą dziedzinę. Udało mi się tylko dowiedzieć, że dzięki nim programy nie operują na danych sekwencyjnie (od początku do końca) tylko mocno równolegle. To na pewno pomaga, biorąc pod uwagę, że możliwości złożeń białek jest więcej niż atomów w widzialnym wszechświecie i ciężko byłoby je analizować po kolei.



1 - Jako ciekawostkę mogę powiedzieć, że czytałem wczesne wersje “Edge of tomorrow”, “Source Code”, “Carnival Row”, “Interstellar”, “Arrival”, “Transcendence” i “Lockout”. Większość sprawdzała się lepiej lub ciekawiej na papierze.

Źródła, a może raczej materiały uzupełniające:
The protein folding problem - Ken Dill (warto obejrzeć, film sprzed siedmiu lat)
Genetic Engineering Will Change Everything
DeepMind solves protein folding | AlphaFold 2
Wpis Konrada Klepackiego
Neuralink zmieni wszystko
Wyniki CASP 2020
‘It will change everything’ - artykuł w Nature


3 komentarze: