AutoDock4 kullanılarak Moleküler Docking Çalışması

Molecular Docking, Newton dinamiklerini, termodinamiksel ve kimyasal hesaplamaları kullanarak iki molekülün (Reseptör-Ligand) kimyasal ve fiziksel özelliklerine bağlı olarak oluşturabileceği en stabil yapıyı bulabilmek için, yapısal biyoloji alanında çok sık kullanılan bir yöntemdir. Moleküler Kenetlenme, hücre içinde bulunan komplekslerin (protein-protein, protein-ligand protein-antibody) anlık bir görüntüsünü bilgisayar ortamında oluşturup inceleyebilmemize olanak sağlar. Bu çalışmalar ise ilaç geliştirme çalışmalarından bir proteinin mekanizmasının anlaşılabilmesine, yeni bir ilaç adayı molekülün bulunmasına kadar birçok alanda bize bilgi sağlamaktadır. Ligand kimyası (iyonizasyon ve yapısal farklılıklar), Reseptörün esnekliği, proteinin kompleks oluştururken içinde bulunabileceği farklı konformasyonlar ve docking programlarının hesaplamada kullandığı farklı skorlama yöntemlerinin yeterliliği ise molecular docking çalışmalarında karşılaşılan güncel sorunlardır, gün geçtikçe bu problemleri çözmek için yeni algoritmalar ve farklı metotlar geliştirilmekte ve molecular docking çalışmaları her geçen gün daha güvenilir sonuçlar vermektedir (Guedes et al., 2018).

Şimdi bir docking çalışması ile metodumuzu daha iyi anlamaya çalışalım!

AutoDock4.2 ile Docking Çalışması

Aşağıda yapacağım uygulamalı anlatımda genel olarak docking işleminin nasıl gerçekleştiği fazla detaya girmeden genel hatları ile anlatmaya çalışacağım. Detaylı bilgileri merak edecek olanlar için aralıklarla linkler bırakacağım, bu linklerden makalelere gidip detaylı okumalar yapabilirsiniz.

Öncelikle biraz kullanacağımız programdan bahsedelim. AutoDock4 yaygın olarak kullanılan, Linux ve Windows gibi OS’larda çalışabilen ücretsiz bir şekilde indirip kullanabileceğiniz bir docking programıdır. AutoDock4 deneysel (experimental) ve bilgi temelli (knowladge-based) hibrit bir skor fonksiyonu kullanmaktadır. Bu hibrit fonksiyon sayesinde Autodock4, ligandların in-vitro bağlanlanma enerjilerine yakın değerler vermektedir.

AutoDock4.2 Skor Fonksiyonu (Hill & Reilly, 2015);

ΔGbinding = ΔGvdW + ΔGelec + ΔGhbond + ΔGdesolv + ΔGtors

ΔGvdW = 12-6 Lennard-Jones potential (with 0.5 Å smoothing)

ΔGelec = with Solmajer & Mehler distance-dependent dielectric

ΔGhbond = 12-10 H-bonding Potential with Goodford Directionality

ΔGdesolv = Charge-dependent variant of Stouten Pairwise Atomic Solvation Parameters

ΔGtors = Number of rotatable bonds

Program yukarıdaki metotlardan gelen deneysel ve teorik değerleri kullanarak protein ve ligandın atomlarının aralarında yaptığı etkileşimlere enerji olarak değerler verip, kompleks hakkında anlamlı sonuçlar çıkartmamıza yardımcı oluyor. 

Şimdi az çok programın nasıl çalıştığı anladıysak uygulamalı bir örneğe geçelim.

Histon Deasetilaz 6 (HDAC6) – Quisinostat

Quisinostat hala deneysel aşamada olan bir HDAC6 inhibitörüdür. Bu çalışmada daha önce ΔG binding ve Ki değeri deneysel olarak hesaplanmış ve Ki = 16.9nM olarak bulunmuştur (Carrillo et al., 2015). Bizde Autodock4 kullanarak bu değere yakın bir sonuç bularak deneysel olarak bulunan değere yakın bir değer bulmaya çalışacağız.

Protein ve Ligandın hazırlanması.

HDAC6 proteinini PDB:5EDU kodu ile Protein Data Bank (PDB)’dan, Quisinostat molekülünü ise pubchem adlı siteden sdf olarak indirebilirsiniz.

Protein ve Ligandın hazırlanması için çeşitli programlar kullanılabilir, bu çalışmada Laboratuvarımızda kullandığımız Biovia Discovery Studio 2016 programını kullanacağız. Bu program çeşitli protokoller için lisans gerektiren bir programdır ama aynı işlemleri Chimera veya PyMol ile de yapabilirsiniz.

Protein ve ligand hazırlamak için neler yapılmalıdır?

PDB’den indireceğimiz yapılar genellikle X-ray kristolografi yapıları oluyor ve bu yapılardan 3D yapı oluşturulurken loop veya proteinin diğer bölgelerinden eksik kısımlar, kristalleştirme sırasında kullanılan proteine ait olmayan moleküller gibi docking işlemi esnasında istemeyeceğimiz, sonucumuzu olumsuz etkileyecek yapıları tamamlamak veya temizlemek için proteini hazırlamamız gerekiyor. Bu işlem sırasında;

  1. Proteinin yapısına dahil olmayan moleküller siliniyor
  2. Side-Chain grupları optimize ediliyor
  3. Su molekülleri siliniyor
  4. Eksik loop ve diğer bölgeler tamamlanıyor.
  5. Proteinin fizyolojik koşullarda bulunduğu pH değerine göre side chainler protone ediliyor.

Ligand molekülünü hazırlamak için liganda göre farklı değişikliklerde yapılabileceği gibi, genel olarak protein ile aynı pH değerinde molekülü protone etmek yeterli olacaktır. Eğer bu işlemleri yapacak programa ve imkanlara herhangi bir sebepten erişme imkânınız yok ise buradaki linkten benim hazırladığım ve dockingde kullandığım hazırlanmış protein ve molekülü de indirebilirsiniz.

Bu iki molekülü hazırladıktan sonra bu moleküllerin AutoDock4 programında tanınması için PDB veya diğer desteklenen formatlardan kaydetmemiz gerekiyor.

Proteini ve ligandımızı hazırladığımıza göre şimdi ligand molekülümüzü nereye dock ediceğimizi tespit etmemiz gerekiyor. Bunun için daha önce yayınlanmış makalelerden araştırma yapabilirsiniz ya da kristal yapı oluşturulurken kullanınan (5EDU için) proteinin aktif bölgesinde bulunan TRICHOSTATIN A molekülünün ağırlık merkezini veya aktif side kısmında bulunan ve mekanizma için çok önemli olan Zn+2 atomuna yakın bir bölge seçebilirsiniz.

AutoDock4 ve Docking İşlemleri

AutoDock4 programının docking işlemleri için bazı parametre dosyalarına ihtiyacı vardır. Bu dosyaları oluşturmak için yine AutoDock programını geliştiren grup tarafından geliştirilen ADT (Autodock Tools) programını indirmemiz gerekiyor. Bu programı AutoDock4 (docking için) ve Autogrid4 (grid parametrelerini) hazırlamak için kullanacağız. Programları buradan indirebilirsiniz ve kurulumları için talimatları yine aynı siteden bulabilirsiniz.

Şimdi sırası ile Autodock Tools kullanarak gerekli dosyaları hazırlayalım.

1) Protein ve Ligandın Yüklenmesi

Figür 1. Ligandın yüklenmesi.

Programı açıp “Ligand –> Input -> Open ->” kısmında ligandımızı pdb olarak seçelim. Bu seçimi onayladıktan sonra program ligand hakkında ekrana bazı bilgiler vericek. Ardından ligandımızı yine aynı sekmedeki output seçeneği ile pdbqt olarak kaydedelim.

Proteinimizi programa yüklemek için “Grid -> Macromolecule -> Open ->” kısmından aynı şekilde proteinimizi pdb formatinda seçelim ve yine output seçeneğini kullanarak pdbqt olarak yazdıralım. Burada HDAC6 açısından dikkat etmemiz gereken bir durum oluştu, program aynı şekilde kaydettikten sonra ekrana bazı uyarılar veriyor ve bağlanma bölesinde kofaktör olan Zinc (çinko) atomunu değersiz olarak kaydediyor fakat HDAC6 içerisinde bu atomun +2 değerlik aldığını biliyoruz. Bu durumda pdbqt klasörüne giderek zinc atomunun değerliğini +2 ile manuel olarak değiştirmemiz gerekiyor.

2) Grid Parametre Dosyalarının Hazırlanması.

Figür 2. Grid Box oluşturulması.

“Grid -> Set Map Types -> Chose Ligand” kısmından ligandı seçtiğimizi belirtiyoruz, ardından “Grid -> GridBox” seçimini yaparak ekrana gelen “grip options” kısmından tekrar “Chose Ligand” seçimini yaparak gireceğimiz koordinatların ligand için geçerli olduğunu belirtiyoruz. Daha sonra x, y, z koordinatlarına, kristal yapıdaki TRICHOSTATIN A molekülünün ağırlık merkezi olarak belirlediğimiz koordinatları yazıyoruz. Burada dikkat etmemiz gereken bir diğer husus ise grid box dediğimiz Figür 2’de mavi ve kırmızı ile görülebilen 3 boyutlu yapının ligandın sığabileceği boyutlarda olması. Bu yapının fazla büyük ya da fazla küçük olması docking sonuçlarınızı etkileyecektir. Docking esnasında ligand bu kutu içerisinde pozisyon aramaktadır ve eğer fazla büyük, fazla küçük veya yanlış yerde belirlenirse sonuçlarınız maalesef olumsuz etkilenecektir. Bu işlemde yapıldıktan sonra “File -> Close Saving Current” seçimi yaparak .gpf (grid parameter file) dosyanızı ligand ve proteinin bulunduğu dosyaya kaydetmeniz gerekiyor.

3) Docking Parametre Dosyalarının Hazırlanması

Figür 3. dpf (Docking Paremeter File) dosyası için ligand ve proteinin belirtilmesi.

“Docking -> Macromolecule -> Set Rigid Filename” sekmelerinden makro molekülümüzü yani proteinimizi seçiyoruz ve bu seçim aynı zamanda docking esnasında proteinimizi sabitlemeye yarıyor peki neden proteini sabitliyoruz (Figüre 3)? Program çalışırken her bir adımda ligand molekülündeki hareket edebilecek, moleküle esneklik sağlayan ve belli açılara kadar esneyebilen noktalar program tarafından önceden tanımlanmıştır. Program bu noktaları farklı şekillerde, belli açılar içerisinde çevirerek ligand için proteinin içerisinde yeni pozisyonlar arar ve bu pozisyonlar için enerji hesaplamaları yapar. Bundan dolayı bir ligandta bu noktalardan ne kadar çok olursa docking işlemi o kadar uzun sürer. Ligandların aksine proteinde bu noktalardan yüzlerce sayıda olabilir. Bu yüzden zamandan kazanmak ve hesaplama yükünü azaltmak için ligand serbest, protein ise sabit bırakılır. Şimdi iste “Docking -> Ligand -> Chose Ligand” seçeneği ile ligandımızı seçiyoruz.

Figür 4. Lamarkian Genetik algoritma değerleri.

Ligandımızın ve proteinimizin docking esnasında nasıl davranacağını program da belirledikten sonra şimdi docking için bir genetik algoritma belirlemeliyiz. Docking işlemini daha iyi gerçekleştirebilmek ve optimum bağlanma modunu bulabilmek için birçok genetik algoritma geliştirilmiştir. Bu uygulamada Lamarckian Genetik algoritmasını kullanacağız. Genetik algoritma ile ilgili detaylı bilgileri ve Figür 4’teki seçeneklerin ne ifade ettiğini öğrenmek için buradaki makaleyi okuyabilirsiniz. Genetik algoritmayı seçip “accept” diyerek devam ettiğimizde program bize bir .dpf (docking parameter file) oluşturuyor. Bu dosyanın içinde şu ana kadar yaptığımız seçimlerin programın okuyabileceği bir formatta çıktısı var. Bu dosyayı da oluşturduğumuz diğer dosyaların içine kaydediyoruz.

4) Terminalden Docking işleminin başlatılması

Figür 5. Autogrid4 kullanılarak map dosyalarının oluşturulması.
Figür 6. Autodock kullanılarak docking işleminin başlatılması.

pf ve dpf dosyalarımızı oluşturduğumuza göre Autodock Tools uygulamasını artık kapatabiliriz. Şimdi bu dosyaları kaydettiğimiz dosyada bir terminal açıp, autogrid4 komutunu Figür 5’teki gibi çalıştırıyoruz. Autogrid bize map dosyalarını oluşturuyor bu dosyalar docking esnasında bize gereken dosyalar. Ardından Figür 6’da olduğu gibi şekilde Autodock komutunu çalıştırıyoruz.

Bu işlemden sonra Docking başlamış oluyor, yeni bir terminalde “top” yazarak işlemin çalışma durumunu takip edebilirsiniz.

5) Sonuçlar

Figür 7. result.dlg dosya içeriği.

İşlem tamamlanınca çalıştığımız klasörün içinde bir .dlg dosyası oluşturuluyor. Bu dosyada docking sonuçlarımız mevcut. Bütün sonuçları enerji cinsinden görmek isterseniz “CLUSTERING HISTOGRAM” başlığı altında bir tabloda bu değerleri görebilirsiniz. Daha detaylı sonuçları için dosyanın alt kısımlarına doğru “LOWEST ENERGY DOCKED CONFORMATION from EACH CLUSTER” olarak hazırlanmış bir kısım var burada karşımıza ilk gelen sonuç programın oluşturduğu protein-ligand kompleksleri içerisinde en düşük enerjiye sahip olan komplekse ait. Burada ΔG ve Ki değerlerini görebiliriz. Yazımızın başında deneysel olarak hesaplanan Ki değerini16.9 nM olarak söylemiştik biz ise burada 89.68 nM olarak bulduk, nanomolar seviyesinde bu değerler yaklaşık değerler olarak kabul edilebilir. Daha detaylı karşılaştırmak için bağlanma enerjilerine de bakabiliriz.

Enerjileri karşılaştırmak için Ki den ΔG’ye geçmemiz gerekiyor, bunun için kullanacağımız formül;

ΔG = -RTlnKi

Bu formülde R = 0.008314 kJ mol-1 K-1 ve T = 298,15 K değerlerini yerleştirirsek deneysel olarak gerçekleştirilen bağlanma enerjisini -7.02 kcal/mol olarak buluyoruz, bizim ise Autodock ile bulduğumuz sonuç -9.61 kcal/mol.

Autodock4 kullanarak deneysel olarak çıkan sonuca yaklaşık bir değer bulduğumuzu söyleyebiliriz. Şunu da unutmayalım bu işlemin laboratuvarda yapılması bir, bir buçuk saat sürmekte ve harcanan malzemeler (enzim, molekül ve assay kitleri) de cabası, biz bu değere yaklaşık bir değeri yaklaşık 5 dakika içerisinde bulabiliyoruz ve bu sadece bir molekül için. Docking çalışmalarının gün geçtikçe daha fazla tercih edilmesinde ki bir nedende bu. Bizler, bilgisayar destekli ilaç tasarımı ile uğraşan insanlar bu yöntem ile bir günde on binlerce molekülü bilgisayar ortamında tarayıp sonuç çıkartabiliyoruz ve bunu yaparken deneysel sonuçlara yakın değerlerde buluyoruz.

Bu konu ile ilgili öğrenilecek daha çok fazla detay ve öğrenilecek çok fazla şey var sizlere bildiğim kadarı ve elimden geldiğince anlatmaya çalıştım, Umarım bu yazı sizler için bilgilendirici olmuştur. Çalışmaya devam! 🙂

Referanslar

  1. Carrillo, A. K., Guiguemde, W. A., & Guy, R. K. (2015). Evaluation of histone deacetylase inhibitors (HDACi) as therapeutic leads for human African trypanosomiasis (HAT). Bioorganic & Medicinal Chemistry, 23(16), 5151–5155. https://doi.org/10.1016/j.bmc.2014.12.066
  2. Guedes, I. A., Pereira, F. S. S., & Dardenne, L. E. (2018). Empirical Scoring Functions for Structure-Based Virtual Screening: Applications, Critical Aspects, and Challenges. Frontiers in Pharmacology, 9. https://doi.org/10.3389/fphar.2018.01089
  3. Hill, A. D., & Reilly, P. J. (2015). Scoring Functions for AutoDock (pp. 467–474). https://doi.org/10.1007/978-1-4939-2343-4_27

Zarf Atmadan Ortalama İfade Mitine: Omik Alanının Çok Kısa Evrimi ve Tek Hücre Yöntemlerin Doğuşu

Açı/Görüş

“Gestalt: something that is made of many parts and yet is somehow more than or different from the combination of its parts”(0)- bir şey pek çok parçadan oluşsa da bütünün kendisi, bu parçaların birleşiminden fazlasını ifade eder.

https://www.merriam-webster.com/dictionary/gestalt

“Genomics, trancriptomics, proteomics, metabolomics…”, fakat nedir bu “-omics”?

Aslında bir alana dair bütünlüğü ifade eden bir kelime olarak kullanılan “omik(-omics)”in biyoloji literatüründe ilk kullanımları bir nevi “zarf atma (fishing expeditions)”(1) olarak adlandırılmıştır. Bir sonuca varmak için birbiriyle bağlantılı bir sürü olasılığın üzerinden yola çıktığınızı düşünürseniz, haklılık payı vardır.

Verilerle Doğan Yeni İhtiyaçlar

Maslow’un eğer bir biyolojik bilimler ihtiyaç piramidi olsaydı, en altta, merakla beraber bir kuşku ve soru gelirdi zannediyorum. Sonra hipotez, sonra veri, arada bir yerde teknik ve kapasite. Verilerle biriktikçe gelen ve geri dönütünü Mandelbrot seti gibi çoğalarak yapan ve kapsama alanı dışına çıkmayı hedefleyen ve aynı zamanda o alanı genişleten yepyeni cevaplar ve sorular piramitleri onu takip edebilirdi.

Çoklu tekniklerin gelişimi ile beraber, ve tabiki ona uygun istatistiksel methodlar, -omik temelli alanlara da bakış açısı değişmeye başlamıştır. Bir genin fonksiyonunu anlamak için sadece seçilen gen bağlamında kalan yöntemlerle, bütünü görmek o kadar kolay olmayabilirdi. Kaldı ki bazen bütünün kendisi, onu oluşturan parçaların birleşiminden büyük olabilirdi ki “kişiselleştirilmiş tıp (precision medicine)”ın doğumu da işte Gestalt-vari bu bakış açısını yansıtmaktadır demek yanlış olmaz sanırım.

Bir örnekle, İnsan Genom Projesi (Human Genome Project) tamamlanmaya yakın, fonksiyonel/işlevsel genomik (functional genomics) de ayrıca önem kazanmaya başlamıştır (2). İşlevsel genomik için temel felsefe olarak,bir genin/proteinin işlevini anlamak için, bütün genleri/proteinleri sistematik bir bakış açısı ile almak denilebilir.

Ve array(3) ile başlayıp sekanslama(4) teknikleri ile devam eden süreçte, bilgi birikimi de arttı ki burada eşlik eden bilgisayarların işlem gücü, kapasitesi, vs.den bunu bağımsız düşünmek imkansız. Öte yandan, bu koca bilgi yığını, bazı cevaplar verse de yepyeni soruları da beraberinde getirdi. Yeni cevaplar, yeni sorular, yeni teknikler, yeni cevaplar, yeni sorular… ve yeni alt alanlar… ve yeni sorular, yeni cevaplar…

Figür 1: 1 Ekim itibari ile “sequencing*” başlığı altında yayımlanan yıl başına düşen makale sayısı (Scopus). Hali hazırda İnsan Genom Projesinden sonra hızla gelişen tekniklerle beraber gelen dramatik artışı görmek mümkün. k=1000

Toplu mu Tek Tek mi?

Peki, ortalamaya dayanan bu teknikler ne kadar gerçeği yansıtıyordu? Yoksa, toplu sekanslama (bulk sequencing) yaklaşımları, bazı gerçekleri kaçırmaya mı neden oluyordu? “Ortalama hücre” sadece bir mit miydi (5)?

Bir toplumda her ne kadar aynı bölgede yaşayan her birey nasıl aynı olmayacaksa, aynı bölgeden alınan küme küme hücrenin ortalamasına dayalı yöntemlerde de bireysel farklılıkları yakalamak mümkün olmayacaktır. Bu da beraberinde tek hücre methodlarını (mesela tek hücre sekanslama,(6)) beraberinde getirmiştir.

Bir örnekle, gelişime genetiğine dair bazı ipuçlarını ve değişimleri tek hücre düzeyinde yakalamak, bağlı hastalıkları ya da yaşlanmaya ve buna çözüme dair yepyeni ipuçları saklayabilir. Veyahut eğer kansere sebep olan koskoca hücre topluluğu içinde belli bir alt küme ise, sadece bu kümeyi hedef alacak bir çözüm, belki daha isabetli bir yaklaşım olacaktır.Ya da sağlam kalmayı başaran ve etkilenmeyen diğer alt gruplar, yeni bir yaklaşım sunacaktır.

Figür 2: 1 Ekim itibari ile “single cell*” AND “sequencing*” başlığı altında yayımlanan yıl başına düşen makale sayısı (Scopus). Sahneye ilk 2011 yılında çıkan çoklu (transcript-wise and cell-wise high throughput) tek hücre methodları hala erken gelişim sürecinde ve buna rağmen son yıllardaki ilgili artışı gözden kaçırmak imkansız.

Öte yandan, bu kadar bilgiyi, teknoloji ile hesaplamalı biyoloji ve biyoenformatiğin gelişimine borçluyuz. Fakat algoritmaların “ön yargıları”ndan da hala uzak değiliz. Bu karmaşadan yeni aydınlıkları, yeni mitler (mesela gerçekten tek hücre bir çözüm mü sunuyor yoksa yeni bir mit mi?) ve yeni arayışları yaratmak için geniş ufuklar, ve farklı bakış açılarına ihtiyaç bulunmaktadır.

Referanslar:

0- Definition of GESTALT. (n.d.). Retrieved October 2, 2020, from https://www.merriam-webster.com/dictionary/gestalt

1- Weinstein, J. N. (1998). Fishing Expeditions. Science, 282(5389), 627–627. https://doi.org/10.1126/science.282.5389.627g

2- Hieter, P., & Boguski, M. (1997). Functional Genomics: It’s All How You Read It. Science, 278(5338), 601–602. https://doi.org/10.1126/science.278.5338.601

3- Lockhart, D. J., & Winzeler, E. A. (2000). Genomics, gene expression and DNA arrays. Nature, 405(6788), 827–836. https://doi.org/10.1038/35015701

4- Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: A revolutionary tool for transcriptomics. Nature Reviews. Genetics, 10(1), 57–63. https://doi.org/10.1038/nrg2484

5- Levsky, J. M., & Singer, R. H. (2003). Gene expression and the myth of the average cell. Trends in Cell Biology, 13(1), 4–6. https://doi.org/10.1016/S0962-8924(02)00002-8

6- Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N, et al. (May 2009). “mRNA-Seq whole-transcriptome analysis of a single cell”. Nature Methods. 6 (5): 377–82. doi:10.1038/NMETH.1315.

Örneklerle Primer Dizaynı

Covid19 ile hiç duymamış olanların bile öğrendiği bir lab tekniği olan, moleküler bioyolojide yeni bir devir açan Nobelli teknik PCR (Polymerase Chain Reaction)’dan esinlenen bir method olarak kullandığımız qPCR (quantitative PCR)’ın temelinde iyi bir primer dizaynının yattığını söylemek yanlış olmaz sanırım. Kısaca, hedeflediğiniz sekansı çoğaltmak için baştan ve sondan 15-25 nucleotid dizisi uzunluğundaki “primer”leri polimeraz enzimi için başlangıç dizisi olarak kullanıyoruz.

Bir labda çalışmaya başladıktan sonra belki ilk biyoenformatik deneyiminizi gerçekleştirmenizi sağlayan NCBI-BLAST’tır. Peki, bu yoğun bilgi taşıyan siteden nasıl amaçladığımız bilgi ile çıkacağız?

Lablarda sıkça kullandığımız qPCR gibi teknikler için primer dizaynına dair bazı püf noktaları sizlerle paylaşacağım.

NCBI ile hedef genimizle ilgili detaylara ulaşma

NCBI ana sayfaya gittkten sonra “Search” (Arama) kutucuğuna genimizin ismini yazarak (ACTB genini örnek seçtim), “Gene” sekmesi altında aratıyoruz.

Figür 1: NCBI ana sayfaya gittkten sonra “Search” (Arama) kutucuğuna genimizin ismini yazarak (ACTB genini örnek seçtim), “Gene” sekmesi altında aratıyoruz.

Daha sonra karşımıza bir süre seçenek çıkıyor. Bunlar aslında diğer canlılarda insandaki bu genin karşılığı olanlar (ortholog) ya da varsa eski bir zaman diliminde ikilenmiş (duplication) ve belki sadece sekans değil işlev (function) olarak da farklılaşmış insandaki benzer genler (paralog)a sizleri yönlendiren bir sayfa bu (neyden bahsediliyor diyenler için link).

Figür 2: İnsan ACTB geni ile ilgilendiğimiz için homo sapiens ACTB ile devam edeceğiz.

Burada ilgili genle ilgili pek çok bilgiye erişmeniz mümkün. Exonic intronic bölgeler, genin bulunduğu kromozom, tam lokasyonu, Expression kısmında hangi dokularda ifade olduğunu, veyahut hangi fenotiple ilişki içinde olduğunu, tek nüklotit varyantlarını (SNPs), vs. pek çok detayını öğrenmek mümkün (bu noktada bir diğer alternatif UCSC Genome Browser olacaktır).

Figür 3: Tam lokasyon ve hangi kromozom.

Biraz daha aşağı inerseniz, bu genin tüm transcriptlerini (buradan ifade olunan RNAlar) görebilirsiniz.

Figür 4: Bu genle ilişkili bir transcript var. Şimdi üzerine tıklayıp ona gideceğiz.

Şimdi ilgili genle ilgili mRNAnın detaylarına aslında NCBI-Gene yerine NCBI-Nucleotide kısmından da erişilebilir olduğunu göreceksiniz.

Figür 5: mRNA ile ilgili detaylar. Aşağı kaydırırsanız CDS (Coding Sequence/Rergion)la ilgili detaylı bilgi edinebilirsiniz.

Burada önümüze iki seçenek çıkıyor. Birinci sağdaki pembe kutu ile gösterilen Pick Primers seçeneği ile Primer-BLAST‘a yönlenip oradan primer dizayn etmek, ikincisi ise sol üst köşedeki kahverengi kutudaki FASTA seçeneğine tıklayıp, ATCG harflerinden oluşan sekansı kopyala yapıştır yaparak başka primer dizayn araçlarını da denemek (mesela Primer3). Her ikisini de deneyeceğiz.

Primer-BLAST

Pick Primer dedikten sonra sizi şöyle bir sayfaya yönlendirecek:

Figür 6: Primer Blast, primer dizayn online aracı. Primer kriter seçimi.

Buradan sonra primerinizle ilgili bazı değerleri değiştirebiliriniz. Sağ yanlarındaki soru işaretine tıklayarak, her bölmenin hangi değişken için olduğunu detaylı bir şekilde öğrenebilirsiniz. Biz şimdi kısaca birkaç tanesini ele alacağız.

PCR product size ile tam olarak pcrda çoğaltmak istediğiniz hedefin uzunluğunu kısıtlayabilirsiniz. Bu noktada, qPCR’da kullandığımız SYBR-Green vs.nin en fazla 500bp hedef uzunluğu olmasına rağmen, 100-200 arası bir hedef ile optimumu olduğunu unutmamanızı öneririm.

Turuncu karedeki özellikle, aradığınız özelliklere uygun primer sayısını sınırlayabilirsiniz. Mesela, bana sadece ilk 10 tanesini göster gibi.

Mavi karedeki özellikle de primerinizin erime sıcaklığı /Tm) özelliklerini seçebilirsiniz. Tm en düşük 57, en fazla 63 olan ve aralarında en fazla 3 derece erime sıcaklığı farkı bulunan primerleri seçmek istiyorum gibi.

Yeşil karedeki özellikle de aradığınız primerin rastgele bir gen bölgesini mi yoksa exon-exon birleşimini hedef seçmek istediğinizi seçebiliyorsunuz. Amacınıza göre değişmekle beraber, eğer hiç bilmeden bu işe giriyorsanız, direk exon-exon tarayan seçeneğini seçmenizi öneririm (detaylı bilgi).

Kahverengi karedeki “submit” seçeneği ile ne olacağını görebilirsiniz. Burada “show results in a separate window” ile ayrı bir pencerede işleminizi gerçekleştirip, değişiklik için parametre değiştirme penceresini olduğu yerde bırakabilirsiniz.

Eğer ki daha fazla parametre ile ilgili bilgi sahibi iseniz, submit butonu aşağısındaki “advanced parameters” seçeneği ile diğer seçenekleri de düzenlemek mümkün.

Figür 7: İleri parametreler, primer algortiması değişimi, GC içeriği, vs.

İleri parametrelerde de özellikle “primer size”(primer uzunluğu) ve primer sekansı içerisindeki GC miktarı (yüzde olarak) (“Primer GC content), size göre optimize etmek mümkün. (Ben bu noktada GC için 40-60, primer çifti uzunluğu için de 18-20-23 seçeneği tercih ettim. GC-AT farklılığı bağ sayısına bağlı olarak primerlerin verimliliğini değiştirebilir.)

Submit ettikten sonra, şu şekilde biraz bekleyeceğiz.

Figür 8: Submit ettikten sonra, işlem için beklerken.

Evet, daha sonra çıkan sayfada, primerinizin tam olarak nereyi çoğaltacağını ve diğer özelliklerini (bağlanma sıcaklığı, kendi kendine birleşiyor mu, diğer primerle birleşiyor mu vs. gibi) bulacaksınız.

Figür 9: Primer dizayn algoritması açlıştıktan sonra önerilen primerleri görselleyen grafik.

Siyah kutucuklar, adı üstünde exonlar. Sarı, içi boş kutucuk da exon-exon bölgesini tarayan bölgelerden birini gösteriyor. Kırmızı kısım, protein-kodlayan kısmını. Aşağısındaki iki küçük mavi çizgi de primer dizayn aracının verdiğimiz kritere göre bulduğu iki çeşit primer çiftinin çoğalttığı hedef bölgesini. Öte yandan, transcriptin sonunu hedeflemek istemiyoruz. Çünkü rnalar bozunuma uğruyor (degredation). Bu da özellikle 3′ (sağ uç) sonu etkiliyor. 5′ (sol uç) ise bi tık daha güvenli. O yüzden primerlerimiz biraz daha sol uca yakın olsa daha iyi olabilirdi.

Primer çiftlerimizin ikisi de şimdilik kriterlere uygun gözükse de bakalım gerçekten aradığımız gibi mi?

Figür 10: Detaylı primer çitfi raporu.

Primer çifti raporun baktığımızda görüyoruz ki primerin çoğaltacağı hedef uzunluğu 162 ile ideal sınırlar içerisinde (100-200). Exon-exon birleşim bölgesinde. Primer uzunlukları da ideal: 19 ve 20. Tm de 60<= civarı. GC içeriği de (çünkü AT, GC oranı benzer olmasa bu da bağlanmadan kaynaklı farklılıklar oluşturabilir) 40-60% aralığında. Biraz kendi kendine (self-complementarity), bağlanma ihtimali var (istenmeyen primer dimers), ama o da kabul edilebilir oranda diyebiliriz. Ancak, aşağıda tüm varyantlar dahil diğer olası hedefleri gösteren (mesela başka bir transcripti hedef alıyorsa, actb yerine, bu sefer çıkan sonuçtaki miktarın o gene ait olup olmaycağını bimediğimiz için sıkıntılı bir durum.) bir liste var primer çiftleri için.

Ve maalesef hedef dışı transcriptler görüyoruz, bu primer çiftleri ile çoğalabilecek. Bunu, in silico PCR ile doğrularsak eğer, bu durumda bu primer çiftleri, maalesef uygun olmayacak. Yeniden dizayn etmemiz gerekecek. Bu durumda ya kendiniz dizayn edebilirsiniz ki bu aşırı yorucu bir süreç, ya da alternatif diğer araçları (benim favorim primer3) kullanabilirsiniz.

Primer3

Sizi primer3′de şöyle bir sayfa karşılayacak, burada sarı okla gösterdiğim bölgeye NCBI’dan kopyala yapıştır ile mRNA FASTA sekansı yapıştırın:

Figür 11: Primer 3 giriş, mRNA fasta sekansı yapıştırma (en üstteki task olarak generic seçiyorum).

Ve tabiki burada da primer uzunluğu (primer size), hedef uzunluğu (target size), GC %, minimum-maximum Tm değerleri gibi değiştirebileceğiniz faktörler var. Biraz aşağı inerseniz aynı sayfada, şunları görebilirsiniz:

Figür 12: Genel Primer Seçim Kriterleri. Turuncu kutucuk, primer uzunluğu; sarı kutucuk, primer Tm; yeşil kutucuk, GC oranı; kırmızı kutucuk, kaç tane aday versin algoritma bize.

Seçimlerinizi yaptıktan sonra “pick primers” e basarsanız, şöyle bir sonuç alacaksınız:

Figür 13: Primer 3 sonuçları

Sarı kutuda ilk primer çitfinin detayları ve kırmızı kutuda, hangi bölgesini hedeflediğini gösteriyor.

Aşağı indiğiniz takdirde ise alternatif 9 aday primer çifti daha görebiliyorsunuz.

Figür 14: Max return seçeneği ile sayısını belirlediğimiz 9 alternatif primer çifti.

Daha önce sol uca yakın seçmek istediğim için, 100-200 aralığındaki 2. alternatif dikkatimi çekti (ancak 1. ve 8.yi de alternatif olarak deneyeceğim eğer 2de arzuladığım sonucu alamazsam). In silico PCR ile tam olarak doğru olup olmadığını tespit edeceğim. (Bu arada diğer parametre seçenekleriyle ilgili bilgilere, mavi renkli başlıklarına tıklayarak ulaşabilirsiniz.)

In silico PCR

qPCR yapıp bir sürü materyali kullanmadan önce, programların dizayn ettiği primer çiftlerinin gerçekten hedefimizi mi yoksa başka bir şeyleri mi çoğalttığını görmek istiyoruz.

Figür 15: UCSC In Silico PCR aracı seçim sayfası.

Öte yandan exon-exon bağlantısı tarıyor seçeneğini primer3’de seçememiştik. Burada konfirme edeceğiz. Eğer arada en az bir intron varsa, ve yaptığımız PCRdaki hedeften daha uzun bir sonuç elde etti isek (agarose jelde yürüterek tespit edebilirsiniz), bunun sebebinin bir dna kontaminasyonu olduğunu tahmin edebiliriz (teoride transcriptte intron beklemiyoruz). Kısacası, PCR tüm çabalara rağmen çalışmadığı takdirde, bunun sebebine dair bize ipucu sunabilir. Öte yandan, eğer ki başka hedefleri de çoğaltıyorsa (multiple targets), bu durumda bunu UCSC’un in silico pcr ile dry-lab (bilgisayar üzerinden) görmek mümkün.

Figür 16: In Silico PCR aracı, görünüm.

Hangi canlı genomundasa ilgili transcript, onu seçiyoruz. Sonra en son (latest) “assembly” yi seçiyoruz. Seçilen baş ve son uç primer çiftimizi kopyala yapıştır yapıyoruz.

Figür 17: In Slico PCR sonucu.

In silico PCR sonucunda gördük ki hedefimiz 7. kromozomda, ACTB genimizin bulunduğu lokasyonda bir yerleri çoğaltıyor. Ve tek hedefi var. Üstelik, arada en az bir intron var (exon-exon taradığına emin olduk), çünkü qPCR hedefimizin gittiği gende taradığı bölge hedefin kendisinden uzun (182 vs. 632).

Referans Gen

qPCR’ı gen ifadesini ölçmek için yaptık. Öte yandan, hedef genlerimizin yanı sıra, örneklerdeki gen ifadelerindeki farklılığın gerçekten bizim değiştirdiğimiz durumdan ötürü (mutasyon, bir ilaç vs. olabilir bu) mü yoksa aslında bazı teknik hatalardan (örnekleri eşit miktarda koymamak vs.) mı kaynaklandığını görmek için referans gen/mRNA adı verilen (reference or housekeeping) başka genleri/mRNAları de kontrol ederiz.

Burada dikkat edilmesi gereken unsur, bu seçilen referansın, her dokuda ve her durumda, etkilenmeden aynı derecelerde ifade olmasıdır.

Bu sebeple eskiden beri Actin ve GAPDH gibi genler referans seçilirdi. Ancak son yıllardaki çalışmalar gösterdi ki bu genler de o kadar sabit bir ifade profili sergilemiyor. Bu yüzden şimdilerde çalıştığınız durum için (çeşitli kanser türü ya da yaşlanma olabilir) en uygun referansı seçmek için literatürü sıkı bir takip öneririm.

Kanser türleri için tek tek referans gen için bir liste barındıran şu makale ile:

Conventionally used reference genes are not outstanding for normalization of gene expression in human cancer research (burada önerilenler: • HNRNPLPCBP1RER1)

bu konuda diğer ufuk açıcı bilgiler sunan bu makaleyi tavsiye ederim:

Human housekeeping genes, revisited

Kısa kısa qPCR sonuç hesaplama

(Daha önce hazırlamış olduğum örnek taslağı sizle de paylaşıyorum.)

qPCR sonuçlarını analiz ederken neyi görmek istiyoruz? Göreceli ifade edilmeyi (yani, A geni, B genine göre 10 kat artmış vs gibi) mi yoksa mutlak değerleri mi (A geni, şu kadar ifade edilmiş, B geni de bu kadar vs. gibi)? Öncelikle bunun ayrımını yapıyoruz. Göreceli ifade edilmede de yine kontrol genleri kullanıyoruz ki her bir geni birbiriyle kıyaslayabilelim.

qPCR ile veri analizinde, bir  2^(-𝚫CT), 2 üzeri delta Ct demek, methodu var bir de 2^(-𝚫𝚫CT), 2 üzeri delta delta Ct diye okunur, methodu var.

ÖrneklerReferans gen ve baktığımız hedef gen
CTb-actin (reference/housekeeping)CTgtg1l3
kontrol (sağlıklı)18.017.0
deney (hastalıklı)19.014..0
Tablo 1: Örnek qPCR sonucu elde edilen Ct değer tablosu
  1. method [2^(-𝚫𝚫CT)]

İlk önce hedef genimizi/gbtg1l3) referansa(b-actin) göre normalize ediyoruz. Daha sonra hasta Ct değerini sağlıklıya göre normalize ediyoruz. Sonra da ifade edilme oranını buluyoruz (fold-difference):

𝚫CT (sağlıklı) = 𝚫CT(gbgt1l3) – 𝚫CT(b-actin)

𝚫CT (sağlıklı) =  17-18 = -1.0

𝚫CT (hasta) = 𝚫CT(gbgt1l3) -𝚫CT (b-actin)

𝚫CT (hasta) = 14-19 = -5

𝚫𝚫CT= 𝚫CT(hasta) -𝚫CT(sağlıklı)

𝚫𝚫CT= -5 – (-1) = -4

2^(-𝚫𝚫CT)= Normalize edilmiş ifade = 2^(-4) = 16

Bu ne demek? Hastamızda gbgt1l3 geni 16 kat daha fazla ifade edilmiş (sağlıklıya göre).

         2.  method [2^(-𝚫CT)]

Burada da ilk önce  her bir örnek için(hasta vs. sağlıklı) ilgili genlerin (gbgt1l3 vs. bactin) göreceli ifade edilmesini hesaplıyoruz. Şöyle:

2^(𝚫CT of bactin – 𝚫CT  of gbgt1l3) = Göreceli ifadeyi burdan buluyoruz.

Sağlıklı için = 2^(𝚫CT of bactin – 𝚫CT  of gbgt1l3) = 2^(18-17) =21=2

Hasta için = 2^(𝚫CT of bactin – 𝚫CT  of gbgt1l3) =2^( 19-14) =25= 32

Sonra da bu ifadeye karşılık gelen ifade oranını hesaplıyoruz. Şöyle:

Sağlıklının ifadesi = sağlıklı/sağlıklı =2/2=1

Hastanın ifadesi = Hasta / sağlıklı = 32/2=16 kat artan bir gbgt1l3 ifadesi var.

Ekler

Dokularda gen ifadesi

Bu arada geniniz hangi dokularda daha çok ifade oluyor, hangi hastalıklarla ilgili vs. gibi bilgi edinmek isterseniz, kısa kısa GeneCards ve ExpressionAtlas‘tan istifade edebilirsiniz.

Primer Verim Hesabı

Bunlardan ayrı olarak bir de verimi hesaba katarak yaptığımız ölçümler var. Verimden kastım nedir? Bu primerler nasıl çalışıyor? Yani PCR’da ilgili genle eşleşen bu primerler, her cycle (döngü)da gerçekten iki katına çıkarıyor mu genimizi bilmiyoruz. Yukarıdaki metodlarda, iki katına çıkararak güzelce çalıştığını/ya da gbgt1l3 ve bactin primerlerinin aynı verimde çalıştığını varsaymış olduk. Ama öyle mi?Aslında her primeri, ne kadar iyi çalıştığı konusunda test etmemiz lazım. Bunu da elimizdeki primerleri değişik miktarlarda dilüe edilmiş cDNA’larla deneyerek (serial dilution) hesaplayabiliyoruz.

Neden dilüe ediyoruz? Şöyle ki eğer ben bu primerlerin karışımdaki oranını yarıya indirirsem ne olur? Benim primerlerimin miktarı da yarı yarıya düşecektir. Eğer ki 4 katı düşürürsem ne olur? Her seferinde ilgili karışım, treshold/sınır (Ct) değerine daha geç ulaşacak demektir. Ya da bunun tam tersini (artırmak) düşünebilirsiniz.

Sonra çıkan değerleri GraphPad/excel’e koyacağım ve yatay bir eğri/çizgi elde edeceğim. Bu ne demek? Böyle güzel bir çizgi, primerlerimin güzelce çalıştığının bir kanıtı.

R: correlation yani ilişkiyi gösterir. Burada ilişki değerinin +/-1’e yakın olması, primerlerin ilgili geni her döngüde (cycle) 2’ye katladığının kanıtıdır.

Neden log?

Çünkü

 log22 =1 

 log24=2 

 log21/2= -1

 log21/4=-2 

….

Yani, ikiye katlandığında bir fold-change alırsınız. Yarıya düşürdüğünüzde -1 fold-change olur. 2 katına çıktığınızda 2 fold-change olur.

Ya da seri dilüsyonda uyguladığınız metoda göre log10’i de kullanabilirsiniz.

Kısacası, katlanma:/azalma vs. gibi durumlar için belli bir aralıkta, düzgün (straight) bir ilişki (correlation/R) çizgisi elde edebilirsiniz.

Teşekkür

Yüksek lisansım boyunca üyesi olduğum ve bana her açıdan katkı sağlayan, değerli hocam Özlen Konu ve Konu Lab‘da en basit işlerden en komplex analizlere kadar bende emeği geçen çok kıymetli dostlarıma (özellikle Ayşe G. Keşküş, Said ve Seniye Targen) teşekkürlerimi sunarım.

References

  • Nobeli PCR: https://www.nobelprize.org/prizes/chemistry/1993/mullis/lecture/
  • NCBI websitesi: https://www.ncbi.nlm.nih.gov/
  • Ortholog/paralog: Jensen, R.A. Orthologs and paralogs – we need to get it right. Genome Biol 2, interactions1002.1 (2001). https://doi-org/10.1186/gb-2001-2-8-interactions1002
  • Exon-exon junction: https://sg.idtdna.com/pages/education/decoded/article/use-splice-junctions-to-your-advantage-in-qpcr
  • Primer3: http://bioinfo.ut.ee/primer3/
  • UCSC: https://www.genome.ucsc.edu/index.html
  • In silico PCR: https://www.genome.ucsc.edu/cgi-bin/hgPcr
  • Eisenberg E, Levanon EY. Human housekeeping genes, revisited [published correction appears in Trends Genet. 2014 Mar;30(3):119-20]. Trends Genet. 2013;29(10):569-574. doi:10.1016/j.tig.2013.05.010
  • Jo, J., Choi, S., Oh, J. et al. Conventionally used reference genes are not outstanding for normalization of gene expression in human cancer research. BMC Bioinformatics 20, 245 (2019). https://doi-org/10.1186/s12859-019-2809-2
  • qPCR makalesi: Livak KJ, Schmittgen TD. Analysis of relative gene expression data using real-time quantitative PCR and the 2(-Delta Delta C(T)) Method. Methods. 2001;25(4):402-408. doi:10.1006/meth.2001.1262
  • GeneCards: https://www.genecards.org/
  • ExpressionAtlas: https://www.ebi.ac.uk/gxa/home
  • Primer Verim Hesaplama: http://www.sigmaaldrich.com/technical-documents/protocols/biology/qpcr-efficiency-determination.html
  • Örnek bir primer verim hesaplama grafiği: https://www.novusbio.com/products/afm-primer_nbp1-71653

Plot plot veri görselleştirme: Volkan Plot

Renklerin İfade Etmek İstedikleri

Veri görselleştirme, verinin kendisi kadar önemli bir alan. Bilgiyi alıcıya aktaracak olan bu görseller. Kaldı ki bizler gibi büyük veri (big data & meta data) ve birçok disiplini bir araya toplayan disiplinlerarası (interdisciplinary) çağında yaşayan bilim insanları için, “araştırma hikayesini” anlatabilmenin en önemli yollarından biri de bu görsel sunum şölenleri olan veri görselleştirmeler.

Kişisel olarak da bilimin en renkli ve eğlenceli hallerinden biri olarak tanımlıyorum. Her gördüğüm yeni plot türünü deneme fırsatı yakalacağım o anı bekliyorum.

Öte yandan, o kadar çok plot türü var ki insan hangisini hangi veri için seçeceği konusunda zorlanıyor. Bu konuda grubumuzun aktif üyelerinden Melike Dönertaş’ın yapmış olduğu sunumu izlemenizi tavsiye ederim.


En bilinen RNA dizileme amacı olan diferansiyel gen ifadesi analizi ile başladığımızı düşünelim. RNA’yı izole ettik, sekansladık, sonra referans bir genomla eşleştirdik (mappingalignment), hangi genin ne kadar ifade edildiğine dair sayıları elde ettik (count) ve sonra farklılaşmış gen ifadesini (DEGs) analiz ettik (örneğin Deseq2 ya da egdeR kullanarak). Sonra da bunu görselleştirmek istedik.

Volkan (Yanardağ) Plot

Karşılaştırılacak iki durum olduğunu varsayalım (ilaç uygulanmış vs. kontrol). İlaç uygulandığında bazı genlerin ifadesi değişmiş-Differentially Expressed Genes, DEGs– (normalde fazla (upregulated) ya da az (downregulated) ifade olmuş olsun, bazıları da aynı kalmış, etkilenmemiş) olsun.

Artan/azalan gen ifadesi ve bunun p-değerlerini bir grafikte göstermek istediniz. Bazı genler yüksek/düşük ifade oluyor gibi gözükse de p-değeri yüksekse bu farkın bir önemi yok.

Soru: İstatistiksel olarak önemli kaç/hangi gen fark yarattı? Herhangi bir trend var mı?

Kendi tezimden bir volkano plot görseli, örnek olarak konulmuştur (Plotta ifade edilen verinin detayı için tezimi okumanızı öneririm). log2FC için sınır değeri 0.5849 seçilmişken, dikey nokta nokta çizgiye karşılık gelen değer; p değeri için sınır değeri 0.05 seçilmiştir, yatay eksendeki nokta nokta çizginin karşılık geldiği değer).

Genelde p değeri -log10 tabanında gösterilir (yani p<0.05 değeri 1 ile 2 arasında bir skalaya gelir-y ekseninde). P değeri 0.05’ten küçük olan her değer, y ekseninde daha büyük değere tekabül edecek.

Genelde DEG ifadesi de log2 tabanında gösterilir (yani mutlak log2FC, fold change (kat değişimi), değeri 0.5849 aslında 1.5 katı demek. Bu da birinde mesela 15 olan ifade, diğerinde 10 demek). Artan genler sağda, ifadesi azalanlar da solda kalıyor x ekseninde.


NS: Not significant (ne log2FC değeri sınırı aşabilmiş ne de p-değeri), abs: absolute (mutlak değer, artı eksisi olmadan) Griler, artıp azalma sınırının altında kalmış. Mavilerin değişimi önemli (p-değeri) ama değişim miktarı (log2FC) sınırın altında. Bunlar şu an ilgimizi çekmiyor.

Yeşillerin değişim miktarı (artış/azalış), sınır olan log2fc:0.5849’u aşmış ama p-değeri=>0.05 olduğu için sınıfta kalmışlar. Kırmızılar da hem değişim miktarı (ifadede artma azalma) büyük, sınırın üstünde, hem de karşılık gelen p-değeri rastgele olamayacak kadar önemli (0.05<). Kırmızılar, iki açıdan da (hem log2FC hem de pvalue) sınır değerini (treshold) geçen istatistiki olarak önemli değişime sahip azalan (x ekseninin solunda) ve artan (x ekseninin sağında) genleri ifade ediyor.

İlgili Kod

#İlgili kodun orjinali için şu siteye gidebilirsiniz: https://www.bioconductor.org/packages/release/bioc/vignettes/EnhancedVolcano/inst/doc/EnhancedVolcano.html

makeVolcanoPlot = function(df, mutant = 'AChE mutant', pCutoff = 0.05, FCcutoff =  0.5849) {
  
  EnhancedVolcano(df,
                  lab = row.names(df),
                  # eğer aradığınız bazı genleri nerde olduğunu görmek  istiyorsanız, dosyanızda hangi isimle eklediyseniz, ensembl id, gene name, vs. onları select lab ile seçerek grafikte yazılı olarak görmek mümkün.
                  #selectLab = c("arr3a","ache","fabp10a","pck1","rpe65a",
                  #              "mylz3","desma","rom1b","sagb","slc4a5"),
                  x = 'log2FoldChange',
                  y = 'pvalue',
                  # başlık eklemek isterseniz, title ı kullanabilirsiniz
                  title = paste(mutant, ' vs. Healthy'),
                  #subtitle ile ek alt başlık eklemek de mümkün
                  subtitle ="",
                  caption = paste0('Total = ', nrow(df), ' genes'),
                  captionLabSize = 10,
                  titleLabSize = 16,
                  subtitleLabSize = 1,
                  axisLabSize = 14,
                  transcriptPointSize = 1.0,
                  transcriptLabSize = 3.0,
                  # boxedlabels = TRUE,
                  pCutoff = pCutoff, #horizontal cut off line
                  FCcutoff = FCcutoff, #vertical cut off line
                  legend=c('NS',paste('abs(L2FC) > ', FCcutoff ),
                           paste('p-value < ', pCutoff),
                           paste('p-value<', pCutoff, '& abs(L2FC) > ', FCcutoff)),
                  legendPosition = 'top',
                  legendLabSize = 10,
                  legendIconSize = 3.0,
                  colAlpha = 1)
}

Peki ya daha fazlası mümkün mü?

Aslında bu grafik size, kırmızıları diğerlerinden ayırt etmekten biraz fazlasını sunuyor. Belki işte bu sebeple, veri görselleştirme ile yepyeni ufuklar kazanabilir, yepyeni sorular üretebilir ve yepyeni bir bakış açısı kazanabilirsiniz.

Bizim yukarıdaki grafik üzerinden anlatmak gerekirse,

  • artan ifadesi olan (x ekseni sağ taraf) gen sayısının azalış gösterenlere göre fazla olduğunu (x ekseni sol taraf)
  • artan ifadesi olan genlerin pek çoğunun önemli değişim değerine sahip olduğunu (x eksenindeki kırmızılar)
  • özellikle log2FC, kat değişimi, 0.5849 ile 2.5 arasında olan genlerin (x ekseninde sağa ve sola doğru nokta nokta dikey çizgiler ile 0 noktasında kalan alan), değişim miktarının verilen veri seti içinde uyumlu bir şekilde artış gösterdiği, rastgele olmadığını (önemli olarak kendini gösterdiğini)
  • log2FC değeri büyük değişim gösteren genlerin p değerinin de o derece düşük olduğunu (y ekseninde artan değer, aralıklı dağılmış kırmızı noktalar)
  • artış gösteren gen ifadesindeki değişimlerin azalış gösterenlere göre daha büyük olabileceğini (x ekseninin sağ tarafının sol tarafına göre daha uzun devam eden çizgide hala noktalara sahip olması) ve bunların önemli değişime sahip olması (kırmızı nokta olması) tek bir grafikten okuyabiliyoruz.

Bir arkadaşımın sorusu ile başlayan volkan plot grafik yorumlama serüvenimiz diğer plotlar ile devam edecek. Umarım sizler için de faydalı olmuştur. Böyle düşünüyorsanız, sizler de bu yazıyı paylaşarak, büyük paylaşımcı ailemize destek olabilirsiniz.

Sağlıcakla kalınız.

miRDeep2 – Ubuntu Bağlantısı Kullanarak miRNA Sekanslama Analizi

minik RNAlar (mikroRNAlar/miRNAs/microRNAs) gen kodlamayan küçük RNAlar grubunda bir aileye ait. 20-25 nükleotid uzunluğunda epey kısa diziler/sekanslar olsalar da vücuttaki pek çok sürecin yönetilmesinde, mRNA (mesajcı RNAlar/mRNAs) üzerinden söz sahibiler. RNA dizilemede (RNA sequencing) yeterli olan dizileme derinliği (sequencing depth)/ kapsamı (coverage), maalesef tek bazen farklı tek baz ile birbirinden ayrılan miRNAların farklılığının tespiti için yeterince hassas değil. Diziler çok kısa olduğu için, aynı tek nükleotid çeşitliliğinde (Single Nucleotide Polymorphism/SNPs) olduğu gibi, miRNAlar arasındaki farkı tespit etmek için derin dizileme teknikleri (deep sequencing) gerekiyor.

miRNAları araştırmak, yapılarını ortaya çıkarmak, ifade değerlerini karşılaştırmak için pek çok biyoenformatik araç mevcut. Ancak, RNA dizileme gibi kendisi dahi genç sayılacak bir alanda (Stark et al., 2019) , miRNA dizileme adeta henüz bebek adımlarını atıyor. Dolayısıyla miRNA dizilemeye yönelik biyoenformatik araçlar da bu tecrübesizlikten nasibini almış durumda. Varolan miRNA dizileme analizi araçları epey kısıtlı (Motameny et al., 2010; Kang and Friedlander, 2015; Chen et al., 2019). miRDeep2 (Mackowiak, S., 2011; Friedlander et al., 2012; Yang et al., 2011) ise en çok kullanılan, görece güncel olan araçlardan birisi. Kullanım amacı bilinen (known/canonical) ve bilinmeyen (unknown/non-canonical) miRNAları tespit etmek olan bu araç, ENCODE ( ENCODE Project Pipelines ) gibi proje iş akışları sunan çalışamlara karşı kolay kullanımlı bir alternatif olarak karşımıza çıkmakta.

mirDeep2, eski ve yeni (old, new) iki ayrı github sayfasında iki ayrı kod örneği (tutorial) verse de (old, new) eski olan sayfanın yanıltıcı olduğunu ve mutlaka yeni olan sayfadan (recent/newest github page) takip etmeniz gerektiğini hatırlatırım.

Her ne kadar bir örnek kod dizisi paylaşmış olsalar da bu aracı ilk kez indirip miRNA dizisi analizi yapacak arkadaşlarım için faydalı olacağını düşündüğüm bu yazıyı hazırlayarak dikkat edilmesi gereken bazı küçük noktaları sizinle de paylaşmak istedim.

1. Adım: Ubuntu Terminal indirmek

miRDeep2, pek çok biyoenformatik araç gibi Windows uyumlu değil ve linux ortamı gerektiriyor. Windows kullanıyorsanız öncelikle Microsoft Store/Mağaza’dan Ubuntu Terminal indirmenizi öneririm.

2. Adım: miRDeep2 indirmek için conda install kullanımı

Eğer miRDeep2’yu conda install kullnamadan indirmeyi deneyip indiremediyseniz endişelenmeyin, çünkü öyle inmeyebiliyor. Tasasız indirmeler için kesinlikle conda install öneririm. İndirdikten sonra inmiş mi diye test etmek için şu perl programcığını çalıştrmanızı öneririm: mapper.pl.

 dincaslan@D:~$ sudo apt-get update
 dincaslan@D:~$ sudo apt-get upgrade
 dincaslan@D:~$ cd /mnt/c/Users/USER/Downloads/

#Burada yeni bir Ubunut terminal açmanız gerekecektir. Şu linkteki bilgileri takip etmenizi öneririm: link. Dosyayı nereye indirmek istiyorsanız o yolu/lokasyonu berlirtmeniz lazım, ben Downloads'a indirmek istemiştim: "mnt/c/Users/...".

 dincaslan@D:~$ sha256sum  /mnt/c/Users/USER/Downloads/Anaconda3-2019.10-Linux-x86_64.sh 
 dincaslan@D:/mnt/c/Users/USER/Downloads$ bash /mnt/c/Users/USER/Downloads/Anaconda3-2019.10-Linux-x86_64.sh
 dincaslan@D:/mnt/c/Users/USER/Downloads$ source ~/.bashrc
 (base) dincaslan@D:/mnt/c/Users/USER/Downloads$ conda config --set auto_activate_base
 (base) dincaslan@D:/mnt/c/Users/USER/Downloads$ conda config --set auto_activate_base True
 (base) dincaslan@D:/mnt/c/Users/USER/Downloads$ conda list
 (base) dincaslan@D:/mnt/c/Users/USER/Downloads$ conda install -c bioconda mirdeep2
 (base) dincaslan@D:/mnt/c/Users/USER/Downloads$ mapper.pl 

3. Adım: mirDeep2 Örnek Tutorial Kodunu Çalıştırmak

Tabi bu toplu kodu çalıştırmadan önce, gereken tüm dosyalar hazır mı emin olmak lazım. Mature ve hairpin fasta dosylarını şuradan indirebilirisiniz: miRBase.

#Tutorial dosyasını indirmek istediğiniz dizini seçmeniz gerekiyor.
#cd ilgili dosya/yolu açmak için kullanıyoruz. 
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ cd drmirdeep.github.io-master/

#ls komutunu da ilgili yerdeki dosyaları görüntülemek için kullanıyoruz.

(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master$ ls
(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master$ cd drmirdeep.github.io-master/
(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master/drmirdeep.github.io-master$ ls

#Dyelim ki TGGAATTC sizin adaptör sekans olsun. grep ile örneğinizde ne kadar okuma buna sahip analayabilirsiniz.
(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master/drmirdeep.github.io-master$ grep -c TGGAATTC example_small_rna_file.fastq
2001

#mirbase sitesinden ilgili dosyaları indirip gerekli bilgileri, programın anlayacağı biçimde çıkarmayı unutmayın

(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ extract_miRNAs.pl /mnt/c/Users/USER/Downloads/mature.fa hsa > /mnt/c/Users/USER/Downloads/mature_hsa.fa  
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ extract_miRNAs.pl /mnt/c/Users/USER/Downloads/hairpin.fa hsa > /mnt/c/Users/USER/Downloads/hairpin_hsa.fa  
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ extract_miRNAs.pl /mnt/c/Users/USER/Downloads/mature.fa mmu,chi > /mnt/c/Users/USER/Downloads/mature_other_hsa.fa 

#bowtie1 ile ilgili referans genom dosyası üzerinden index dosyası hazırlıyoruz, eşleştirme adımı için
(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master/drmirdeep.github.io-master$ bowtie-build refdb.fa refdb.fa

#burada çok önemli bir nokta var.
#map edebilmek için referans dosyanız, indexed dosya olmalı.
(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master/drmirdeep.github.io-master$ mapper.pl example_small_rna_file.fastq -e -h -i -j -k TGGAATTC -l 18 -m -p refdb.fa -s reads_collapsed.fa -t reads_vs_refdb.arf -v -o 4

#to run the mirdeep2 analysis. You can find the detailed information regarding the parameters in the paper and the tutorial page.
#buradaki referans dosyası index olmayan, düz fasta dosyası, en başta elinizde olan.
(base) dincaslan@D:/mnt/c/Users/USER/Downloads/drmirdeep.github.io-master/drmirdeep.github.io-master$ miRDeep2.pl reads_collapsed.fa refdb.fa reads_vs_refdb.arf mature_ref.fa mature_other.fa hairpin_ref.fa -t hsa 2>report.log

4. Adım: miRDeep2’yu kendi örneğiniz üzerinden çalıştırmak

MiRDeep2’yu çalıştırmadan önce, fastq, dizileme dosyanızın, kalitesini kontrol etmek isteyebilirsiniz. Bunun için fastqc aracının indirmeniz gerekiyor. Daha sonra da gerekecek adaptör dizisi ya da çoklu A (poly-A) zincirinin kesilmesi için cutadapt kullanmanız gerekebilir. miRDeep2’nun da adaptör kesme fonksiyonu olsa da verinizim ihtiyacına binaen cutadapt gibi araçlar daha çok işinizi görebilir.

#for fastqc
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ sudo apt-get update
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ sudo apt-get install fastqc
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ fastqc --extract /mnt/c/Users/USER/Downloads/S26.fastq.gz -o /mnt/c/Users/USER/Downloads/fastqc_results

#for cutadapt and fastqc after
#Lets say your adapter sequence is this: TAGCTGATCGATCTGAAACT
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ conda install -c bioconda cutadapt
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ cutadapt -a TAGCTGATCGATCTGAAACT /mnt/c/Users/USER/Downloads/S26.fastq > /mnt/c/Users/USER/Downloads/outputS26.fastq
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ fastqc --extract /mnt/c/Users/USER/Downloads/outputS26.fastq -o /mnt/c/Users/USER/Downloads 

#before this step, you need to download a reference file in fasta/fa format.
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ bowtie-build ucsc_hg19.fasta ucschg19

#You do not need to add .fa extension to file that you index
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ mapper.pl S26.fastq -e -h -i -j -k TAGCTGATCGATCTGAAACT-l 18 -m -p ucschg19 -s R___collapsed.fa -t R___refdb.arf -v -o 4

#You need to use index file as a reference here
(base) dincaslan@D:/mnt/c/Users/USER/Downloads$ miRDeep2.pl R___collapsed.fa ucsc_hg19.fasta R___refdb.arf mature_hsa.fa mature_other_hsa.fa hairpin_hsa.fa -t hsa 2> report.log

Umarım bu yazıyı faydalı buldunuz. Aralarda verilen websitelerin ek olarak, her hangi bir sorunuz olmanız durumunda şu siteden istifade etmenizi şiddetle öneririm: biostar.

Conda install’ı akıl etmeden önce eski örnek kod üzerinden indirmeye çalışırken can çekişirken 😛 bana çok yardımı dokunan kıymeli labdaşım (lab arkadaşım) Daniel’e ve AkademikTwitter’ın Biyoenformatik alanında bilinen simalarından Dr. Ming Tang’in beni kaale alıp özellikle bir noktayı aydınlatmasından ötürü çok teşekkür ederim.

Referaslar:

Stark, R., Grzelak, M. & Hadfield, J. RNA sequencing: the teenage years. Nat Rev Genet20, 631–656 (2019). https://doi-org.libproxy1.nus.edu.sg/10.1038/s41576-019-0150-2

Motameny, S.; Wolters, S.; Nürnberg, P.; Schumacher, B. Next Generation Sequencing of miRNAs – Strategies, Resources and Methods. Genes 2010, 1, 70-84. https://doi.org/10.3390/genes1010070

Kang W, Friedländer MR. (2015) Computational prediction of miRNA genes from small RNA sequencing data. Front Bioeng Biotechnol 3: 7 10.3389/fbioe.2015.00007

Liang Chen, Liisa Heikkinen, Changliang Wang, Yang Yang, Huiyan Sun, Garry Wong, Trends in the development of miRNA bioinformatics tools, Briefings in Bioinformatics, Volume 20, Issue 5, September 2019, Pages 1836–1852, https://doi-org.libproxy1.nus.edu.sg/10.1093/bib/bby054

Mackowiak, S. D. Identification of novel and known miRNAs in deep-sequencing data with miRDeep2. Curr Protoc BioinformaticsChapter 12, Unit 12 10, 10.1002/0471250953.bi1210s36 (2011).

Xiaozeng Yang, Lei Li, miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants, Bioinformatics, Volume 27, Issue 18, 15 September 2011, Pages 2614–2615, https://doi-org.libproxy1.nus.edu.sg/10.1093/bioinformatics/btr430

Marc R. Friedländer, Sebastian D. Mackowiak, Na Li, Wei Chen, Nikolaus Rajewsky, miRDeep2 accurately identifies known and hundreds of novel microRNA genes in seven animal clades, Nucleic Acids Research, Volume 40, Issue 1, 1 January 2012, Pages 37–52, https://doi-org.libproxy1.nus.edu.sg/10.1093/nar/gkr688

https://www.encodeproject.org/microrna/microrna-seq/

pornjk.com watchfreepornsex.com pornsam.me pornpk.me pornfxx.me foxporn.me porn110.me porn120.me oiporn.me pornthx.me

RSG-Turkey is a member of The International Society for Computational Biology (ISCB) Student Council (SC) Regional Student Groups (RSG). We are a non-profit community composed of early career researchers interested in computational biology and bioinformatics.

Contact: turkey.rsg@gmail.com

Sosyal medyada bizi takip edin!