Dil Modelleri Proteinlerin Karmaşık Fonksiyonel Özelliklerini Öğrenebilir

Sunucu

 

Serbülent Ünsal

Serbülent Ünsal, lisans eğitimini Karadeniz Teknik Üniversitesi’nde İstatistik ve Bilgisayar Bilimleri bölümünde tamamlamıştır. Mezuniyetinin ardından Orta Doğu Teknik Üniversitesi’nde Tıbbi Bilişim alanında yüksek lisans eğitimine devam etmiştir. Yüksek lisans programı sırasında, hücresel otomat ve kısmi diferansiyel denklemler kullanarak tümör ilerlemesi modeli geliştirdiği multiscale hesaplamalı tümör modellemesi üzerine çalışmıştır, danışmanlığını Dr. Aybar Can Acar yapmıştır. 2014 yılında aynı bölümde, düşük veriye sahip protein fonksiyon tahmini için derin öğrenme modelleri geliştirme üzerine doktora çalışmalarına başlamıştır. Tezi ayrıca yeni bağışıklık kaçış mekanizmalarının keşfi ve bunlara karşı ilaç yeniden kullanımı üzerine büyük ölçekli bir araştırma projesinin parçasıdır. Şu anda doktora çalışmalarını tamamlamak üzere olan Serbülent Ünsal, Antiverse’de makine öğrenimi ve derin öğrenme modelleri kullanarak antikor tasarlamak için Kıdemli Makine Öğrenimi Mühendisi olarak çalışmaktadır.

Özet

Proteinler, yaşam için gerekli olan makromoleküllerdir. Biyolojik mekanizmaları anlamak ve manipüle etmek için, proteinlerin işlevlerinin anlaşılması gerekir ve bu, amino asit dizileri ve 3D yapıları ile ilişkilerinin incelenmesiyle mümkündür. Şu ana kadar, ıslak laboratuvar tabanlı prosedürlerin maliyet ve zaman gereksinimleri nedeniyle, proteinlerin sadece küçük bir yüzdesi işlevsel olarak karakterize edilebilmiştir (şu anda UniProt’a göre yaklaşık %0.5). Son zamanlarda, protein fonksiyon tahmini (PFP), yani istatistiksel/hisbeli yöntemler kullanarak proteinlerin işlevsel tanımlamalarla anotasyonu, karakterize edilmemiş protein alanını ve/veya işlev değişiklikleri taşıyan protein varyantlarını keşfetmek için önem kazanmıştır. Bugüne kadar önerilen birçok farklı algoritmik yaklaşım arasında, makine öğrenimi (ML), özellikle derin öğrenme (DL) teknikleri, yüksek tahmin performansları nedeniyle PFP’de popüler hale gelmiştir. Bu ML/DL yöntemleri tarafından kullanılan giriş verileri, proteini temsil eden sayısal özellik vektörleridir (yani, protein temsilleri) ve bunlar çoğunlukla veri tabanlarında (örneğin, UniProt) hazır bulunan proteinlerin amino asit dizilerinden üretilir. Bu çalışmada, proteinlerin işlevsel özelliklerini tahmin etmek için protein temsil yöntemlerini değerlendirdik ve bu yöntemleri 4 zorlu görevde karşılaştırdık: (i) Anlamsal benzerlik çıkarımı (insan proteinleri arasındaki ikili anlamsal benzerlikleri gen ontolojisi anotasyonlarını kullanarak hesapladık ve bunları temsil vektörü benzerlikleriyle karşılaştırarak aralarındaki korelasyonu gözlemledik), (ii) Ontolojik protein fonksiyon tahmini (terim özgüllüklerine ve farklı tahmin zorluk seviyelerini yansıtan örnek boyutlarına göre GO terim kategorileri oluşturduk ve bu veri setlerinde ML modelleri eğiterek/doğrulayarak temsil yöntemlerini değerlendirdik), (iii) İlaç hedef protein aile sınıflandırması (beş ana hedef aile seçildi ve yöntemler ML modelleri aracılığıyla proteinleri ailelere sınıflandırma açısından değerlendirildi), ve (iv) Protein-protein bağlanma afinitesi tahmini (SKEMPI veri setini kullanarak mutasyonlar sonrası protein-protein bağlanma afinitesi değişikliklerini tahmin etmede yöntemleri değerlendirdik). Toplamda 23 protein temsil yöntemini değerlendirdik, klasik yaklaşımlar ve ileri temsil öğrenme yöntemleri dahil, bu yeni yaklaşımların, dizilerinde gizli olan yüksek seviyeli/karmaşık protein özelliklerini çıkarma açısından klasik yöntemlere göre avantajları olup olmadığını gözlemlemek için. Son olarak, kullanıcıların yukarıda belirtilen karşılaştırma görevleri üzerinde yeni protein temsil modellerini sadece bir satır kod ile değerlendirebilecekleri açık erişimli bir araç olan PROBE’yi (Protein RepresentatiOn BEnchmark) sunuyoruz.

Tarih: 6 Temmuz, 2022 – 18:00 (GMT+3)

Dil: İngilizce

You can register for this webinar here !