Sunucu
Özet
DNA dizileme verileri, giderek daha düşük dizileme hata oranlarıyla daha uzun okumalara doğru ilerlemeye devam ediyor. Bu tür okumaları genomlara birleştirme sorununa odaklanıyoruz; bu sorun, minimize edici taslaklar kullanarak üst üste binen okumalara dayalı olanlar gibi en yeni birleştirme yaklaşımlarını kullanırken doğruluk ve hesaplama kaynakları açısından zorluklar ortaya çıkarmaktadır. Burada, DNA nükleotidleri yerine minimizerlerin alfabenin atomik simgeleri olduğu minimizer-uzay dizileme veri analizi kavramını tanıtıyoruz. DNA dizilerini minimize edicilerin sıralı listelerine yansıtarak, temel fikrimiz, minimize edici belirteçlerden oluşan daha büyük bir alfabe üzerinde k-mers olan k-min-mers olarak adlandırdığımız şeyi numaralandırmaktır. Yaklaşımımız, mdBG veya minimizer-dBG, doğruluktan çok fazla kayıp olmadan mevcut yöntemlere göre hem hız hem de bellek kullanımında büyüklük sırasına göre iyileşme sağlar. mdBG’nin üç kullanım durumunu gösteriyoruz: insan genomu montajı, metagenom montajı ve büyük pangenomların temsili. Montaj için, mdBG’yi rust-mdbg adını verdiğimiz yazılımda uyguladık ve PacBio HiFi okumalarının ultra hızlı, düşük bellekli ve yüksek oranda bitişik montajını sağladık. Bir insan genomu 8 çekirdek ve 10 GB RAM kullanılarak 10 dakikanın altında bir sürede ve 60 Gbp metagenom okuması 1 GB RAM kullanılarak 4 dakikada birleştirildi. Pangenom grafikleri için, 661.405 bakteri genomundan oluşan bir koleksiyonun mdBG olarak grafiksel temsiline yeni izin verdik ve anti-mikrobiyal direnç (AMR) genleri için başarılı bir şekilde (minimizer-space) aradık. Genomik, metagenomik ve pangenomikte uzun okuma dizilemesinin yükselişi göz önüne alındığında, ilerlemelerimizin dizi analizi için gerekli olmasını bekliyoruz.
Tarih: 25 Haziran, 2021 – 8:00 PM (GMT+3)
Dil: İngilizce