ページの先頭です

GUI操作でFASTQファイルからアノテーションレポートまでを作成するシステム

Clinical sequencing data analysis integrator (csDAI®) 概要

csDAIは次世代シーケンサー(NGS)データ解析の統合パッケージであり、GUIからGATK Best Practices®に準拠した解析を可能にしたシステムです。GUIはmacOS®およびLinux®上で動作し、PCクラスター等のバッチシステム(OpenPBS®やUniva Grid Engine)に対応したコマンドライン版も用意されています。実際の遺伝性疾患エキスパートパネルの現場研究者と共に開発したアノテーションシステムにより、FASTQファイルからエキスパートパネルへの参考資料として提供するアノテーションレポートまでを簡易に作成することができます。

解析の流れ

図1

* 個別データへ情報を付加すること

機能一覧

Quality Control解析の機能の概要

  1. クラスター数やパスフィルターの通過数のカウント
  2. 完全一致paired-end readsの削除(PCR duplicates 候補の削除)(オプション)
  3. skewer[1]によるアダプター配列の除去
  4. Cycle毎、tile毎、read毎の塩基組成の割合及びquality値の平均の算出
  5. UCSC hg38 (若しくはhg19)へのBWA[2](bwa mem)もしくはSTAR[3]によるマッピング
  6. Proper にマップされたread におけるcycle毎、tile毎のミスマッチ割合の算出
  7. Reference alleleと異なる箇所のQ-valueヒストグラム
  8. Q-value毎のミスマッチ割合のヒストグラム
  9. タイル毎のマッピング割合
  10. PicardによるPCR duplicate判定の付与(オプション)
  11. ターゲット領域(bed ファイルで指定されたbait 領域)でのdepthの算出
  12. verifyBamID[4]による他サンプルコンタミネーション割合の推定
  13. Contamination確認のために、日本人集団でallele頻度が0.5付近のSNPsにおいて、heteroとcallされた箇所でのalternative allele readの割合の算出
  14. GATK[5]によるbase quality score recalibrationの実行(オプション)

解析機能の概要

  1. GATK[6] HaplotypeCallerによるgermline variant call
  2. GATK[7] Mutect2 によるsomatic mutation call
  3. GATK[5] GermlineCNVCaller によるgermline CNV推定
  4. GATK[5] cnv_somatic_pair_workflow.wdl準拠によるsomatic CNA推定
  5. StringTie[8]による発現解析
  6. STAR-Fusion[9]、Arriba[10]、およびFusionCatcher[11]によるRNA-seq データからの融合遺伝子解析
  7. Manta[12]によるゲノム構造変異(SV)解析(Linux 版のみ)

アノテーションの概要

左右スクロールで表全体を閲覧できます

カテゴリー 概要
遺伝子情報 SnpEff*1によるEnsembl*2(GRCh38.105)とRefSeq*3(GRCh38.p14)
ゲノム特徴量 UCSC*4ゲノム領域情報(cytoBand、genomicSuperDups、rmsk)
集団頻度 NHLBI-ESP*5、ExAC、1000genome*6、gnomAD*7、Kaviar*8、HRC*9、ABraOM*10、京都大学のHGVD*11、東北メディカル・メガバンク(ToMMo)*12、TogoVar のGEM-J WGA*13
変異・疾患情報 dbSNP*14、GWAS catalog*15、ICGC*16、COSMIC*17、HGMD*18情報、ClinVar*19の情報
エンハンサー領域 EnhancerAtlas2.0*20及びHACER*21の情報
In silico予測 dbNSFP*22、SpliceAI*23(SNV, 1 bp insertions and 1-4 bp deletions*24)のスコア0.2 以上の情報
統合情報 Deleteriousフラグ(独自の変異重要度指標)、集団頻度中の最大allele 頻度(MaxAAF)
遺伝子型call情報 遺伝子型とallele毎のdepth情報及び独自のハードフィルター情報

  1. *1http://pcingola.github.io/SnpEff/
  2. *2https://asia.ensembl.org/index.html
  3. *3https://www.ncbi.nlm.nih.gov/refseq/
  4. *4https://genome.ucsc.edu/
  5. *5https://esp.gs.washington.edu/drupal/
  6. *6https://www.internationalgenome.org/
  7. *7https://gnomad.broadinstitute.org/
  8. *8https://db.systemsbiology.net/kaviar/
  9. *9http://www.haplotype-reference-consortium.org/
  10. *10https://abraom.ib.usp.br/
  11. *11https://www.hgvd.genome.med.kyoto-u.ac.jp/
  12. *12https://jmorp.megabank.tohoku.ac.jp/downloads/tommo-38kjpn-20220929-af_snvindelall
  13. *13https://grch38.togovar.org/doc/ja/datasets/gem_j_wga
  14. *14https://www.ncbi.nlm.nih.gov/snp/
  15. *15https://www.ebi.ac.uk/gwas/
  16. *16https://dcc.icgc.org/
  17. *17https://cancer.sanger.ac.uk/cosmic
  18. *18https://digitalinsights.qiagen.com/products-overview/clinical-insights-portfolio/human-gene-mutation-database/?cmpid=QDI_GA_QCI_HGMD&gclid=EAIaIQobChMIlaHsy-33-wIVxKuWCh1j_w2hEAAYASAAEgLDafD_BwE
  19. *19https://www.ncbi.nlm.nih.gov/clinvar/
  20. *20http://www.enhanceratlas.org/
  21. *21http://bioinfo.vanderbilt.edu/AE/HACER/
  22. *22https://sites.google.com/site/jpopgen/dbNSFP
  23. *23https://github.com/Illumina/SpliceAI
  24. *24https://basespace.illumina.com/s/otSPW8hnhaZR

Utility機能の概要

左右スクロールで表全体を閲覧できます

機能名 内容
Annotation
(chromosomal location)
ゲノム位置情報と変異情報を入力し、csDAIのアノテーション情報を付与する。VCFとBAMを指定するとIGVのスナップショットも付与される。
Merge BAM 複数のBAMファイルをマージする。
Merge Mutect2 PON Preprocessで計算したpon.vcf.gzファイルを統合してMutect2用のpanel of nomarlファイルを作成する。
Somatic CNV PON Preprocessで計算したread countファイル(tsv)からGATKのcnv_somatic_pair_workflowで使用するsomatic CNV用のpanel of normalファイルを作成する。
Chromosomal AARF view VCFファイルからalternative allele read数割合(variant allele frequency; VAF)の染色体プロットを作成する。がん部と非がん部の確認などに用いることが出来る。
Genotype concordance VCFファイル(複数指定可)からサンプル間の遺伝子型一致割合を計算する。サンプル間の血縁関係の確認に用いることが出来る。
Liftover ゲノム位置座標をhg19からhg38もしくはhg38からhg19に変換する。
From Takara Bio FASTQ タカラバイオから送付されたHDDにコピーされているFASTQファイルをcsDAI形式に変換する。


  • 国立がん研究センターとの共同研究
  • *「csDAI」は、みずほリサーチ&テクノロジーズ株式会社の登録商標です。
  • *「GATK BEST PRACTICES」 は、The Broad Institute, Inc.の登録商標です。
  • *Mac OSは、米国およびその他の国で登録されたApple Inc.の商標です。
  • *Linuxは、Linus Torvaldsの米国およびその他の国における登録商標または商標です。
  • *HGMDは米国QIAGENの米国およびその他の国における登録商標または商標です
  • *Intel、Coreは、米国およびその他の国におけるIntel Corporationの商標です。
  • *「OpenPBS」は米国およびその他の国におけるAltair Engineering, Incの商標または登録商標です。

  1. [1]Jiang, H., Lei, R., Ding, S.W. and Zhu, S. (2014) Skewer: a fast and accurate adapter trimmer for next-generation sequencing paired-end reads. BMC Bioinformatics, 15, 182.
  2. [2]Heng Li and Richard Durbin. Fast and accurate short read alignment with burrows-wheeler transform. Bioinformatics, Vol. 25, No. (14), pp. 1754-60, Jul 2009.
  3. [3]Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan 1;29(1):15-21. doi: 10.1093/bioinformatics/bts635. Epub 2012 Oct 25. PMID: 23104886; PMCID: PMC3530905.
  4. [4]G. Jun, M. Flickinger, K. N. Hetrick, Kurt, J. M. Romm, K. F. Doheny, G. Abecasis, M. Boehnke,and H. M. Kang, Detecting and Estimating Contamination of Human DNA Samples in Sequencing and Array-Based Genotype Data, American journal of human genetics doi:10.1016/j.ajhg.2012.09.004 (volume 91 issue 5 pp.839 - 848)
  5. [5]Van der Auwera GA & O'Connor BD. (2020). Genomics in the Cloud: Using Docker, GATK, and WDL in Terra (1st Edition). O'Reilly Media.
  6. [6]DePristo M., Banks E., Poplin R., Garimella K., Maguire J., Hartl C., Philippakis A., del Angel G., Rivas MA., Hanna M., McKenna A., Fennell T., Kernytsky A., Sivachenko A., Cibulskis K., Gabriel S., Altshuler D, and Daly M. A framework for variation discovery and genotyping using next-generation dna sequencing data. Nature Genetics, Vol. 43, pp. 491-498, 2011.
  7. [7]Cibulskis K, Lawrence MS, Carter SL, Sivachenko A, Jaffe D, Sougnez C, Gabriel S, Meyerson M, Lander ES and Getz G. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnology, Vol. 31, No. 3, pp. 213-219, 2013.
  8. [8]Kovaka S, Zimin AV, Pertea GM, Razaghi R, Salzberg SL, Pertea M Transcriptome assembly from long-read RNA-seq alignments with StringTie2, Genome Biology 20, 278 (2019), doi:10.1186/s13059-019-1910-1.
  9. [9]Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods. Haas, Brian J.; Dobin, Alexander; Li, Bo; Stransky, Nicolas; Pochet, Nathalie; Regev, Aviv; Genome Biology; 2019.
  10. [10]Sebastian Uhrig, Julia Ellermann, Tatjana Walther, Pauline Burkhardt, Martina Fr?hlich, Barbara Hutter, Umut H. Toprak, Olaf Neumann, Albrecht Stenzinger, Claudia Scholl, Stefan Fr?hling and Benedikt Brors: Accurate and efficient detection of gene fusions from RNA sequencing data. Genome Research. March 2021 31: 448-460.
  11. [11] D. Nicorici, M. Satalan, H. Edgren, S. Kangaspeska, A. Murumagi, O. Kallioniemi, S. Virtanen, O. Kilkku, FusionCatcher - a tool for finding somatic fusion genes in paired-end RNA-sequencing data, bioRxiv, Nov. 2014, DOI:10.1101/011650
  12. [12]Chen, X. et al. (2016) Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications. Bioinformatics, 32, 1220-1222. doi:10.1093/bioinformatics/btv710.
ページの先頭へ