SEQprocess: A modularized and customizable pipeline framework for NGS processing in R package

(1)

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

이학 석사학위 논문

SEQprocess: 차세대 염기서열

데이터 처리를 위한

파이프라인 R 패키지

아 주 대 학 교 대 학 원

의 생 명 과 학 과

주 태 운

(3)

SEQprocess: 차세대 염기서열

데이터 처리를 위한

파이프라인 R 패키지

지도교수 우 현 구

이 논문을 이학 석사학위 논문으로 제출함

2019년 8월

아 주 대 학 교 대 학 원

의 생 명 과 학 과

주 태 운

(4)

주태운의 이학 석사 학위 논문을 인준함.

심사위원장 우 현 구 인

심 사 위 원 백 은 주 인

심 사 위 원 이 수 환 인

아 주 대 학 교 대 학 원

2019년 7월 5일

(5)

i

논문 요약

NGS(Next-Generation Sequencing, 차세대 염기서열) 기술은 현재 의•과학 연구 분야에 서 폭넓게 이용되고 있다. NGS 데이터의 처리는 시퀀싱 플랫폼에 따라서 다양한 프로 그램과 적절한 데이터 처리 파이프라인을 필요로 하고 있으며 NGS 기술과 데이터 처 리 방식의 빠른 발전으로 인해 현존하는 파이프라인은 재빠른 업데이트가 필요하다. 최 근 세포 유리 DNA(Cell-free DNA)와 종양 패널 혹은 엑소좀 RNA 시퀀싱과 같은 NGS 기술의 임상 적용 또한 적절한 데이터 처리 파이프라인을 요구하고 있다. 따라서, 나는 이러한 NGS 데이터를 처리할 수 있는 기준이 되는 파이프라인을 제공할 뿐 아니라, 사용자 설정에 따라 유연하게 구동할 수 있으며 기능이나 파이프라인의 추가 및 확장 가능한 R 패키지인 “SEQprocess”를 개발하였다.

SEQprocess R 패키지는 NCI Genomic Data Commons(GDC)에서 제공하는 암 유전체 데 이터 분석 파이프라인과 돌연변이 호출을 위해 널리 사용되는 Genome Analysis

ToolKit(GATK) 프로그램을 이용한 파이프라인 외에 mRNA 발현량 측정, DNA 복제 수 측정, 그리고 cell-free DNA와 exosomal RNA 및 small RNA 데이터를 처리할 수 있는 총 6가지의 최적화된 파이프라인을 제공한다. SEQprocess를 이용해 처리된 데이터는 R 환 경에서 편하게 분석할 수 있도록 ‘ExpressionSet’과 ‘SummarizedExperiment’ R 데이터 형 태로 최종 출력 결과를 내놓는다. SEQprocess는 또한 NGS 데이터 분석의 재현성을 보 장하기 위해 각 데이터 처리 단계를 요약한 리포트를 출력할 수 있는 기능을 제공한다. 즉, SEQprocess R 패키지는 NGS 데이터의 처리를 위한 6개의 파이프라인을 제공하며, R 환경에서 사용자의 설정대로 유연하게 구동할 수 있고, 추가적으로 기능이나 파이프

(6)

ii 라인을 확장할 수 있는 프레임워크이다.

핵심어: 차세대 염기서열 분석, 전장 유전체 분석, 전장 엑솜 분석, 전사체 분석, 데이터 처리

(7)

iii

목 차

논문 요약 ... i

목 차 ... iii

그 림 ... iv

표... v

제 1장 배 경 ... 1

제 2장 구 현 ... 3

제 3장 결 과 ... 5

3.1. SEQprocess 파이프라인 ... 5

3.2. SEQprocess 출력 파일 ... 9

3.3. 데이터 분석의 재현성을 위한 SEQprocess 보고서 파일 ... 12

제 4장 결 론 ... 17

참고문헌 및 영문요약 ... 18

(8)

iv

그 림

[그림 1] 모듈화된 파이프라인에 대한 작업 흐름의 개략도 ... 7

[그림 2] SEQprocess의 출력 파일 ... 11

[그림 3-1] 원 데이터 품질 관리 그래프와 리드의 품질 상태... 14

[그림 3-2] 데이터의 정렬 상태 비율 그래프 ... 15

[그림 3-3] 호출된 돌연변이의 분포도 ... 16

(9)

v

표

[표 1] SEQprocess 실행을 위한 매개변수 ... 8

[표 2] SEQprocess에서 사용되는 외부프로그램 및 데이터 파일

... 10

[표 3] 단계별 사용 도구와 매개변수 ... 12

[표 4] 원 데이터 품질 관리 결과 표 ... 13

[표 5] 데이터의 정렬 상태 표 ... 15

(10)

1

제 1장 배경

차세대 염기서열 (Next-Generation Sequencing, NGS)은 긴 DNA의 염기서열을 정확하 고 빠르게 읽는 기술로, NGS는 현재 의생명 연구 분야와 질병의 임상에 있어서도 광범 위하게 사용되고 있다[1]. NGS 기술의 적용은 DNA와 RNA에서 단일 뉴클레오타이드 다형성 (Single Nucleotide Polymorphism, SNP)이나 유전자 내의 결실, 삽입, 역위 돌연 변이와 같은 구조적 변이 (Structure Variation, SV)를 확인하고, 유전자의 발현 양을 측 정하거나, DNA의 복제 수(Copy number) 측정을 가능하게 한다. 하지만 NGS 데이터의 처리와 분석에 있어서 여러 데이터 처리 단계가 존재하고, 단계마다 굉장히 많은 데이 터 처리 프로그램들이 존재한다. 전장 유전체 시퀀싱 (Whole Genome Sequencing, WGS), 전장 엑솜 시퀀싱(Whole Exome Sequencing, WES) 데이터로부터 변이를 확인하 는데 사용 가능한 데이터 처리 도구는 205개에 달한다는 보고가 있고[2], 이렇게 많은 데이터 처리 도구 중 연구자는 자신의 연구 방향에 알맞은 도구를 선택하는 것이 중요 하다. 현재 정해진 파이프라인이나 분석법이 없는 상황에 생물정보학자들은 어려움을 겪고 있다. 이러한 문제점을 극복하기 위해서 NGS 데이터를 처리할 수 있는 여러 파이 프라인 프로그램들이 출시되었다. 예를 들면, ‘NGS-pipe’[3] 와 ‘NEAT’[4], 두가지 파이프 라인 프로그램은 NGS 데이터 분석에 대한 자동화 파이프라인을 제공하고 있다. 또한 ‘systemPipeR’은 R 언어를 사용하여 전장 엑솜 시퀀싱, 전장 유전체 시퀀싱, 그리고 전 사체 시퀀싱(RNA sequencing) 데이터를 분석할 수 있는 파이프라인을 제공하고 있다 [5]. 하지만 이러한 데이터 처리 도구들은 NCI에서 제공하는 The Cancer Genome Atlas (TCGA, https://cancergenome.nih.gov) 데이터를 처리하기 위한 기준점이 되는 파이프라

(11)

2

인인 Genomic Data Commons(GDC) 파이프라인을 다루고 있지 않다. 최근 NGS 데이 터의 임상 적용의 발달은 세포 유리 DNA (cell-free DNA) 시퀀싱, 엑소좀 RNA 시퀀싱, 암 패널과 같은 새로운 플랫폼의 생성을 가속화시키고 있다. 이러한 새로운 임상 적용 을 위한 NGS 데이터는 커스터마이즈된 QC(quality control) 과정과 데이터 처리 과정을 필요로 한다. 이러한 점을 고려하여 나는 GDC 파이프라인 외에 NGS의 임상 적용을 위한 새로운 데이터의 처리 파이프라인들을 제공하는 ‘SEQprocess’를 개발하였다. 이 SEQprocess는 R 프로그램에서 구현되어 자동화되고 사용자에게 친숙한 인터페이스를 제공한다. 또한, SEQprocess는 NGS 데이터 처리의 기준으로서 많이 사용되는 6개의 커스터마이즈된 파이프라인들을 제공하며 의생명과학 연구자와 같은 컴퓨터에 익숙하지 않은 비전문가 도 쉽게 실행시킬 수 있다.

(12)

3

제 2장 구현

R 패키지로 실행되는 프레임워크인 SEQprocess는 여러 프로그램에 의해 작동되는 NGS 데이터 처리를 위한 파이프라인을 제공한다. SEQprocess는 하나의 명령어로 처음 부터 끝까지 정해진 파이프라인을 통해 데이터를 처리하거나, 단계별로 사용자의 설정 에 맞추어 원하는 프로그램을 사용하여 데이터를 처리한다. 파이프라인들은 DNA와 RNA 시퀀싱 데이터를 처리하기 위해 디자인되었으며, 원 데이터(raw data)에 대한 품 질 관리 (Quality control), 정돈 (Trimming), 정렬 (Alignment), 돌연변이 호출 (Variant calling), 돌연변이에 대한 주석 (Annotation), DNA 복제 수 측정과 RNA 정량화 과정을 포함하고 있다. 각 파이프라인은 모듈화되어 연속적으로 또는 분리되어 데이터를 처리 할 수 있다. 다음 프로그램들이 파이프라인들에 속해 있다. 원 데이터의 품질관리는 FastQC (https://www. bioinformatics.babraham.ac.uk/projects/fastqc)에 의해 수행되고, 염기서열의 정돈 과정은 TrimGalore (https://www.bioinformatics.babraham.ac.uk) 또는 Cutadapt[6] (http://cutadapt.readthedocs.org)에 의해서 수행된다. 염기서열의 정렬은 BWA (https://sourceforge.net/projects/bio-bwa), STAR (https://github.com/

alexdobin/STAR), TopHat2 (http://ccb.jhu.edu/software/tophat), 또는 bowtie2

(http://bowtie-bio.Sourceforge.net/bowtie), 4가지 도구[7-10]에 의해 진행된다. 시퀀싱을 진행할 때 PCR에 의해 생성되는 중복되는 리드 (PCR-duplicated read)

Picard-MarkDuplicates (https://github.com/broadinstitute/picard

)

에 의해서 제거되고, 그 후 재 정렬 (re-alignment) 과정은 GATK (https://software.broadinstitute. org/gatk)로 이루어지 고 돌연변이는 GATK, VarScan2 (http://varscan.sourceforge. net), MuSE

(13)

4

(bioinformatics.mdanderson.org/main/MuSE), 그리고 SomaticSniper

(http://gmt.genome.wustl.edu/packages/somatic-sniper)[11-14]에 의해 호출된다. 돌연 변이에 대한 주석은 VEP (https://asia.ensembl.org/info/docs/tools/vep)와 ANNOVAR (http://annovar.openbioinformatics.org)[15-16] 프로그램에 의해서 추가된다. RNA 정량 화 과정은 HTSeq (https://htseq.readthedocs.io)과 Cufflinks (http://cole -trapnell-lab.github.io/cufflinks)[17-18]에 의해서 진행되며 DNA 복제 수 측정은 Sequenza[19] (www.cbs.dtu.dk/biotools/sequenza)로 이루어진다. 이러한 프로그램들은 기본 매개 변 수 값을 이용하며, 모듈화되어 실행된다. 앞서 데이터 처리 단계마다 사용되는 프로그 램들은 Conda 패키지 관리자 (https://conda.io/docs)를 이용하여 쉽게 설치할 수 있다. 그리고 SEQprocess는 NGS 데이터를 처리하기 위한 새로운 기능이나 파이프라인을 추 가할 수 있으며, 반대로 처리 단계에 포함시키지 않을 수도 있다. 이 모듈화된 프레임 워크는 사용자의 설정대로 유연하게 구동할 수 있으며, 확장 가능한 플랫폼을 제공하므 로, 향후 단일 세포 시퀀싱과 같은 새로운 데이터에 대한 파이프라인을 추가적으로 구 현할 수 있다.

(14)

5

제 3장 결과

3.1. SEQprocess 파이프라인

현재 SEQprocess는 GDC 파이프라인과 세포 유리 DNA나 엑소좀 RNA에 대한 시퀀싱 데이터를 처리할 수 있는 파이프라인 외에 총 6가지의 커스터마이즈된 기준 파이프라 인을 제공한다 [그림 1]. 이러한 파이프라인은 비전문가에 의해서 쉽게 실행될 수 있는 하나의 명령어로 수행 가능하다. WGS/WES 데이터는 GDC 파이프라인인 TrimGalore, BWA-mem, Picard, 4가지 돌연변이 호출 프로그램, 그리고 VEP를 이용해 실행되고, 또 한 돌연변이 호출을 위해 세계적으로 널리 쓰이는 도구인 GATK (Genome Analysis ToolKit)를 사용하는 파이프라인인 커스텀 파이프라인을 추가하였다. 이 파이프라인은 TrimGalore, BWA, Picard, GATK, 그리고 ANNOVAR를 사용한다. 추가적으로

SEQprocess는 돌연변이 호출 후 각 야생형 (Wild-type)과 돌연변이에 대한 리드의 깊 이 (Read depth)를 GATK ‘DepthOfCoverage’ 기능을 이용해 계산하여 돌연변이 유전자 형 빈도수 (Variant allele frequency, VAF)를 측정할 수 있다. 액체 생검으로 얻은 세포 유리 DNA나 암 패널과 같은 타겟 시퀀싱에 대한 데이터는 동일한 염기 서열을 갖는 리드가 존재하기 때문에 PCR 중복 리드를 제거하는 단계가 제외된 파이프라인을 이용 할 수 있다. 바코드 시퀀싱 데이터(BarSeq)의 경우 바코드를 이용해 중복 리드를 제거 하는 과정을 거치고, RNA 시퀀싱 데이터는 STAR, Samtools, 그리고 HTSeq을 이용한 GDC 파이프라인과 가장 많이 사용되는 파이프라인 중 하나인 턱시도(Tuxedo) 파이프 라인인 TopHat2와 Cufflinks를 이용한다. 엑소좀, 세포, 그리고 조직으로 얻은 마이크로 RNA 시퀀싱(miR-Seq) 데이터는 Cutadapt, BWA-aln, bowtie2, 그리고 HTSeq을 이용하

(15)

6 여 데이터 처리가 수행된다. SEQProcess는 시스템상에 자신의 데이터에 알맞은 참고(Reference) 데이터를 설치하고 여러 프로그램을 이용해 작동된다. 설치된 프로그램과 참고 데이터들은 환경 설정 (Configuration) 파일인 data/config.R 파일을 편집해 관리할 수 있다 [표 1]. SEQprocess의 현재 버전은 사용되는 프로그램들이 오직 리눅스에서만 구동되기 때문에 리눅스 운영 시스템만 지원한다. ‘parallel’ R 패키지를 사용하여 멀티-코어 시스템의 병 렬 계산이 가능하고, GATK, TopHat2, BWA, STAR, 그리고 Cufflinks 프로그램은 각 프로 그램에서 매개 변수의 조절로 다중계(Multi- threading) 사용이 가능하다.

(16)

7

[그림 1] 모듈화된 파이프라인에 대한 작업 흐름의 개략도

SEQprocess에서 실행되는 모듈화 파이프라인은 6개의 커스터마이즈된 기준 파이프라 인이다.

(17)

8

[표 1] SEQprocess 실행을 위한 매개변수

Analysis Steps Parameters Description Values

None fastq.dir Fastq file path File path

output.dir Output directory File path config.fn Configure file path File path project.name Project name Name

type Data type WGS, WES, BarSEQ, RSEQ, miRSEQ

pipeline Select data processing pipeline none, GDC, GATK, BarSEQ, Tuxedo, miRSEQ mc.cores Number of multi core Numeric

run.cmd Whether to execute Logical

QC QC Quality Check (FastQC) Logical

Trimming trim.method Trimming (Cutadapt, TrimGalore) trim.galore, cutadapt, none

Alignment align.method Alignment (BWA, Tophat2,

STAR, Bowtie2)

bwa, tophat2, star, bowtie2, none

build.transcriptome.idx Transcriptome criterion generation in tophat

Logical tophat.thread.number Number of threads Numeric

bwa.method Select BWA method mem, aln bwa.thread.number Number of threads Numeric star.thread.number Number of threads Numeric

Remove Duplicates rm.dup Whether to execute Picard

MarkDuplicates

MarkDuplicates, BARCODE, none

Re-alignment realign Whether Re-alignment Logical

Variant Call variant.call.method Select variant calling method gatk, varscan2, mutect2, muse,

somaticsniper, none gatk.thread.number Number of threads Numeric

mut.cnt.cutoff Read depth criterion determining the presence or absence of

mutation

Numeric

Annotation annotation.method Select variant annotation method annovar, vep

ref Reference version Default=hg38

RNA quantitation rseq.abundance.method Select RNA quantitation method cufflinks, htseq, none

cufflinks.gtf Whether detection novel genes and isoforms

-G, -g cufflinks.thread.number Number of threads Numeric

RNAtype Type of RNA mRNA, miRNA

DNA copy number CNV Whether quantitation CNV Logical

ExpressionSet/SE R object

make.eSet Make ExpressionSet Rdata Logical eset2SummarizedExperiment Convert eSet to SE Logical

(18)

9 3.2. SEQprocess 출력 파일 파이프라인의 각 데이터 처리 단계들은 R 패키지 내에서 래퍼(Wrapper) 함수로서 모듈 화 되어 쉽게 커스터마이즈 할 수 있는 플랫폼을 제공한다. 각 단계별로 사용자가 함수 의 매개변수를 설정함으로써 단 하나의 명령어인 ‘SEQprocess’를 사용하여 파이프라인 들이 수행될 수 있다 [표 2]. 처리가 끝난 데이터들은 생물정보학을 위한 R 패키지를 모아 놓은 Bioconductor의 R 호환 데이터 유형인 ‘ExpressionSet’[20]으로 변환 가능하 다. 이 데이터 유형은 NGS 데이터의 생물학적 해석을 위해 분석을 진행할 때 굉장히 많이 사용되는 데이터 유형이다. RNA 발현, 돌연변이, 그리고 DNA 복제 수에 대한 각 데이터 객체는 ‘.eSet’, ‘vSet’, 그리고 ‘cSet’의 확장자로 제공된다. 이러한 ExpressionSet 데이터 유형은 또 다른 데이터 유형인 ‘SummarizedExperiment’로 변환이 가능하다. SummarizedExperiment는 ExpressionSet과는 달리, ‘GenomicRanges’ 데이터 유형을 포 함한다. 이러한 데이터 유형을 출력하여 SEQprocess는 R 환경에서 데이터 처리에 이어 분석까지 용이하게 하는 프레임워크를 제공할 것이다.

(19)

10

[표 2] SEQprocess에서 사용되는 외부프로그램과 데이터 파일

Pipeline Required R package Programs path Reference path

All parallel

Report

Limma, data.table, fastqcr, pander, knitr,

png, grid, gridExtra, ggplot2, reshape2

QC fastqc.dir

Trimming . trim_galore.path _{cutadapt.path}

Alignment . bwa.path tophat2.path bowtie2.path STAR.path samtools.path ref.fa chrom.fa bwa.idx bowtie.idx star.idx.dir transcriptome.idx

Remove Duplicates . picard.path _chrom.faref.fa

Re-alignment . GATK.path ref.fa

ref.gold_indel Variant Call varscan.path MuSE.path somaticsniper.path ref.gold_indel ref.dbSNP cosmic.vcf Annotation . vep.path vcf2annovar.pl table_annovar.pl annovar.db.dir vep.dir

RNA quantitation GenomicRanges cufflinks.path _htseq.path

ref.gtf mir.gff refGene.path

DNA copy number sequenza sequenza.util ref.fa

ExpressionSet/SE R object

Biobase, GenomicRanges, SummarizedExperiment

(20)

11

[그림 2] SEQprocess의 출력 파일

RNA 발현 측정, DNA 돌연변이 감지, 또는 DNA 복제 수 측정 후 출력 파일은

R/Bioconductor 호환 데이터 유형인 ExpressionSet과 SummarizedExperiment로 변환된 다. RNA 정량, 돌연변이, 복제 수의 각각 다른 데이터들은 ExpressionSet 형태의 eSet, vSet, 그리고 cSet의 서로 다른 이름으로 저장되며 ExpressionSet들은

(21)

12 3.3. 데이터 분석의 재현성을 위한 SEQprocess 보고서 파일 추가적으로, SEQprocess는 각 데이터 처리의 결과를 표와 그래프로 요약해 가시화한 보고서(Report) 파일을 제공한다. 보고서 파일은 데이터 처리 작업 흐름, 단계별 사용한 매개변수들 [표 3], 그리고 도출되는 결과기록하여 자동적으로 생성될 수 있다. 도출되 는 결과에는 품질 관리 결과 [표4, 그림3-1]와, 시퀀싱 데이터의 정렬 결과 맵핑 된 리 드와 그렇지 않은 리드의 비율 [표5, 그림 3-2], 돌연변이 호출 결과 [그림 3-3] 등이 포함된다. 게다가, 사용자들은 각 프로그램의 데이터 처리에 대한 메시지 외에도 기록 파일(Log file)에서 오류 메시지를 발견할 수 있다. 이러한 자동화 보고서 시스템은 데이터 분석 의 재현성을 보장할 수 있다.

[표 3] 단계별 사용 도구와 매개변수

Pipeline Tool Parameters

QC FastQC .

Trimming TrimGalore

trim.quality>30 trim.clip_R1=13 trim.clip_R2=13

Alignment TopHat2 reference gtf file=gencode.v27.annotation.gtf

reference fasta file=GRCh38.fa Remove

Duplicates

Picard

MarkDuplicates .

Realign GATK _{1000G_standard.indels.hg38.vcf}reference indel vcf file=

Variant Calling GATK .

(22)

13

[표 4] 원 데이터 품질 관리 결과 표

Filename GC(%) Total Reads Read length(bp) Phred Score(>30)(%) RIM01_1.fq 50 22,268,224 101 93.21 RIM01_2.fq 50 22,268,224 101 88.31 RIM02_1.fq 51 28,007,438 101 92.94 RIM02_2.fq 51 28,007,438 101 87.12 RIM04_1.fq 49 26,240,198 101 92.38 RIM04_2.fq 49 26,240,198 101 87.53 RIM06_1.fq 51 23,971,268 101 91.52 RIM06_2.fq 51 23,971,628 101 86.24

(23)

14

[그림 3-1] 원 데이터 품질 관리 그래프와 리드의 품질 상태

Ph re d S co re (> 30 )( % ) 0 25 50 75

Proportion of reads with a quality score of 30 or higher

Sample name RIM 01 _1 _.fq R IM01 _2 _. fq R IM02 _1 _. fq R IM02 _2 _. fq R IM04 _1 _. fq R IM04 _2 _. fq R IM06 _1 _. fq R IM06 _2 _. fq

(24)

15

[표 5] 데이터의 정렬 상태 표

[그림 3-2] 데이터의 정렬 상태 비율 그래프

Sample name Total Reads Total read R1 Total read R2 Trimmed base R1 Trimmed base R2 Aligned Reads Duplicated Reads RIM01 44.54 22.27 22.27 73.91 (3.3%) 124.9 (5.6%) 40.16 (90.2%) 11.86 (26.6%) RIM02 56.01 28.01 28.01 _(2.8%)79.96 _(5.6%)158.2 _(89.6%)50.18 16.51 (29.5%) RIM04 52.48 26.24 26.24 _(3.1%)82.36 _(5.2%)136.9 _(89.8%)47.15 20.60 (39.2%) RIM06 47.94 23.97 23.97 86.78 (3.6%) 146.5 (6.0%) 42.27 (88.2%) 10.35 (21.6%)

Duplicates proportion in each sample

Mapped Reads Duplicated Reads Unmapped Reads

Pro p ort io n(% ) 0 25 50 75 100 RI M 01 _1 _. fq RI M 02 _1 _. fq RI M 04 _1 _. fq RI M 06 _1 _. fq RI M 01 _2 _. fq RI M 02 _2 _. fq RI M 04 _2 _. fq RI M 06 _2 _. fq Sample name Pr op or ti o n( % )

Mapped Reads Unmapped Reads

Mapping proportion in each sample

0 25 50 75 100 R

IM01 _RIM02 _RIM04 _RIM0

6

(25)

16

(26)

17

제 4장 결론

요약하면, 기능이나 파이프라인 추가가 가능하고 R 호환 프레임워크인 SEQprocess는 여러 NGS 데이터 처리 도구를 다룰 수 있는 파이프라인 R 패키지이며, 정해진 파이프 라인 외에도 사용자의 설정에 맞추어 유연하게 구동할 수 있고, 데이터 분석의 재현성 을 보장할 수 있도록 자동화 보고서 기능을 제공한다.

(27)

18

참고문헌

[1] Kwon, S.M., et al. (2012) Perspectives of integrative cancer genomics in next generation sequencing era, Genomics & informatics, 10, 69-73.

[2] Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, et al. A survey of tools for variant analysis of next-generation genome sequencing data. Brief Bioinform. 2014;15:256–78.

[3] Singer J, et al. NGS-pipe: a flexible, easily extendable and highly configurable framework for NGS analysis. Bioinformatics. 2018;34(1):107–8.

[4] Schorderet P. NEAT: a framework for building fully automated NGS pipelines and analyses. BMC Bioinformatics. 2016;17:53.

[5] Backman, T.W.H. and Girke, T. (2016) systemPipeR: NGS workflow and report generation environment, BMC Bioinformatics, 17, 388.

[6] Martin M. Cutadapt removes adapter sequences from high-throughput sequencing reads. 2011 2011;17(1):3.

[7] Li H, Durbin R. Fast and accurate short read alignment with burrows-wheeler transform.

Bioinformatics. 2009;25(14):1754–60.

[8] Dobin A, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29(1):15-21.

[9] Kim D, et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol. 2013;14(4):R36.

(28)

19

[10] Langmead B, Salzberg SL. Fast gapped-read alignment with bowtie 2. Nat Methods. 2012;9(4):357–9.

[11] McKenna A, et al. The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 2010;20(9):1297–303.

[12] Koboldt DC, et al. VarScan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing. Genome Res. 2012;22(3):568–76.

[13] Fan Y, et al. MuSE: accounting for tumor heterogeneity using a sample-specific error model improves sensitivity and specificity in mutation calling from sequencing data.

Genome Biol. 2016;17(1):178.

[14] Larson DE, et al. SomaticSniper: identification of somatic point mutations in whole genome sequencing data. Bioinformatics. 2012;28(3):311–7.

[15] McLaren W, et al. The Ensembl variant effect predictor. Genome Biol. 2016;17(1):122. [16] Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 2010;38(16):e164.

[17] Anders S, Pyl PT, Huber W. HTSeq—a Python framework to work with high-throughput sequencing data. Bioinformatics. 2015;31(2):166-9.

[18] Trapnell C, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 2010;28(5):511–5.

(29)

20

[19] Favero F, et al. Sequenza: allele-specific copy number and mutation profiles from tumor sequencing data. Annals of oncology : official journal of the European Society for.

Med Oncol. 2015;26(1):64-70.

[20] Huber, W., et al. (2015) Orchestrating high-throughput genomic analysis with Bioconductor, Nature methods, 12, 115-121.

(30)

21

영문요약

SEQprocess: A modularized and customizable pipeline framework for NGS

processing in R package

Backgrounds: Next-Generation Sequencing (NGS) is now widely used for

biomedical research with various applications. Processing of NGS data needs

multiple programs and customization of the processing pipelines according to the

data platforms. However, rapid progress of the NGS applications and the processing

methods urgently require prompt update of the pipelines. Recent clinical applications

of NGS technology such as cell-free DNA, cancer panel, or exosomal RNA

sequencing data also require appropriate customization of the processing pipelines.

Here, we developed SEQprocess, a highly extendable framework that can provide

standard as well as customized pipelines for NGS data processing.

Results: SEQprocess is implemented in an R package with fully modularized steps

for data processing that can be easily customized. In addition, currently, six

pre-customized pipelines are provided that can be easily executed by non-experts such

as biomedical scientists, including the NCI Genomic Data Commons (GDC)

pipelines as well as the popularly used pipelines for variant calling (e.g., GATK) and

estimation of allele frequency, RNA abundance (e.g., TopHat2/Cufflink), or DNA

copy numbers (e.g., Sequenza). Optimized pipelines for the clinical sequencing from

(31)

22

cell-free DNA or miR-Seq are also provided. The processed data are transformed

into R package-compatible data type ‘ExpressionSet’ or ‘SummarizedExperiment’

that can facilitate subsequent data analysis with R environment. An automated report

summarizing the processing steps are also provided to ensure reproducibility of the

NGS data analysis.

Conclusion: SEQprocess provides highly extendable and

R compatible framework that

can manage customized and reproducible pipelines for handling multiple legacy NGS

processing tools.

Keyword: NGS, Whole genome sequencing, Whole exome sequencing, RNA sequencing, Data