• 검색 결과가 없습니다.

저작자표시

N/A
N/A
Protected

Academic year: 2022

Share "저작자표시"

Copied!
28
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

저작자표시-비영리-변경금지 2.0 대한민국

이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게

l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다:

l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.

l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.

저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다.

이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.

Disclaimer

저작자표시. 귀하는 원저작자를 표시하여야 합니다.

비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.

변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

이학 석사학위 논문

scTyper : 단일 세포 RNA-seq 데이터의 cell typing을 위한 포괄적인

분석 파이프라인

아 주 대 학 교 대 학 원 의생명과학과

김혜인

(3)

scTyper : 단일 세포 RNA-seq 데이터의 cell typing을 위한 포괄적인

분석 파이프라인

지도교수 우 현 구

이 논문을 이학 석사학위 논문으로 제출함

2021 년 2 월

아 주 대 학 교 대 학 원 의생명과학과

김혜인

(4)

-국문 요약-

scTyper : 단일 세포 RNA-seq 데이터의 cell typing을 위한 포괄적 인 분석 파이프라인

최근 단일 세포 RNA 시퀀싱(scRNA-seq) 기술의 진보는 조직의 복잡한 세포 집단으로부터 상 피세포, 면역세포 또는 섬유 아세포와 같은 개별 세포 유형을 식별할 수 있게 해준다. 세포 타 이핑은 scRNA-seq 데이터 분석의 주요 과제 중 하나이며 일반적으로 세포 마커 유전자의 발 현을 추정하여 수행된다. 그러나 세포 타이핑 분석에 대한 표준 사례는 없으므로 다른 세포 마 커 및 세포 타이핑 알고리즘의 사용에 따라 가변적이고 부정확한 결과가 발생한다. scRNA-seq 분석을 위한 포괄적인 세포 타이핑 분석 파이프라인 R 패키지인 scTyper를 개발했다. 이는 이 전 22개의 연구에서 213개의 세포 마커 세트가 수집된 scTyper.db와 같은 세포 유형 마커에 대 한 데이터베이스를 제공한다. 특히, 악성세포, 암 관련 섬유 아세포 및 종양 침윤 T 세포와 같 은 종양 조직에 대한 세포 마커를 추가하여 암 조직의 데이터를 분석하는데 크게 도움이 될 수 있다. 또한 scTyper는 the nearest template prediction (NTP), gene set enrichment 분석 (GSEA), 평 균 발현값 분석을 포함하여 세포 유형 마커 발현을 추정하기 위한 세가지 맞춤형 방법을 제공 한다. 또한 DNA copy number 추론 방법 (inferCNV)은 악성 세포 타이핑에서 개선된 수정사항 을 반영하여 구현되었다. 이 패키지는 10X genomics의 CellRanger에 의한 데이터 전처리 파이 프라인을 지원한다. 또한 사용자가 재현 가능한 분석을 쉽게 수행하도록 분석 요약 보고서가 구현되었다. scTyper는 선별된 세포 마커 DB인 scTyper.db를 사용하여 scRNA-seq 데이터의 세 포 타이핑을 위한 포괄적이고 사용자 친화적인 파이프라인을 제공한다.

핵심어: 단일 세포 RNA 시퀀싱, 세포 타이핑, 세포 유형 데이터베이스

(5)

ii

CONTENTS

논문 요약 i

TABLE OF CONTENTS ii

LIST OF FIGURES iii

LIST OF TABLES iv

제 1장 BACKGROUND 1

제 2장 IMPLEMENTATION 2

제 3장 RESULTS 3

3.1. scTyper의 전체 워크플로우 3

3.2. scTyper.db, 수작업으로 선별된 세포 마커 데이터베이스 7 3.3.

세포 마커 발현 및 세포 타이핑의 추정

9

제 4장 테스트 데이터 실행 14

제 5장 DISCUSSION 17

제 6장 CONCLUSION 18

REFERENCE

영문 요약

(6)

LIST OF FIGURES

[그림 1] scTyper 워크플로우의 개략도 3

[그림 2] 수작업으로 수집된 scTyper.db 의 통계치 8

[그림 3] CellMarker DB의 통계치 9

[그림 4] scTyper의 매개 변수에 따른 세포 타이핑 결과 10 [그림 5] 악성 세포 수의 중복을 보여주는 벤 다이어그램 12 [그림 6] CPU 코어 수에 따른 scTyper 실행 시간 13

[그림 7] scRNA-seq 테스트 데이터 불러오기 14 [그림 8] scRNA-seq 테스트 데이터 분석을 위한 마커 지정 15

[그림 9] scTyper() 함수 실행 예제 16

(7)

iv

LIST OF TABLES

[표 1] scTyper 함수의 매개 변수 6

(8)

제 1장 Background

최근 단일 세포 RNA 시퀀싱 (scRNA-seq) 기술의 발전으로 단일 세포 수준에서 전사체

프로파일링을 할 수 있게 되었다 [1, 2]. scRNA-seq 분석의 주요 과제 중 하나는 전사체 데

이터에서 세포 유형을 식별하는 것이다. 현재 다양한 세포 타이핑 방법이 서로 다른 워크플

로우 및 데이터 유형을 사용하여 도입되었다 [2-6]. 일반적으로 연구자들은 세포 마커 유전

자 발현을 추정함으로써 세포 타이핑을 편리하게 사용한다. 최근 단일 세포 시퀀싱 및 실험

연구를 포함한 다양한 연구에서 생성된 세포 유형 마커에 대한 다양한 자원들이 이용 할 수

있다 [7, 8]. 이러한 마커를 사용한 세포 유형 분석은 마커가 확립되지 않아 시간이 오래 걸

리고 오류가 발생하기 쉬운 프로세스가 된다. 또한, 세포 타이핑 분석에 관한 표준 사례는

없어서 다른 세포 마커 및 세포 타이핑 알고리즘에 따라 세포 유형이 차이를 보인다.

최근 연구에서 얻은 세포 마커 자원의 대규모 수집이 요구되며, 이는 세포 유형 분석에

포괄적으로 사용될 수 있다. 실제로 수동으로 선별된 세포 마커와 그 정보를 제공하는 포괄

적인 세포 마커 DB인 CellMarker가 있다 [9]. 많은 종양 관련 세포가 최근에 특성화되었지

만, CellMarker 데이터베이스는 특히 종양 조직에 관한 연구를 포함하지 않았다 [10-12].

이 연구에서는 우리는 세포 마커 데이터베이스인 scTyper.db를 제공하고 3가지의 다른

방법으로 scRNA-seq 데이터의 세포 타이핑 분석을 유연하게 수행하는 파이프라인인

(9)

2 scTyper를 개발하였다. 사용자는 세포 타이핑 파이프라인을 커스터마이즈할 수 있고 사전

수집된 세포 마커 데이터베이스를 쉽게 사용할 수 있다.

제 2장 Implementation

scTyper는 단일 명령어로 실행되도록 설계된 R 패키지이다. 숙련된 사용자는 단순히 매

개 변수를 설정하여 파이프라인을 단계별로 사용자 지정할 수 있다. scTyper는 세포 타이핑

프로세스 외에도 FASTQC (https://www.bioinformatics.babraham.ac.uk/projects/fastqc) 및

CellRanger [13] 에 의해 수행되는 품질 관리 및 시퀀스 정렬을 위한 파이프라인을 지원한

다. 데이터 정규화, 클러스터링 및 시각화 프로세스도 ‘Seurat’ R 패키지의 래퍼 함수에 의

해 지원된다 [14].

(10)

제 3장 Results

3.1 scTyper의 전체 워크플로우

scTyper는 scRNA-seq 데이터의 세포 타이핑을 위한 자동화된 맞춤형 파이프라인을 제공

한다 [그림 1]. 사용자 편의를 위해 이 패키지는 원시 시퀀싱 데이터에 대해 FASTQC와 10X

Genomics의 Cell Ranger 래퍼 함수를 이용한 전처리 파이프라인을 지원한다. 전처리과정

은 품질 관리, 서열 정렬, 원시 시퀀싱 데이터의 정량화가 포함된다. 이러한 프로세스는 단

일의 명령어로 실행될 수 있다. 로그 변환, 정규화 및 클러스터링을 위한 데이터 처리 단계

는 ‘Seurat” R 패키지의 래퍼 함수에 의해 수행되며, 이 프로세스는 Seurat 객체를 후속 프

로세스에 대한 입력 파일로 생성한다.

[그림 1] scTyper 워크플로우의 개략도

(11)

4 데이터 처리 후 사전 수집된 세포 마커 데이터베이스 (scTyper.db)를 사용하여 세포 타이

핑 프로세스를 수행할 수 있다. 이전의 세포 마커 데이터베이스인 CellMarker도 사용자 편

의를 위해 패키지에 구현되었다 [9]. 사용자는 이러한 데이터베이스에서 관심 있는 세포 마

커를 쉽게 선택하여 후속 세포 타이핑 분석에 적용할 수 있다. 세포 마커 세트의 발현은 NTP

[15], pre-ranked GSEA [16], 유전자 발현 평균값의 3가지 방법으로 추정할 수 있다. 악성 세

포 타이핑의 경우, 사용자는 개선된 inferCNV R 패키지를 사용하여 추정된 DNA 카피 수를

이용할 수 있다 [17].

전체적으로 scTyper는 ‘QC’, ‘Cell Ranger’, ‘Seurat processing’, ‘cell typing’ 및 ‘malignant

cell typing’의 모듈식 프로세스로 구성된다. 이러한 프로세스는 각 프로세스의 매개 변수를

설정하여 사용자 정의할 수 있다. 사용자가 세포 타이핑 프로세스만 수행하고자 하고 전 처

리된 입력 파일로 ‘Seurat object’가 사전 준비된 경우, 매개변수 ‘qc’, ‘run.cellranger’ 및

‘norm.seurat’ 매개 변수를 ‘FALSE’로 설정하여 ‘QC’, ‘Cell Ranger’, ‘Seurat processing’ 프로

세스를 건너뛸 수 있다. scTyper에 구현된 프로세스 및 해당 매개 변수는 [표 1]에 요약되어

있다.

(12)

Process Parameters Description Values

global configu ration

wd Working directory Character output.name Output directory name Character pheno.fn Phenotype file path File path

qc run.cellranger

norm.seurat Indicate whether the process run Logical (Default =

‘FALSE’) cell.typing.method Cell typing method ‘NTP’ (Default), ‘ES’,

‘Average’

level Indicate the cell assignment level (cell

or cluster) ‘cell’ (Default),

‘cluster’

run.inferCNV Indicate whether ‘malignant cell typing

by inferCNV process run Logical (Default = ‘TRUE’) project.name Project name Character

mc.cores Number of cores Numeric (Default =

‘1’) report.mode Generate report file Logical (Default =

‘TRUE’)

QC

fastqc.path FastQC program path File path fastq.dir FastQC output directory File path

fq1.idx Index of the FASTQ file (Read 1) Character (Default =

‘_R1_001.fastq’) fq2.idx Index of the FASTQ file (Read 2) Character (Default =

‘_R2_001.fastq’) Cell

Ranger

cellranger.path Cell Ranger program path File path cellranger.ref.dir Directory of Cell Ranger reference file File path

Seurat process ing

percent.min.cells Cutoff to filter features containing

minimum percent of cells 0.1 min.features Cutoff to filter cells containing

minimum number of features 200 percent.mt Cutoff for filtering cells that have >n

percent mitochondrial counts 10

vars.to.regress Variables to regress out Default=c(‘nCount_R NA’, ‘percent.mt’) dims A vector of the dimensions to use in

construction of the SNN graph. 1:100

resolution

Value of the resolution parameter, use a value above (below) 1.0 if you want to obtain a larger (smaller) number of communities.

2

Cell typing

seurat.object Seurat object Seurat object slot Data type of Seurat object ‘scale.data’ (Default),

‘count.data’, ‘data’

(13)

6 marker Cell markers to use cell typing

Character or List (Signature names or Study names or User defined gene set list) assay Assay of Seurat object Character

(Default=’RNA’) NTP.g.filter.metho

d Method to filter genes in NTP ‘sd’ (Default),’mad’,

‘none’

NTP.gene.filter.cut

off Cutoff to filter genes of in NTP Numeric (Default =

‘0.3’) NTP.distance NTP distance method ‘cosine’ (Default),

‘correlation’

NTP.norm.method NTP normalization method ‘none’ (Default),

‘row.std’

Malign ant cell

typing (inferC

NV)

gene.ref.gtf Path of GTF file including genomic

location for genes File path

feature.to.test Column header name of the meta data in Seurat object (select the cell groups for T.test)

Character (Default =

‘cell.type’),

‘tissue.type’

cells.test_excluded A value indicates the cells to be excluded in T.test

Character (Default =

‘Epithelial’) cells.test_referenc

e

A value indicates the cells to use as be excluded in T.test

character (Default = ‘immune’) fc.cutoff Cutoff of fold change Numeric (Default =

‘0.05’) cutoff.gene.cluster A cutoff P-value for filtering out the

gene clusters (calculated from GO analysis)

Numeric (Default =

‘0.05’)

malignant.cell.type Cell type to assign malignant cell

Character (Default

= ’Epithelial’)

[표 1] scTyper 함수의 매개 변수

마지막으로 분석 결과 및 실행된 프로세스는 처리 단계와 세포 타이핑, 클러스터링 결과

를 요약하고 결과 플롯을 시각화하여 자동으로 보고서로 문서화된다.

(14)

3.2 scTyper.db, 수작업으로 선별된 세포 마커 데이터베이스

scTyper.db는 패키지에 사전 설치되어 있으며, 이 패키지는 수작업으로 선별된 213개의

세포 마커 유전자 세트와 22개의 논문에서 수집한 121개의 세포 유형으로 구성되어 있다.

특히 암 데이터 분석에 매우 유용한 암 관련 섬유아세포 (n=21), 종양 침투 림프구 (n=33),

종양 관련 대식세포 (n=4) 및 다른 조직 유형 (n=13)에서 악성 세포에 대한 세포 마커를 수

집하였다 [그림 2]. 149개의 면역 세포 마커의 면역 레퍼토리도 데이터베이스에 포함되어

있다. 예를 들어 CD4+, CD8+, regulatory T, and exhausted T 세포와 같은 상이한 세포 전

이 상태를 갖는 62개의 T세포 마커 세트가 있다.

(15)

8

[그림 2] 수작업으로 수집된 scTyper.db 의 통계치

데이터베이스에서 마커 유전자 세트에 라벨을 붙일 통일된 명명법을 개발하였다. 예를 들

어, 출판물의 첫 번째 저자 이름 ('Puram'), 출판 연도 ('2017'), 조직 유형 / 암 유형 ('HNSCC')

을 연결하여 세포 마커 레이블 'Puram.2017.HNSCC.TME'가 지정하였다. 이 명명법을 사용

하면 사용자가 관심 있는 세포 마커를 쉽게 검색할 수 있다. 데이터 소스, pubmed id, 종,

조직 유형, 연구 세부사항 등과 같은 세포 마커에 대한 자세한 정보도 제공된다. scTyper.db

외에도 1,764개의 연구에서 467개의 세포와 2,867 세포 유형 마커 세트로 구성된 이전의 데

이터베이스인 CellMarker DB도 구현되었다 [그림 3].

(16)

[그림 3] CellMarker DB의 통계치

3.3 세포 마커 발현 및 세포 타이핑의 추정

현재 버전에서는 세포 마커 세트의 발현을 추정하기 위한 NTP, pre-ranked GSEA와 평균

발현 값 방법, 세 가지의 다른 방법들이 구현된다 (그림 1). NTP는 유전자 세트의 리스트와

거리를 테스트데이터 [18] 에 계산하는 방법을 사용하여 세포 유형 템플릿에 대한 근접성을

추정하는 클래스 예측 방법이다. Enrichment Score (ES)는 pre-ranked GSEA방법

(https://www.gsea-msigdb.org/gsea/index.jsp)에 의해 계산된다. 사용자는 매개 변수 'level'

의 값을 'cell’ 또는 'cluster'로 설정하여 'cell-level'또는 'cluster-level' 사이에서 세포 타이핑

수준을 선택할 수 있다.

(17)

10 Malignant cell typing 과정에서 추론된 DNA 카피 수는inferCNV 과정에서 유전자 필터

링 단계를 추가하여 개선된 프로세스가 반영된 inferCNV R 패키지 [17] 에 의해서 추론된

다. 동일한 기능을 가진 유전자 그룹은 염색체에서 서로 근접한 곳에 위치하여 유전자 클러

스터를 구성 할 수 있다. 이러한 유전자 클러스터는 유사한 발현 수준을 가질 수 있음으로,

부분적으로 DNA 카피 수 변경을 갖는 것으로 잘못 추론될 수 있다. 이러한 필터링 옵션을

추가하여 inferCNV 분석에서 해당 유전자 클러스터를 제거했다.

[그림 4] scTyper의 매개 변수에 따른 세포 타이핑 결과

(18)

다음으로 테스트 데이터 세트 (GSE103322, 5,902개의 세포로 구성된 두경부편평 암) 를

사용하여 scTyper에서 구현된 다양한 세포 타이핑 방법의 성능을 벤치 마킹 했다. inferCNV

의 적용 여부와 3개의 세포 타이핑 방법에 따라 6가지의 상이한 매개 변수로 세포 타이핑

을 수행하였다. 'Puram.2017.HNSCC.TME' 세포 마커가 세포 타이핑에 사용되었다. 예상한

대로 사용된 방법에 따라 세포 유형이 다르게 할당된 것을 볼 수 있었다 [그림 4]. 예를 들

어, inferCNV 방법을 적용하면 원래 Puram의 연구에서 비 악성 세포로 할당되었던 529개

의 세포를 추가적으로 악성 세포로 식별 할 수 있었다 [그림 5] inferCNV 분석 동안 180개

의 유전자를 포함하는 5개의 클러스터가 필터링되었고 이는 통계적 유의성을 갖는 가까운

염색체 영역 (1Mb)에 위치하는 유전자에 대한 유전자 세트 농축 분석을 수행함으로써 확인

되었다 (P<0.05). 이러한 결과는 세포 마커 발현과 CNV추론의 결합된 분석이 세포 타이핑

결과를 적절하게 해석하는 데 크게 도움이 된다는 것을 지지할 수 있다.

(19)

12

[그림 5] 악성 세포 수의 중복을 보여주는 벤 다이어그램

성능 테스트에서 NTP 및 inferCNV를 사용한 테스트 데이터 (5,902개의 세포)의 세포 타

이핑 분석은 단일 CPU 코어 (Intel Xeon, 2.40 GHz) 및 1T RAM [그림 6]의 컴퓨팅 환경에

서 2.25시간의 실행 시간이 소요되었다. 대부분의 실행 시간은 inferCNV (1.43 시간) 및 NTP

(0.32 시간)의 프로세스에 의해 수행되었다. 또한 54,239개의 세포 (house data)로 더 큰 테

스트 세트를 시뮬레이션한 결과, 20.63시간이 소요되었다. 원시 데이터에 대한 전처리 단계

(‘QC, ‘Cell Ranger’, ‘Seurat processing’)는 성능 테스트에 포함되지 않았다. 최대 20개의 다

중 CPU 코어를 사용한 병렬 계산은 성능을 향상해 실행 시간을 각각 5,902 세포의 경우

0.47 시간으로, 54,239 세포의 경우 5.47 시간으로 향상할 수 있었다.

(20)

[그림 6] CPU 코어 수에 따른 scTyper 실행 시간

마지막으로 scTyper는 자동으로 요약 보고서를 생성한다. 이러한 문서는 프로세스의 각

단계, 사용된 매개 변수 및 세포 타이핑 및 클러스터링 결과를 요약하고 히트맵 및 t-SNE 플

롯으로 결과를 시각화한다. 이를 통해 사용자는 분석 워크플로우를 재현 할 수 있다.

(21)

14

제 4장 테스트 데이터 실행

1. 데이터 준비

scTyper는 단일세포 RNA-seq(scRNA-seq) 데이터, 표현형데이터 및 세포 타입 마커, 총 3가

지의 입력데이터가 필요하다.

1.1 scRNA-seq data

scTyper에는 입력 데이터로 단일 셀 식에 대한 'Seurat’ 객체가 필요하다. 전처리 된 단일 세

포 데이터에 대한 'Seurat' 객체를 테스트 데이터로 제공하며, 여기에는 14,985 개의 유전자

와 407 개의 세포에 대한 정규화 된 발현 값이 포함된다.

[그림 7] scRNA-seq 테스트 데이터 불러오기

1.2 표현형데이터

scTyper는 악성 세포 유형에 대한 샘플 ID 및 조직 유형 정보가 포함된 'CSV '형식의 파일

이 필요하다. 이 파일의 이름은 첫 번째 열에 Sample_ID, 두 번째 열에 TissueType으로 지

(22)

정해야한다.

1.3 마커 선택

scTyper 패키지는 셀 타이핑을 위해 'scTyper.db'및 'CellMarker DB'로 구성된 셀 마커 데이

터베이스를 제공한다. 통합 명명법을 사용하여 데이터베이스의 마커 유전자 세트에 레이블

을 지정했다. 예를 들어, 'Puram.2017.HNSCC.TME'는 출판물의 제 1 저자명 ( 'Puram'), 출판

연도 ( '2017'), 조직 유형 / 암 유형 ( 'HNSCC')을 결합하여 세포 표지 라벨

'Puram.2017.HNSCC.TME'를 지정하였다. ) 및 세포 구성 범주 ( 'TME', tumor

microenvironment). 데이터 소스, PubMed ID, 종, 조직 유형, 연구 세부 정보 등과 같은 세

포 마커에 대한 자세한 정보도 'extdata' 디렉터리 (scTyper.db, CellMarker DB 파일)에 제공

된다.

[그림 8] scRNA-seq 테스트 데이터 분석을 위한 마커 지정

2. scTyper() 실행

scTyper는 'QC', 'Cell Ranger', 'Seurat processing', 'cell typing', 'malignant cell typing'의 모

(23)

16 듈화 된 프로세스로 구성된다. 전처리 단계에는 QC, Cell Ranger, Seurat processing이 포함

된다. NTP (Nearest template prediction), ES (pre-ranked GSEA), 및 Average (average

expression values)을 포함한 세포 마커 세트의 발현을 추정하기 위해 세포 타이핑 알고리

즘이 구현된다. 또한 악성 세포 타이핑에서 추론 된 DNA 카피 수는 inferCNV R 패키지에

의해 추정된다. 이러한 프로세스는 각 프로세스의 매개 변수를 조작하여 사용자 정의 할 수

있다. scTyper는 다음 예와 같이 단일 명령으로 실행할 수 있다.

[그림 9] scTyper() 함수 실행 예제

(24)

제 5장 Discussion

본 연구에서, 수작업으로 수집되고 내장되어있는 세포 마커 데이터베이스와 세가지 다른

세포 타이핑 방법을 제공하여 scRNA-seq 데이터의 세포 타이핑을 위한 포괄적이고 유연한

파이프라인을 제공한다. 세포 마커 데이터베이스를 커스터마이즈 혹은 업데이트를 하기 위

해서 사용자가 "extdata" 디렉토리의 'sigTyper.db.txt' 파일을 최신 파일로 바꾸면 쉽게 수

행 할 수 있다. 이 패키지를 통해 사용자는 다양한 세포 타이핑 방법을 사용하고 비교할 수

있다. 모듈화 된 파이프라인을 통해 사용자는 각 단계에서 파이프라인을 수정할 수 있으며

데이터를 적절하게 해석 할 수 있다.

scTyper에는 현재 버전에 대해 몇 가지 제한 사항이 있다. 패키지에는 세포 마커 대신 참

조 scRNA-seq 데이터를 활용하는 세포 타이핑 방법이 포함되어 있지 않다 [4, 5]. 다른 패

키지의 분산 클러스터링 및 차원 축소 방법을 분석 파이프라인에 적용 할 수 있지만 현재

버전의 scTyper는 "PCA"또는 "UMAP / t-SNE"와 같은 "Seurat" 패키지에서 제공하는 기능

을 지원한다.

(25)

18

제 6장 Conclusion

scTyper는 scRNA-seq 데이터의 세포 타이핑 분석을 위한 유연하고 사용자 친화적인 파

이프라인이며 수동으로 선별된 세포 유형 마커 데이터베이스를 지원한다. 이 패키지는 사

용자가 재현 가능하고 확장 가능한 데이터 분석을 용이하게 하는 워크플로우를 커스터마이

즈 하도록 도울 수 있다.

(26)

Reference

1. Hwang B, Lee JH, Bang D: Single-cell RNA sequencing technologies and bioinformatics pipelines. Experimental & molecular medicine 2018, 50(8):96.

2. Abdelaal T, Michielsen L, Cats D, Hoogduin D, Mei H, Reinders MJT, Mahfouz A:

A comparison of automatic cell identification methods for single-cell RNA sequencing data. Genome Biol 2019, 20(1):194-194.

3. Pliner HA, Shendure J: Supervised classification enables rapid annotation of cell atlases. 2019, 16(10):983-986.

4. Ma F, Pellegrini M: ACTINN: automated identification of cell types in single cell RNA sequencing. Bioinformatics (Oxford, England) 2020, 36(2):533-538.

5. Alquicira-Hernandez J, Sathe A, Ji HP, Nguyen Q, Powell JE: scPred: accurate supervised method for cell-type classification from single-cell RNA-seq data. Genome Biol 2019, 20(1):264.

6. Kim T, Lo K, Geddes TA, Kim HJ, Yang JYH, Yang P: scReClassify: post hoc cell type classification of single-cell rNA-seq data. 2019, 20(Suppl 9):913.

7. Ceder JA, Jansson L, Helczynski L, Abrahamsson PA: Delta-like 1 (Dlk-1), a novel marker of prostate basal and candidate epithelial stem cells, is downregulated by notch signalling in intermediate/transit amplifying cells of the human prostate. European urology 2008, 54(6):1344-1353.

8. Ma S, Chan KW, Hu L, Lee TK, Wo JY, Ng IO, Zheng BJ, Guan XY: Identification and characterization of tumorigenic liver cancer stem/progenitor cells.

Gastroenterology 2007, 132(7):2542-2556.

9. Zhang X, Lan Y, Xu J, Quan F, Zhao E, Deng C, Luo T, Xu L, Liao G, Yan M et al: CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic acids research 2019, 47(D1):D721-d728.

10. Costea DE, Hills A, Osman AH, Thurlow J, Kalna G, Huang X, Pena Murillo C, Parajuli H, Suliman S, Kulasekara KK et al: Identification of two distinct

carcinoma-associated fibroblast subtypes with differential tumor-promoting abilities in oral squamous cell carcinoma. Cancer research 2013, 73(13):3888- 3901.

(27)

20 11. Navab R, Strumpf D, Bandarchi B, Zhu CQ, Pintilie M, Ramnarine VR, Ibrahimov

E, Radulovich N, Leung L, Barczyk M et al: Prognostic gene-expression

signature of carcinoma-associated fibroblasts in non-small cell lung cancer.

Proceedings of the National Academy of Sciences of the United States of America 2011, 108(17):7160-7165.

12. Zhang Q, He Y, Luo N, Patel SJ, Han Y, Gao R, Modak M, Carotta S, Haslinger C, Kind D et al: Landscape and Dynamics of Single Immune Cells in

Hepatocellular Carcinoma. Cell 2019, 179(4):829-845.e820.

13. Zheng GXY, Terry JM, Belgrader P, Ryvkin P, Bent ZW, Wilson R, Ziraldo SB, Wheeler TD, McDermott GP, Zhu J et al: Massively parallel digital

transcriptional profiling of single cells. Nature Communications 2017, 8(1):14049.

14. Satija R, Farrell JA, Gennert D, Schier AF, Regev A: Spatial reconstruction of single-cell gene expression data. Nature biotechnology 2015, 33(5):495-502.

15. Hoshida Y: Nearest template prediction: a single-sample-based flexible class prediction with confidence assessment. PloS one 2010, 5(11):e15543.

16. Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES et al: Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America 2005, 102(43):15545-15550.

17. Patel AP, Tirosh I, Trombetta JJ, Shalek AK, Gillespie SM, Wakimoto H, Cahill DP, Nahed BV, Curry WT, Martuza RL et al: Single-cell RNA-seq highlights

intratumoral heterogeneity in primary glioblastoma. Science (New York, NY) 2014, 344(6190):1396-1401.

18. Puram S, Tirosh I, Parikh A, Patel A, Yizhak K, Gillespie S, Rodman C, Luo C, Mroz E, Emerick K et al: Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer. Cell 2017, 171.

(28)

영문요약

scTyper: an analysis pipeline for cell typing of single-cell RNA- seq data

Background: Recent advances in single-cell RNA sequencing (scRNA-seq) technology have enabled the identification of individual cell types, such as epithelial cells, immune cells, and fibroblasts, in tissue samples containing complex cell populations. Cell typing is one of the key challenges in scRNA-seq data analysis that is usually achieved by estimating the expression of cell marker genes. However, there is no standard practice for cell typing, often resulting in variable and inaccurate outcomes.

Results: We have developed a comprehensive and user-friendly R-based scRNA-seq analysis and cell typing package, scTyper. scTyper also provides a database of cell type markers, scTyper.db, which contains 213 cell marker sets collected from literature. These marker sets include but are not limited to markers for malignant cells, cancer-associated fibroblasts, and tumor-infiltrating T cells. Additionally, scTyper provides three customized methods for estimating cell-type marker expression, including nearest template prediction (NTP), gene set enrichment analysis (GSEA), and average expression values.

DNA copy number inference method (inferCNV) has been implemented with an improved modification that can be used for malignant cell typing. The package also supports the data preprocessing pipelines by Cell Ranger from 10X Genomics and the Seurat package.

A summary reporting system is also implemented, which may facilitate users to perform reproducible analyses.

Conclusions: scTyper provides a comprehensive and user-friendly analysis pipeline for cell typing of scRNA-seq data with a curated cell marker database, scTyper.db.

Keywords: single-cell RNA sequencing, cell typing, cell type marker database

참조

관련 문서

Green (University of New South Wales), and Reuben Collins (Colorado School of Mines) MRS Bulletin (2008)... World

A Friendly Introduction for Electrical and Computer Engineers SECOND

A Friendly Introduction for Electrical and Computer Engineers SECOND

A Friendly Introduction for Electrical and Computer Engineers SECOND

A Friendly Introduction for Electrical and Computer Engineers SECOND

Data standards and metadata in spatial database systems. 5.1 Issues with implementing standards and metadata in

middleware : communication SW tools that support data transmission &amp; data processing over networks DBMS : composed of DB, DB engine, user interface,

 The inverse pole figure gives the probability of finding a given specimen direction parallel to crystal (unit cell) directions.  By collecting data for several reflections