• 검색 결과가 없습니다.

저작자표시

N/A
N/A
Protected

Academic year: 2022

Share "저작자표시"

Copied!
42
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게

l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다:

l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다.

l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다.

저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약(Legal Code)을 이해하기 쉽게 요약한 것입니다.

Disclaimer

저작자표시. 귀하는 원저작자를 표시하여야 합니다.

비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다.

변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

(2)

이학 석사학위 논문

간암 조직에서의 단일 세포 RNA- 시퀀싱 데이터 분석

아 주 대 학 교 대 학 원

의생명과학과

양 지 은

(3)

간암 조직에서의 단일 세포 RNA- 시퀀싱 데이터 분석

지도교수 우현구

이 논문을 이학 석사학위 논문으로 제출함.

2021년 8월

아 주 대 학 교 대 학 원 의생명과학과

양지은

(4)

양지은의 이학 석사학위 논문을 인준함.

심사위원장 우 현 구 인

심사위원 이 수 환 인

심사위원 백 은 주 인

아 주 대 학 교 대 학 원

2021년 06월 21일

(5)

i

- 국문 요약 -

간암 조직에서의 단일 세포 RNA-시퀀싱 데이터 분석

최근 몇 년 동안 차세대 염기서열 분석(NGS)기술의 급속한 발전으로 여러 복잡한 생물학적 시스템에 있어 많은 통찰력을 제공해 주었다. 특히 암의 연구에서 유전체학, 전사체학, 후성유전체학 등의 연구는 세포의 상태 변화로 인한 종양으로의 발전 기전 에 대한 중요한 단서를 제공하였다. 그럼에도 불구하고 악성 종양 조직 내의 세포 이 질성은 암 치료 및 연구에서 주요한 제한 요소로 작용한다. 이러한 한계를 극복하기 위한 단일 세포 RNA-시퀀싱(single cell RNA sequencing)의 등장은 특정 조직의 세 포 단위로 시퀀싱을 진행하는 혁신적인 기술로 조직 내의 이질성뿐만 아니라 현재까지 밝혀지지 않은 새로운 세포 유형의 식별이나 정상 세포와 암세포 사이의 유전적 차이 프로파일링을 통하여 보다 정교하고 정확한 진단 및 치료의 가능성을 확인할 수 있게 하였다. 최근 단일 세포 RNA-시퀀싱을 통한 다양한 연구들이 활발히 진행되고 있다.

본 연구에서는 간암 환자로부터 생성된 단일 세포 RNA-시퀀싱을 하여 생산된 데 이터를 이용하여 전반적인 분석을 진행하였다. 55명의 간암 환자로부터 얻은 184,068 개 세포에 대한 전사체 데이터로부터 데이터 품질관리, 정규화, 배치 편향 제거, 차원 축소, 군집화 및 세포 유형 분류를 진행하였으며, 이를 통해 단일 세포 RNA-시퀀싱 데이터의 전반적인 분석 과정과 결과를 제시하였다.

결과적으로, 본 연구를 통해 제시된 전체적인 분석은 단일 세포 RNA-시퀀싱 데이 터 분석의 각 핵심단계로써, 세포 유형간 상호작용 및 궤도 분석 등의 후속 분석에서 질적으로 향상된 경과 및 해석을 산출할 수 있을 것으로 기대할 수 있다.

핵심어 : 단일 세포 RNA-시퀀싱, 품질 관리, 정규화 주성분 분석, 군집화

(6)

ii

차 례

국문 요약

---

차례

---

그림 차례

---

표 차례

---

제 1장 서론

---

1

제 2장 재료 및 방법

---

4

2-1. 단일 세포 RNA-시퀀싱 데이터 생산 및 처리

---

4

제 3장 결과

---

5

3-1. 단일 세포 RNA-시퀀싱 데이터 분석

---

5

3-2. 전처리 데이터에 대한 품질 관리 (Quality Control)

---

7

3-3. 낮은 품질의 세포 선별 및 필터링

---

10

3-4. UMI 정량 데이터에 대한 정규화

---

12

3-5. PCA 기법을 통한 차원 축소 및 잠재적 배치 편향 제거

---

12

3-6. 세포의 군집화

---

14

3-7. 세포 군집 별 마커 유전자 발굴

---

16

3-8 세포 유형 분류 및 검증

---

20

3-9. 복제 수 변이를 이용한 악성 상피세포 검증

---

26

(7)

iii

제 4장 고찰

---

29

제 5장 결론

---

30

참고 문헌

---

31

영문 요약

---

34

(8)

iv

그림 차례

Figure 1. scRNA-sequencing.

---

6

Figure 2. Quality control.

---

9

Figure 3. Identification of intracellular genes for analysis.

---

11

Figure 4. clustering in HCC.

---

15

Figure 5. Expression of the top three genes in each cluster.

---

19

Figure 6. Count of cells by cell type.

---

21

Figure 7. Cell type validation.

---

25

Figure 8. Single cell copy-number variation analysis of HCC in epithelial cells.

---

27

표 차례

Table 1. Estimate cell types by cell cluster using DEG.

---

17

(9)

- 1 -

제 1장. 서론

간암의 이질성

간세포암(HCC, Hepatocellular carcinoma)은 간에서 발생하는 원발성 악성 종양으 로 전 세계적으로 매년 50만 명 이상의 새로운 환자가 발생한다.[1] 또한 남성에서 5 번째로 빈번히 발생되며 여성에게는 7번째로 여성보다 남성에게서 1.5~3.0배 더 높게 발생하는 암종이다[2]. 지역에 따라서 발병률 차이를 보이며 미국 및 유럽 국가에 비 해 아프리카 및 아시아 지역에서 높은 발병률을 보인다[3]. 간세포암의 발병 원인으로 는, HCV(Hepatitis C virus) 및 HBV(Hepatitis B virus) 간염 바이러스, 아플라톡신 B1, 음주, 당뇨, 비만 등이 있으며, 이런 인자들에 의해 유전체 변이에 기반한 간세포 암종의 분자 이질성을 야기한다. 이러한 유전적 변이는 임상적, 병리학적 특징과 관련 있는 유전자들의 조절에 영향을 주며, 약물 치료 실패 그리고 환자의 안 좋은 예후에 기여하며, 이를 통해 간세포 암종 환자에 대한 맞춤 치료에 큰 어려움을 준다.[4-7].

단일 세포 RNA-시퀀싱 데이터 분석의 필요성

차세대 염기서열 시퀀싱(NGS, Next Generation Sequencing)은 유전체 염기서열 변이, 선택적 스플라이싱, 후성유전학적 변화 및 DNA-단백질 상호작용 등과 관련되어 많은 정보를 제공함으로써 마이크로어레이 데이터에서 연구하기 어려웠던 새로운 종류 의 데이터를 생산하였다. 이는 암의 발달 과정에서 보다 영향력 있는 분석을 가능하게 해줬으며, 종양-미세환경에서 메커니즘에 대한 포괄적인 이해를 향상시켜 주었다[8, 9]. 하지만 기존의 RNA-시퀀싱(bulk RNA-sequencing)은 전체 세포의 평균값을 추 정해 관찰하기 때문에 조직 내 이질성이 있는 경우 많은 세포를 구분하여 유전자 발현 을 측정할 수 없다는 단점이 있다.

최근 이러한 한계를 극복하기 위해 단일 세포 RNA-시퀀싱(single cell RNA sequencing) 분석 기술이 등장하였다. 단일 세포 RNA-시퀀싱 기술은 날로 발전하고

(10)

- 2 - 있으며, 초기 수십 개의 세포를 다루던 수준에서 현재는 수백만 개의 세포를 동시에 처리하는 단계에 이르렀다. 이 기술은 단일 세포 수준에서 유전자 발현량을 프로파일 링 하여 전체 세포 집단이 아닌 각 세포 유형의 특징을 식별할 수 있게 해주었다[10, 11]. 이는 단일 세포의 전사체를 비교 가능하게 하는데, 각 세포 간의 평균값을 따로 만들어 분석하고 전사적 유사성 및 차이점에 대한 평가가 가능하며 또한 작은 양의 세 포로도 새로운 세포 상태를 발견하기 적절하다.

이전 단일 세포 RNA-시퀀싱 데이터 기반 연구

선행 연구로써 단일 세포 전사체를 통해 종양세포의 전사적 특징과 T 세포 및 골 수 세포의 유전적 변이를 확인하여 종양세포가 면역 미세 환경을 결정할 수 있으며, 종양세포의 특정 기질 또는 면역 세포 집단 간의 연관성을 시사하는 연구가 존재한다 [12]. 또한, T 세포의 하위 집합을 식별하여 T 세포의 독특한 기능적 구성과 HCC에 서의 Tregs(regulatory T cells) 및 고갈된 CD8 T 세포의 발현 및 각 집단에 대한 유 전자 시그니처를 발견한 연구도 존재한다[13].

이러한 단일 세포 수준에서 종양 세포의 연구는 유전적 다양성과 불균형이 보여지 는 암세포 군집에서 장점이 가장 많이 나타나며, 암 유전체의 주요 목표인 암 유발 유 전자의 규명과 종양의 진화 과정에 있어 기전을 이해하는 데 도움을 줄 수 있다[14].

단일 세포 RNA-시퀀싱 단계

단일 세포 RNA-시퀀싱은 하나의 세포를 분리하여 극미량의 재료로부터 RNA를 증폭하고, 동시에 각 세포에서 나온 RNA를 분류하는 것이다. 근본 원리는 기존의 RNA-시퀀싱 기술과 크게 다르지 않다. 먼저 조직에서 단일 세포를 분리하고 세포 바 코드, 고유 분자 식별자(UMI, unique molecular identifieres)가 붙어있는 beads와 각 세포가 한 개씩 들어간 Emulsion 상태의 GEM을 만든다. 그 안에서 세포를 용해하고 bead가 선택적으로 mRNA를 붙잡는다[12]. 이를 통하여 RNA를 단일 세포 단위로

(11)

- 3 - 분류할 수 있고 이때 고유 바코드로 세포의 유전자 count를 얻음으로써 어떠한 유전자 들이 얼마나 포함되어 있는지를 확인할 수 있다. 그 후 poly[T]-primer를 이용하여 RNA를 cDNA로 역전사를 하고 증폭시킨다. 증폭된 cDNA를 library로 구축하고 시퀀 싱하여 생산된 원데이터를 가지고 생물정보학 분석으로 확인하고 해석한다[15].

단일 세포 RNA-시퀀싱 데이터 특성 및 필요성

단일 세포 전사체 데이터는 행렬이 값이 대부분 “0”인 희소 행렬(sparse matrix) 로 되어있다. 이는 단일 세포 전사체의 경우 극소량의 초기 RNA(cDNA)를 증폭하므 로, 많은 수의 유전자 발현이 검출되지 않은 현상이다. 이러한 문제는 기술의 한계로 보이며 때문에 분석에서의 확률, 통계적 수학적 모델링이 중요하다.

일반 RNA-시퀀싱의 경우 많은 세포를 구하지 못하면 시퀀싱이 불가하고 조직(샘 플)에 여러 가지 세포가 섞여 있을 때, 각 세포에서 나온 전사들이 섞여 결과에 편향 성을 만들기도 한다. 하지만 단일 세포 시퀀싱의 경우 적은 세포로도 시퀀싱이 가능하 며 개별 세포의 발현 프로파일을 제공하기 때문에 편향이 없다는 특성을 가지고 있다.

또한 condition을 모르는 경우가 많아 군집화, 주성분 분석(PCA, Principal Component Analysis), t-SNE(Stochastic Neighbor Embedding) 등 비지도적 군집화 분석을 주로 수행한다. 이는 개별 하위 집단을 식별하는데 도움이 되었지만 세포 유형 간의 차이는 실험적으로 더 검증이 되어야 한다.

최근 단일 세포 RNA-시퀀싱 데이터 분석을 통한 여러 연구가 보고되고 있으나, 공통적으로 사용되는 표준 분석 방법이 존재하지 않는다. 시퀀싱 데이터를 처리하는 과정은 질병 관리 및 환자 치료에 중요한 영향을 미치는 단계이므로 검증 단계의 확실 성은 비중이 크다. 이에, 본 연구에서는 종양 조직의 단일 세포 RNA-시퀀싱 데이터 의 품질관리, 전처리, 데이터 정규화, 세포 군집화 및 세포 유형 타이핑 등을 이용하여 본 데이터에서 전반적인 과정과 결과를 제시하였다.

(12)

- 4 -

제 2장. 재료 및 방법

2-1. 단일 세포 RNA-시퀸싱 데이터 생산 및 처리

간암의 종양의 조직 38례 및 간암 주변의 정상조직 17례로부터 단일 세포 분류하 여 10X genomics의 droplet 기반의 5’라이브러리를 구축하였으며, Illumina Hiseq 1.9 sequencer를 사용하여 단일 세포 RNA-시퀀싱 데이터를 생산하였다. 생산된 원 시퀀스 데이터로부터 CellRanger(3.1.0)[12]의 count 기능을 이용하여 인간 참조 서 열 (hg38)에 시퀀스 리드 정렬(mapping) 및 고유 분자 식별자(UMI)와 유전자 (Feature)에 대한 리드 수를 정량화하였다. 또한, 데이터의 품질 관리, 정규화, 군집화 및 시각화는 Seurat R 패키지(4.0)[16]를 이용해 진행하였으며, inferCNV 패키지 (1.8)[17]를 이용해 단일 세포 RNA-시퀀싱 데이터로부터 복제 수 변이를 추론하였 다.

(13)

- 5 -

제 3장. 결과

3-1. 단일 세포 RNA-시퀀싱 데이터 분석

단일 세포 RNA-시퀀싱 데이터 기반의 분석 파이프라인 구축을 위해, 연세대학교, 아주대학교 두 기관에서 수집된 간암의 종양 조직 38례 및 주변의 정상조직 17례로부 터 생산된 단일 세포 RNA-시퀀싱 데이터를 이용해 다음의 분석을 수행하였다 (Figure 1).

원 데이터의 참조 서열 정렬 및 정량화를 통해 각 세포 및 유전자에 대한 리드 수 데이터를 확보하였으며 산출 지표들을 이용하여 원 데이터에 대한 품질관리를 진행하 였다. 다음으로, 낮은 품질의 세포를 선별하고 필터링을 하여 데이터를 생성하였다. 마 지막으로, 정규화 및 주성분 분석을 통하여 데이터 처리를 진행하고 시각화를 통해 세 포의 군집을 확인하였다.

(14)

- 6 - Figure 1. scRNA- sequencing. Graphical summary of analysis pipeline is indicated.

The numbers of patients in each group are provided.

(15)

- 7 -

3-2. 전처리 데이터에 대한 품질 관리 (Quality Control)

기본적으로 개별 세포마다 값을 얻게 되므로 품질 확인과 통계적 이슈가 중요하다.

따라서 분석을 진행하기 전에 생물정보학적 품질 관리를 거쳐야 한다.

각 세포마다 품질 확인(Quality cheak)를 하기 위해, 10X genomics에서 제공하는 CellRanger를 활용하였다. 단일 세포 데이터를 처리하여 리드를 정렬하고, 바코드 매 트릭스 생성, 클러스터링 등의 작업을 수행하는 파이프라인 세트이며, 이를 통해 Illumina 시퀀서에서 생성된 base call files(BCL)을 FASTQ 파일로 샘플 혼합 (demultiplexing) 하여 R1(barcodes), R2(cDNA sequences) 및 I1(illumina lane info)의 데이터를 확보하였다. 다음으로 CellRanger count 기능을 이용해 인간 참조 서열(hg38)에 리드를 정렬하고, UMI 및 바코드 정보를 인식하여 각 세포에 대한 UMI 수를 정량화 하였다. 이 과정에서 R2(cDNA sequences)의 데이터 품질 관리를 위한 지표들 (total read, mapping rate, sequencing saturation 및 valid barcodes)을 계산 하였다.

첫 번째로 ‘total read’는 각 샘플에서 생산된 R2(cDNA sequences)의 리드 수 로, 각 샘플 별 평균 206,857,098의 리드 수를 확인하였다. 추가적으로 ‘ mapping rate’를 확인하였다. 품질 확인에서 중요한 매개변수는 ‘mapping rate’이며 이는 시 퀀싱의 정확도를 나타낸다. 일반적으로 단일 세포 RNA-시퀀싱은 낮은 정렬 비율을 보인다. 원인은 많은 요소가 있으나, 여러 유전자에 고유하게 정렬이 되지 않은 리드 제거 또는 각 샘플에 따른 품질과 연관이 있거나 라이브러리 생성시 다른 샘플로부터 세포, RNA로 오염으로 인한 낮은 비율 값이 나온다. 본 데이터에서는 리드가 45% 이 상으로 참조 서열에 정렬 비율을 확인하였다(Figure 2A).

두 번째로 ‘sequencing saturation’은 UMI에 정렬된 리드들로, 라이브러리 복잡 성 비율을 나타낸다. 이는 세포 유형에 따라 RNA의 양, 전사체의 수가 많으면 비율이 높아지고 라이브러리가 복잡하는 것을 의미한다. 또한 시퀀싱의 깊이의 증가는 많은 전사체가 검출된다는 것을 뜻하므로 ‘sequencing saturation’은 시퀀싱 깊이와 연관 하여 해석할 수 있다. 예를 들어, ‘ sequencing saturation ’ 가 50%인 경우, 1개의

(16)

- 8 - UMI count(unique transcript)를 탐지하기 위해서 2개의 리드가 필요하며, 90%의 경 우 10개의 리드가 필요하다. ‘sequencing saturation’의 목표 비율 값은 실험의 목 적에 따라 다른데, 낮게 발현한 전사체를 감지하기 위해서는 높은 ‘ sequencing saturation ’ 이 필요하다. 본 데이터에서는 전체적으로 80% 이상으로 전반적으로 높 은 비율을 확인하였다(Figure 2B).

‘valid barcodes’는 바코드 시퀀스와 라이브러리 구축 시 알려진 참조 바코드 시 퀀스(화이트리스트)의 일치율을 나타낸다. 이는 전체적으로 80% 이상의 일치율을 나 타냄으로써 바코드가 잘 시퀀싱이 되었음을 확인하였다(Figure 2C).

추가적으로 시료가 수집된 두 기관 간의 편향성이 있는지 알기 위하여 각 염기의 품질을 나타내는 phred 점수를 이용하여 전체 리드 중 phred 점수가 30점 이상인 것 (Q30)을 확인하였다. 아주대 89%, 연세대 88%로 데이터의 전반적인 리드 품질에 대 한 배치 편향성이 없고 시퀀싱 품질이 우수함을 확인하였다(Figure 2D).

(17)

- 9 - (A)

(B) (C)

(D)

Figure 2. Quality control. Barplot show(A)total read and mapping rate, (B)sequencing saturation, (C)valid barcodes and (D)Q30 Bases ratio in R2(cDNA sequences).

(18)

- 10 -

3-3. 낮은 품질의 세포 선별 및 필터링

Seurat R 패키지(4.0)를 사용하여 10X genomics 에서 제공하는 CellRanger(3.1.0) 파이프라인을 사용하였다. FASTQ 결과를 input 으로 하여 총 205,573개의 세포에 대한 UMI 정량 데이터를 확보하였다. 이 중 낮은 품질의 세포들을 선별하여 분석에서 제외시키기 위해 다음의 두 가지 기준을 적용시켰다.

첫 단계로 라이브러리 구축 과정 중 하나의 droplet 내에 세포가 존재하지 않거나 세로 분류 시 캡쳐 오류로 인한 두 개 이상의 세포가 포함된 경우(doublets)를 확인하였다. 세포 내 발현되는 유전자 개수를 측정하여(Figure 3A) 과도하게 적거나 (200 <) 많은 수 (> 6,000)의 유전자를 발현하는 세포들(870/205,573, 0.42%)을 제거하였다.

단일 세포를 분리하는 과정 중 사멸하여, RNA 를 상당히 잃어버리나, 용해가 제대로 되지 않아 RNA 가 제대로 노출이 안되어 감지가 잘 안되는 문제가 발생할 수 있다.

또한 이전 보고들에 따르면 약 10~20% 이상의 미토콘드리아 유전자 발현 비율은 사멸 중인 세포에서 나타나는 특성인 것으로 밝혀져 왔다[18]. 다음으로 이러한 점을 고려하여, 세포 내 발현하는 미토콘드리아 유전자의 비율을 측정하였다(Figure 3B).

결과적으로, 미토콘드리아 유전자 발현이 10% 이상인 세포(21,247/205,573, 10%) 또한 분석에서 제외하였으며, 추후 분석은 총 184,072개의 세포들로 진행하였다.

(19)

- 11 - (A)

(B)

Figure 3. Identification of intracellular genes for analysis. (A) Boxplot shows the genetic measurement of intracellular expression in each sample. (B) Boxplot shows the percentage of mitochondrial genes abundance in each sample.

(20)

- 12 -

3-4. UMI 정량 데이터에 대한 정규화

최종 선별된 184,072개의 세포에 대한 UMI 정량 데이터의 정규화를 수행하였다.

초기 리드 수 데이터의 스케일 축소를 하여 스케일 요소(default=10000)를 곱한 후 로그(log10) 스케일로 변환해 주었다. 다음으로 세포 간의 상대적 비교를 위하여 각 세포의 평균 발현량 “0”, 분산 “1” 이 되도록 센터링하였다.

3-5. PCA 기법을 통한 차원 축소 및 잠재적 배치 편향 제거

단일 세포 분석에서는 많은 수의 유전자를 발현하는 각각의 세포들 사이에 군집화, 양상과 실험에서 실험에서 발생하는 노이즈를 최소화시키는 것이 관건이다. 해결 방법 은 다차원의 데이터를 압축하여 노이즈를 줄이고, 보다 쉽게 시각화 하여 해석할 수 있는 적은 수의 차원으로 축소를 하는 것이다.

이때 차원 축소(non-linear dimensional reduction)는 비슷한 세포와 종류의 군집 으로 세포들을 나누는 것으로, 높은 차원성을 활용한 군집 분석이므로 다음을 고려를 해야 한다. 먼저 많은 유전자로 인해 차원 축소가 시간이 오래 걸리므로 여러 세포에 서 변화가 거의 없는 유전자들은 분석에 큰 의미가 없어 유의미한 유전자만 남겨 분석 한다. 이를 위해 본 연구에서는 Seurat에서 제공하는 함수를 이용해 모든 세포 집단에 서 데이터 세트에서 일부 세포에서는 높게 발현하고 다른 세포에서는 낮게 발현하는 세포 간 변동을 나타내는 하위 집합 3000개를 계산하였다. 다음으로 차원 축소를 진 행하기 전에 단일 세포 RNA-시퀀싱 데이터는 잠재적으로 각샘플에 대한 배치 편향이 존재하기 때문에 서로 다른 기관에서 수집된 데이터 내에 존재할 수 있는 기관에 대한 배치를 고려해야 한다[19]. 이를 해결하고자 Harmony 알고리즘을 사용하였다. 이는 단일 세포 수준의 서로 다른 배치 간의 잠재적 편향성을 제거하기 위해 개발된 기법이 다. 이에 Harmony 알고리즘을 이용해 각 샘플 및 기관에 대한 배치 편향을 제거하였 다.

배치 편향 제거 후 총 184,072개의 세포에 대한 데이터 분석을 위해 주성분 분석 을 통해 차원 축소를 진행하였으며 총 200개 차원에 대한 주성분 분석을 수행하여 각

(21)

- 13 - 주성분에 대한 값을 산출하였다.

(22)

- 14 -

3-6. 세포의 군집화

다음으로 확보한 200차원의 대한 주성분 값을 기반으로 군집화를 수행하여 184,072개의 세포들에 대해 유사한 전사체 프로파일을 가진 세포들끼리 군집을 나누 고자 하였다. 우선 세포 군집을 구별할 수 있는 적절한 차원 수로 주성분 별 표준편차 를 시각화하여 Elbow Plot의 기울기가 안정화되는 구간인 100차원을 선정하였다 (Figure 4 A). 1부터 100차원까지의 주성분 값을 이용하여 유클리드 거리를 기반으로 한 KNN 알고리즘을 사용하여 발현 양상이 비슷한 세포끼리 군집화를 하였으며, Louvain 알고리즘을 이용해 설정한 해상도 (resolution=0.1)에 따라 반복적으로 군집 화를 수행하였다. 이 과정을 통해 전체 184,072개의 세포를 총 18개의 군집으로 분류 하였다. 또한, 분류된 세포 군집의 분포 확인을 위해 비선형 차원 축소 기법 중 하나인 t-SNE 방법을 사용해 각 세포들을 이차원 공간으로 임베딩을 하여 데이터를 시각화 하였다(Figure 4B).

(23)

- 15 - (A)

(B)

Figure 4. clustering in HCC (A) Elbow plot shows standard deviations for each PC.

(B) Visualization of single-cell clusters in HCC patient is indicated using t-SNE.

Each color represents a cluster.

(24)

- 16 -

3-7. 세포 군집 별 마커 유전자 발굴

다음으로, 분류된 각 세포 군집들의 특성들을 파악하기 위해 각 군집별 발현 차이 를 보이는 마커 유전자를 발굴하였다. 대상 군집 및 나머지 군집들 간의 유전자 발현 차이는 왈드 검정(Wald-test) 기반인 DESeq2 패키지를 사용하여 통계적으로 평가를 하였으며, 0.5 이상의 평균 발현 차이(Fold Change) 및 0.05 이하의 P 값을 가지는 유전자 리스트를 선별하였다. 10개 이하의 세포로 구성된 2개의 군집[16(n=2), 17(n=2)]은 분석에서 제외하였다. 각 군집 별 상위 마커 유전자 리스트 및 히트맵은 Table 1 및 Figure 5에 제시하였다.

(25)

- 17 - Table 1. Estimate cell types by cell cluster using DEG.

Cluster gene p_val fold change Expected cell type

cluster 0

IL7R 0 1.12

T cell (CD8+)

LTB 0 0.95

CD8A 0 0.83

cluster 1

GNLY 0 2.44

T cell

FGFBP2 0 2.23

GZMB 0 2.08

cluster 2

XCL1 0 1.7

NK cells

XCL2 0 1.52

FCER1G 0 1.45

cluster 3

APOA2 0 4.46

Epithelial cells

ALB 0 4.16

APOC1 0 3.51

cluster 4

CST3 0 3.22

Myeloid cells

LYZ 0 3.09

HLA-DRA 0 2.97

cluster 5

FOXP3 0 1.86

T cell (T reg)

CTLA4 0 1.74

TNFRSF4 0 1.73

cluster 6

IGFBP7 0 3.48

Endothelial cells

TM4SF1 0 2.99

PLVAP 0 2.99

cluster 7

STMN1 0 2.35

T cell (cycling)

TUBB 0 1.98

TYMS 0 1.8

cluster 8

TRDV2 0 2.53

T cell

TRGV9 0 2.06

MTRNR2L8 0 1.56

cluster 9 IGKV3-11 0 5.18

Plasma cells

IGKC 0 5.11

(26)

- 18 -

IGKV1-5 0 5.06

cluster 10

TRBV7-6 0 3.06

T cell

TRBV7-4 0 1.05

TRBV7-2 0 0.58

cluster 11

CD79A 0 2.74

B cells

MS4A1 0 2.35

HLA-DRA 0 2.01

cluster 12

CST3 0 3.34

Myeloid cells

CPVL 0 2.84

HLA-DRA 0 2.69

cluster 13

TAGLN 0 4.33

Fibroblasts / HSC

ACTA2 0 3.95

COL1A1 0 3.8

cluster 14

TPSAB1 0 3.05

Mast cells

TPSB2 0 2.63

CTSG 0 2.54

cluster 15

GPR183 0 2.41

Myeloid cells

PLD4 0 2.35

IL3RA 0 2.15

(27)

- 19 - Figure 5. Expression of the top three genes in each cluster. Heatmap shows the expression of top three DEGs between clusters. The x-axis represents each cluster.

Cluster markers

(28)

- 20 -

3-8. 세포 유형 분류 및 검증

앞서 선별한 각 군집 별 마커 유전자 및 기존에 표준적으로 알려진 세포 유형별 마 커 유전자들의 발현 양상을 통해 각 군집의 세포 유형 분류를 확인하였다[20]. 결과적 으로, 14개 군집을 면역 세포(T세포(T cell), NK세포(NK cell, Natural killer cell), 골 수성 포(Myeloid cell), B 형질세포(Plasma B cell), 비만세포(Mast cell)) 및 비 면역 세포 (상피세포(Epithelial cell), 내피세포(Endothelial cell), 섬유아세포(Fibroblast) 혹은 조혈모세포(HSC, Hemopoietic stem cell))로 총 8개의 세포 유형으로 분류하였 다(Figure 6).

(29)

- 21 - Figure 6. Count of cells by cell type. Barplot shows the cell types classified in 14 cluster.

(30)

- 22 - T 세포는 가장 많은 세포 수를 보였으며(135,362/184,068, 73.53%), CD2, CD3D, CD3E 및 CD3G의 T 세포 마커 유전자의 발현을 보인 상피세포 군집도 포함된다. 다 음으로 NK 세포(12,218/184,068, 6.63%)는 KLRD1, B3GNT7 및 KLRF1의 NK 세 포 마커 유전자로 발현을 확인하였으며 T 세포의 군집이 포함되는데 이는 두 세포 간 의 연관성이 원인으로 생각된다. 골수성세포(11,934/184,068, 6.48%)의 경우 LYZ로 발현을 확인하였고 내피세포(6,226/184,068, 3.38%)는 PECAM1, ENG 및 vWF, B 형질세포(5,170/184,068, 2.8%)는 BLNK, CD79A 및 FCRL5, 섬유아세포 혹은 조혈 모세포의 경우(1,181/184,068, 0.64%) FAP, COL1A2, DCN, COL3A1, COL3A1 및 COL6A1, 마지막으로 비만세포(1,083/184,068, 0.58%)는 TPSAB1, TPSB2, CTSG 및 CPA3의 마커 유전자로 발현을 확인하였다(Figure 7A). 대부분의 세포들은 각 마 커에 따라 유형이 잘 나뉘어진 것으로 확인된다.

또한, 분류된 8개 세포 유형 간 발현이 차이가 나는 마커 유전자를 추가적으로 선 별하여, 세포 유형을 대표하는 유전자들을 확인함으로써, 14개 세포 군집에 대한 세포 유형 분류가 적합하게 진행되었음을 제시하였다(Figure 7B).

(31)

- 23 - (A)

T cell

NK cell

(32)

- 24 - Myeloid cell

Endothelial cell

B/Plasma cell

Mast cell

(33)

- 25 - Fibroblasts or HSC

(B)

Figure 7. Cell type validation (A) tSNE of location-averaged transcriptome for all tumor cells colored by cell types (top). Plots shows the expression of marker genes of each cell type (bottom). (B) The heatmap shows the expression of the top 3 selected markers genes for 8 cell types.

(34)

- 26 -

3-9. 복제 수 변이를 이용한 악성 상피세포 검증

간세포암에서 간 특이적인 분화 마커를 발현하므로 정상과 종양 조직 사이의 간 특 이적인 분화 마커(예: ALB, AMBP, CYP2E1, GC)를 사용하여 상대적인 발현 강도를 확인하였다[21]. 본 데이터에서는 종양 조직에서 간세포의 분화가 더 발생하는 것을 확인하였다(Figure 8A). 다음으로 상피세포로 분류된 세포들 중 종양 샘플로부터 기원 된 10,894개의 세포를 악성 세포로 분류하였다. 종양 조직 내의 악성 세포는 비 악성 세포와 비교해 유전체 전장에서 보다 높은 수준의 복제 수 변이(copy number variation)를 보이는 것으로 알려져 있다[22]. 이에, 악성 세포로 분류의 검증을 위해 단일 세포 RNA-시퀀싱 데이터로부터 InferCNV를 사용하여 복제 수 변이를 추정하였 다. InferCNV는 전체 염색체의 gains 혹은 deletions과 같은 복제 수 변이를 식별하기 위한 패키지이며, 정상 세포와 비교하여 유전자의 발현 강도를 분석해 결과를 나타낸 다.

단일 세포 RNA-시퀀싱 데이터에서 검출된 유전자에 대해 변이가 있는 평균 유전 자 발현 값을 계산하고, 정상 조직과 비 악성 세포의 평균 발현 프로파일로 정규화를 진행하였다. 모든 유전자는 염색체의 숫자와 시작 위치에 따라 분류되었다. InferCNV 를 이용한 악성 및 비 악성 세포 간 복제 수 변이 프로파일 비교를 통해, 악성 세포에 서 유전체 영역 내의 복제 수 변이의 빈도가 더 빈번하게 발생하고 있음을 확인하였다 (Figure 8B).

(35)

- 27 - (A)

(B)

Figure 8. Single cell copy-number variation analysis of HCC in epithelial cells. (A) Identification of liver-specific lineage markers expression and copy number

(36)

- 28 - variation between NL and HCC in epithelial cells. The left barplot is light gray for

‘p’ and dark gray for ‘q’. (B) Frequency of copy number variation between malignant and non- malignant in HCC.

(37)

- 29 -

제 4장. 고찰

본 연구는 단일 세포 RNA-시퀀싱을 사용하여 55명의 간암 환자로부터 16,463개 의 유전자를 확인하였으며, 184,072개의 세포에 대한 품질관리, 전처리, 데이터 정규화, 세포 군집화 및 세포 유형 타이핑 등의 전반적인 단일 세포 RNA-시퀀싱 분석 과정 및 결과를 제시하였다

먼저 데이터 품질 관리를 위한 지표들을 확인하였고 리드 정렬, 리드 수 정량화 및 필터링을 통하여 데이터를 생산하였다. 필터링 과정에서 품질이 낮은 세포의 수를 선 별하는 것은 면역 작용이 일어나는 세포를 필터링 할 수 있으므로 신중히 진행되어야 한다. 다음으로 차원 축소를 위한 정규화, 기관 및 샘플 별 배치 편향 제거와 같은 데 이터 처리를 진행하였다. 총 18개의 세포 군집이 t-SNE를 통하여 시각화가 되었으며 군집의 수는 절대적인 기준이 없어 분석에 따라 달라질 수 있다. 세포 군집 별 마커 유전자를 발굴하고 예상되는 세포 타이핑을 진행 후 선행 연구로 알려진 마커를 이용 하여 마커 발현을 확인하였으나 T 세포와 NK 세포의 경우, 각 세포가 포함된 군집과 다른 군집에서의 발현을 보였다. 이는 세포 간 상관관계로 인한 것으로 보이며, 때문에 세포 유형 분류 시엔 마커 선별이 중요하며, 각 세포의 특이적으로 발현하는 유전자 선택이 세포 구분에 정확성을 높여줄 것으로 보인다.

분석을 통하여 얻어진 집단 정보를 이용해 다양한 집단 간 비교 분석이 가능하다.

먼저 본 논문에서는 세포 집단 간 분석을 통해서 세포 집단 간 차이를 보이는 바이오 마커 식별하였다. 추후 같은 집단 내 분석을 통해 전사체의 가변성이 파악 가능하고, 대립 유전자 발현 패턴 분석 가능할 수 있으며 조직 간 차이를 통해 조직이 변형되면 서 발생하는 전사체 발현의 차이를 확인할 수 있다.

이와 같은 목적에 따른 분석에는 아직 정확한 가이드라인이 없어 분석자마다 서로 다른 분석법을 활용하고 있다. 때문에 본 분석에서 진행한 과정과 결과가 추후 분석에 도움이 될 것으로 예상된다.

(38)

- 30 -

제 5장. 결론

최근 단일 세포 RNA-시퀀싱은 개별 세포의 유전자 발현 프로파일링을 분석하는데 큰 도움이 되고 있으며 개별 세포의 질환, 변이 등에 대해 정확한 정보를 제공하고 세 포 하위 집단을 선별, 확인이 가능하여 새로운 통찰력을 얻을 수 있게 해주었다. 이러 한 발전에도 불구하고 표준화된 가이드라인이 존재하지 않는다.

여기서 우리는 간암에서 얻은 단일 세포 RNA-시퀀싱 데이터를 이용한 전반적인 분석 과정과 결과를 제시하였다. 먼저 CellRanger에서 제공하는 report 파일을 이용해 품질 확인을 하였다. 데이터에 이상이 없음을 확인하고 Seurat R 패키지를 이용하여 필터링을 진행하였다. 여기서 205,573개의 세포에서 184,072개의 세포를 선별하였다.

다음으로 차원 축소를 위해 정규화 및 Harmony 알고리즘을 사용한 배치 편향 제거를 진행하였다. 마지막으로 차원 축소를 진행하고 t-SNE를 통한 시각화로 세포간 군집화 를 보여주었다. 본 데이터에서 세포 군집 별 마커 유전자를 발굴하여 발현을 통해 군 집의 종류를 선별하였고 알려진 세포 마커 유전자를 이용해 유형 분류가 적합한지를 최종 확인했다. 추가적으로 종양 조직에서 발현하는 상피 세포를 악성세포로 분류하여 복제 수 변이를 확인하였는데, 악성 세포에서 유전체 영역내의 전반적인 변이의 빈도 를 확인하였다.

이와 같은 분석 과정과 결과는 단일 세포 중심 분석을 이해하고 추후 진행될 분석 에 도움이 될 것으로 기대할 수 있다.

(39)

- 31 -

참고 문헌

1. Parkin, D.M., et al., Global cancer statistics, 2002. CA: a cancer journal for clinicians, 2005. 55(2): p. 74-108.

2. Mittal, S. and H.B. El-Serag, Epidemiology of HCC: consider the population.

Journal of clinical gastroenterology, 2013. 47: p. S2.

3. Bosch, F.X., J. Ribes, and J. Borràs. Epidemiology of primary liver cancer. in Seminars in liver disease. 1999. © 1999 by Thieme Medical Publishers, Inc.

4. Boyault, S., et al., Transcriptome classification of HCC is related to gene alterations and to new therapeutic targets. Hepatology, 2007. 45(1): p. 42-52.

5. Farazi, P.A. and R.A. DePinho, Hepatocellular carcinoma pathogenesis: from genes to environment. Nature Reviews Cancer, 2006. 6(9): p. 674-687.

6. McGranahan, N. and C. Swanton, Clonal heterogeneity and tumor evolution: past, present, and the future. Cell, 2017. 168(4): p. 613-628.

7. Thorgeirsson, S.S. and J.W. Grisham, Molecular pathogenesis of human hepatocellular carcinoma. Nature genetics, 2002. 31(4): p. 339-346.

8. Wang, Z., M. Gerstein, and M. Snyder, RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews genetics, 2009. 10(1): p. 57-63.

9. Mortazavi, A., et al., Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature methods, 2008. 5(7): p. 621-628.

10. Hwang, B., J.H. Lee, and D. Bang, Single-cell RNA sequencing technologies and

(40)

- 32 - bioinformatics pipelines. Experimental & molecular medicine, 2018. 50(8): p. 1- 14.

11. Chen, G., B. Ning, and T. Shi, Single-cell RNA-Seq technologies and related computational data analysis. Frontiers in genetics, 2019. 10: p. 317.

12. Zheng, G.X., et al., Massively parallel digital transcriptional profiling of single cells.

Nature communications, 2017. 8(1): p. 1-12.

13. Zheng, C., et al., Landscape of infiltrating T cells in liver cancer revealed by single- cell sequencing. Cell, 2017. 169(7): p. 1342-1356. e16.

14. Ma, L., et al., Tumor cell biodiversity drives microenvironmental reprogramming in liver cancer. Cancer cell, 2019. 36(4): p. 418-430. e6.

15. Macosko, E.Z., et al., Highly parallel genome-wide expression profiling of individual cells using nanoliter droplets. Cell, 2015. 161(5): p. 1202-1214.

16. Satija, R., et al., Spatial reconstruction of single-cell gene expression data. Nature biotechnology, 2015. 33(5): p. 495-502.

17. Durante, M.A., et al., Single-cell analysis reveals new evolutionary complexity in uveal melanoma. Nature communications, 2020. 11(1): p. 1-10.

18. Bock, F.J. and S.W. Tait, Mitochondria as multifaceted regulators of cell death.

Nature reviews Molecular cell biology, 2020. 21(2): p. 85-100.

19. Haghverdi, L., et al., Batch effects in single-cell RNA-sequencing data are corrected by matching mutual nearest neighbors. Nature biotechnology, 2018.

36(5): p. 421-427.

(41)

- 33 - 20. Puram, S.V., et al., Single-cell transcriptomic analysis of primary and metastatic

tumor ecosystems in head and neck cancer. Cell, 2017. 171(7): p. 1611-1624. e24.

21. Kim, D.S., et al., A liver‐specific gene expression panel predicts the differentiation status of in vitro hepatocyte models. Hepatology, 2017. 66(5): p. 1662-1674.

22. Shao, X., et al., Copy number variation is highly correlated with differential gene expression: a pan-cancer study. BMC medical genetics, 2019. 20(1): p. 1-14.

(42)

- 34 -

- 영문 요약 -

Single cell RNA- sequencing data analysis in liver cancer tissue

The rapid development of next-generation sequencing (NGS) technologies in recent years has provided many insights in several complex biological systems. In particular, studies such as genomics, transcriptomics, and epigenomics in the study of cancer have provided important clues about the mechanism of development into tumors due to changes in cell state. Nevertheless, cell heterogeneity within malignant tumor tissue acts as a major limiting factor in cancer treatment and research. The advent of single-cell RNA-seq to overcome these limitations has allowed for more sophisticated and accurate diagnosis and treatment through identification of new cell types or genetic differences between normal and cancer cells. Recently, various studies have been actively conducted through single-cell RNA-seq. However, to date, the development of standardized analytical pipelines of quality control, data preprocessing, and normalization of data is insufficient.

In this study, sought to build an analytical pipeline using each single-cell RNA- seq data by performing single-cell RNA-seq generated from liver cancer patients.

We conducted data quality control, normalization, batch effect correction, dimension reduction, clustering, and cell type classification from 184,068 cells obtained from 55 liver cancer patients, present an overall analysis method for single-cell RNA-seq data processing. The pipeline presented in this work is a key step in the analysis of single-cell transcriptome data, is expected to yield qualitatively improved progress and interpretation in subsequent analyses such as intercellular interactions and trajectory analysis.

Key words : single-cell RNA sequencing, quality control, normalization, Principal Component Analysis, clustering

참조

관련 문서

In contrast, cells expressing wild-type form or constitutively active form of RapC (GFP-RapC and GFP-RapC G13V ) showed decreased cell area and cell adhesion, whereas rapC

§ Careful integration of the data from multiple sources may help reduce/avoid redundancies and inconsistencies and improve mining speed and

: lineage, accuracy, resolution, feature completeness, timeliness, consistency, quality of meta data.. -

The g pressure correction so obtained is used only to correct the velocity field so that it satisfies continuity, i.e., to obtain. The new pressure field is calculated

In future studies focused on antioxidant effect and active oxygen reduction in resistance exercise using thera-band will be conducted in-depth research that

„ The length of a shortest path from the source vertex v to vertex u under the constraint that the shortest path. contains at

Effect of cell migration of JMJD6 transcript variants over- expressed MCF-7 cells using Transwell.. Effect of cell migration of JMJD6 transcript variants

Isostatic anomaly: the differences between reference data and observed data that went through latitude, free-air, bouguer, terrain and isostatic correction...