J Plant Biotechnol 2020; 47(3): 218-226
Published online September 30, 2020
https://doi.org/10.5010/JPB.2020.47.3.218
© The Korean Society of Plant Biotechnology
정혜리・이보미・이봉우・오재은・이정희・김지은・조성환
㈜씨더스 농업회사법인
Correspondence to : e-mail: shjo@seeders.co.kr
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
This report describes methods for selecting informative single nucleotide polymorphisms (SNPs), and the development of an online Solanaceae genome database, using 234 tomato resequencing data entries deposited in the NCBI SRA database. The 126 accessions of Solanum lycopersicum, 68 accessions of Solanum lycopersicum var. cerasiforme, and 33 accessions of Solanum pimpinellifolium, which are frequently used for breeding, and some wild-species tomato accessions were included in the analysis. To select tag-SNPs, we identified 29,504,960 SNPs in 234 tomatoes and then separated the SNPs in the genic and intergenic regions according to gene annotation. All tag-SNP were selected from non-synonymous SNPs among the SNPs present in the gene region and, as a result, we obtained tag-SNP from 13,845 genes. When there were no nonsynonymous SNPs in the gene, the genes were selected from synonymous SNPs. The total number of tag-SNPs selected was 27,539. To increase the usefulness of the information, a Solanaceae genome database website, TGsol (http://tgsol. seeders.co.kr/), was constructed to allow users to search for detailed information on resources, SNPs, haplotype, and tag-SNPs. The user can search the tag-SNP and flanking sequences for each gene by searching for a gene name or gene position through the genome browser. This website can be used to efficiently search for genes related to traits or to develop molecular markers.
Keywords tag-SNP, Haplotype, Molecular marker, NGS, tomato
효율적인 작물 육종을 위한 분자 마커(molecular marker)의 수요는 꾸준히 증가하고 있으며 분자 마커 개발은 차세대 염기서열 생산 장비(Next Generation Sequencing, NGS)의 발달로 더욱 가속화되어 왔다. 유전체 내 존재하는 다양한 구조적 변이는 분자 마커로 개발되어 품종을 구분하거나 주요한 형질에 연관된 유전자를 찾고 활용하는데 매우 중요한 정보이다. 2007년 이후 NGS 기술의 등장으로 대규모 염기서열 데이터의 생산이 가능해졌고, 이를 통해 유전체 내에 존재하는 구조변이를 확인할 수 있는 분자 마커를 빠르게 대규모로 탐지할 수 있게 되어 변이 탐지에서 양적인 제약이 해결되었다.
SNP는 유전체 내에 가장 빈번하게 발생하는 구조변이의 한 종류로, 목표 유전자 혹은 염색체 위치에서도 변이정보를 확보하기 용이하여 가장 널리 활용되는 분자 마커이다(Collard and Mackill 2008). 그러나 NGS에 의해 발굴된 과도하게 많은 SNP를 모두 확인하는데 소요되는 실험적 비용을 감당할 수 없기 때문에 유전자 유형을 구별하거나 형질과 연결 지을 수 있는 정보력이 높은 분자 마커를 선발하고 최소한의 마커 세트를 구성하고자 하는 시도가 계속되고 있다(Pook et al. 2019). 인간 유전체 분야에서 처음 연구가 시작된 tag-SNP의 개념은 haplotype을 대표하는 마커로서 Hapmap project에서 활발히 연구되었다(Willer et al. 2006). 유전체 내에서 haplotype block을 선발하는 방법은 LD (linkage disequilibrium) block based methods와 genome-wide approaches의 크게 2가지의 카테고리로 나누어 개발되고 있다(Choe et al. 2018). LD block 기반의 방식은 미리 정의된 haplotype block structure에 의존한다. 염색체 교차 빈도를 기준으로 블록을 구분하게 되면 블록 내에는 교차가 매우 적은 수준에서 발생되므로 블록 내에 haplotype은 아주 적은 변이를 가지게 된다. Shirasawa 등의 보고에 의하면 663개의 토마토 accession을 이용해 LD를 분석했을 때, 총 123 LD Block이 탐색되었고, 염색체 부위별로 LD block의 위치를 조사하였다(Shirasawa et al. 2013). LD block의 평균 길이는 3.2 Mb였으며, block의 크기는 최소 256 bp에서 최대 58.3 Mbp의 LD block이 확인되어 블록 간 크기 차이가 매우 큼을 확인하였다. 123개의 LD block에서 총 437 haplotype을 확인하였고 한 LD block 당 3.6 haplotypes을 보고하였다. de Haas 등은 토마토 60개 RILs의 low coverage sequencing으로 SNP를 탐색하여 genome-wide approaches 방식의 haplotype 분석을 수행하였다(de Haas et al. 2017). Haplotype block 탐색은 마커 수와 유전체 내에서의 거리를 기준으로 분석하였다. Haplotype block은 sliding window approach method를 적용하였으며, 최소 9개의 마커와 최소 거리 10 kbp 이상의 조건에서 시작하여 window size 최대 50개 마커와 250 kbp 이내의 조건에서 탐색하였다. 1,445개의 recombination 발생 결과를 60 RILs 집단에서 haplotype을 적용하여 효과적으로 탐지하였다.
범용성 있는 haplotype을 개발하기 위해서는 모든 토마토에서 공통적으로 적용할 수 있는 통일된 기준을 적용하는 것이 필요하다. LD block의 경우 집단의 특징에 따라 매우 유동적으로, LD block의 위치나 크기가 상당히 큰 차이를 보인다. 또한 sliding window approach를 이용한 genome-wide haplotype 분석 방식도 비교하는 계통 간의 SNP발생유무, SNP수 및 분포에 따라 haplotype block의 크기와 위치가 변화됨을 확인하였다.
따라서 본 연구에서는 유전자를 기본 단위로 하여 haplotype을 분석하고 유전자의 haplotype을 대변하는 정보력 높은tag-SNP를 선발하여 분자 마커 개발에 활용하도록 웹 데이터베이스를 구축하여 제공하고자 한다.
토마토 표준 유전체(reference genome)는 SGN (ftp://ftp.solgenomics.net/)에서 수집한
Table 1 . Summary of tomato resequencing SRA data
Scientific name | No. of SRA collected | Total length (bp) | No. of SRA analyzed |
---|---|---|---|
557 | 5,367,216,027,209 | 126 | |
133 | 818,234,753,929 | 68 | |
65 | 470,510,067,600 | 33 | |
17 | 324,511,688,762 | 1 | |
14 | 137,734,433,883 | 0 | |
12 | 165,974,167,372 | 0 | |
3 | 101,084,736,600 | 0 | |
2 | 68,609,466,800 | 2 | |
2 | 64,731,490,900 | 1 | |
2 | 67,986,640,700 | 0 | |
2 | 70,608,085,300 | 1 | |
2 | 69,515,482,100 | 2 | |
1 | 32,520,818,500 | 0 | |
1 | 30,910,824,200 | 0 | |
Total | 813 | 7,790,148,683,755 | 234 |
수집한 토마토 234개 계통 별 유전체 염기서열 데이터의 품질을 측정하고, 기준 품질 이상의 염기서열만을 선발(quality filtering) 하는 가공 작업을 SolexaQA package (v. 1.13)를 이용하여 수행하였다(Cox et al. 2010). 품질 측정의 기준 값은 phred score 20 이상, 최소길이 25bp 이상으로 적용하였다. 품질 기준을 통과한 토마토 염기서열들은 BWA (Burrows-Wheeler Aligner; v0.6.1-r104)를 이용하여 토마토 표준 유전체 기준으로 정렬(alignment)을 수행하였다(Li and Durbin 2009). 프로그램 수행을 위한 옵션값으로는 mismatch 최대 2개, seed length 27 bp 설정 외에 기본값(default)을 적용하였다. 토마토 각 계통의 표준 유전체로의 염기서열 정렬 결과를 SAMtools (v0.1.16) 프로그램을 이용하여 유전체 전반적으로 발생한 대량의 SNP를 탐색하였다(Kim et al. 2014; Li et al. 2009). SAMtools 프로그램의 옵션은 대부분 기본 값(default)을 적용하였고, 정확도 높은 SNP를 선발하기 위해 정렬 품질(alignment quality) 값을 기본 값인 25보다 높은 30으로 적용하고, 적어도 3개 이상의 원 서열(raw reads; 염기서열을 구성하는 짧은 단편서열)이 정렬된 위치에서 추출된 SNP만을 선발하였다. 토마토 234개 계통의 각각의 SNP 발생 정보를 통합하여 매트릭스(matrix) 형태로 염색체 번호, 위치 정보, 표준유전체의 염기서열을 포함하여 SNP 정보를 정리하였다.
유전자 단위의 haplotype을 분석하기 위해 SNP 매트릭스가 제공하는 SNP position 정보와 토마토 표준 유전체의 physical position 정보를 이용해 유전자 내에 발생한 SNP를 분류하였다. SNP 정제는 토마토 계통 간 같은 유형의 SNP 빈도(MAF)가 5% 이상, 원 서열 정렬 개수(read depth)가 5개 이상, 염기서열이 결손 된 계통이 30% 이하의 선발 기준을 만족하는 SNP를 선발하였다. 정제된 SNP로 234계통의 SNP를 유전자별로 구분하여 multiple alignment와 phylogenetic tree 분석을 통하여 haplotype 분석을 진행하였다. Haplotype은 multiple alignment의 결과의 거리 차를 이용해 구분하였으며 표준유전체와 같은 그룹으로 묶인 경우를 ‘type 1’으로 분류하였다. 그룹 내 묶인 accession 수가 많은 순서로 이름을 명명하였다.
유전자 단위로 SNP를 분류하고 유전자 내 SNP가 존재하지 않는 유전자는 분석에서 제외되었다. 유전자 단위의 haplotype을 구분할 수 있는 SNP 중에서 향후 활용도가 높은 SNP를 우선 선발하기 위하여 non-synonymous SNP를 탐색하여 tag-SNP의 우선대상으로 선발하였다. 유전자 내에 non-synonymous SNP가 없는 경우는 haplotype 간 구분이 가능한 synonymous SNP를 다음 대상으로 선발하였다. 웹 데이터베이스를 구축할 때 non-synonymous SNP가 미치는 아미노산의 변화 정보를 제공하였다.
토마토 계통 간 SNP matrix를 이용하여 염색체 별로 LD 분석을 실시하였다. LD 분석에는 Broad Institute의 Barrett Jeffrey 팀에서 개발한 Haploview 프로그램을 도입하여 이용하였다(Barrett 2009). 프로그램이 가지고 있는 사용가능한 마커 수의 제한을 극복하기 위하여
SRA 234계통 유래의 SNP는 MySQL을 통해 데이터베이스로 구축하였고, web coding에는 php 언어를 활용하였다. 활용도를 높이기 위해 기존에 구축하여 공개한 TGsol (http://tgsol.seeders.co.kr/) 웹 사이트와 연계하였다(Choe et al. 2018). 사이트 내 SNP, haplotype 및 tag-SNP는genome browser에서 탐색할 수 있도록 구현하였다. 필요에 따른 분석 대상 선택을 위해 234계통은 선택 옵션을 두었고, 선택된 계통을 이용하여 multiple alignment 및 phylogenetic tree를 분석할 수 있게 구현하였다.
수집한 토마토 234계통 SRA의 총길이는 1.58 Tbp였으며, 유전체 단편 염기서열(short read)의 품질을 측정하고 기준 품질 이하의 염기서열을 제거하여 원 데이터(raw data) 대비 79% 인 1.24 Tbp 길이의 염기서열을 확보하였다. 토마토 계통별로 정제된 염기서열들을 토마토 표준 유전체(
토마토 234계통의 각각의 SNP 발생 정보를 통합하여 정리한 결과, 통합 29,504,960개의 SNP 정보를 확보하였다. 토마토 234개 계통 중 주요 3종별 SNP 발생 경향을 조사한 결과, 현재 표준유전체와 재배종이 포함되어 있는
추출한 SNP 정보를 기반으로 토마토 234개의 계통수 분석을 실시하였다. SNP 개수와 상응하게
유전자별 SNP를 분류하기 위해 토마토 표준 유전체 내 유전자 위치(physical position) 정보를 이용해 34,727개의 유전자 내에 발생한 SNP를 선발하여 유전자 별로 SNP를 분류하였다. 유전자별 SNP의 발생정도를 조사한 결과 약 6.2%에 해당하는 2,160개의 유전자 내에는 SNP가 발생하지 않는 것으로 조사되었다. 나머지 32,567개의 유전자에서 MAF≤0.2 조건에 해당하는 SNP를 제거하여 27,630개의 유전자에서 175,287개의 정제된 SNP를 확보하여 향후 분석에 사용하였다. 따라서, 유전자 내에 SNP가 존재하지 않는 2,160개의 유전자와 MAF≤0.2 필터조건을 만족하지 못하는 소수의 SNP를 가진 유전자가 제외되면서 4,930개의 유전자가 haplotype 분석에서 제외되었다(Table 2).
Table 2 . SNPs used in gene-based haplotype analysis
Chromosome | No. of input SNPs | No. of input SNPs (MAF ≤ 0.2) | No. of input genes | No. of input genes (MAF ≤ 0.2) |
---|---|---|---|---|
Chr0 | 6,288 | 1,698 | 480 | 370 |
Chr1 | 74,835 | 21,048 | 4,091 | 3,493 |
Chr2 | 52,467 | 18,255 | 3,174 | 2,771 |
Chr3 | 55,128 | 15,581 | 3,167 | 2,607 |
Chr4 | 49,706 | 20,587 | 2,624 | 2,387 |
Chr5 | 39,644 | 14,309 | 2,303 | 2,062 |
Chr6 | 56,530 | 12,386 | 2,685 | 2,211 |
Chr7 | 45,452 | 11,247 | 2,399 | 1,954 |
Chr8 | 46,664 | 13,379 | 2,357 | 2,020 |
Chr9 | 55,581 | 11,040 | 2,379 | 1,902 |
Chr10 | 36,516 | 10,379 | 2,376 | 1,961 |
Chr11 | 38,389 | 13,907 | 2,217 | 1,944 |
Chr12 | 36,131 | 11,451 | 2,315 | 1,948 |
Total | 563,331 | 175,287 | 32,567 | 27,630 |
유전자 당 SNP 발생 빈도를 살펴보면, 1개에서 10개 이내의 SNP가 발생하는 경우가 가장 높은 비율을 차지했고, 50개 이상의 SNP가 발생한 유전자도 2,189개 탐색되었다(Fig. 2).
선발된 SNP의 유전자 haplotype 분석은 multiple alignment를 통해 유전자별로 크게 2개의 단상형으로 구분할 수 있음을 확인하였다. Phylogenetic tree 분석을 통해 살펴보면
각 유전자의 haplotype은 여러 개의 SNP로 구성되어 있는 block의 기본단위로 볼 수 있다. Haplotype을 실험적으로 활용하기 위해서 각 유전자의 haplotype을 대변할 수 있는 tag-SNP를 선발하였다. 유전자의 haplotype을 구별할 수 있는 SNP 중에서 정보력이 높은 SNP를 tag-SNP로 선발하기 위하여 아미노산 변화를 야기하여 유전자 기능에 영향을 미칠 가능성이 높은 non-synonymous SNP를 우선 선발하였다. 그 결과, 13,845개의 유전자가 선발되었고, 해당 유전자에서 발생한 non- synonymous SNP를 tag-SNP로 선정하였다. 유전자 내에 존재하는 SNP 중 non-synonymous SNP가 없는 경우, synonymous SNP 중에서 haplotype을 구분할 수 있는 SNP를 선발하여 13,694개의 유전자를 대변할 수 있는 tag-SNP로 선발하였다(Table 3). 따라서 총 27,539개 유전자를 대변하는 tag-SNP를 선발하여 웹 데이터베이스에 공개하였다. 이는 전체 32,567개의 유전자들 중 85%에 해당하는 haplotype block 확장을 위한 기본단위로 활용될 수 있을 것이다.
Table 3 . Selection of tag-SNPs that can distinguish gene-based haplotypes
Contents | No. of SNPs |
---|---|
SNPs in 234 tomato accessions | 29,504,960 |
SNPs in gene regions | 593,331 |
SNPs filtered by MAF ≤ 0.2 | 175,287 |
Tag-SNPs from non-synonymous SNPs | 13,845 |
Tag-SNPs from synonymous SNPs | 13,694 |
Total tag-SNPs | 27,539 |
LD block은 분자 마커 수를 효과적으로 줄일 수 있는 방법이다. 재배종이 포함되어 있는
정보 활용을 증대하기 위해 기존에 구축된 가지과(Solanaceae) 작물 유전체 데이터베이스인 TGsol (http://tgsol.seeders.co.kr/) 웹 사이트 내에 사용된 자원의 상세 정보, SNP, haplotype, tag-SNP 정보를 탐색할 수 있도록 구현하였다. 유전자별 haplotype은 genome browser를 통해 탐색하고자 하는 유전자를 유전자 명 혹은 위치 정보를 검색하여 web interface 환경 하에 해당 유전자로 접근하도록 하였다. 검색하고자 하는 유전자를 선택하면, 유전자의 상세정보가 제공되며 확인하고자 하는 계통을 선발할 수 있도록 선택 옵션창을 구성하였다. 모든 계통을 비교하고자 할 경우에는 ‘All’ 버튼을 선택하면 된다. SNP는 MAF filtering을 적용한 경우와 그렇지 않은 경우를 선택하여 확인할 수 있다. 이 과정은 ‘Re-align’버튼을 통해 실행시킬 수 있으며, 실행 후 하단에 해당 유전자에 속한 haplotype 결과를 확인할 수 있으며‘Tree view’를 통해 phylogenetic tree를 분석할 수 있다. Phylogenetic tree는 옵션을 변경하여 그림의 크기, tree의 type 등을 결정하여 사용하기에 적합한 목적에 맞는 이미지가 생성될 수 있도록 구현하였다(Fig. 4). 분자 마커 개발을 위해 필요한 염기서열 정보는 유전자 단위로 다운로드 하거나 혹은 SNP 주변 서열을 이용하여 사용하고자 하는 장비에 맞도록 분자 마커를 개발하는데 사용할 수 있다.
유전체 정보가 공공 데이터베이스 내에 빠르게 축적이 되면서 유전체 데이터의 활용도를 높이기 위한 재가공 기술과 공유 기술이 지속적으로 중요해지고 있다. 특히 분자육종을 가속화하기 위해서 다양한 목적에 맞는 분자 마커 개발이 중요하다. 본 연구는 이러한 요구를 해소하기 위해 유전자 단위에서 haplotype을 기본단위로 구분하고 해당 유전자의 haplotype을 대변하는 tag-SNP를 선발하여 분자 마커 등을 개발하는데 사용할 수 있도록 관련 정보를 웹 사이트를 통해서 제공하고자 웹 데이터베이스를 구축하였다. 본 연구를 통해 선발된 각 tag-SNP는 하나의 유전자를 대변할 수 있고, 각 유전자의 haplotype을 구분할 수 있으며, 해당 유전자의 염색체 내 위치 정보, non-synonymous SNP의 정보를 담고 있다. 따라서 기존 무작위 방식으로 선발되어 사용되던 SNP에 비하여 정보력이 높은 tag-SNP를 활용해서 haplotype block을 확장할 수 있을 것이다. Haplotype의 기본 단위를 유전자로 설정함으로써 집단이 바뀜에 따라 발생하는 SNP의 유무, LD block의 크기 등이 변하는 문제점을 극복하고, 표준화된 haplotype library 작성이 가능할 것이며 이는 또한 분자육종을 위한 분자 마커를 선발하는데 활용될 수 있을 것으로 기대된다.
본 연구는 차세대바이오그린21사업(농생물게놈활용연구사업단 과제번호: PJ01313203)의 “원예작물의 유전체 육종 구현을 위한 데이터베이스 구축” 과제의 지원에 의해 수행되었다.
J Plant Biotechnol 2020; 47(3): 218-226
Published online September 30, 2020 https://doi.org/10.5010/JPB.2020.47.3.218
Copyright © The Korean Society of Plant Biotechnology.
정혜리・이보미・이봉우・오재은・이정희・김지은・조성환
㈜씨더스 농업회사법인
Hye-ri Jeong ・Bo-Mi Lee ・Bong-Woo Lee ・Jae-Eun Oh ・Jeong-Hee Lee ・Ji-Eun Kim・Sung-Hwan Jo
SEEDERS Inc., Daejeon, 34912, Korea
Correspondence to:e-mail: shjo@seeders.co.kr
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
This report describes methods for selecting informative single nucleotide polymorphisms (SNPs), and the development of an online Solanaceae genome database, using 234 tomato resequencing data entries deposited in the NCBI SRA database. The 126 accessions of Solanum lycopersicum, 68 accessions of Solanum lycopersicum var. cerasiforme, and 33 accessions of Solanum pimpinellifolium, which are frequently used for breeding, and some wild-species tomato accessions were included in the analysis. To select tag-SNPs, we identified 29,504,960 SNPs in 234 tomatoes and then separated the SNPs in the genic and intergenic regions according to gene annotation. All tag-SNP were selected from non-synonymous SNPs among the SNPs present in the gene region and, as a result, we obtained tag-SNP from 13,845 genes. When there were no nonsynonymous SNPs in the gene, the genes were selected from synonymous SNPs. The total number of tag-SNPs selected was 27,539. To increase the usefulness of the information, a Solanaceae genome database website, TGsol (http://tgsol. seeders.co.kr/), was constructed to allow users to search for detailed information on resources, SNPs, haplotype, and tag-SNPs. The user can search the tag-SNP and flanking sequences for each gene by searching for a gene name or gene position through the genome browser. This website can be used to efficiently search for genes related to traits or to develop molecular markers.
Keywords: tag-SNP, Haplotype, Molecular marker, NGS, tomato
효율적인 작물 육종을 위한 분자 마커(molecular marker)의 수요는 꾸준히 증가하고 있으며 분자 마커 개발은 차세대 염기서열 생산 장비(Next Generation Sequencing, NGS)의 발달로 더욱 가속화되어 왔다. 유전체 내 존재하는 다양한 구조적 변이는 분자 마커로 개발되어 품종을 구분하거나 주요한 형질에 연관된 유전자를 찾고 활용하는데 매우 중요한 정보이다. 2007년 이후 NGS 기술의 등장으로 대규모 염기서열 데이터의 생산이 가능해졌고, 이를 통해 유전체 내에 존재하는 구조변이를 확인할 수 있는 분자 마커를 빠르게 대규모로 탐지할 수 있게 되어 변이 탐지에서 양적인 제약이 해결되었다.
SNP는 유전체 내에 가장 빈번하게 발생하는 구조변이의 한 종류로, 목표 유전자 혹은 염색체 위치에서도 변이정보를 확보하기 용이하여 가장 널리 활용되는 분자 마커이다(Collard and Mackill 2008). 그러나 NGS에 의해 발굴된 과도하게 많은 SNP를 모두 확인하는데 소요되는 실험적 비용을 감당할 수 없기 때문에 유전자 유형을 구별하거나 형질과 연결 지을 수 있는 정보력이 높은 분자 마커를 선발하고 최소한의 마커 세트를 구성하고자 하는 시도가 계속되고 있다(Pook et al. 2019). 인간 유전체 분야에서 처음 연구가 시작된 tag-SNP의 개념은 haplotype을 대표하는 마커로서 Hapmap project에서 활발히 연구되었다(Willer et al. 2006). 유전체 내에서 haplotype block을 선발하는 방법은 LD (linkage disequilibrium) block based methods와 genome-wide approaches의 크게 2가지의 카테고리로 나누어 개발되고 있다(Choe et al. 2018). LD block 기반의 방식은 미리 정의된 haplotype block structure에 의존한다. 염색체 교차 빈도를 기준으로 블록을 구분하게 되면 블록 내에는 교차가 매우 적은 수준에서 발생되므로 블록 내에 haplotype은 아주 적은 변이를 가지게 된다. Shirasawa 등의 보고에 의하면 663개의 토마토 accession을 이용해 LD를 분석했을 때, 총 123 LD Block이 탐색되었고, 염색체 부위별로 LD block의 위치를 조사하였다(Shirasawa et al. 2013). LD block의 평균 길이는 3.2 Mb였으며, block의 크기는 최소 256 bp에서 최대 58.3 Mbp의 LD block이 확인되어 블록 간 크기 차이가 매우 큼을 확인하였다. 123개의 LD block에서 총 437 haplotype을 확인하였고 한 LD block 당 3.6 haplotypes을 보고하였다. de Haas 등은 토마토 60개 RILs의 low coverage sequencing으로 SNP를 탐색하여 genome-wide approaches 방식의 haplotype 분석을 수행하였다(de Haas et al. 2017). Haplotype block 탐색은 마커 수와 유전체 내에서의 거리를 기준으로 분석하였다. Haplotype block은 sliding window approach method를 적용하였으며, 최소 9개의 마커와 최소 거리 10 kbp 이상의 조건에서 시작하여 window size 최대 50개 마커와 250 kbp 이내의 조건에서 탐색하였다. 1,445개의 recombination 발생 결과를 60 RILs 집단에서 haplotype을 적용하여 효과적으로 탐지하였다.
범용성 있는 haplotype을 개발하기 위해서는 모든 토마토에서 공통적으로 적용할 수 있는 통일된 기준을 적용하는 것이 필요하다. LD block의 경우 집단의 특징에 따라 매우 유동적으로, LD block의 위치나 크기가 상당히 큰 차이를 보인다. 또한 sliding window approach를 이용한 genome-wide haplotype 분석 방식도 비교하는 계통 간의 SNP발생유무, SNP수 및 분포에 따라 haplotype block의 크기와 위치가 변화됨을 확인하였다.
따라서 본 연구에서는 유전자를 기본 단위로 하여 haplotype을 분석하고 유전자의 haplotype을 대변하는 정보력 높은tag-SNP를 선발하여 분자 마커 개발에 활용하도록 웹 데이터베이스를 구축하여 제공하고자 한다.
토마토 표준 유전체(reference genome)는 SGN (ftp://ftp.solgenomics.net/)에서 수집한
Table 1 . Summary of tomato resequencing SRA data.
Scientific name | No. of SRA collected | Total length (bp) | No. of SRA analyzed |
---|---|---|---|
557 | 5,367,216,027,209 | 126 | |
133 | 818,234,753,929 | 68 | |
65 | 470,510,067,600 | 33 | |
17 | 324,511,688,762 | 1 | |
14 | 137,734,433,883 | 0 | |
12 | 165,974,167,372 | 0 | |
3 | 101,084,736,600 | 0 | |
2 | 68,609,466,800 | 2 | |
2 | 64,731,490,900 | 1 | |
2 | 67,986,640,700 | 0 | |
2 | 70,608,085,300 | 1 | |
2 | 69,515,482,100 | 2 | |
1 | 32,520,818,500 | 0 | |
1 | 30,910,824,200 | 0 | |
Total | 813 | 7,790,148,683,755 | 234 |
수집한 토마토 234개 계통 별 유전체 염기서열 데이터의 품질을 측정하고, 기준 품질 이상의 염기서열만을 선발(quality filtering) 하는 가공 작업을 SolexaQA package (v. 1.13)를 이용하여 수행하였다(Cox et al. 2010). 품질 측정의 기준 값은 phred score 20 이상, 최소길이 25bp 이상으로 적용하였다. 품질 기준을 통과한 토마토 염기서열들은 BWA (Burrows-Wheeler Aligner; v0.6.1-r104)를 이용하여 토마토 표준 유전체 기준으로 정렬(alignment)을 수행하였다(Li and Durbin 2009). 프로그램 수행을 위한 옵션값으로는 mismatch 최대 2개, seed length 27 bp 설정 외에 기본값(default)을 적용하였다. 토마토 각 계통의 표준 유전체로의 염기서열 정렬 결과를 SAMtools (v0.1.16) 프로그램을 이용하여 유전체 전반적으로 발생한 대량의 SNP를 탐색하였다(Kim et al. 2014; Li et al. 2009). SAMtools 프로그램의 옵션은 대부분 기본 값(default)을 적용하였고, 정확도 높은 SNP를 선발하기 위해 정렬 품질(alignment quality) 값을 기본 값인 25보다 높은 30으로 적용하고, 적어도 3개 이상의 원 서열(raw reads; 염기서열을 구성하는 짧은 단편서열)이 정렬된 위치에서 추출된 SNP만을 선발하였다. 토마토 234개 계통의 각각의 SNP 발생 정보를 통합하여 매트릭스(matrix) 형태로 염색체 번호, 위치 정보, 표준유전체의 염기서열을 포함하여 SNP 정보를 정리하였다.
유전자 단위의 haplotype을 분석하기 위해 SNP 매트릭스가 제공하는 SNP position 정보와 토마토 표준 유전체의 physical position 정보를 이용해 유전자 내에 발생한 SNP를 분류하였다. SNP 정제는 토마토 계통 간 같은 유형의 SNP 빈도(MAF)가 5% 이상, 원 서열 정렬 개수(read depth)가 5개 이상, 염기서열이 결손 된 계통이 30% 이하의 선발 기준을 만족하는 SNP를 선발하였다. 정제된 SNP로 234계통의 SNP를 유전자별로 구분하여 multiple alignment와 phylogenetic tree 분석을 통하여 haplotype 분석을 진행하였다. Haplotype은 multiple alignment의 결과의 거리 차를 이용해 구분하였으며 표준유전체와 같은 그룹으로 묶인 경우를 ‘type 1’으로 분류하였다. 그룹 내 묶인 accession 수가 많은 순서로 이름을 명명하였다.
유전자 단위로 SNP를 분류하고 유전자 내 SNP가 존재하지 않는 유전자는 분석에서 제외되었다. 유전자 단위의 haplotype을 구분할 수 있는 SNP 중에서 향후 활용도가 높은 SNP를 우선 선발하기 위하여 non-synonymous SNP를 탐색하여 tag-SNP의 우선대상으로 선발하였다. 유전자 내에 non-synonymous SNP가 없는 경우는 haplotype 간 구분이 가능한 synonymous SNP를 다음 대상으로 선발하였다. 웹 데이터베이스를 구축할 때 non-synonymous SNP가 미치는 아미노산의 변화 정보를 제공하였다.
토마토 계통 간 SNP matrix를 이용하여 염색체 별로 LD 분석을 실시하였다. LD 분석에는 Broad Institute의 Barrett Jeffrey 팀에서 개발한 Haploview 프로그램을 도입하여 이용하였다(Barrett 2009). 프로그램이 가지고 있는 사용가능한 마커 수의 제한을 극복하기 위하여
SRA 234계통 유래의 SNP는 MySQL을 통해 데이터베이스로 구축하였고, web coding에는 php 언어를 활용하였다. 활용도를 높이기 위해 기존에 구축하여 공개한 TGsol (http://tgsol.seeders.co.kr/) 웹 사이트와 연계하였다(Choe et al. 2018). 사이트 내 SNP, haplotype 및 tag-SNP는genome browser에서 탐색할 수 있도록 구현하였다. 필요에 따른 분석 대상 선택을 위해 234계통은 선택 옵션을 두었고, 선택된 계통을 이용하여 multiple alignment 및 phylogenetic tree를 분석할 수 있게 구현하였다.
수집한 토마토 234계통 SRA의 총길이는 1.58 Tbp였으며, 유전체 단편 염기서열(short read)의 품질을 측정하고 기준 품질 이하의 염기서열을 제거하여 원 데이터(raw data) 대비 79% 인 1.24 Tbp 길이의 염기서열을 확보하였다. 토마토 계통별로 정제된 염기서열들을 토마토 표준 유전체(
토마토 234계통의 각각의 SNP 발생 정보를 통합하여 정리한 결과, 통합 29,504,960개의 SNP 정보를 확보하였다. 토마토 234개 계통 중 주요 3종별 SNP 발생 경향을 조사한 결과, 현재 표준유전체와 재배종이 포함되어 있는
추출한 SNP 정보를 기반으로 토마토 234개의 계통수 분석을 실시하였다. SNP 개수와 상응하게
유전자별 SNP를 분류하기 위해 토마토 표준 유전체 내 유전자 위치(physical position) 정보를 이용해 34,727개의 유전자 내에 발생한 SNP를 선발하여 유전자 별로 SNP를 분류하였다. 유전자별 SNP의 발생정도를 조사한 결과 약 6.2%에 해당하는 2,160개의 유전자 내에는 SNP가 발생하지 않는 것으로 조사되었다. 나머지 32,567개의 유전자에서 MAF≤0.2 조건에 해당하는 SNP를 제거하여 27,630개의 유전자에서 175,287개의 정제된 SNP를 확보하여 향후 분석에 사용하였다. 따라서, 유전자 내에 SNP가 존재하지 않는 2,160개의 유전자와 MAF≤0.2 필터조건을 만족하지 못하는 소수의 SNP를 가진 유전자가 제외되면서 4,930개의 유전자가 haplotype 분석에서 제외되었다(Table 2).
Table 2 . SNPs used in gene-based haplotype analysis.
Chromosome | No. of input SNPs | No. of input SNPs (MAF ≤ 0.2) | No. of input genes | No. of input genes (MAF ≤ 0.2) |
---|---|---|---|---|
Chr0 | 6,288 | 1,698 | 480 | 370 |
Chr1 | 74,835 | 21,048 | 4,091 | 3,493 |
Chr2 | 52,467 | 18,255 | 3,174 | 2,771 |
Chr3 | 55,128 | 15,581 | 3,167 | 2,607 |
Chr4 | 49,706 | 20,587 | 2,624 | 2,387 |
Chr5 | 39,644 | 14,309 | 2,303 | 2,062 |
Chr6 | 56,530 | 12,386 | 2,685 | 2,211 |
Chr7 | 45,452 | 11,247 | 2,399 | 1,954 |
Chr8 | 46,664 | 13,379 | 2,357 | 2,020 |
Chr9 | 55,581 | 11,040 | 2,379 | 1,902 |
Chr10 | 36,516 | 10,379 | 2,376 | 1,961 |
Chr11 | 38,389 | 13,907 | 2,217 | 1,944 |
Chr12 | 36,131 | 11,451 | 2,315 | 1,948 |
Total | 563,331 | 175,287 | 32,567 | 27,630 |
유전자 당 SNP 발생 빈도를 살펴보면, 1개에서 10개 이내의 SNP가 발생하는 경우가 가장 높은 비율을 차지했고, 50개 이상의 SNP가 발생한 유전자도 2,189개 탐색되었다(Fig. 2).
선발된 SNP의 유전자 haplotype 분석은 multiple alignment를 통해 유전자별로 크게 2개의 단상형으로 구분할 수 있음을 확인하였다. Phylogenetic tree 분석을 통해 살펴보면
각 유전자의 haplotype은 여러 개의 SNP로 구성되어 있는 block의 기본단위로 볼 수 있다. Haplotype을 실험적으로 활용하기 위해서 각 유전자의 haplotype을 대변할 수 있는 tag-SNP를 선발하였다. 유전자의 haplotype을 구별할 수 있는 SNP 중에서 정보력이 높은 SNP를 tag-SNP로 선발하기 위하여 아미노산 변화를 야기하여 유전자 기능에 영향을 미칠 가능성이 높은 non-synonymous SNP를 우선 선발하였다. 그 결과, 13,845개의 유전자가 선발되었고, 해당 유전자에서 발생한 non- synonymous SNP를 tag-SNP로 선정하였다. 유전자 내에 존재하는 SNP 중 non-synonymous SNP가 없는 경우, synonymous SNP 중에서 haplotype을 구분할 수 있는 SNP를 선발하여 13,694개의 유전자를 대변할 수 있는 tag-SNP로 선발하였다(Table 3). 따라서 총 27,539개 유전자를 대변하는 tag-SNP를 선발하여 웹 데이터베이스에 공개하였다. 이는 전체 32,567개의 유전자들 중 85%에 해당하는 haplotype block 확장을 위한 기본단위로 활용될 수 있을 것이다.
Table 3 . Selection of tag-SNPs that can distinguish gene-based haplotypes.
Contents | No. of SNPs |
---|---|
SNPs in 234 tomato accessions | 29,504,960 |
SNPs in gene regions | 593,331 |
SNPs filtered by MAF ≤ 0.2 | 175,287 |
Tag-SNPs from non-synonymous SNPs | 13,845 |
Tag-SNPs from synonymous SNPs | 13,694 |
Total tag-SNPs | 27,539 |
LD block은 분자 마커 수를 효과적으로 줄일 수 있는 방법이다. 재배종이 포함되어 있는
정보 활용을 증대하기 위해 기존에 구축된 가지과(Solanaceae) 작물 유전체 데이터베이스인 TGsol (http://tgsol.seeders.co.kr/) 웹 사이트 내에 사용된 자원의 상세 정보, SNP, haplotype, tag-SNP 정보를 탐색할 수 있도록 구현하였다. 유전자별 haplotype은 genome browser를 통해 탐색하고자 하는 유전자를 유전자 명 혹은 위치 정보를 검색하여 web interface 환경 하에 해당 유전자로 접근하도록 하였다. 검색하고자 하는 유전자를 선택하면, 유전자의 상세정보가 제공되며 확인하고자 하는 계통을 선발할 수 있도록 선택 옵션창을 구성하였다. 모든 계통을 비교하고자 할 경우에는 ‘All’ 버튼을 선택하면 된다. SNP는 MAF filtering을 적용한 경우와 그렇지 않은 경우를 선택하여 확인할 수 있다. 이 과정은 ‘Re-align’버튼을 통해 실행시킬 수 있으며, 실행 후 하단에 해당 유전자에 속한 haplotype 결과를 확인할 수 있으며‘Tree view’를 통해 phylogenetic tree를 분석할 수 있다. Phylogenetic tree는 옵션을 변경하여 그림의 크기, tree의 type 등을 결정하여 사용하기에 적합한 목적에 맞는 이미지가 생성될 수 있도록 구현하였다(Fig. 4). 분자 마커 개발을 위해 필요한 염기서열 정보는 유전자 단위로 다운로드 하거나 혹은 SNP 주변 서열을 이용하여 사용하고자 하는 장비에 맞도록 분자 마커를 개발하는데 사용할 수 있다.
유전체 정보가 공공 데이터베이스 내에 빠르게 축적이 되면서 유전체 데이터의 활용도를 높이기 위한 재가공 기술과 공유 기술이 지속적으로 중요해지고 있다. 특히 분자육종을 가속화하기 위해서 다양한 목적에 맞는 분자 마커 개발이 중요하다. 본 연구는 이러한 요구를 해소하기 위해 유전자 단위에서 haplotype을 기본단위로 구분하고 해당 유전자의 haplotype을 대변하는 tag-SNP를 선발하여 분자 마커 등을 개발하는데 사용할 수 있도록 관련 정보를 웹 사이트를 통해서 제공하고자 웹 데이터베이스를 구축하였다. 본 연구를 통해 선발된 각 tag-SNP는 하나의 유전자를 대변할 수 있고, 각 유전자의 haplotype을 구분할 수 있으며, 해당 유전자의 염색체 내 위치 정보, non-synonymous SNP의 정보를 담고 있다. 따라서 기존 무작위 방식으로 선발되어 사용되던 SNP에 비하여 정보력이 높은 tag-SNP를 활용해서 haplotype block을 확장할 수 있을 것이다. Haplotype의 기본 단위를 유전자로 설정함으로써 집단이 바뀜에 따라 발생하는 SNP의 유무, LD block의 크기 등이 변하는 문제점을 극복하고, 표준화된 haplotype library 작성이 가능할 것이며 이는 또한 분자육종을 위한 분자 마커를 선발하는데 활용될 수 있을 것으로 기대된다.
본 연구는 차세대바이오그린21사업(농생물게놈활용연구사업단 과제번호: PJ01313203)의 “원예작물의 유전체 육종 구현을 위한 데이터베이스 구축” 과제의 지원에 의해 수행되었다.
Table 1 . Summary of tomato resequencing SRA data.
Scientific name | No. of SRA collected | Total length (bp) | No. of SRA analyzed |
---|---|---|---|
557 | 5,367,216,027,209 | 126 | |
133 | 818,234,753,929 | 68 | |
65 | 470,510,067,600 | 33 | |
17 | 324,511,688,762 | 1 | |
14 | 137,734,433,883 | 0 | |
12 | 165,974,167,372 | 0 | |
3 | 101,084,736,600 | 0 | |
2 | 68,609,466,800 | 2 | |
2 | 64,731,490,900 | 1 | |
2 | 67,986,640,700 | 0 | |
2 | 70,608,085,300 | 1 | |
2 | 69,515,482,100 | 2 | |
1 | 32,520,818,500 | 0 | |
1 | 30,910,824,200 | 0 | |
Total | 813 | 7,790,148,683,755 | 234 |
Table 2 . SNPs used in gene-based haplotype analysis.
Chromosome | No. of input SNPs | No. of input SNPs (MAF ≤ 0.2) | No. of input genes | No. of input genes (MAF ≤ 0.2) |
---|---|---|---|---|
Chr0 | 6,288 | 1,698 | 480 | 370 |
Chr1 | 74,835 | 21,048 | 4,091 | 3,493 |
Chr2 | 52,467 | 18,255 | 3,174 | 2,771 |
Chr3 | 55,128 | 15,581 | 3,167 | 2,607 |
Chr4 | 49,706 | 20,587 | 2,624 | 2,387 |
Chr5 | 39,644 | 14,309 | 2,303 | 2,062 |
Chr6 | 56,530 | 12,386 | 2,685 | 2,211 |
Chr7 | 45,452 | 11,247 | 2,399 | 1,954 |
Chr8 | 46,664 | 13,379 | 2,357 | 2,020 |
Chr9 | 55,581 | 11,040 | 2,379 | 1,902 |
Chr10 | 36,516 | 10,379 | 2,376 | 1,961 |
Chr11 | 38,389 | 13,907 | 2,217 | 1,944 |
Chr12 | 36,131 | 11,451 | 2,315 | 1,948 |
Total | 563,331 | 175,287 | 32,567 | 27,630 |
Table 3 . Selection of tag-SNPs that can distinguish gene-based haplotypes.
Contents | No. of SNPs |
---|---|
SNPs in 234 tomato accessions | 29,504,960 |
SNPs in gene regions | 593,331 |
SNPs filtered by MAF ≤ 0.2 | 175,287 |
Tag-SNPs from non-synonymous SNPs | 13,845 |
Tag-SNPs from synonymous SNPs | 13,694 |
Total tag-SNPs | 27,539 |
Youngeun Lee , Sais-Beul Lee , Ju-Won Jang , Jun-Hyeon Cho , Dong-Soo Park , Jong-Hee Lee , Dongjin Shin , Byung Jun Jin
J Plant Biotechnol -0001; ():Hyungjun Park·Sujung Kim·Hualin Nie·Jiseong Kim·Jeongeun Lee·Sunhyung Kim
J Plant Biotechnol 2020; 47(2): 124-130Jong Hee Kim · Yu Jin Jung · Hoon Kyo Seo · Myong-Kwon Kim · Ill-Sup Nou · Kwon Kyoo Kang
J Plant Biotechnol 2019; 46(3): 165-171
Journal of
Plant Biotechnology