NGS-based methods and Data Science

【NGS 次世代基因體資料科學】基礎教學 06 染色體長度資訊.chrom.sizes的使用

染色體長度資訊是很常見於分析程式當中會需要傳入的資料,這裡簡單說明如何取得

沒有特殊需求的話,可以直接使用IGV提供的現成數據

https://github.com/igvteam/igv/tree/master/genomes/sizes

像是常見的mm10

https://github.com/igvteam/igv/blob/master/genomes/sizes/mm10.chrom.sizes

就可以直接下載

curl https://raw.githubusercontent.com/igvteam/igv/master/genomes/sizes/mm10.chrom.sizes -o mm10.chrom.sizes
head mm10.chrom.sizes

會得到

chr1	195471971
chr2	182113224
chr3	160039680
chr4	156508116
chr5	151834684
chr6	149736546
chr7	145441459
chr8	129401213
chr9	124595110
chr10	130694993

或是去UCSC的網站下載

https://hgdownload.soe.ucsc.edu/downloads.html

如果是沒有提供的,在手上有參考基因組的原始檔FASTA(.fa)格式的情況下,可以用samtools計算:

samtools faidx mm10.fa cut f1,2 mm10.fa.fai > mm10.chrom.sizes

Leave a Reply

Your email address will not be published. Required fields are marked *

en_USEnglish