知方号

知方号

10×一个样本测多少数据量(G)合适?<2229mb是多少g>

10×一个样本测多少数据量(G)合适?

首先,需要明确一点: 数据量大小其实就是碱基的个数。那么,数据量大小的计算方法是:

单端测序数据量=reads长度 * reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数)

双端测序数据量=单端reads长度 * 单端reads个数 * 2通常测序数据量的单位都是用“G"表示,例如1G。需要强调的是,这里所说的G不是说测序文件在硬盘上的大小为1G,而是表示10亿个碱基。这是如何计算的呢?首先,我们需要知道1个碱基=1 byte ;其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。所以,1G的数据量=10^9=10亿个碱基。此外,测序数据量还有另外一种表示方式,即cluster。一个cluster表示一个DNA片段(对于RNA-seq,则表示一个片段化后的RNA分子)。比如说某一个样本测序数据量为30M 的 cluster。如果采用双端测序技术,每个cluster从两端都测一次,每次测150bp, 所以就会得到30M * 2=60M的reads数,然后reads数乘以每条read的长度就是我们最后的测序数据量(碱基数),即为60M * 150=9G的碱基数。

我们知道了测序数据量是如何计算的,那么问题来了,对于一个测序样本,需要测多少G 的数据量才能满足实验要求呢?要回答这个问题,首先要搞清楚几个概念。

1.测序深度(Sequencing depth):是指测序得到的碱基总量(bp)与基因组大小的比值,即测序深度=数据量大小 / 参考基因组大小。或者理解为基因组中每个碱基被测序到的平均次数。

测序覆盖度(Sequencing coverage):是指测序获得的序列占整个基因组的比例。或者可以理解为基因组上至少被检测到1次的区域(或者是碱基),占整个基因组的比例。

image.png

通常来说,测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在测序过程中,10X的测序深度就能够满足基本的实验目的。

以上是一些背景知识,回归正题,当我们想做一个单细胞样本的测序,该测多少数据量呢?以10X为例。10X官方有PBMC单细胞测试数据,4000K细胞,每个细胞平均是50K的reads。我们一般都在公司测序,那么公司的人一定会推荐你每个样本是3~8K细胞,平均每个细胞15-50K的reads这样的测序策略 。

以上我们就知道了对于单个单细胞样本,平均每个细胞需要测序的reads数,即15-50K reads/cell,通常为50K reads/cell。

为了得到总的数据量,我们必须还要知道reads长度,因为我们的计算公式就是双端测序:数据量=单端reads长度 * 单端reads个数 * 2

为了知道reads长度,我们就不得不去查一查,10X单细胞测序的测序模式是什么。查阅得知,其测序模式为PE150。这里的PE150就是指双端测序,每条read长度150bp那有同学就肯定会问了,那单端测序呢,举例:SE150,即 单端测序,每条read长度150bp。

知道了这些,那最开始的那个问题就解决啦。由于做的是10X单个单细胞样本,测序模式为PE150。单个细胞需测序的reads数推荐为50K reads/cell,以10,000细胞为例。

数据量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G

参考

作者:Kevin_Hhui

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。