单细胞RNA测序(scRNA-seq)为解决生物和医学问题提供了新的可能性。然而,缺乏对各种scRNA-seq协议性能的系统比较。我们从583个小鼠胚胎干细胞生成数据,以评估六种scRNA-seq方法:CEL-seq2、Drop-seq、MARS-seq、SCRB-seq、Smart-seq和Smart-seq2。虽然Smart-seq2检测到的每个细胞和跨细胞的基因最多,但CEL-seq2、Drop-seq、MARS-seq和SCRB-seq量化了mRNA水平,由于使用独特的分子标识符(UMI),放大噪声较低。不同测序深度的功率模拟表明,Drop-seq对大量细胞的转录组量化更具成本效益,而MARS-seq、SCRB-seq和Smart-seq2在分析更少的单元格时效率更高
图3。scRNA-Seq方法的灵敏度
(A) 无法映射到小鼠基因组(灰色)的读数百分比(每个细胞采样量降至100万)映射到外子(橙色)或外子内部(蓝色)的区域。对于UMI方法,深蓝色表示具有唯一UMI的外音读数。
(B) 将总读数下采样到指示深度时,每个细胞检测到的基因中位数(计数≥1)。超过100万次的虚线读数代表外推渐近配合。
(C) 每个细胞检测到的基因数量(计数≥1)。每个点代表一个单元格,每个框代表每个复制和方法的中位数以及第一和第三四分位数。
(D) 随着细胞的增加,检测到的基因累计数量。随机抽取100次考虑的单元格顺序,以显示平均±SD(阴影区域)。
Smart-Seq2 的灵敏度最高
以每个细胞检测到的基因数量作为灵敏度量,我们发现Drop-seq和MARS-seq的灵敏度最低,每个细胞检测到的基因中位数分别为4,811个和4,763个,而CEL-seq2/C1、SCRB-seq和Smart-seq/C1检测到的每个细胞的中位数为7,536个、7,906个和7,572个基因(图3C)。Smart-seq2检测到每个细胞的基因数量最多,中位数为9138个。为了比较在许多细胞中检测到的基因总数,我们汇总了每种方法65个细胞的序列数据,我们检测了CEL-Seq2/C1的19,000个基因,MARS-seq的17,000个基因,Drop-seq和SCRB-Seq的18,000个基因,Smart-seq/C1的基因2万个基因,Smart-seq2的基因为21,000个(图3D)。虽然大多数基因(13,000个)是通过所有方法检测到的,但?400个基因是3’计数方法中每种特定的,?1,000个基因是两种全长方法中每种方法特有的(图S3A)。在绘制在所有可用细胞中检测到的基因时,这两种全长方法的灵敏度也很明显,因为3英寸计数方法在20,000个基因以下趋于2万个,而两种全长方法在20,000个基因以上趋于水平(图3D)。这种差异可能是由3英寸末端难以映射的基因造成的。然而,我们发现Smart-seq2和Smart-seq/C1特有的基因以及3英寸末端映射为长度分布相似的基因,这些基因没有被全长方法专门检测到(图S3B)。因此,与3英寸计数方法相比,全长方法似乎将略高一点的转录誊本转化为可测序分子,并在这方面更加敏感。重要的是,在极少数细胞中检测到方法特异性基因(87%的基因存在于一两个细胞中),计数非常低(平均计数<0.2,图S3C)。这表明它们不太可能在较高的表达水平上保持特定于方法,它们对从scRNA-seq数据得出的结论的影响相当有限(Lun等人,2016年)。
图4。scRNA-Seq方法的准确性
ERCC表达值(Smart-seq/C1和Smart-seq2的每百万次读取计数,所有其他的每百万次读取UMI)与其注释摩尔度相关。显示了相关系数(线性回归模型的调整R2)在不同方法之间的分布。每个点代表一个单元格/珠子,每个框代表中位数以及第一和第三四分位数。
图5。scRNA-Seq方法的精度
我们比较了使用每种方法65个细胞的子样本中至少25%的13,361个基因的方法的精度。
(A) 13,361个基因的辍学率分布显示为小提琴情节,中位数显示为小节和数字。(B) 通过从CV(SD除以平均值)中减去泊松采样(平均值平方根)导致的预期变化量来计算13,361个基因的额外泊松变异性。分布显示为小提琴情节,中位数显示为小节和数字。对于CEL-seq2/C1、Drop-seq、MARS-seq、SCRB-seq、Smart-seq/C1和Smart-seq2的349、336、474、165、201和146个基因,无法计算额外的泊松变异性。
Cost Efficiency Extrapolation for Single-Cell RNA-Seq Experiments
Method | TPRa | FDRa (%) | Cell per Groupb | Library Cost ($) | Minimal Costc ($) |
---|---|---|---|---|---|
CEL-seq2/C1 | 0.8 | ∼6.1 | 86/100/110 | ∼9 | ∼2,420/2,310/2,250 |
Drop-seq | 0.8 | ∼8.4 | 99/135/254 | ∼0.1 | ∼1,010/700/690 |
MARS-seq | 0.8 | ∼7.3 | 110/135/160 | ∼1.3 | ∼1,380/1,030/820 |
SCRB-seq | 0.8 | ∼6.1 | 64/90/166 | ∼2 | ∼900/810/1,080 |
Smart-seq/C1 | 0.8 | ∼4.9 | 150/172/215 | ∼25 | ∼9,010/9,440/11,290 |
Smart-seq2 (commercial) | 0.8 | ∼5.2 | 95/105/128 | ∼30 | ∼10,470/11,040/13,160 |
Smart-seq2 (in-house Tn5) | 0.8 | ∼5.2 | 95/105/128 | ∼3 | ∼1,520/1,160/1,090 |
a True positive rate and false discovery rate are based on simulations (Figure 6; Figure S9).
b Sequencing depth of one, 0.5, and 0.25 million reads.
- c Assuming $5 per one million reads.
- 我们系统地比较了六种突出的scRNA-seq方法,发现Drop-seq在量化测序深度低的大量细胞的转录组时更可取,SCRB-seq和MARS-seq在量化较少细胞的转录组时更可取,只要可以使用内部产生的转座酶,Smart-seq2在注释和/或量化较少细胞的转录组时更可取。
参考文献:doi:https://doi.org/10.1016/j.molcel.2017.01.023
如若转载,请注明出处:https://www.ouq.net/1305.html