火山图(Volcano plot)是散点图的一种,它将统计测试中的统计显著性量度(如p-value)和变化幅度相结合,从而能够帮助快速直观地识别那些变化幅度较大且具有统计学意义的数据点(代谢物等)。是一种单变量统计分析方法,常应用于研究基因组、转录组、代谢组、蛋白质组等数据分析。
在理解每一部分代表什么意思之前,我们需要先解决几个问题:
p-value:表示某个基因在比较分组之间的表达差异是否足够显著,一般认为p-value<0.05为显著。
adjusted p-value:即经过统计学方法校正后的p-value,由于统计学上常用的校正方法包括“BH”、“FDR”等,所以在一些文章中,我们也会看到筛选差异基因的阈值是FDR<0.05。
Fold Change:表示两个分组之间的差异倍数,其绝对值越大说明某基因在两组之间的表达差异也越大。该值为正时,表示差异上调;该值为负时,表示差异下调。画图时,一般转换为log2Fold Change,使展示更直观。
UP:差异显著且上调的基因。
DOWN:差异显著且下调的基因。
NOT:差异不显著的基因。
解决了这些问题,火山图表达的意思也就一目了然了,横着看差异,竖着看(统计学)意义。
结果解读
上图以|logFC|=0.606且p-value=0.05为截断标准。
logFC>0.606且p-value<0.05定义为上调的基因,
logFC<-0.606且p-value<0.05定义为上调的基因。
图中红色 的点表示上调的基因,蓝色 的点表示下调的基因,黑点 是无显著差异的基因。
两条红竖线外侧为差异表达倍数为2倍以上的基因。
B1横线以上表示p-value<0.05,
B2横线以上表示p-value<0.01。
区域1表示|FC|在2倍以内且p-value>0.05,区域2和区域3表示:|FC|>2倍且p-value<0.01的基因。
登入链接:https://www.metaboanalyst.ca/
02
上传数据
准备数据文件
需要有样本名和样本分组信息,文件格式需为制表符分割的TXT文件或逗号分割的CSV文件。
靶标中不能有希腊字母α、β等,用alpha、beta等替换。
数据类型选择浓度;
数据格式选择样品在每一列(未配对),可根据实验数据实际情况选择样品在每一行或是每一列、配对或未配对实验;
选择整理好的文件上传,提交即可。
检查数据格式
检查数据格式,是否有非数值数据、缺失值或其它特殊字符和标点符号。(注意:软件会默认将缺失值及零值替换为其对应变量的最小正值的 1/5)
05
数据分析
选择分析项目
参数设置
填写FC阈值,一般为2。P-value阈值一般为0.05。也可根据自己实际情况调整。
点击提交即可
到了这里,火山图的修炼已基本完成了~