一、数据处理 1、数据格式要求
在Excel表格里面,你必须将数据做成矩形形式。默认的方式(也是常用的方式)是一行代表一个样方,一列代表一个变量。表格左顶格最好是空着。最好第一列和第一行分别有样方编号和变量的名称。必须注意的是名称不能超过8个字符,如果超过8个字符,CANOCO会自动截取前8个字符作为名称。变量名称最好是英文字母、数字 、圆点或是连字符,空格也可以。
除了第一行和第一列,表格内剩下的填充内容必须是数字或是空着,绝对不能使用字符型数据。定性变量(因子)必须转换为哑变量(0‐1数据)方可进入CANOCO分析。
当数据在Excel表格里按要求整理好后,将包含数据的矩形方阵选定,然后选择“复制”按钮,此时数据便复制到剪贴板中。WCanoImp 便可以从剪贴板中读取数据。如图1‐2a所示,WCanoImp可以从“开始”菜单中Canoco for windows下来菜单中打开。此时会弹出WCanoImp对话框,上半部分包含如何使用该程序的简短信息,下半部分是一些可选框。如果在Excel表格数据是按照默认方式组织你的数据,第一选项不必选,相反,如果是数据结构正好相反,以列代表样方,以行代表变量,必须选中这个“Each column is a Sample”选项。除非你的数据是样方很少而变量很多(Excel表格里面列数不能超过256列),否则不推荐用这种方式组织数据。如果你没有样方或是变量没有编号或是名称,可以选择下面两个选框,程序会帮你给各行各列附上默认名称(Sample1,)。最后一个选项是问你是否存为压缩型数据类型,除非你觉得硬盘空间不够大,否则不必选这个选项,是否选这个选项中对于分析结果毫不影响。
当你确定所以的选择是正确的,你就可以按下save按钮,系统弹出新的对话框让你选择保存新文件地方和取个文件名,之后会让你给这个文件加个标注,这个标注内容将显示在新文件的数据内容第一行,以便日后数据内容的识别。选定确认后,程序会告诉你保存成功。
图1‐2a WCanoimp程序打开途径
图1‐2 b 数据的参考模式及WCanoimp对话框
2、物种数据的转化
排序的过程在于寻找最佳预测响应变量的坐标轴,此时坐标轴代表回归预测器(解释变量)(这些内容将在《基于 CANOCO 的生态学数据的多元统计分析》第3章详细解释)。因此,在排序中对响应变量进行转化,就好比在多重回归中要将很多物种数据转化一个单因变量的形式一样。有点限制的是,在排序中,所有的响应变量应该是做一致的转化,因为响应变量经常是同一属性的数据,具有一致的量纲。在基于单峰模型(加权平均)的排序(见3.2节),所有响应变量的数据不能是负值,这就要求某些带负值的数据必须转化,而且对于转化的结 果有更严格的要求(不能为负值)。
这个限定(非负值)对于对数转化更应该值得注意。因为1的对数为0,而处于0‐1之间的值取对数是负值。因此,在CANOCO里面提供了变通的对数转化公式:
在对y转化之前,你可设定上面公式中A和C的值,让输出的y`值保证不小于0。在系统中,A和C默认值均为1,这样可以保证本来是0的值,转化后仍为0,而其他的值依然是正的。然而,如果你的原始值很小(比如说处于0‐0.1之间),可以将A的值适当增大,比如说设为10。但对于百分比数据和普通的点数据,默认的转化(log(y+1))是比较合适的。 什么情况下需要对响应变量进行对数转化是个很难回答的问题,统计学家的答案也是五花八门。我们建议你不必太在意关于数据的分布特征,比如原始数据不一定符合理想的正态分布,对于排序来说,也不一定非要通过对数转化为正态分布的类型。是否需要对数转化,关键还是比较原始数据和转化数据分析处理的最终结果哪个更好解释你所要探讨的问题。
正如上面所描述那样,排序可以被看作多重回归的扩展,所以整个排序方法可以用简单
回归的语言来描述。你可以通过一个或多个预测器(环境因子或排序轴)来预测一个响应变量(比如物种的多度)。比如,在一元线形回归方程中(y=B0+BX+E),你可以问当x变化一个单位时,y的平均值是如何变化的?如果自变量和因变量都没有对数转化,你可以回答这个问题:当x增加一个单位时候,y的增量是B。但在很多情况下,你可能更倾向听到这样的解释,如果变量X增加一个单位,Y的量将增加10%,或是,y增加1.1倍这样的话。显然,这已经并不是线形回归模型所能体现出来的,因此,这种前情况下,你需要对响应变量进行对数转化。同样,如果预测器(环境因子)变化是成倍增长,此时的环境变量也应该被对数转化。
植物群落组成数据有时是半量化估计尺度数据,比如最典型的例子是多度的Braun‐Blanquet等级估计(7个等级水平,分别为r,+,1,2,3,4,5这7个标号表示)。这个等级估计经常在数据表格里用1‐7的数据来代替原来的标号进行分析。其实,这个量化1‐7的数字已经相当原始多度数据的对数转化,因为不同等级的多度变化往往是成倍增加的,不是简单的单位量的变化。
在CANOCO里面另外一种有用的数据转化模式是平方根转化。平方根转化更适合观测计数数据(count data),比如在土壤收集器中收集到标本个体的数量,或是通过某一条标志线蚂蚁的数量等等这样的观测数据。但对数转化对这样的数据进行转化也是可以的。
当然,如果你觉得需要某种除了对数转化和平方根之外的数据转化,你可以在数据输入CANOCO之前通过别的数据软件进行。 3、 解释变量的转化
因为解释变量(环境因子变量,包括协变量)经常是样方的多属性数据,量纲往往不一样的,所以你经常需要选择合适的转化方法分别对环境变量进行单独转化。CANOCO里面并没有提供这样的转化,因为很多环境因子在被输入CANOCO之前,就应该被转化好。
但你应该知道,CANOCO读了了环境变量或协变量后,它们会自动被中心化和标准化,让它们的均值为0和方差为1(这个转化通常被称为“单位方差标准化”)。 4、 数据存储格式转换
用wCanoImp形成canoco可以识别的数字格式时,物种和环境因子不同文件的命名最好差别别太大。 二、统计分析
1、 决定排序的模型:单峰还是线性
在Canoco for Windows的分析过程,有一个关于模型的选择窗口,你必须对排序的
模型进行选择。为了选择更合适的模型,你尽可能将各种模型都尝试一下,选择一个你最想要的分析结果及排序图。当然,如果你不知道到底是用线性、还好单峰模型好,有一个比较简单方法可以帮助你来选择。可以先将物种数据进行DCA分析,其他的窗口的选项均可以选择默认程序。分析完成后,在“Log View”内,各轴特征根分析那部分,可以找到“Lengths of gradient”这样一栏信息,这个“Lengths of gradient”是展示每个轴的梯度长度。如果这四个轴中梯度最长(最大值)超过4,选择单峰模型排序(CA、CCA、DCA)更合适。如果是小于3,选择线性模型(PCA、RDA)比较合理。如果介于3-4之间,单峰模型和线性模型都是合适的。当然,这个选择并不是绝对的,最长梯度小于3,依然可以用单峰模型,因为线性模型可以看作单峰模型一种特例。但是梯度大于4,最好还是不用线性模型,线性模型可能误差比较大,会丢失比较多的信息。
当你选择单峰还是线形模型的时候,你必须预先认识到,不是所有的数据类型都是适合用单峰模型,比如物种数据是不同量纲的数据(单位不一致)就不适合做单峰模型的排
序。还有,如果有个样方的空的(即值都为0),这样的数据进行单峰排序分析,系统会自动告诉你有空的样方,不能进行分析。如果非要做单峰模型的排序分析,首先要把这些空样方去掉。 2、 导入数据
⑴根据所选择的排序类型在Available Data对话框中选出所要导入的数据类型 ⑵在Data File对话框中从数据存贮地导入数据
【注:这里的可能会涉及到协变量,而这所说的协变量不同于通常统计中的协变量。当我们在解释变量(环境因子数据)与响应变量(物种数据)之间建立预测模型的时候,经常会遇到这样的情况,往往我们仅仅考察解释变量中某几个环境因子的对物种数据的影响,但剩下的环境因子也会对物种产生影响,这些剩余环境因子我们经常称为协变量(Covariables) 。在CANOCO中,协变量的影响可以用偏分析(partial analyze)剔除出来。 实际上,任何一个环境因子变量均可以成为协变量。例如,我们要研究管理模式对蝴蝶群落中组成的影响,我们可以在不同的海拔地点取样,海拔也许对群落物种组成影响很大,但此时我们感兴趣的是管理模式的影响,而非海拔梯度的影响。这个时候,如果能剔除出海拔的影响,我们能管理模型与蝴蝶种群之间更清晰的关系。】 3、 在Type of Analysis中选择适当的梯度分析方法 4、 选择适当的排序得分(坐标)的尺度比例
排序最重要的结果是排序图。通过排序图,理论上讲,不仅可以重建(有一定水平的误差)原始数据结构(物种数据),也可以重建样方之间相似(相异)矩阵和物种之间的相关矩阵。但没有人会想从排序图里面恢复真正的原始被测数据,因为原始数据已经有了。但原始数据对于排序图内容的解释和提炼出感兴趣的假设是很有用的。对于样方的相似度、物种或环境因子的相关性等的解释的准确性,部分取决于在排序轴坐标的相对尺度比例(relative scaling)。Object(样方,物种和环境因子)在排序空间的绝对值没有任何意义。在解释排序图的,我们使用相对距离,相对方向和投影点的相对次序。
这个可选的尺度比例让排序图展示不同相对比例,以便更好解释你想要探讨的问题。但是这个选择并不影响整个分析的结果。这里“Focus scaling on” 选择在线性和单峰方法中,多少有点相似(图4-6)。首先,这个选择必须依据分析者在排序图是要关注样方还是物种,如果是关注样方,就选择 inter-sample distances,如果是关注物种,就选择inter-species correlations (distances),当然,如果两个都关心,选择Symmetric。在在线性模型里面,Species scores 你必须决定箭头的长度是否要反映出物种的多度不同(多度大的物种箭头长),或是物种的多度转化成可以比较的尺度(所能解释的百分比)。如果你选择“divided by the standard deviation”,物种的箭头长度则表示在排序空间内所能展示该物种的变化量的比例(相对值)。如果选择“Do not post-transform”,箭头的长度表示物种变化量的在排序空间内的变化量(绝对值)。在单峰模型中,如果有很长的物种梯度(beta多样性很高),Scaling types 选择“是Hill scaling 更好。一般biplot scaling就可以的. biplot scaling 让排序图提供一个更量化的解释。(简单讲bioplot scaling 和 Hill scaling区别, 如果有物种比较集中,梯度比较短,可以直接用bioplot图,如果有些物种有偏离,可以用Hill scaling )
当然,如果是分离或分散的样方和物种,你选择关注样方或是关注物种,结果都是一样的。因为CANODRAW已经自动帮你调节好了。注意,如果好几种实体放在一起,这种自动调节,不能实现。
【注:由CCA分析的结果可以得出:
① 在Focus scaling on栏中选择inter-species distances项能得到很好的物种和环境,样点和环境因子的排序图。若是选择Symmetric项则能得到很好的物种和样点的排序图。
②在Scaling type栏中,选择biplot scaling项得到的排序轴的比例较长,选择Hill’s scaling项得到的排序轴的比例较短。正验证了:biplot scaling适合梯度较小的数据,而Hill’s scaling适合梯度较大的数据。】
图4-6 Scaling 选择窗口
5、 选择合适的选项进行分析
对变量进行相应的筛选,若是前期已经完成该工作可以跳过相应窗口的选择。最后根据需要进行相应的置换检验的选择,选择结束后进行分析!
三、作图
CanoDraw中直接进行下述命令操作: Create>Scatter Plots>Samples等
因篇幅问题不能全部显示,请点此查看更多更全内容