微信公众号 联系我们 关于我们 3618客服热线:020-32784919   推广热线:020-32780069
资讯
频道
当前位置:首页 > 医疗器械资讯 > 行业资讯 > 直线相关与回归分析

直线相关与回归分析

文章来源:www.3618med.com发布日期:2013-06-24浏览次数:27765

         事物之间是互相联系且有内在规律的。对于变量之间的关系,有的可以用函数关系表达, 即自变量取某一位时,有一困变量与之完全对应。相关分析(correlation analysis)的任务就是 要说明客观事物或现象问的数量关系的密甘J程度并用适当的统计指标表示出来。而回归分析 (regression analysis)的任务则是把客观事物或现象问的数量关系用一定的函数形式表示出 来。本章仅对简单相关与直线回归分析进行简要的介绍。

         一、线性相关分析的计算
         (一)定量资料的Pearson直线相关分析
         对于两个变世均为连续性变艇,可求解Peason相关系数,从而判断其相关性,这里要求两 个变量近似服从正态分布。

         1.直线相关系数r的计算 通常用Pearson乘积矩相关系数(correlation coefficient)来 定量地描述线性相关的程度。总体相关系数,习惯上记为ρ,若ρ≠0。,则称上和y呈线性相关 关系,简称相关;若ρ=0.则称x与y不呈线性相关关系。进行直线相关分析的两个变挝之间无自变量和因变量之分,分析的目的是研究在专业上有一定联系的两个定{i}变量呈直线关系 的密切程度和方向,所用的统汁登称为样本相关系数r,其计算公式见式为:


 

         相关系数是一个无量纲的统计指标,其取值范围为-1≤r≤l,同样,l≤ρ≤。若| r |
越接近于0,表明x与y呈直线关系的密切程度越低,若| r |越接近于l,表明X与y呈直线 关系的密切程度越高。

         2.直线相关系数r的假设检验
         相关系数的大小受数据的对于数和随机误差的影响,当 r所代表的总体相关系数p=0时,| r |可能明显>0,为了尽可能排除抽样误差的影响,较客观地反映出两个变量之间呈直线关系的密切程度,须进行假设检验。 
         其假设为:H0:ρ=0; H1:ρ≠0,α=0. 05

         后通过对z的1-α置信区间接式(14-4)变换为r值得置信区间。

         (二)定性资料的Spearman秩相关分析 
         l.秩相关系数^的计算秩相关系数( rank correlation coefficient)叉称等级相关系数。 基本思想是,对于不符合正态分布的资料,不用原始数据计算相关系数,而是将原始观察值由小到大编秩,然后根据秩次来计算秩相关系数。

         式中n为观察例数,rs的取值为| rs |≤1,它的解释与直线相关系数r一致

         2.秩相关系数的假设检验 rs是样本相关系数,对总体秩相关系数ps是否为0做假设检验,根据样本含量n的大小,假没检验的方法有两种:
         (1)查表法:当n≤50时,查秩相芙系数界值表进行假设检验。

         (2)计算法:当n>50时,按式14-9计算统计量t值:


 

         根据t分布作出推断。Spearman等级相关系数的£检验与直线相关系数的t检验是类似的。

         二、简单线性回归分析的计算
         (一)截距n和斜率6的计算 进行直线回归分析的两个变量之间一般有自变量和因变量之分,即使在专业上无法区分时,常把容易测蛰的变鞋看作白变量,另一个较难测量的变量看作因变量,分析的目的是建立两定量变量之间的回归方程,检验该方程是否成立,并结合专业知识说明该方程是否值得应用以及如何应用。经典的同归分析模型,要求资料符合下列条件。①线性(linear):即X和y之 间的关系为线陆关系;②独立(independent):即”个个体的观察资料间必须是独立的;③正态 ( normal):即给定X后,y为正态分布,日均数就是回归线上对应于X值的点;④等方差(e-qual variance):即不同X值对应的Y分布具有相同的方差,换句话说Y的方差与X无关。设总体的线性模型为:Y=α+βX+ε,ε为随机误差。 样本直线圆归方程的一般表达式:

         式(14-13)所对应的自由度df =n-2,Sb为6的标准误。 上述A(14-14)中Sy.x称为剩余标准差,是排除了χ的影响后,单独y方面的变异大小,常 用它作为预报精确度的标志。因为它的单位与y一致.容易在实际中进行比较和检验,所以,一个回归能否剥解决实际问题有所帮助,只要比较Sy.x与允许的偏差就行,故它是检验一个回归是否有效的极其重要的标志。 与对斜率检验等价的还有一种常用的方法;即对回归方程是否具有统计学意义作方差分析。其基本思想是:计算出y的总离均差平方和SST,由回归所能解释的离均整平方和SSR, 它们的差值就是回归所无法解释的量,称为误差,记为SSE,然后,用回归的均方除以误差的均方,构造出F统计量,进而根据F分布推断出所求的直线回归方程是否有统计学意义。关于 SST,SSR,SSE的计算公式见式(14-16 ~14-18)。


 

         三、相关SAS语句与程序 
         CORR过程(相关过程)存在于SAS软件ba[x]se模块,用于计算变量间的相关系数,它可以 计算Pearson积矩相关系数、Spearman秩相关系数、Kendall的tau-b(ιb)统计量、Hoeffding的相关性度量D以及Pearson,Spearman,以及Kendall偏相关系数。另外,它还可以计算用 于估计可靠性的Cronbach系数α。



 

(2)BY语句:指定分组变量。同PROC CORR一起使用能够获得用BY变量定义的分组 观测的独立分析结果。

         (3)FREQ语句:指定作为观测频数的变量。

         (4)PARTIAL语句:对指定的变量计算偏相关系数或偏统计量,可计算Pearson偏相关、 Spearman偏秩序相关、Kendall偏tau-b,使用该语句可指定一个或多个变量名称。当语句中 设置了HOEFFDING选顼时,partial语句不起作用。

         (5)VAR语句:指定待分析变量,即指定要计算相关系数的变量。

         (6)WEIGHT语句:计算加权的乘积矩相关系数,用该语句指定权数变量名称。该语句仅 用于Pearson相关,对于选项SPEARMAN,KENDALL,HOEFFDING均无效。

         (7)WITH语句:得到变量间特殊组合的相关,该语句与VAR语句共同使用。当有 WITH语句存在时,VAR变量之间不进行相关分析,而是在每个var变量和每一个with变量之间进行相关分析。用VAR语句列出的变量放在输出相关阵的上方,而用WITH语句列出的变量竖在相关阵的左边。

(8)相关SAS程序CT14-1