首页 > 文章中心 > 正文

数据的直线回归探析

数据的直线回归探析

摘要:本文通过电子表格软件Excel进行两组数据的直线回归分析,为人们提供了一种方便快捷的分析方法。Ex-cel对于非统计专业人员的确是一个简便易学、高效实用的好帮手。

关键词:Excel;直线回归;统计分析

中图分类号:R195·1文献标识码:B

医药卫生工作者在工作和科学研究中经常需要对数据进行统计分析。有报道表明,医学期刊论文中应用的统计方法大多数属于t检验、χ2检验、方差分析和直线回归与相关分析等经典的统计方法[1]。当前计算机已普及,利用计算机完成统计分析工作已成为人们的第一选择。虽然目前有一些专业统计软件可供人们选用,如SAS、SPSS软件等,但这些专业统计软件结构复杂,一般的应用者不容易掌握,并且价格昂贵,使人难以承受。Excel是Office家族的一个成员,是一种电子表格软件,众多医药卫生工作者和科研工作者喜欢用它来记录和整理实验数据,其处理数据和绘图等功能的确方便了广大用户,但大多数人并不知道Excel还可以提供一些基本的、经典统计分析方法。下面根据笔者多年来在教学和科研中应用Excel软件的经验,谈一谈如何利用Excel进行直线回归分析。

1为Excel安装“分析工具库”

1·1在使用“分析工具”之前,应检查“工具”菜单,确定Excel当前是否安装了“分析工具”。如果在“工具”菜单中没有“数据分析”命令项,则需通过调用加载宏来安装“分析工具库”[2]。

图1当前家载宏对话框

1·2单击“工具”菜单,在其下拉菜单中选中并单击“加载宏”,命令弹出“加载宏”对话框,见图1。

1·3在对话框的“当前加载宏”列表框中选中“分析工具库”,加载宏左侧复选框中打“√”。然后单击“确定”按钮,关闭对话框。至此,为Excel安装“分析工具库”的工作已经完成。

2制作回归曲线、求出直线回归方程及决定系数

2·1在Excel工作表中拖动鼠标,选中数据所在的区域,例如:现有二组数据:X分别为1.0、2.0、3.0、4.0、5.0、6.0;Y分别为2.0、3.9、5.8、8.4、10.1、11.9。X用A列表示,将它们分别输入A1-A6的区域;Y用B列表示,将它们分别输入B1-B6的区域,然后选中A1-B6数据所在区域,点击工具栏上的“图表向导”图标或点击插入菜单中选择图表项,就可以打开图表向导。

2·2在“标准类型”选项卡的“图表类型”中选择“XY散点图”。点击“完成”键,散点图出现在工作表中。在图表区内按鼠标右键,根据需要可对标题、横纵坐标、网络线、线性的粗细等进行添加、修改和删除。

图2由Excel作出的回归曲线

2·3将鼠标放在散点图中任一数据上按右键,在出现的浮动菜单中选择“添加趋势线”项,出现“添加趋势线”窗口。在“添加趋势线”窗口的“类型”选项卡“趋势预测/回归分析类型”中选择“线性”;在“选项”选项卡中的“显示公式”和“显示R平方值”复选框中打上“√”,点击“确定”按钮后在绘图区就显示曲线、回归方程和决定系数R2的值,见图2。

3检验求得的直线回归方程是否成立

3·1在“工具”菜单的选项卡中点击“数据分析”,弹出“数据分析”窗口,在“分析工具”中选择“回归”,然后点击“确定”按钮,出现“回归”窗口,见图3。

图3回归分析窗口

3·2将光标移至“Y值输入区域”,选定B1-B6间的数据;然后将光标移至“X值输入区域”,选定A1-A6间的数据;再在“置信度”左侧复选框中打“√”,点击“确定”按钮,出现分析结果,见图4。

SUMMARYOUTPUT

回归统计

MultipleR0.998453792

RSquare0.996909975

AdjustedRSquare0.996137469

标准误差0.235230384

观测值6

方差分析

DfSSMSFSignificanceF

回归分析171.40771.4071290.4879523.58429E-06

残差40.2213333330.055333333

总计571.62833333

Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%

Intercept-0.0533333330.218987569-0.243545030.819563773-0.6613415580.55467489-0.66134160.55467489

XVariable12.020.05623081735.92336223.58429E-061.86387792.17612211.86387792.1761221

图4直线回归分析结果

3·3对图4所示的数据,主要看“方差分析”的结果:“df”表示自由度、“SS”表示离均差平方和、“MS”表示均方、“F”表示统计量F值、“SignificanceF”表示P值。一般来说,若P0.05,表明有统计学意义,即总体回归系数β≠0;反之,表明无统计学意义,总体回归系数β=0。本例F=1290.487952、P=3.58429E-06(3.58429×10-6),很明显P<0.05,表明二组数据之间存在依存关系,其关系可用回归方程Y=2.02X-0.0533表示。

4结语

本文通过实例,具体地说明了如何利用Excel进行直线回归分析,但对其他方法没有做过多的论述。其应用前提是使用者必须对统计学的基本概念和基本方法有所了解,而且对电子表格软件Excel的功能也有一定的了解。学会使用这种方法后,将为许多人在工作和研究中节约许多宝贵时间。而且,Ex-cel还可以与其他一些软件如Word、PowerPoint和SPSS等软件之间进行数据的交换[3],使之发挥更多的作用。由于该方法操作简便,得到结果快速而准确,同时能得到直观图形,因而值得大力推荐。

[参考文献]

[1]张立群,魏丽惠.医学科研论文中常见统计学错误分析[J].中国妇产科临床杂志,2006,7(6):473-474.

[2]刘钢.Excel在统计分析中的应用[M].北京:人民卫生出版社,2002·147-148.

[3]陈雄新,曾建一,蔡岳华.Excel在四格表χ2检验中的应用技巧[J].