数学建模常见的一些方法
1. 相关系数
- 皮尔逊 pearson相关系数和斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。
1.1 总体和样本
总体——所要考察对象的全部个体叫做总体. 我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本.
计算这些抽取的样本的统计量来估计总体的统计量: 例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)。 例子: 我国10年进行一次的人口普查得到的数据就是总体数据。 大家自己在QQ群发问卷叫同学帮忙填写得到的数据就是样本数据。
1.2 总体皮尔逊Pearson相关系数
1.3 样本皮尔逊Pearson相关系数
1.4 相关性可视化
1.5 关于皮尔逊 相关系数的一些理解误区
这里的相关系数只是用来衡量两个变量线性相关程度的指标; 换句话说,必须先确认这两个变量是线性相关的,然后这个相关系数才能判断相关程度如何。
注意: 如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱; 在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。
1.6 对相关系数大小的解释
1.7 描述性统计
Matlab中基本统计量的函数(一般用标粗的) | 函数名 |功能 | |–|–| | min | 数组的最小元素| |mink | 计算数组的 k 个最小元素 | |max | 数组的最大元素 | | maxk| 计算数组的 k 个最大元素 | |bounds | 最小元素和最大元素 | | topkrows |按排序顺序的前若干行| | mean | 数组的均值 | | median | 数组的中位数值| | mode | 数组的众数 | | skewness |数组的偏度 | | kurtosis | 数组的峰度 | |std | 标准差| |var| 方差 |
代码演示MIN = min(Test); % 每一列的最小值
MAX = max(Test); % 每一列的最大值
MEAN = mean(Test); % 每一列的均值
MEDIAN = median(Test); %每一列的中位数
SKEWNESS = skewness(Test); %每一列的偏度
KURTOSIS = kurtosis(Test); %每一列的峰度
STD = std(Test); % 每一列的标准差
RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]
%将这些统计量放到一个矩阵中表示
RESULT =
1.0e+03 *
0.1350 0.0160 1.4500 0.0078 0.0520 0.0005
0.1710 0.0650 3.2720 0.0150 0.2050 0.0175
0.1560 0.0468 2.3332 0.0108 0.1668 0.0095
0.1570 0.0470 2.3910 0.0107 0.1670 0.0096
-0.0003 -0.0004 -0.0003 0.0007 -0.0008 -0.0002
0.0027 0.0094 0.0028 0.0033 0.0084 0.0028
0.0074 0.0050 0.3504 0.0013 0.0168 0.0029
1.8 EXCEL的数据分析工具
标题栏:数据 – 数据分析 如果没有找到,链接:Excel数据分析功能在哪里? 得到结果:
1.9 皮尔逊相关系数的计算
R = corrcoef(A)
返回 A 的相关系数的矩阵,其中 A 的列表示随机变量(指标),行表示观测值(样本)R = corrcoef(A,B)
返回两个随机变量A和B(两个向量)之间的系数。[R,P] = corrcoef(Test)
R返回的是相关系数表,P返回的是对应于每个相关系数的p值
1.10 对皮尔逊相关系数进行假设检验
代码演示
%% 假设检验部分
x = -4:0.1:4;
y = tpdf(x,28); %求t分布的概率密度值 28是自由度
figure(1)
plot(x,y,'-')
grid on % 在画出的图上加上网格线
hold on % 保留原来的图,以便继续在上面操作
% matlab可以求出临界值,函数如下
tinv(0.975,28) % 2.0484
% 这个函数是累积密度函数cdf的反函数
plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-')
plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')
1.11 更好用的方法:p值判断法
代码演示%% 计算p值
x = -4:0.1:4;
y = tpdf(x,28);
figure(2)
plot(x,y,'-')
grid on
hold on
% 画线段的方法
plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-')
plot([3.055,3.055],[0,tpdf(3.055,28)],'r-')
disp('该检验值对应的p值为:')
disp((1-tcdf(3.055,28))*2) %双侧检验的p值要乘以2
%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
% 在EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01 % 标记3颗星的位置
(P < 0.05) .* (P > 0.01) % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % % 标记1颗星的位置
1.12 皮尔逊相关系数假设检验的条件
1.13 正态分布JB检验(大样本 n>30)
1.14 偏度和峰度
代码演示x = normrnd(2,3,100,1)
% 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x) %偏度
kurtosis(x) %峰度
1.15 MATLAB结果
MATLAB中进行JB检验的语法:[h,p] = jbtest(x,alpha)
当输出 h等于1时,表示拒绝原假设; h等于0则代表不能拒绝原假设。 alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95 x就是我们要检验的随机变量,注意这里的x只能是向量。
%% 正态分布检验
% 检验第一列数据是否为正态分布
[h,p] = jbtest(Test(:,1),0.05)
% 用循环检验所有列的数据
n_c = size(Test,2); % number of column 数据的列数
H = zeros(1,6);
P = zeros(1,6);
for i = 1:n_c
[h,p] = jbtest(Test(:,i),0.05);
H(i)=h;
P(i)=p;
end
disp(H)
disp(P)
1.16 小样本3≤n≤50:Shapiro-wilk检验
1.17 另一种常见的方法:Q-Q图
qqplot(Test(:,1)) % 第一列数据和正态分布的Q-Q图
1.18 斯皮尔曼spearman相关系数
斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数。
代码演示% MATLAB求解皮尔逊相关系数
RX = [2 5 3 4 1]
RY = [1 4.5 3 4.5 2]
R = corrcoef(RX,RY)
>> %% MATLAB求解皮尔逊相关系数
RX = [2 5 3 4 1]
RY = [1 4.5 3 4.5 2]
R = corrcoef(RX,RY)
RX = 2 5 3 4 1
RY = 1.0000 4.5000 3.0000 4.5000 2.0000
R = 1.0000 0.8721
0.8721 1.0000
1.19 MATLAB中计算斯皮尔曼相关系
代码演示X = [3 8 4 7 2]' % 一定要是列向量,一撇'表示求转置
Y = [5 10 9 10 6]'
coeff = corr(X , Y , 'type' , 'Spearman')
>> X = [3 8 4 7 2]' % 一定要是列向量,一撇'表示求转置
Y = [5 10 9 10 6]'
coeff = corr(X , Y , 'type' , 'Spearman')
X =
3
8
4
7
2
Y =
5
10
9
10
6
coeff = 0.8721 %这说明Matlab使用的是第二种计算方法
1.20 斯皮尔曼相关系数的假设检验