逻辑斯蒂回归模型练习

基本信息

我们希望研究工业用地更新的影响机制。由于研究中的因变量——“工业用地更新成哪种新用地类型”——是一个分类因变量,因此我们采用多元Logistic回归模型进行分析。

数据中的各个变量及其取值的意义如下:

问题

请以NF为因变量,LA、FA、IC、Dist、Loc、Road为自变量,拟合多元Logistic回归模型,并回答下面的问题。在构建模型中,请注意以下几点。

1. 作为衡量拟合效果好坏的指标,模型的McFadden伪R2是多少?

2. 本模型一共估计了几组参数?比如说,对于任意一个解释变量Loc,参数估计表中报告了它的几个取值?

3. 不规则系数(IC)这个自变量的p值是多少?如果有多组参数,即IC有多个取值,请报告多个p值中的最小值。

4. 我们考察“到市中心的距离(Dist)”对于更新成商务办公(NF=2)的影响:

回归系数的值为:, odds ratio的值为:

结合这些值和p值,这是一个什么样的效应?

我们重新估计一个模型,新模型中,请把因变量的参照水平设置为最后一个水平,即NF=4(仓储物流);
另外,如果不规则系数(IC)的影响在所有类别中均不显著(第3题中,p值的最小值>0.05),则请将在新模型中移出该变量。
后续问题均基于该模型回答。

5. 基于这个新模型的结果,我们重新考察“到市中心的距离(Dist)”对于更新成商务办公(NF=2)的影响:

回归系数的值为:, odds ratio的值为:

结合这些值和p值,这是一个什么样的效应?

(如果这个题的结果与第4题有较大不同,请体会参照水平的选取对结果的重要性。)

6. 对于“区位(Loc)”这个分类变量,我们需要使用虚拟变量。我们考察它的一个水平——”区位位于内环内”——对于工业用地更新成商务办公(NF=2)的影响:

回归系数的值为:, odds ratio的值为:

结合这些值和p值,这是一个什么样的效应?

7. 请注意,“区位”自变量作为分类变量,在处理成虚拟变量时也有参照水平。上一题中,如果“区位位于内环内”这个虚拟变量对于更新为商务办公(NF=2)的odds ratio是5,请在如下备选项中选择最为正确、严谨的解释方式:





8. 我们再看看模型的预测效果:模型在所有类别上的综合预测准确率是多少?请使用小数(而非百分数)填写,并保留至少3位有效数字。

9. 对于你数据中的第10个样本,模型预测它属于每一类的概率分别是多少?请使用小数(而非百分数)填写,并保留至少3位有效数字。

  • 更新为NF=1(创意产业园)的概率:
  • 更新为NF=2(商务办公)的概率:
  • 更新为NF=3(商业服务)的概率:
  • 更新为NF=4(仓储物流)的概率: