线性回归练习

基本信息

本节课的练习数据为美国加利福尼亚州的房价数据（California Housing Prices），其空间单元是美国的街区（block），每1行即是1个街区。各变量的意义如下：

ID: 街区编号
longitude：街区的经度坐标
latitude：街区的纬度坐标
median_house_value：街区房价的中位数（单位：美元）
housing_median_age：街区住房的房龄中位数（单位：年）
population：街区内的总人口
households：街区内的总家庭户数
median_income：街区内家庭收入的中位数（单位：万美元）
avg_num_rooms：街区内住房的平均房间数
avg_num_bedrooms：街区内住房的平均卧室数量
ocean_proximity：街区相对于海洋的区位："<1H OCEAN"="距离海洋小于1小时车程"，"INLAND"="位于内陆", "ISLAND"="位于岛屿", "NEAR BAY"="靠近海湾", "NEAR OCEAN"="靠近海洋"

我们的目的是通过线性回归模型，对房价变量"median_house_value"进行解释和预测。请根据要求估计模型，并回答下面的题目。为保证精度，小数请保留至少3位有效数字，如果p值小于0.001，请填入"<0.001"。

问题

请以median_house_value为因变量，housing_median_age、population、households、median_income、avg_num_rooms、avg_num_bedrooms、ocean_proximity为自变量，建立线性回归模型。
请注意：ocean_proximity是一个分类变量，需要以虚拟变量的形式纳入模型，请以样本量最多、最具代表性的"<1H OCEAN（距离海洋小于1小时车程）"为参照水平。

1. 拟合优度

该模型的r2为，调整r2为。

2. 非标准化系数

"median_income"变量的非标准化系数是，若该数值为b，则它的意义是：。

3. 标准化系数

"median_income"变量的标准化系数是，若该数值为beta，则它的意义是：。

4. 变量的相对重要性

"housing_median_age（房龄）"和"population（人口数量）"这两个变量哪个对房价的影响更大，为什么？

5. 虚拟变量

"ocean_proximity"变量共有个分类，因此在模型中需要纳入个虚拟变量。
其中，"INLAND"的非标准化系数为， "NEAR BAY"的非标准化系数为。
结合显著性判断，下面说法中正确的是：

6. 虚拟变量中的参照水平

请将"ocean_proximity"变量的参照水平更换为"INLAND"，其他设置保持不变，重新估计多元线性回归模型。
新模型中，"<1H OCEAN"的非标准化系数为， "NEAR BAY"的非标准化系数为。
我们可以把参照水平自身的非标准化系数设想为“0”，请检查新模型中，"<1H OCEAN"、"INLAND"、"NEAR BAY"的非标准化系数以及两两之间的差值，并与第5题的老模型结果进行比较，可以发现：

7. 多重共线性的诊断

请估计上述模型中各自变量的方差膨胀因子（VIF），模型中有个自变量的VIF高于10。
其中，"avg_num_rooms"变量的VIF为，它在当前模型中的p值为。
通过相关系数可以判定，该变量与以下哪个变量存在很强的相关性，从而导致了多重共线性：

8. 多重共线性的解决

根据第7题的发现，请重新估计一个模型，剔除那个与"avg_num_rooms"变量高度相关的自变量，其他设置保持不变。新模型中个自变量的VIF高于10。
其中，"avg_num_rooms"变量的VIF为，它在新模型中的p值为。

注：请继续使用该模型（已剔除高度相关的自变量），回答第9-11题。

9. 残差分析：强影响点

Cook距离反映了数据对回归模型的影响力，Cook距离过高的样本可能会扭曲回归模型的系数。
本模型中，Cook距离的最高值是，所对应的样本ID是。

10. 残差分析：残差图

残差图可以帮助我们诊断回归分析中的一系列问题，如异方差、非线性、序列相关等。其中，最常用的残差图之一是以为“标准化预测值”为x轴、“标准化残差”为y轴的“预测值~残差”残点图。
请绘制该散点图，并点击下面的“显示异方差散点图”按钮，选择与你绘制的图最接近的一个：

11. 预测

对于ID=10的样本，其median_house_value的预测值为。
设有一个新的样本，其自变量取值如下。请预测该样本的median_house_value：。

housing_median_age: 20年
population: 2000人
households: 500户
median_income: 6万美元
avg_num_rooms: 6
avg_num_bedrooms: 3
ocean_proxmity: "NEAR BAY"

（请注意：为了解决多重共线性，我们之前剔除了一个变量，因此有一个自变量用不到。）

12. 趋势面回归

趋势面回归（Trend Surface Analysis）是一种用于空间分析的回归方法，它把地理坐标（如经度和纬度）作为自变量拟合一个回归模型，由此估计地理数据在空间中的变化趋势。
设x, y是平面坐标，最简单的趋势面回归就是直接把x, y纳入回归方程中；更复杂的趋势面回归还可以把x²、y²、xy、……、x^m、yⁿ等二次或高次项加入回归方程。

让我们尝试估计一个最简单的趋势面回归模型。因变量为median_house_value，自变量除了housing_median_age、population、households、median_income、 avg_num_rooms（暂不考虑多重共线性）、avg_num_bedrooms、ocean_proximity（请继续使用虚拟变量）以外，还包括longitude（经度）、latitude（纬度）。
不难看出，该模型的本质就是一个线性回归。根据估计结果，下列说法正确的是：

事实上，你所下载的数据是从一个更大、更完整的加利福尼亚房价数据集中随机抽样得到的，完整数据集所反映的房价分布趋势如下图所示。请自行判断你所估计的趋势面回归模型与该图所反映的空间特征是否一致。