在机器学习中,计算机程序(称为算法)会分析大型数据集,然后根据这些数据逆向工作计算线性回归方程。数据科学家首先在已知或标记的数据集上训练算法,然后使用该算法预测未知值。现实生活中的数据比上述示例更为复杂。因此,线性回归分析必须以数学方式修改或转换数据值以满足以下四个假设。
线性关系
自变量和因变量之间必须存在线性关系。为了确定线性关系,数据科学家会创建散点图(x 和 y 值的随机集合),以查看这些值是否落于直线上。如果没有,则可以应用非线性函数(例如平方根或对数)以数学方式创建两个变量之间的线性关系。
残差独立性
数据科学家使用残差来衡量预测准确性。残差是观测数据与预测值之间的差值。残差之间不得存在可识别的模式。例如,您不希望残差随时间逐渐增加。您可以使用不同的数学检验(例如 Durbin-Watson 检验)来确定残差独立性。您可以使用虚拟数据来替换任何数据变体,例如季节性数据。
正态性
绘图技术(如 Q-Q 图)可确定残差是否为正态分布。残差应落于图形中心的对角线上。如果残差不呈正态分布,则可以检验数据是否存在随机异常值或非典型值。删除异常值或执行非线性转换可以解决此问题。
同方差性
同方差性假设残差具有每个 x 值的平均值的恒定方差或标准偏差。否则,分析结果可能不准确。如果不满足此假设,则可能必须更改因变量。由于大型数据集中本身存在方差,因此更改因变量的比例是有意义的。例如,使用人口规模来预测每个人的平均消防站数量,而非使用人口规模来预测城市中消防站的数量。