(此乃我在coursera上面,学习Andrew Ng(吴恩达)的课程Machine Learning的笔记)
机器学习问题分为:监督学习(supervised learning)和无监督学习(unsupervised learning)。
监督学习
在监督学习中,对于数据集中的每个数据,都有相应的正确答案,算法就是基于这些来做出预测。
回归问题:连续值输出,如预测某天的温度
分类问题:离散值输出,如预测是否是肿瘤
无监督学习
无监督学习的训练数据没有给出“正确答案”(标签),它只有一个数据集,需要算法自动找出这个数据集的某种结构或者分类,如果通过聚类算法,找出不同类型的人,不同的市场等等,这些事先都没有给出正确的答案。
工具
Octave和matlab,Andrew推荐使用Octave,因为他们都是用这个来演示的-_–。
线性回归linear Regression
训练输出的模型函数叫hypothesis(假设),用$h$来表示。
而
$$h_\theta(x)=\theta_0+\theta_1x$$
称为单变量线性模型。
线性回归则是指通过数据训练出一个线性模型的过程。
代价(损失)函数Cost Function
$$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2$$
代价函数用于评估模型的精度。其中,$x_i$为预测输入,$y_i$为实际输出,即实际值,而$h_\theta(x_i)-y_i$项表示预测值和实际值的误差。平方是为了防止误差累加后会正负抵消,另外也可以用绝对值或者对数似然损失函数(见《统计学习方法》李航1.3节)。
另外需要解析的是$2m$的意义,除以$m$显然是为了求平均值,而“2”的加入其实是为了方便以后的计算。Andrew在此没有细说,但是后面学习剃度下降的时候就应该知道,需要求导,平方的导数会多出一个2,我猜这里就是为了约去它。
还有需要注意的是,$h$的自变量是$x$,而$J$的自变量是$\theta$。
剃度下降Gradient Descent
剃度下降算法就是给出初始值$\theta_i$,然后通过一点点改变$\theta_i$,使得$J(\theta)$变小,直到它到达最小值或局部最小值。
其过程就是不断重复以下步骤,直到收敛:
$$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1)$$
其中符号“:=”表示赋值,$j$表示特征的索引,这里$j=0,1$。需要注意的是,这里的迭代必须是两个特征同时迭代,即:
由于$\frac{\partial}{\partial\theta_j}J$就是$J$的斜率,在越接近最低点时越小,即越陡峭下降越快,越平缓下降越慢。所以,不用改变$\alpha$也可以收敛。如图所示:
另外,对于称为学习速率的$\alpha$,取值太小,则收敛太慢;取值太大,则可能造成无法收敛。