玩命加载中...
## 四、讨论
我们将这三种方法的收敛曲线画出来,可以更好地对比它们的性质。全批量梯度法稳定地下降;小批量快速下降到收敛点附近,然后有一些波动;随机梯度下降更快速地下降,但同时也有更大幅度的振动。



关于随机梯度下降和小批量梯度下降法,还有很多值得讨论的细节,比如学习率的选择、批量尺寸的选择、如何设置衰减的学习率、如何设定迭代终止条件等等。
梯度下降法不光可以应用在最小二乘回归上,也可以应用各种不同的损失函数上,我们在此也不一一举例。
既然已经用三种梯度下降法训练好了模型,下面来预测`questions`,
```python
submit = pd.read_csv('sample_submit.csv')
submit['questions'] = submit['id'] * 2.20164177512 + 923.011781435
```
稍微修改下第一、二、三节中的代码,我们也可以用梯度下降法来预测回答数`answers`。
```python
submit['answers'] = submit['id'] * 4.180122 + 2027.140454
submit.to_csv('my_sgd_prediction.csv', index=False)
```
然后把你的结果提交到**[排行榜](http://sofasofa.io/competition.php?id=4#c4)**,看看成绩哦!
