比较Ridge和LASSO
一. L1,L2正则
1. 明可夫斯基距离:
2. 范数:
3. L1正则项和L2正则项:
模型正则化中,通常不会使用p>2的正则项。
4. L0正则:
让 的个数尽量小(非零 元素个数)
实际上不用L0正则,因为L0正则的优化是一个NP难的问题,一般用L1取代。
二. 弹性网 Elastic Net
在损失函数下,添加上一个L1正则项和一个L2正则项,并引入一个参数r来表示他们之间的比例。同时结合了岭回归和LASSO回归的优势。
实际应用中,通常应该先尝试一下岭回归(如果计算能力足够的话)。但是如果θ数量太大(特征数量太多)的话,消耗计算资源可能非常大,而LASSO由于有的时候急于把一些θ化为0,可能会导致得到的偏差比价大。这个时候需要使用弹性网。