Sklearn中自带算法中两个特别的点:
LGB和LR的融合方案:有两种用法:1. 用离散特征训练树,用树的节点位置做特征 2. 建立非ID和ID树
- 为什么使用正则化?
? 因为使用极大似然估计,模型会全力拟合数据,容易受到脏数据和异常点的影响- 为什么一般使用L2正则化?
? 因为L2正则化只会使函数的某些参数缩小,降低这些参数的作用. 但是如果直接使用L1正则化会使参数直接为0, 会极大降低模型的效果. 所以一般我们选择更温和的L2正则化.- 为什么要使用集成的决策树模型,而不是单棵的决策树模型?
? 一棵树的表达能力很弱,不足以表达多个有区分性的特征组合,多棵树的表达能力更强一些。可以更好的发现有效的特征和特征组合.- 除了GBDT+LR的方案,还有哪些思路可以挖掘有效的特征组合?
? 类似地, 其他树+LR, 其他树+FM, 但是其他树+FM的效果在比赛中效果不好。- 通过GBDT映射得到的特征空间维度如何?
? GBDT树有多少个叶子节点,通过GBDT得到的特征空间就有多大。假设GBDT有n棵树,每颗树至少有m个叶子,得到的特征空间是大小是m*n,如果更多的树模型,特征空间将成指数上升。
最大熵原理:学习概率模型的时候,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。简单粗暴的说:逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应为二类时的特殊情况,也就是说,当逻辑回归扩展为多类别的时候,就是最大熵模型。
假设问题是二分类器,就是在特征空间中寻找使正类负类间隔最大的超平面的线性分类器。求解参数时用到了拉格朗日算法
优点:因为线性核不需要额外的计算,所以速度很快,适合数据量较小的情况;
缺点:因为只是简单的线性问题求解,所以只适合线性可分的数据分布;
优点:适合线性不可分的情况,一般都能有好效果;只有一个grmma参数,非常好调整;适合特征<样本的情况。
缺点:
\[k(x, z)=\exp \left(-\frac{d(x, z)^{2}}{2 * \sigma^{2}}\right)=\exp \left(-\operatorname{gamma} \cdot d(x, z)^{2}\right) \Rightarrow \operatorname{gamma}=\frac{1}{2 \cdot \sigma^{2}}\]
grmma和模型的关系,\(\gamma\) 过大表示方差很小,数据整体分布又高又瘦,结果严重依赖支持向量,容易造成训练效果很好,但是测试效果很差的过拟合现象。同时如果过高维度,计算慢;\(\gamma\) 选的很小,表示方差很小,造成整体效果很差。
RBF核:分类结果非常依赖于参数。有很多人是通过训练数据的交叉验证来寻找合适的参数,不过这个过程比较耗时。我个人的体会是:使用libsvm,默认参数,RBF核比Linear核效果稍差。通过进行大量参数的尝试,一般能找到比linear核更好的效果。至于到底该采用哪种核,要根据具体问题,有的数据是线性可分的,有的不可分,需要多尝试不同核不同参数。如果特征的提取的好,包含的信息量足够大,很多问题都是线性可分的。当然,如果有足够的时间去寻找RBF核参数,应该能达到更好的效果。
优点:degree过大过拟合,过小没效果;时间快
缺点:参数多
没有用过
只保留两个参数 -> 只保留一个参数 -> 求导 -> \(new1+new2=old1+old2\), \(E(x_i)=f(x_i)-y_i\) \(v_j=\sum_{j=3}^{N}{\alpha_jy_jK(x_i,x_j)}\) -> 式子整个只留下了\(\alpha_i\)
原文:https://www.cnblogs.com/x739400043/p/12382101.html