FM算法及FFM算法

时间：2017-01-22 15:22:23 阅读：810 评论：0 收藏：0 [点我收藏+]

转自：http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html

http://blog.csdn.net/google19890102/article/details/45532745

FM原理 =>解决稀疏数据下的特征组合问题，

1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度

对于categorical(枚举)类型特征，需要经过One-Hot Encoding转换成数值型特征。CTR/CVR预测时，用户的性别、职业、教育水平、品类偏好，商品的品类等，经过One-Hot编码转换后都会导致样本数据的稀疏性。特别是商品品类这种类型的特征，如商品的末级品类约有550个，采用One-Hot编码生成550个数值特征，但每个样本的这550个特征，有且仅有一个是有效的（非零）。由此可见，经过One-Hot编码之后，大部分样本数据特征是比较稀疏的，同时导致特征空间大。

通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高。例如，“USA”与“Thanksgiving”、“China”与“Chinese New Year”这样的关联特征，对用户的点击有着正向的影响。换句话说，来自“China”的用户很可能会在“Chinese New Year”有大量的浏览、购买行为，而在“Thanksgiving”却不会有特别的消费行为。这种关联特征与label的正向相关性在实际问题中是普遍存在的，如“化妆品”类商品与“女”性，“球类运动配件”的商品与“男”性，“电影票”的商品与“电影”品类偏好等。因此，引入两个特征的组合是非常有意义的。(我的理解：个性化特征)

一般的线性模型为：

技术分享

从上面的式子很容易看出，一般的线性模型压根没有考虑特征间的关联。为了表述特征间的相关性，我们采用多项式模型。在多项式模型中，特征

技术分享

上式中，

从公式(1)可以看出，组合特征的参数一共有 n(n?1)/2 个，任意两个参数都是独立的。然而，在数据稀疏性普遍存在的实际应用场景中，二次项参数的训练是很困难的。其原因是，每个参数 w_ij 的训练需要大量 x_i 和x_j都非零的样本；由于样本数据本来就比较稀疏，满足“x_i 和 x_j 都非零”的样本将会非常少。训练样本的不足，很容易导致参数 w_ij 不准确，最终将严重影响模型的性能。

技术分享