1. 介绍朴素贝叶斯
朴素贝叶斯是一种生成式模型。基于贝叶斯定理与特征条件独立假设(在已知分类Y的条件下,各个特征变量取值是相互独立的)的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y.
2. 朴素贝叶斯 “朴素” 在哪里?
“朴素” 是因为它假设了数据集中的所有特征是同等重要的并且是条件独立的。这是一个很强的假设,在实际情况中,这个假设很难成立,所以叫 “朴素”。
$$P(X = x | Y = c_k) = P(X^{(1)} = x^{(1)}, … , X^{(n)} = x^{n} | Y = c_k) = P(X^{(1)} = x^{(1)} | Y = c_k) \cdot … \cdot P(X^{(n)} = x^{(n)} | Y= c_k)$$
3. 朴素贝叶斯与 LR 的区别
朴素贝叶斯是生成式模型,LR 是判别式模型。
Navie Bayes 是生成式模型,根据已有样本进行贝叶斯估计学习出先验概率 P(Y) 和条件概率 P(X|Y),进而求出联合概率分布 P(XY),最后利用贝叶斯定理求解 P(Y|X).
也就是说,它尝试去找这个数据到底是怎么产生的,然后再进行分类
LR 是判别式模型,根据极大化对数熙然函数,直接求出条件概率 P(Y|X)
区别:朴素贝叶斯基与条件独立假设;LR 没有
朴素贝叶斯使用数据集小的情景;LR 适用于大规模数据集
4. 朴素贝叶斯需要注意的地方
- 给出的特征向量长度可能不同,这个时候就需要把特征向量归一化为统一长度的向量(比如在NLP中的句子长度)
- 利用极大似然估计的时候,可能会出现估计的概率为 0 的情况,这个时候可以采用贝叶斯估计,即计算条件概率分布的时候,分子分母同时加上一个数 $\lambda$ . 当 $\lambda$ 为 1 时,叫做拉普拉斯平滑
5. 朴素贝叶斯的优缺点
优点:
- 对小规模的数据表现很好
- 适合多分类任务
- 可反映数据的分布情况
缺点:
对输入数据的表达形式很敏感