13-垃圾邮件分类2

时间：2020-05-21 21:06:24 阅读：53 评论：0 收藏：0 [点我收藏+]

文本特征提取：

把文本数据转化成特征向量的过程，比较常用的文本特征表示法为词袋法
词集：0、1

词袋模型：

不考虑词语出现的顺序怕，每个出现过的词汇单独作为一列特征，这些不重复的特征词汇集合为词表[room desk]10000
每一个文本都可以在很长的词表上统计出一个很多列的特征向量[2, 0, 0, 0, 0, 0, 0, 0]10000
如果每个文本都出现的词汇，一般被标记为停用词不计入特征向量

主要有两个api来实现CountVectorizer和TfidfVectorizer

CountVectorizer

只考虑词汇在我本本中出现的频率

TfidfVectorizer：

除了考量某词汇在本文本中出现的频率，还关注包含这个词的其他文本的数量30 the 5000
能够削减高频没有意义的词汇出现带来的影响，挖掘更有意义的特征

TF-IDF 概念

是一种统计方法，用以评估一个词对于一个语料库中一份文件的重要程度。
词的重要性随着在文件中出现的次数正比增加，同时随着它在语料库其他文件中出现的频率反比下降。就是说一个词在某一个文档中出现次数比较多，其他文档没有出现，说明该词对该份文档分类很重要。然而如果其他文档也出现比较多，说明该词区分性不大，就用IDF来降低该词的权重。

TF-IDF “次品-逆文本频率指数”

TF-IDF（Term Frequency - Inverse Document Frequency）

词频：TF = 词在文档中出现的次数 / 文档中总词数

逆文档频率：IDF = log[ (语料库中的文档总数 / (包含词条w的文档数 + 1) ]，分母加1，是为了避免分母为0

TF-IDF = TF（词频） * IDF（逆文档频率）

TF：词频，文本中各个词的出现频率统计，并作为文本特征，这个很好理解。big：tf = 30 / 240

IDF：逆文本频率，其他文本里面都没有出现big，idf = log(101 / 2)。->∞

其他99篇文本里都出现big，log(100 / 101)。->0

概括来讲，IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低。而反过来如果一个词在比较少的文本中出现，那么它的IDF值应该高，比如一些专业的名词如”Machine Learning“，这样的词IDF值应该高。一个极端的情况，如果一个词在所有的文本中都出现，那么它的IDF值应该为0。

混淆矩阵（confusion-matrix）

TP（True Positive）：真实为0，预测也为0

FN（False Negative）：真实为0，预测为1

FP（False Positive）：真实为1，预测为0

TN（True Negative）：真实为1，预测也为1

TP	FN
FP	TN

1.读取

2.数据预处理

3.数据划分—训练集和测试集数据划分

from sklearn.model_selection import train_test_split

x_train,x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=0, stratify=y_train)

4.文本特征提取

sklearn.feature_extraction.text.CountVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer

sklearn.feature_extraction.text.TfidfVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer#sklearn.feature_extraction.text.TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf2 = TfidfVectorizer()

观察邮件与向量的关系

向量还原为邮件

4.模型选择

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

说明为什么选择这个模型？

5.模型评价：混淆矩阵，分类报告

from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, y_predict)

说明混淆矩阵的含义

from sklearn.metrics import classification_report

说明准确率、精确率、召回率、F值分别代表的意义

6.比较与总结

如果用CountVectorizer进行文本特征生成，与TfidfVectorizer相比，效果如何？

13-垃圾邮件分类2

原文：https://www.cnblogs.com/xiaolan-Lin/p/12930597.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)