【NLP】文本分类

n-gram 的局限性

n-gram 只能对于填空这样的通顺性问题做出推测,但是没有办法完全解决句子的语义问题,从而无法实现文本的分类
文本的分类,就是将文本在语义的理解下划分到特定的主题下

手工规则

如一些垃圾过滤系统,需要人工制定规则
准确率往往很高,但是维护规则的成本很大

机器学习

本质上就是学习一个文档到文档类别的映射函数,需要人工分好类的文本作为训练数据,所以是有监督学习
分为学习器和分类器,学习器学习手工标注的数据集并输出训练好的分类器,分类器对于实际需要分类的文档进行分类,选择对应的文档类别进行输出

Step1 预处理

依据文本的具体形式来确定:

  1. 去除 HTML 标签
  2. Stop-words 停用词:高频的词如冠词,介词往往包含着较少的信息
  3. Word stemming 词干:词的后缀与变形处理,将具有相同词义的词进行合并

Step2 文本表示

什么是最好的文本表示方法?

最常用的一种文本表示方法:VSM

VSM(vector space model 向量空间模型)
将文本表示为由词条构成的向量,理论上假设词条之间互相独立,文本可以认为是一种词的集合(词袋)
e.g.在一段文章中按照词频统计出现最多的词,然后进行相关分类
建立文档词条矩阵 A = ( a i k ) A=(a_{ik}) A=(aik)
每个文档表示为由词构成的列向量
a i k a_{ik} aik表示词 k 在文档 i 中的权重
引入符号:
(1) f i k f_{ik} fik词条 k 在文档 i 中出现的次数
(2) n k n_{k} nk词条 k 在文档集合中出现的总次数
(3)N 文档集合包含的文档个数
(4)M 预处理后文档集合包括的词条个数

词的权重

布尔权重:如果词在文档中出现,权重为 1,否则为 0
词条频次权重:使用词条在文档中出现的次数作为权重
逆文档频次:考虑包含某词条的文档个数, α ∝ 1 n k \alpha \propto \frac{1}{n_k} αnk1
tf * idf 权重:同时考虑词条频次和逆文档频次, α i k = f i k log ⁡ ( N n k ) \alpha_{ik} = f_{ik}\log (\frac{N}{n_k}) αik=fiklog(nkN)
tfc 权重:在 tf-idf 基础上对文档长度进行正则化
α i k = f i k log ⁡ ( N n k ) ∑ j = 1 M [ f i j log ⁡ ( N n j ) ] 2 \alpha_{ik} = \frac{f_{ik}\log (\frac{N}{n_k})}{\sqrt{\sum\limits_{j=1}^M[f_{ij}\log (\frac{N}{n_j})]^2}} αik=j=1M[fijlog(njN)]2 fiklog(nkN)
ltc 权重:将词条频次进行对数化处理,减少绝对频次的巨大差异可能带来的影响
f i k f_{ik} fik f i j f_{ij} fij换成 log ⁡ ( f i k + 1 ) \log(f_{ik}+1) log(fik+1) log ⁡ ( f i j + 1 ) \log(f_{ij}+1) log(fij+1)
熵权重:
对于一个词条 k,其信息熵为 1 + 1 log ⁡ ( N ) ∑ j = 1 N f j k n k log ⁡ ( f j k n k ) 1+\frac{1}{\log (N)}\sum\limits_{j=1}^N\frac{f_{jk}}{n_k}\log (\frac{f_{jk}}{n_k}) 1+log(N)1j=1Nnkfjklog(nkfjk)
特殊情况时,如果在所有文档中出现的频数相等,则熵为-1;如果只在一个文档中出现,则熵为 0
熵权重就是在词条的信息熵前乘上对数化词条频次
log ⁡ ( f i k + 1 ) ∗ ( 1 + 1 log ⁡ ( N ) ∑ j = 1 N f j k n k log ⁡ ( f j k n k ) ) \log(f_{ik}+1)*(1+\frac{1}{\log (N)}\sum\limits_{j=1}^N\frac{f_{jk}}{n_k}\log (\frac{f_{jk}}{n_k})) log(fik+1)(1+log(N)1j=1Nnkfjklog(nkfjk))

Step3 分类模型

最近邻分类器

定义两个样本点之间的距离函数,并将新的样本划分到距离其最近的样本所在的类别中
问题:容易过度拟合数据,比如将错误的数据或者噪声按照定义分类进了对应的组,或是由于其最近邻是噪声而错误分类到了原本不属于新数据的组别

k 近邻分类器

k-nearest neighbour classifier(KNN)
为一个新样本点找到最近的 k 个近邻,然后将其划分到这 k 个中所属最多的类别中
训练过程:
给定一个需要训练的实例 x n x_n xn,选出对应 k 个最近实例,返回 y ^ ( x q ) ← arg ⁡ max ⁡ v ∈ V ∑ i = 1 k γ ( v , y ( x i ) ) \hat y(x_q) \leftarrow \arg \max\limits_{v\in V}\sum\limits^k_{i=1}\gamma(v,y(x_i)) y^(xq)argvVmaxi=1kγ(v,y(xi))
其中 V 为各点对应的集合, γ ( a , b ) \gamma(a,b) γ(a,b)只有在 a=b 时等于 1,else 等于 0
red:k 不可以太高也不可以太低
可以采用验证集来选择合适的 k,距离计算可以采用欧式距离或者余弦距离,采用树结构或者压缩近邻来储存数据
以下是一个较准确的余弦距离说明:
https://blog.csdn.net/hy592070616/article/details/122271927

朴素贝叶斯

通过先验事件的知识来预测未来事件
p ( c k ∣ x i ) = p ( x i ∣ c k ) p ( c k ) p ( x i ) p(c_k|x_i)=\frac{p(x_i|c_k)p(c_k)}{p(x_i)} p(ckxi)=p(xi)p(xick)p(ck)
xi 是 training data,ck 是 hypothesis,那么 p(xi|ck)就是预测可能性
具有条件独立性,即 p ( x 1 , x 2 ∣ c ) = p ( x 1 ∣ c ) × p ( x 2 ∣ c ) p(x_1,x_2|c) = p(x_1|c)\times p(x_2|c) p(x1,x2c)=p(x1c)×p(x2c)

以邮件分类为例

已有训练数据:训练文章 X i X_i Xi,n 种文章种类 c k c_k ck,所有文章中共包括 M 个词,每个词 在第n 个种类下的个数 t i j = t 11 → t n m t_{ij} = t_{11} \to t_{nm} tij=t11tnm
1

给定一个 email xi,由最大化后验概率:
c ^ = arg ⁡ max ⁡ k ( p ( c k ∣ x i ) ) = arg ⁡ max ⁡ k ( p ( c k ) p ( x i ∣ c k ) p ( x i ) ) \hat c=\arg \max_k (p(c_k|x_i))=\arg \max_k (\frac{p(c_k)p(x_i|c_k)}{p(x_i)}) c^=argmaxk(p(ckxi))=argmaxk(p(xi)p(ck)p(xick))
= arg ⁡ max ⁡ k ( p ( c k ) p ( x i ∣ c k ) ) = arg ⁡ max ⁡ k ( log ⁡ p ( c k ) + log ⁡ p ( x i ∣ c k ) ) =\arg \max_k (p(c_k)p(x_i|c_k))=\arg \max_k(\log p(c_k)+\log p(x_i|c_k)) =argmaxk(p(ck)p(xick))=argmaxk(logp(ck)+logp(xick))
= arg ⁡ max ⁡ k ( log ⁡ p ( c k ) + log ⁡ ∏ j = 1 M p ( t j ∣ c k ) n i j ) =\arg \max_k(\log p(c_k)+\log \prod\limits_{j=1}^M p(t_j|c_k)^{n_{ij}}) =argmaxk(logp(ck)+logj=1Mp(tjck)nij)
nij 就是词tj 在 email xi 中的个数
根据朴素贝叶斯假设,email类别与词的出现位置无关
已知类别 ck 时 tj 出现的概率
2

可能存在的问题:数据稀疏&过拟合
使用 laplace 平滑: P ^ = N ( X i = x i , C = c i ) + 1 N ( C = c i ) + k \hat P = \frac{N(X_i = x_i,C=c_i)+1}{N(C=c_i)+k} P^=N(C=ci)+kN(Xi=xi,C=ci)+1

Step4 评价指标

一般评价

使用训练集进行训练,使用测试集进行测试,在测试集上的准确度来描述模型的准确度

n 倍交叉验证

把数据分成不交叉的五等分,其中一份做测试,另外四份做训练,独立的进行五轮,将这五轮的平均性能作为模型的性能

保留测试

在训练集进行训练,在验证集调整参数,在测试集进行模型评价

混淆矩阵

3
4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631847.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PHP开发中的不安全反序列化

序列化是开发语言中将某个对象转换为一串字节流的过程,转换后的字节流可以方便存储在数据库中,也可以方便在网络中进行传输。而反序列化则是将数据库取出的字节流或从网络上接收到的字节流反向转换为对象的过程。概念虽如此,但不同的开发语言…

【JavaEE 初阶(七)】网络原理 TCP与UDP协议

❣博主主页: 33的博客❣ ▶️文章专栏分类:JavaEE◀️ 🚚我的代码仓库: 33的代码仓库🚚 🫵🫵🫵关注我带你了解更多网络知识 目录 1.前言2.应用层2.1xml2.2json 3.传输层3.1UDP协议3.2TCP协议3.2.1确认响应3.2.2超时重…

【c++】map和set的封装

1.红黑树源码 我们使用上节课的红黑树源码来封装map和set. 因为map存的是(key,value),set存的是(key),为了我们set和map使用同一个类模板(红黑树),所以我们先要修改红黑树结点中存的数据类型&a…

苹果永久版安装PD虚拟机:Parallels Desktop 19 一键激活版

Parallels Desktop 19是一款功能强大的虚拟机软件,专为Mac用户设计,允许用户在同一台Mac电脑上同时运行Windows、Linux等多个操作系统,而无需额外的硬件设备。 下载地址:https://www.macz.com/mac/9581.html?idOTI2NjQ5Jl8mMjcuM…

Java环境搭建(二)Notepad++和IDEA的下载

Notepad(不推荐使用) 高级记事本 下载地址 Notepad (juxinwk1.cn) 下载安装后一直下一步就可以了 注:改一下路径还有建立快捷方式(自己选择) IDEA 集成环境 下载地址 IntelliJ IDEA – the Leading Java and Kotl…

展馆展厅设计施工流程

1、需求分析和确定: 与客户沟通,了解客户需求,对展馆展厅的用途、面积、功能、展品特点等进行分析,并确定设计方案。 2、方案设计 根据需求确定设计方案,包括平面布局、展品陈列、展示方式、照明等。设计师需要提供设计…

防静电劳保鞋:工业安全中的隐形守护者

在工业生产环境中,静电问题常常被忽视,然而它却是许多安全事故的潜在隐患。静电不仅可能损坏敏感的电子设备,更在易燃易爆环境中构成严重威胁。因此,防静电措施在工业安全中显得尤为重要。在众多防静电措施中,防静电劳…

618有哪些好物值得推荐?收下这份618必买好物清单

随着618购物节的脚步越来越近,你是不是已经开始摩拳擦掌,准备大肆采购一番了?在这个购物狂欢节里,要说哪些宝贝最值得你入手,那一定少不了数码家电类!今天就给大家整理了一些我往期自用过还不错的数码家电好…

各种姿势打穿企业内网

以前不是说要讲隧道吗??? 鸽了这么久终于想起来了!!! 1.本次实验环境拓扑 先来讲一下本次的实验环境吧,这样会更加清晰明了一点 首先我们是拿到了win7,然后最终目标上线内网的Wi…

回收站删除的照片怎么恢复?7个实用方法为你找回照片!

“我刚刚在对电脑上的照片进行清理,不小心错删了一张还需要的照片,但是在使用回收站时,将它删除了,有什么恢复回收站照片的简单方法吗?” 照片是我们生活点滴的见证,无论是外出旅游还是日常琐碎&#xff0c…

SpringBoot环境隔离Profiles

前言 通常我们开发不可能只有一个生产环境,还会有其它的开发,测试,预发布环境等等。为了更好的管理每个环境的配置项,springboot也提供了对应的环境隔离的方法。 直接上干货 知识点 激活环境方法 1,在application…

树莓派3B+入门(无外设)

昨日刚到一块树莓派3B,甚是喜爱,然半宿未眠 1、下载 在官网先下载烧录文件https://www.raspberrypi.com/software/ 下载完毕打开,选择,根据自己板子型号定 操作系统用最新的就行,64位不太稳定 储存卡,需…

代码随想录算法训练营第二十九天|39. 组合总和、40.组合总和II、131.分割回文串

39. 组合总和 文档讲解代码随想录 题目链接:. - 力扣(LeetCode) 这道题目的关键点: candidates :无重复元素的数组、candidates 中的数字可以无限制重复被选取。 与之前做过的组合问题的区别: 组合问题…

Leetcode2391. 收集垃圾的最少总时间

Every day a Leetcode 题目来源:2391. 收集垃圾的最少总时间 解法1:前缀和 收集垃圾的时间分为两部分: 垃圾车收拾垃圾的时间:垃圾车收拾一单位的任何一种垃圾都需要花费 1 分钟。三辆垃圾车行驶的时间:每辆垃圾车…

windows部署腾讯tmagic-editor03-DSL 解析渲染

创建项目 将上一教程中的editor-runtime和hello-editor复制过来 概念 实现 创建hello-ui目录 渲染节点 在hello-ui下创建 Component.vue 文件 由于节点的type是由业务自行定义的,所以需要使用动态组件渲染,在vue下可以使用component组件来实现 c…

软考笔记随记

原码:(0正1负) 原码是最直观的编码方式,符号位用0表示正数,用1表示负数,其余位表示数值的大小。 例如,+7的原码为00000111,-7的原码为10000111。 原码虽然直观,但直接用于加减运算会导致计算复杂,且0有两种表示(+0和-0),不唯一。 反码: 反码是在原码的基础上得…

绘唐2跟绘唐3有什么区别

绘唐2跟绘唐3有什么区别 这款产品的最大亮点在于其高度精准的语音克隆能力,利用先进的模型,能够捕捉到用户独特的音调、音高和调制方式,使用户能够以前所未有的方式复制和利用自己的声音。仅需10秒钟的录制时间,即可实现声音的克…

【C语言】自定义类型之---结构体超详解(结构体的定义使用、指针结构体,内存对齐,......代码详解)

目录 前言: 一:结构体 1.1:什么是结构体? 1.2:结构体类型的声明 1.3:结构体变量的定义 1.4:结构体的内存对齐 1.5:结构体传参 二:位段 2.1:位段是什…

docker镜像容器常用命令

常用基础命令1、docker info #查看docker版本等信息 2、docker search jenkins #搜索jenkins镜像 3、docker history nginx #查看镜像中各层内容及大小,每层对应的dockerfile中的一条指令。 4、docker network ls #显示当前主机上的所有网络 5、docker logs nginx …

2024MySQL8安装与绿色版Navicat连接【提供安装包】数据库

视频教程面向人群和使用方法: 1:大学生【解决老师作业或自己兴趣学习需要】; 2:第一次需要安装MySQL的开发者【需要简单使用,因为项目会用到】 3:老手二倍速,新手老老实实按照教程一倍速模仿视频操作&am…