• 2025年9月30日 星期二

论文评述-文献TR-PHD-HSI-ZH-2509292

9 月 30, 2025

本期评述文章:

这篇论文的核心是解决高光谱图像在实际应用中遇到的三大挑战:光谱信息不确定、标记样本稀缺,以及单一数据源信息不完整的问题 。作者围绕这些问题展开了深入研究。


1.研究背景

得益于高光谱图像“图谱合一”的独特数据特点和内在丰富的空谱信息,高光谱图像分类技术在精细农业、智慧城市、地质勘探和生态保护等领域都发挥着不可替代的重要作用,尤其是当前正处于我国十四五农村农业现代化和新型城镇智慧化发展的重要战略机遇期,依托于高光谱图像的地物分类技术对实现农作物产量预估、农业生产布局和城市基础建设规划及管理等方面都具有十分重要的应用价值。

这篇论文主要研究的是高光谱图像(Hyperspectral Image, HSI)的分类技术 。简单来说,高光谱图像不仅像普通照片一样有空间信息(哪里有什么),还为每个像素点提供了非常详细的光谱信息,就像是给每个点都拍了一张“光谱指纹” 。这种“图谱合一”的特性让它在农业、城市规划、环境保护等领域有巨大的应用价值 。

然而,论文指出,尽管这项技术前景广阔,但在实际应用中面临着三个关键难题

此外,由于成像条件容易受到光照、大气云层等条件影响,存在着显著的“同物异谱、异物同谱”现象,即同类地物光谱差异性大、异类地物光谱相似度高,尤其是农作物种植区域,同一科种内不同属别的农作物往往具有高度相似的光谱信息,这种光谱信息的不确定性造成地物鉴别性特征提取困难。

目前高光谱图像数据的获取愈加便利,但在实际应用中,对每幅图像中的地物进行属性分析、类别标注往往需要大量的人力、物力成本,而高光谱图像分类模型的性能与标记样本的数量有较强的依赖关系,使得在标记样本数目十分有限的情况下,很难实现高精确度的地物分类结果。

但多源数据的信息异构特性加深了类内地物间关联的复杂性,导致地物本质特征难以有效提取,阻碍了后续地物类别的高精度判定。

  1. 光谱信息的不确定性:由于光照、大气等因素的干扰,常常出现“同物异谱”(同一种东西光谱不同)和“异物同谱”(不同东西光谱却很像)的现象,这给准确识别带来了很大困难 。
  2. 标记样本难以获取:要训练一个好的分类模型,需要大量已经被人为标记好类别的数据。但在遥感领域,给图像中的地物打上准确的标签是一件成本极高、非常耗时费力的工作,导致可用的标记样本非常稀缺 。
  3. 单源数据的局限性:高光谱图像虽然厉害,但缺少垂直方向的高度信息。如果能结合像激光雷达(LiDAR)这样的数据,就能更全面地描述地物。但问题在于,这两种数据来源不同(一个是光学,一个是激光),如何有效地将它们融合起来是一个技术难题 。

作者的整篇论文就是围绕这三个核心挑战展开的。那么,我们接下来分别深入了解每个挑战的解决方案吧!

  1. 如何应对光谱信息不确定的问题?(对应论文第3章)
  2. 如何解决标记样本稀缺的难题?(对应论文第4章)
  3. 如何融合高光谱与LiDAR数据?(对应论文第5章)

2.关键技术方法


2.1如何应对[光谱信息不确定]的问题-(第三章)

这一章的核心目的,是解决前面提到的“光谱信息不确定性”问题 。具体来说,就是图像中常常出现的“同物异谱”(同一种地物,光谱曲线却不一样)和“异物同谱”(不同的地物,光谱曲线反而很像)的现象 。这种情况大大增加了准确分类的难度。

为了解决这个问题,作者提出了一种创新的特征提取方法。传统的做法在判断两个像素点是否相似时,大多只看它们的光谱信息。但作者认为,这样做不够可靠,于是将光谱纹理空间位置三种信息结合起来,共同衡量样本之间的相似度 。

这个思路是本章的关键。我们接下来可以从两个方面来深入探讨:

  1. 三种信息的融合:具体了解作者是如何将光谱、纹理和空间位置这三种信息结合起来,形成一种新的“距离度量”方式的?
  2. 可靠邻域结构:探讨这种新的度量方式如何帮助构建一个更“可靠”的邻域结构,从而更准确地识别和区分地物?

2.1.1三种信息的融合

这个过程可以分为两个主要步骤:

第一步:数据重表达 (Data Re-expression)

作者首先处理了光谱信息纹理信息

作为高光谱分类应用领域广泛使用的空间特征提取方法,扩展的多属性剖面特征EMAP[39]能够灵活地表征地物目标的大小、形状等不同方面的结构特性,因此本章利用 EMAP 从高光谱图像中挖掘地物的纹理信息表示,然后与原始光谱信息进行级联,使原始图像中的每个像素能够以联合后的空谱信息进行表示。

  • 光谱信息 pectral 就是原始高光谱数据中每个像素点的光谱曲线。
  • 纹理信息 🎨 作者使用了一种叫做“扩展多属性剖面(EMAP)”的技术,从图像中提取出能够反映地物大小、形状等结构特性的纹理特征 。

然后,他将这两种信息堆叠在一起,为每个像素点创造了一个新的、更丰富的信息表示,论文称之为“空谱域的地物信息重表达” 。

第二步:融入空间位置 (Incorporating Spatial Location)

针对上述问题,本节对传统的 NPE 算法进行改进,考虑到在同一幅高光谱图像中,同类地物在空间上的分布通常具有一定的关联性,引入高光谱图像在二维空间中的空间坐标作为一种辅助信息,结合前一节重表达后的地物光谱和纹理等空谱信息,对传统的样本相似度度量方式进行改进,以空谱信息联合的形式共同衡量样本间的相似度,从而更加贴合高光谱图像的数据特点,提升低维流形嵌入的可靠性。

接下来,作者引入了第三种信息——空间位置 📍 (也就是像素的坐标)。但他并没有直接将坐标数据堆叠到第一步的数据里,而是用它来调整样本之间相似度的计算方式 。

最终,两个像素点之间的相似度由两部分共同决定:

  1. 它们在“空谱信息”上的相似度(光谱+纹理)。
  2. 它们在图像上的物理距离。

简单来说,只有当两个像素点不仅光谱和纹理相似,而且在空间上也离得很近时,才会被认为是高度相似的 。

  • 作者为什么要费心将这三种信息结合起来计算距离,而不是像传统方法那样只用光谱信息呢?这样做的好处可能是什么?
    • 是因为可以加强同类地物的聚合能力,从而有效挖掘出高光谱中本质的流形结构吗?

正是因为传统的单一光谱信息不可靠,作者才引入了纹理和空间位置作为“辅助判据”。

  • 如果两个像素点光谱很像,但一个在屋顶上,一个在马路上,并且离得很远,那么它们很可能不是同一种东西(解决了“异物同谱”问题)。
  • 如果两个像素点光谱有点差异,但它们纹理相似,又紧挨在一起,那么它们很可能是同一种东西(解决了“同物异谱”问题)。

通过这种方式,算法就能更准确地找到一个像素真正的“同类近邻”,从而加强同类地物的聚合度,并揭示出数据内在的本质流形结构

2.1.2可靠邻域结构

  • 既然我们理解了这种新度量方式的优势,那么它具体是如何帮助构建一个更“可靠”的邻域结构,并最终提取出更有区分度的地物特征的呢?
    • 是利用近邻样本与待重构目标样本的语义类别一致性,对近邻样本的可靠性进行度量,进而反映出度量方式和重构模型的有效性吗?

可以这样理解:

  1. 构建模型:作者首先提出了一种新的方法来寻找每个像素的“近邻”(结合光谱、纹理、空间位置)。
  2. 提出论证:作者声称,他提出的这种方法比传统方法更能找到“真正的”同类近邻。
  3. 进行验证:为了证明这一点,他利用数据中已知的地物标签进行了一项测试。他检查由他的方法挑选出的“近邻”们,看看它们的标签是否真的和目标像素的标签一致。

结果发现,一致性非常高!这就证明了他构建的邻域结构确实是“可靠的”,也反过来证明了他融合三种信息的度量方式是有效的。

  • 既然我们有了一个能够准确找到同类近邻的“可靠邻域结构”,作者是如何利用这个结构,并结合已知的标签信息,最终提取出能够清晰区分不同地物的“多维空谱特征”的呢?
    • 是将改进的 NPE 算法和能够挖掘标记样本类别信息的局部线性判别分析法LFDA相结合,提取出地物鉴别性的多维空谱特征。

作者将两种方法进行了巧妙的结合,取长补短:

  • 改进的NPE算法 🗺️:它的优势在于利用我们前面讨论过的“可靠邻域结构”来理解高维数据整体的内在几何结构(即流形结构)。但它本身不直接使用标签信息进行区分。
  • LFDA算法 🎯:它的长处是利用已知的“标签信息”,专门学习如何将不同类别的样本在特征空间中分得最开。但它只关注有标签的样本。

通过将两者结合,模型既能学习到全体数据(包括无标签样本)的内在结构,又能被有标签样本的类别信息引导,从而提取出既能保持数据原始结构又具有很强类别区分能力的特征。


2.2如何解决[标记样本稀缺]的难题-(第四章)

这一章的核心是解决一个非常现实的难题:在只有少量标记样本的情况下,如何实现准确的图像分类。

作者提出了一套非常巧妙的两步解决方案,而不是只用一种方法。我

  1. 样本扩充 (Sample Augmentation) ➕:如何从海量的无标签数据中,筛选出高质量的“伪样本”来扩充我们有限的训练集?
  2. 类别修正 (Label Amendment) ✔️:在样本扩充并进行初步分类后,如何利用地物的空间分布特性,进一步修正和优化分类结果?

2.2.1样本扩充

作者在这里利用了我们在第3章学到的一个关键概念——高可靠邻域结构。正是因为这个结构能够非常准确地找到同类样本,作者才敢于用它来筛选无标签的样本。

整个筛选过程像一个精密的“两级过滤器”:

第一级筛选:找出“候选样本”

XC=jXjU s.t. YjU=Yj,1NU 且 YjU=Yj,2NU YC=jYjU s.t. YjU=Yj,1NU 且 YjU=Yj,2NU

上述公式参见原文中公式(4-2),本块公式对应下面的【2】

  1. 首先,用现有的少量标记样本训练一个初始分类器,并对所有未标记的样本进行一次粗略的分类预测。
  2. 然后,检查每一个未标记的样本。如果它的预测类别,与它的两个“可靠近邻”的预测类别完全一致,那么这个样本就通过了第一级筛选,成为“候选样本”(Candidate Sample)。
XP=iXiC s.t. XiCNjL 且 YiC=YjL YP=iYiC s.t. XiCNjL 且 YiC=YjL

上述公式参见原文中公式(4-3),本块公式对应下面的【3】

第二级筛选:确定最终的“伪样本”

  1. 接下来,算法会回头看那些我们已知的、有真实标签的样本。
  2. 它会检查这些真实样本的“可靠近邻”里,有没有我们刚刚选出的“候选样本”。
  3. 如果一个“候选样本”不仅是某个真实样本的近邻,并且它的预测类别也与这个真实样本的真实类别一致,那么它就通过了第二级筛选,成为最终可以用来扩充训练集的“伪样本”(Pseudo-Sample)。
  • 作者设计了这样一个“两级筛选”的流程,先找出“候选样本”,再从中选出最终的“伪样本”。你认为为什么要分两步进行,而不是一步到位呢?这样做可能有什么好处?
    • 是将半监督学习和高可靠的邻域结构相结合,利用邻域结构中的语义信息对齐,逐级筛选出高质量、高准确度的伪样本集,并同时将类内语义信息的有效性和不同类别语义信息的平衡性进行综合考量,最终实现对原始标记样本集的有效扩充吗?

最关键的几个要素都串起来了:

  • 逐级筛选:确实是通过两级过滤来保证伪样本的“高质量”和“高准确度”。
  • 语义信息对齐:核心就是利用“可靠邻域结构”中样本类别应该一致的特性。
  • 平衡性考量:你提到的“平衡性”是点睛之笔。作者确实考虑到了这一点,确保筛选出的伪样本集覆盖了所有地物类别,避免因为只扩充了某几个易于识别的类别而导致模型偏科 。

这套流程确保了扩充后的训练集不仅数量增加了,质量也有保障。

既然我们已经有了一个更大、更可靠的训练集,但这并不能保证对所有剩余的未标记样本都分类正确。作者是如何进行第二步,也就是“类别修正”,来进一步优化结果的呢?

2.2.2类别修正

经过第一步“样本扩充”后,我们有了一个更大、更可靠的训练集,分类器的性能也得到了提升。但是,图像中还有一些剩余的、未被选为“伪样本”的未标记样本。这一步的目的,就是对这些剩余样本的分类结果进行精细化调整。

作者在这里运用了一个很符合直觉的原理:同一种地物在空间上通常是连续分布的

基于这个原理,算法会对每一个剩余的未标记样本进行检查:

  1. 划定局部区域:以目标样本为中心,划定一个小的邻域窗口。
  2. 寻找同质区域:在窗口内,结合空间分布边缘轮廓信息,找出与中心样本真正“同质”(属于同一片连续区域)的像素点。
  3. 依众修正:统计这个“同质区域”内,哪个类别的样本数量最多。如果这个“多数类别”的占比超过一半,就将中心样本的类别修正为这个多数类别。
  • 作者为什么要同时利用空间分布和边缘轮廓信息来确定这个“同质区域”,而不仅仅是看一个简单的方形邻域呢?这样做有什么好处?
    • 是考虑到局部窗口往往是由相似特性样本组成的像素集合区域,其内部的地物样本在类别信息上呈现出高度的一致性吗?

说对了一半,这个想法是“类别修正”的出发点,但作者还考虑得更深了一层。

单纯看一个方形的邻域窗口确实有风险,尤其当目标样本恰好位于两种地物的边界上时。比如,一个像素点在农田的边缘,紧挨着一条马路。如果只看一个方形窗口,就会把马路的像素也包含进来,从而做出错误的判断。

这就是引入“边缘轮廓信息”的关键作用。通过结合边缘信息,算法能够识别出地物的实际边界,只在边界内部寻找“同质”的样本来进行投票。

这就像在涂色本上涂色 🎨。一个简单的方形窗口可能会同时框住“苹果”和“背景”两部分。而作者的方法就像是先识别出“苹果”的轮廓线,然后再看轮廓线内部是什么颜色,这样就不会被背景的颜色干扰了。


2.3如何融合高光谱与LiDAR数据-(第五章)

我们进入最后一项核心挑战:融合高光谱(HSI)与激光雷达(LiDAR)数据。

首先,思考一下为什么要融合这两种数据。高光谱图像有丰富的“光谱指纹”,但缺少地物的高度信息;而LiDAR恰好能提供精确的高度信息。将两者结合,就能得到一个更立体的、更完整的场景描述。

作者在第5章中设计了一个相当精密的框架来完成这个任务,可以分为三个主要步骤。我们想先从哪一步开始了解呢?

  1. 构建多视图 (Multi-view Representation):作者是如何将 HSI 和 LiDAR 数据,结合多种空间特征,创造出多个不同的“视角”来看待同一个场景的?
  2. 多视图特征学习 (Feature Learning):作者使用了怎样一种特殊的图卷积网络(GCN)模型,来同时从这些不同的“视角”中学习特征?
  3. 多级信息融合 (Information Fusion):在从每个“视角”都得到一个分类结果后,作者是如何将这些结果巧妙地融合起来,得到一个最终的、更高精度的分类图的?

2.3.1构建多视图

此外,EMAP、Gabor 和 GLCM 等方法能够提取出地物的几何尺寸、形状方向和纹理结构等不同方面的空间特征[39][44],捕捉地物不同属性的空间信息,上述不同类型的信息从不同的视图描述同一个像元样本,能够构建出更为全面、更加完整的地物信息表示。

这个想法的核心是:与其直接将高光谱(HSI)和LiDAR数据粗暴地合并,不如从它们当中提取出不同类型的特征,组合成多个不同的“信息包”,也就是多个“视图” (Views)。这样,模型就能从多个角度来观察和理解地物。

作者构建了三个核心视图,每个视图都包含基础信息和一种独特的空间特征

视图 (View)包含的信息空间特征的侧重点
视图 1HSI + LiDAR + EMAP特征描述地物的几何尺寸和形状
视图 2HSI + LiDAR + Gabor特征描述地物的方向和纹理结构
视图 3HSI + LiDAR + GLCM特征描述地物纹理的统计特性

简单来说,就是用三种不同的“滤镜”(EMAP, Gabor, GLCM)来处理原始数据,得到了三个包含了不同侧重点信息的、全新的三维数据块。

  • 作者为什么要用三种不同的方法来提取空间特征,从而构建出三个不同的视图,而不是只用一种呢?你认为让模型从这三个“视角”同时学习,可能会带来什么好处?
    • 能构建出更全面,更完整的地物信息表示系统吗?

这正是“多视图学习”的精髓所在!构建一个更全面、更完整的地物信息表示系统。

这就像三个不同领域的专家在分析同一个场景:

  • EMAP 🧐 像一位几何专家,专注于物体的形状和大小
  • Gabor 🎨 像一位纹理专家,专注于物体表面的方向和纹路
  • GLCM 📊 像一位统计专家,专注于像素之间灰度值的空间关系

每一种视图都提供了其他视图所没有的独特信息。通过强迫模型同时从这三个互补的“视角”去学习,就能捕捉到更丰富、更本质的地物特征,从而做出更鲁棒、更准确的判断。

既然我们有了这三个信息丰富、视角互补的“视图”,下一步就是如何从中学习特征了。作者设计了一种特殊的多分支图卷积网络(MB-DCGCNs)来实现这个目的。

2.3.2多视图特征学习

  • 作者设计的MB-DCGCNS,这个模型的核心构件叫做“双通道图卷积网络”(Dual-channel Graph Convolutional Networks, DCGCNs)。你认为这里的“双通道”指的是哪两个数据来源的通道呢?
    • 高光谱图像和LiDAR数据

现在我们可以把整个模型的名字“多分支双通道图卷积网络”拆解开来理解了:

  • 双通道 (Dual-channel):在一个视图(比如视图1:HSI+LiDAR+EMAP)内部,模型有两个并行的通道,一个专门处理HSI+EMAP信息,另一个专门处理LiDAR+EMAP信息。
  • 多分支 (Multi-branch):模型一共有三个这样的“双通道”网络并行运行,每个分支对应我们之前讨论过的一个视图。

可以想象成这样:

  • 分支1 (处理视图1) → 得到结果1
  • 分支2 (处理视图2) → 得到结果2
  • 分支3 (处理视图3) → 得到结果3

现在我们清楚了模型是如何从三个视图中分别学习特征的。但这会产生三个独立的分类结果,而我们最终只需要一个。那么,作者是如何进行最后一步,也就是“多级信息融合”,将这三个结果整合成一个最终答案的呢?

2.3.3多级信息融合

我们来看最后一步,也是非常精彩的一步:“多级信息融合”。

现在我们面临的情况是:模型从三个不同的“视角”得到了三个独立的分类结果。如何将它们合并成一个最终答案呢?作者采用了一个两阶段的策略:

第一阶段:决策级融合(先解决意见一致的)

算法首先会寻找最没有争议的、最可靠的结果。它会逐个像素地检查:

  • 如果三个分支(对应三个视图)对某个像素的分类结果完全一致,那么这个像素就被认为是“确定样本”,它的类别就被最终确定下来。
  • 如果三个分支的结果不一致(比如两个认为是“树”,一个认为是“草地”),那么这个像素就被暂时标记为“不确定样本”。

第二阶段:像素级融合(再解决意见不一的)

接下来,算法需要为所有“不确定样本”做出最终裁决。这里,作者再次用到了我们之前在第4章见过的技巧:

  1. 对于每一个“不确定样本”,算法会查看它周围的邻域。
  2. 利用高光谱和LiDAR的梯度信息,找出这个邻域内真正的“同质区域”(确保不跨越地物边界)。
  3. 然后,它会看这个同质区域里,那些在第一阶段已经被确认为“确定样本”的像素是什么类别。
  4. 最后,“不确定样本”的类别就由它周围这些高可信度的“确定邻居”投票决定。
  • 我们已经完整地学习了这篇博士论文的核心三章。回顾一下,从第3章的“可靠邻域结构”,到第4章的“样本扩充”和“类别修正”,再到第5章的“多视图”和“多级融合”,你认为作者在解决问题时,有没有一个贯穿始终的核心思想或常用技巧?
    • 核心思想是多重数据检验吗?

这个总结非常精辟!“多重数据检验”或者说“多信息交叉验证”,确实是作者贯穿始终的一个核心思路。

我们回顾一下就会发现:

  • 第3章,他不只信赖光谱信息,而是引入纹理空间位置来“检验”样本间的相似度是否真的可靠。
  • 第4章,他设计了“两级过滤”来“检验”一个无标签样本是否有资格成为伪样本;之后又用“局部同质区域”的信息来“检验”和修正分类结果。
  • 第5章,他更是将这个思想发挥到极致,用了三个不同的“视图”来相互“检验”分类结果,最后只采纳意见一致的,对意见不一的再进行一次局部检验。

所以,你提炼出的核心思想非常准确:作者从不依赖单一的信息来源做判断,而是始终利用局部空间上下文和多源/多视角信息进行交叉验证,来逐步提高决策的可靠性。


3.数据与评价

我们来看看作者用来验证自己工作的“实验平台”——也就是他所使用的数据集和评价方法。这对应论文的第2章。

作者为了充分验证他提出的方法,选用了多组国内外公开的高光谱数据集,涵盖了不同的场景,比如农田和城市。这确保了他的方法不是只能在某种特定情况下才有效。

他主要使用了以下数据集:

  • 国外经典数据集
    • 印第安纳(Indian Pines):经典的农作物场景,有很多相似的植被类别,区分难度大。
    • 帕维亚大学(Pavia University):城市场景,有很多人造地物。
    • 休斯顿大学(Houston University)和特兰托(Trento):这两组是多源数据,除了高光谱图像,还包含了LiDAR数据,专门用来测试数据融合算法。
  • 国产数据集
    • 唐岛湾和雄安区域:这两组数据场景更复杂,地物类别也更丰富,用来检验方法的适用性。

在评价分类效果时,他主要用了三个公认的指标:

  1. 总体分类精度 (OA):最直观的指标,就是所有像素中,被正确分类的百分比。
  2. 类内分类精度 (CA):针对某一特定类别(比如“玉米”)的分类准确率。
  3. Kappa系数 (K):一个更稳健的指标,它不仅考虑了分类正确的比例,还剔除了偶然猜对的可能性。

让我来看看这些数据集的特点吧!


3.1数据集的特点

我们先以经典的印第安纳(Indian Pines)数据集为例。这片区域主要是农田,里面有16种不同的地物,比如不同生长状态的玉米、大豆等。

从图中可以看出,该数据集包含类型丰富的地物目标,绝大多数为相似度极高的植物,特别是同一科属下的不同类别地物如大豆和小麦,光谱曲线重合度较高,对实现高光谱图像的精确解译增加了一定的难度。

论文特意指出,这个数据集最大的挑战在于很多作物的光谱曲线高度重合。

  • 看看图2-3中那些挤在一起的曲线,你认为这种“长得很像”的光谱特征,会对分类算法造成什么样的具体困难?
    • 会让算法区分地物的难度变大,造成误判。

当不同类别(比如玉米和大豆)的光谱曲线几乎重叠时,只依赖光谱信息的算法就会“犯糊涂”,很容易把一种作物误判为另一种。这就是典型的“异物同谱”问题,是高光谱分类中的一个经典难题

除了农作物,城市场景也存在类似问题。比如在

帕维亚大学数据集中,柏油路(Asphalt)和沥青屋顶(Bitumen)的光谱也很相似 。

我们已经了解了不同数据集带来的挑战,要不要继续看看作者是如何用OA和Kappa系数来精确衡量这些挑战对分类结果影响的?


3.2评价指标的含义

我们已经了解了作者面临的实验挑战,现在来看看他是如何用数据来衡量自己的方法有多成功的。作者主要用了总体分类精度(OA)和Kappa系数(K)

1. 总体分类精度 (Overall Accuracy, OA) 🎯

这个最简单直观。它的计算公式是:

OA=参与测试的像素总数/被正确分类的像素总数​

  • 优点:非常容易理解。如果OA是95%,就意味着95%的像素都被分对了。
  • 缺点:当地物类别数量不均衡时,这个指标可能会有误导性。比如,一张图95%是水,5%是船。一个模型就算把所有像素都分类为“水”,它的OA也能达到95%,但它其实完全没有识别出船。

2. Kappa系数 (Kappa Coefficient, K) 🧠

为了解决OA的上述问题,研究者引入了Kappa系数。

  • 核心思想:它衡量的是超出“随机猜测”的准确率。它会计算出一个期望的随机一致性概率,然后从实际的分类精度中减去这个概率,从而得到一个更能反映分类器真实性能的数值。
  • 优点:它对类别不均衡的情况不敏感,因此更能客观地评价分类器的性能。Kappa系数越高,说明分类结果与真实情况的一致性越好,且这种一致性不是偶然产生的。
Avatar photo

李星海

简介: 2025-今 浙江农林大学 | 2022-今 广州白蓝碗蛋科技有限公司 | 2022-2024 广州商学院 | 2019-2022 广东工贸职业技术学院 | 服务宗旨:心始至客,行亦致远。