FSL小样本学习 – 学术创新中心

论文评述-文献FRT-FS-EN-2510283

李星海 — Tue, 11 Nov 2025 00:56:11 +0000

本期评述文章：

[文献FRT-FS-EN-2510283]Few-shot disease recognition algorithm based on supervised contrastive learning

它针对一个很实际的农业生产问题——如何用少量样本准确识别植物病害，提出了一种新的算法。

Plant disease recognition based on computer vision can help farmers quickly and accurately recognize diseases. However, the occurrence of diseases is random and the collection cost is very high. In many cases, the number of disease samples that can be used to train the disease classifier is small.

Trans:基于计算机视觉的植物病害识别技术能帮助农民快速准确地识别病害。然而，病害发生具有随机性，且采集成本较高。在多数情况下，可用于训练病害分类器的样本数量有限。

根据论文摘要（第1页），作者指出，虽然计算机视觉对识别植物病害很有帮助，但收集大量标记好的病害图片样本既困难又昂贵。这对需要海量数据的传统深度学习方法来说是个大挑战。

为了解决这个问题，他们提出了一种分为两个阶段的算法：

Our algorithm is divided into two phases: supervised contrastive learning and meta-learning. In the first phase, we use a supervised contrastive learning algorithm to train an encoder with strong generalization capabilities using a large number of samples. In the second phase, we treat this encoder as an extractor of plant disease features and adopt the meta-learning training mechanism to accomplish the few-shot disease recognition tasks by training a nearest-centroid classifier based on distance metrics.

Trans:我们的算法分为两个阶段：监督对比学习和元学习。在第一阶段，我们采用监督对比学习算法，通过大量样本训练具有强泛化能力的编码器。第二阶段，我们将该编码器作为植物病害特征提取器，通过基于距离度量的最近质心分类器训练机制，运用元学习训练方法完成

第一阶段：使用“监督对比学习” (Supervised Contrastive Learning) 和大量样本来训练一个具有强大泛化能力的编码器（encoder）。
第二阶段：将这个编码器作为特征提取器，并采用“元学习” (Meta-learning) 机制，通过训练一个最近质心分类器来完成“小样本” (few-shot) 的识别任务。

这里有几个切入点：

弄清关键“术语”：这篇论文的标题和摘要中提到了好几个关键概念，比如“监督对比学习” 和“元学习” 。
深入理解“问题”：论文在引言（Introduction）部分详细讨论了为什么传统深度学习方法不适用于这个问题。我们为什么不先从这里开始，搞清楚“小样本学习” (Few-shot Learning) 究竟要解决什么？
拆解“解决方案”：论文的核心是他们提出的两阶段方法。我们可以直接去看图1（第4页），它清晰地展示了“监督对比预训练”和“最近质心分类”这两个阶段是如何协同工作的。

1.弄清关键“术语”

我们来逐个分解这两个核心术语。

1. 监督对比学习 (Supervised Contrastive Learning)

Contrastive learning is usually a self-supervised learning method,which pre-trains a model with a large amount of unlabeled data tolearn feature representation.

Trans:对比学习通常是一种自监督学习方法，该方法通过大量未标注数据对模型进行预训练，使其学习特征表示。

这是什么？ 它是一种“预训练” (pre-training) 方法，目标是训练出一个能出色区分不同类别图像的“编码器” (Encoder)。
它如何工作？
- “对比” (Contrastive) 的意思是，它通过“对比”样本来学习。它会拉近“相似”的样本，推远“不相似”的样本。
- “监督” (Supervised) 的意思是，它会利用图像的“标签” (label) 信息（比如，知道哪些图片是“苹果黑星病”，哪些是“玉米灰斑病”）。
在训练时，它会告诉模型：
1. 拉近正样本：所有“同类”的图像（比如，所有“苹果黑星病”的图片）都应该在特征空间中靠得更近。
2. 推远负样本：所有“不同类”的图像（比如，“苹果黑星病”和“玉米灰斑病”的图片）都应该在特征空间中离得更远。
论文在图 2（第6页） 中很清晰地展示了这一点。在右侧的“监督对比学习”示意图中，两张不同的“Apple scab”（苹果黑星病）图片被视为“正样本” (Positive) 并被拉近，而其他病害（如玉米叶斑病、桃细菌性斑点病）则被视为“负样本” (Negatives) 并被推远。

2. 元学习 (Meta-learning)

这是什么？ 这是一个更广泛的概念，常被用于小样本学习 (FSL)。它的核心思想是“学会如何学习” (learning to learn)。
它如何工作？
- 传统机器学习是“学会一个任务”（比如，分类猫和狗）。
- 元学习是“学会快速掌握新任务”。它会通过大量不同的先验任务进行训练，目标是找到一个好的模型“初始状态”。
- 当模型遇到一个全新的、只有很少样本的任务时（比如，识别一种从未见过的植物病害），它能从这个“初始状态”出发，仅用几张图片就快速学会。

在这篇论文中，作者将两者巧妙地结合了起来：

他们用监督对比学习（第1阶段）来完成“元学习”中的“预训练”过程，目的是学到一个泛化能力极强的编码器（特征提取器）。
然后，他们在这个编码器的基础上，用一个最近质心分类器（第2阶段）来执行具体的小样本识别任务，这体现了元学习“快速适应新任务”的机制。

现在我们弄清了这两个关键概念，你希望接下来做什么？

深入了解第一阶段：看看“监督对比学习”的具体算法流程是什么样的？（参考图1上半部分和算法1）
深入了解第二阶段：看看“最近质心分类器”是如何利用第一阶段的成果进行小样本分类的？（参考图1下半部分和图3）
回到“问题”本身：我们已经知道了术语，那回头看看引言（Introduction）部分，更深入地了解一下为什么“小样本学习” (FSL) 在植物病害领域如此重要？

2.深入了解第一阶段

2.1监督对比预训练 (Supervised Contrastive Pre-training)。

我们可以参照图 1（第4页） 的上半部分来理解这个流程。

数据增强 (Augmenter)：
- 我们从一张病害图片开始。
- 这张图片会经过“Augmenter”（数据增强器），生成两个随机变换过的版本（比如，一张被裁剪，另一张调整了颜色）。论文称这两个版本为“正样本对” (positive pair)。
编码器 (Encoder)：
- 这两个增强后的图片，被送入同一个编码器网络（Enc(·)）。
- 编码器的作用是将每张图片转换成一个特征向量（一串数字），论文中用 h 表示。这就像是模型对图片内容的“浓缩理解”。
投影仪 (Projector)：
- 上一步得到的特征向量 h 会再经过一个“Projector”（投影网络, Proj(·)）。
- 这会把 h 映射到另一个特征空间，得到向量 z。这么做的目的是为了计算对比损失。
对比损失 (Contrastive loss)：
- 这是最关键的一步。算法会比较来自不同图片的 z 向量。
- 正如我们之前讨论的，因为这是监督对比学习，它会利用“标签”信息。
- 目标：拉近所有“同类”样本（比如，所有“苹果黑星病”图片的向量），同时推远所有“不同类”样本（比如，“苹果黑星病”和“玉米叶斑病”的向量）。

这个阶段的最终成果是什么？

很重要的一点是，这个阶段的产物不是一个分类器。如论文第5页所述，它的输出是一个训练得非常好的编码器网络 Enc(·)这个编码器现在非常擅长提取病害特征，能把同类病害的图片在特征空间中“聚拢”在一起。

2.2 数据增强的具体方法

我们来看看论文 3.2 节（第9页）的具体内容。

作者测试了四种主要的数据增强方法，并给它们分配了代号以便于组合测试：

For simplicity, we denote A, B, C and D to represent 4 kinds of data augmentations.

Trans:为简化表述，我们用A、B、C和D分别表示四种数据增强方法。

A is the random length width ratio cropping, and the random cropping area ratio is 0.2-1.0.

B denotes the random horizontal flipping of the images according to the probability, and the flipping probability is 0.5.

C is the image color distortion operation that modifies brightness, contrast, and saturation, and for which a probability of 0.8 is applied.

D denotes the random conversion of images to grayscale images.

A：随机长宽比裁剪（以及 0.2-1.0 的随机裁剪面积）
B：随机水平翻转（概率为 0.5）
C：图像颜色失真（修改亮度、对比度和饱和度，概率为 0.8）
D：随机转换为灰度图像

他们通过实验（如表3所示）来找到效果最好的组合。

在三种方法组合中，A+B+C（裁剪 + 翻转 + 颜色失真）的识别准确率最高。
他们还发现，任何包含 D（随机灰度） 的组合都会导致准确率下降。

This operation causes the disease image to lose its color. Therefore, it is reasonable to speculate that in the supervised contrastive learning, the color information of thedisease enables the encoding network to pull samples of other categories further apart. If the color information is lost, the encoding network cannot effectively cluster the samples of the same disease.

Trans:该操作会导致疾病图像颜色信息丢失。因此可以合理推测，在监督对比学习中，疾病颜色信息能使编码网络将不同类别的样本进一步区分。若颜色信息丢失，编码网络将无法有效对同种疾病的样本进行聚类。

论文推测，这是因为颜色信息对于编码器区分不同病害非常关键，而灰度操作会丢失这些信息。

2.3 投影仪的去向

Projection Network, denoted as Proj(•), maps the representation vector obtained after the encoding network to the contrastive loss space. Usually, Proj(•) is instantiated as a Multi-Layer Perceptron (MLP) and discarded after the contrastive training (Tian et al., 2020).

Trans:投影网络（Proj（•））将编码网络生成的表征向量映射至对比损失空间。该网络通常采用多层感知器（MLP）实现，并在对比训练完成后被丢弃（Tian等人，2020）。

简单来说：

第一阶段（训练）：需要“投影仪” (Proj（•）)。它的唯一工作是辅助计算“对比损失”。它将编码器 Enc（•）产生的特征 h 映射到另一个空间，以便模型更有效地“拉近”同类、“推远”异类。
第二阶段（测试/应用）：不需要“投影仪”。我们真正需要的是那个训练好的编码器 Enc（•） ，因为它学会了如何从原始图像中提取出有意义的、可区分的特征（向量 h）。

因此，训练结束后，我们就扔掉“投影仪”这个脚手架，只保留最有价值的“编码器” Enc（•）。

3.深入了解第二阶段

最近质心分类 (Nearest-centroid Classification)。

现在我们有了第一阶段训练好的、强大的编码器 Enc（•）（在图1和图3中被称为 f_θ）。在第二阶段，我们冻结 (freeze) 这个编码器，不再改动它。

这个阶段就是真正执行“小样本”任务的地方，它会用到两个小数据集：

支持集 (Support Set)：这是我们仅有的少量训练样本。比如，在一个“5-way 1-shot”任务中，支持集就只有 5 个类别，每个类别 1 张图片。
查询集 (Query Set)：这是我们需要分类的“新”图片。

具体流程如下（可以参照图 3 ）：

计算“类别原型” (Class Prototypes) μ：
- 我们把“支持集”中的所有图片（比如那 5 张图）都送入我们冻结好的编码器 f_θ，得到它们各自的特征向量。
- 对于同一个类别的所有样本（在这个 1-shot 例子中只有一个），我们计算它们特征向量的平均值。
- 这个平均向量 μ 就成了一个“类别原型”（也叫“质心”），它代表了这个类别在特征空间中的“中心点”。
分类“查询集” (Query Set) 图像：
- 我们拿一张“查询集”里的新图片，同样用编码器 f_θ 把它转换成一个特征向量。
- 接着，我们计算这个新向量与所有“类别原型” μ 之间的距离（论文中使用了欧氏距离）。
- 这个新图片离哪个“类别原型”最近，它就被归为哪一类。

这就是整个算法的核心：先用“监督对比学习”把同类病害在特征空间中“聚拢”起来（第一阶段），再通过计算新样本离哪个“聚拢中心”（原型）最近来进行分类（第二阶段）。

4.实验设置

他们使用了两个关键的数据集：

The first is PlantVillage (Hughes and Salathe, 2016) which is the most widely used open-access plant disease image database. It collects 54,306 images of plant disease leaves, including 14 kinds of plants and a total of 38 classes.

Trans:第一个是PlantVillage（Hughes和Salathe，2016），这是目前使用最广泛的开放获取植物病害图像数据库，共收录了54,306张植物病害叶片图像，涵盖14种植物，共38个类别。

PDD includes five types of images of potato leaf diseases, namely early blight, late blight, leaf curl, anthracnose and healthy leaves, with 40 images in each class.

Trans:PDD包含马铃薯叶病的五种典型图像类型，分别是早疫病、晚疫病、叶卷病、炭疽病和健康叶片，每类图像各包含40张。

PlantVillage 数据集：
- 这是一个非常著名和广泛使用的公开数据集。
- 它包含了 14 种植物、共 38 个类别的 54,306 张图片。
- 关键特点：这些照片都是在实验室条件下拍摄的，背景非常干净、单一。
PDD (马铃薯病害数据集)：
- 这是作者自己从互联网上收集的数据集。
- 它只包含 5 个类别（早疫病、晚疫病、卷叶病、炭疽病和健康叶片）。
- 关键特点：这些照片都是在自然场景下拍摄的，光照条件多变，背景非常复杂。

基于这两个数据集，作者设计了两种测试“情景” (Scenarios) 来评估模型的性能：

情景 A：训练和测试数据都来自 PlantVillage。这用来测试模型在数据特征相似（都是实验室背景）的情况下的表现。
情景 B：训练数据来自 PlantVillage，但测试数据来自 PDD。这是一个更难的“跨域” (cross-domain) 测试，用来检验模型从实验室学到的知识能否“迁移”到复杂的自然场景中。

5.实验结果

5.1 同源数据实验结果

这张表比较了作者提出的 SC-FSL 算法和其他九种流行的 FSL（小样本学习）算法在“情景 A”（数据均来自 PlantVillage）上的表现。

我们先弄清楚两个关键指标：

5-way 1-shot：模型需要区分 5 个病害类别，但在“支持集”中每类只给它看了 1 张图片。
5-way 5-shot：模型需要区分 5 个病害类别，每类给它看了 5 张图片。

算法	5-way 1-shot (准确率 %)	5-way 5-shot (准确率 %)
ProtoNet	75.32 ± 0.80	89.70 ± 0.51
MatchingNet	76.80 ± 0.81	87.85 ± 0.56
RelationNet	74.71 ± 0.83	88.90 ± 0.40
... (其他算法)	...	...
SC-FSL (本文算法)	78.55 ± 0.81	92.90 ± 0.47

It can be seen from Table 4 that among all the algorithms, the SC-FSL achieves the highest recognition accuracy in both 5-way 1-shot and 5-way 5-shot.

核心结论是： 作者的 SC-FSL 算法在 1-shot 和 5-shot 任务上均取得了最高的识别准确率。

这表明，在第一阶段使用“监督对比学习”预训练出的编码器，确实为第二阶段的小样本分类任务提供了非常强大的特征提取能力。

5.2 跨域数据实验结果

这是一个更具挑战性的测试，因为模型在第一阶段是在“实验室”数据 (PlantVillage) 上训练的，但在第二阶段必须去识别“自然场景”下拍摄的马铃薯病害 (PDD) 。

表 5：马铃薯病害识别结果（节选）

M-shot (样本数)	Resnet18 准确率 (%)	Resnet50 准确率 (%)
1-shot	43.70 ± 0.63	49.12 ± 0.73
5-shot	60.48 ± 0.54	68.29 ± 0.53
10-shot	64.87 ± 0.52	73.31 ± 0.46
30-shot	69.31 ± 0.50	79.51 ± 0.39

实验结果显示了两个重要趋势：

样本数量仍然关键：即使是小样本，样本量的增加也能带来巨大的提升。对于 ResNet50，仅有 1 张图片 (1-shot) 时准确率不到 50%，但当样本增加到 30 张 (30-shot) 时，准确率跃升至 79.51% 。
更深的网络泛化能力更强：在所有样本数级别上，更深的 ResNet50 网络表现都显著优于较浅的 ResNet18 。这表明在第一阶段（监督对比学习）使用更深的网络，能学到更具泛化能力的特征，这对于跨域任务（从实验室到自然场景）尤为重要。

此外，论文还通过图 10（混淆矩阵） 分析了 30-shot 任务中具体类别的识别情况：

模型对“早疫病” (early blight) 的识别效果最好（准确率 91.5%），其次是“健康”叶片 (82%) 。
模型最容易混淆的是“炭疽病” (anthracnose)，准确率最低 (70.5%) 。它经常被误判为“健康”叶片或“早疫病” ，作者推测这是因为它们在某些图像上的病斑特征非常相似。

6.实验结论

However, in agricultural production, the time and place of disease occurrence are random, which makes it difficult to collect large-scale disease samples.

论文明确指出，病害发生的时间和地点是随机的，这使得收集大规模病害样本变得非常困难。

这正是传统深度学习方法（需要大量数据）在这里碰壁的原因。

那么，面对这个“样本很少”的难题，作者在结论中提出的新“范式” (paradigm) 是什么呢？他们是如何分两个阶段来解决这个问题的？

In view of the good generalization performance of contrastive learning, we propose a new few-shot disease recognition paradigm called SC-FSL, that is, big data and contrastive learning in the pretraining stage is used in pre-training phase, and few-shot learning is used in the specific disease recognition stage.

Trans:鉴于对比学习具有良好的泛化性能，我们提出了一种名为SC- FSL 的新型少样本疾病识别范式：在预训练阶段采用大数据与对比学习相结合的方法，而在具体疾病识别阶段则采用少样本学习。

这篇论文的核心贡献就是这个新范式：

第一阶段：利用“监督对比学习”和大量相关数据（但不一定是目标病害数据），训练出一个具有强大泛化能力的编码器。它学会了什么是“病害”的通用特征。
第二阶段：这个编码器能高效地将同类病害“聚拢”在特征空间中，因此在面对新病害时，只需要几个样本（小样本）就能快速定位这个新类别的“中心点”，从而实现准确识别。

我们已经一起完整地学习了这篇论文，从它的核心术语、两个阶段的算法细节，到实验设置和结果分析。

论文评述-文献FRT-FS-EN-2510282

李星海 — Thu, 06 Nov 2025 11:49:57 +0000

本期评述文章：

[文献FRT-FS-EN-2510282]Few-shot crop disease recognition using sequence- weighted ensemble model-agnostic meta-learning

它探讨的是一个在农业和AI交叉领域非常重要的问题：如何在数据样本很少的情况下（即“小样本学习”）准确识别作物病害。

为了解决这个问题，论文提出了一种名为 SWE-MAML（序列加权集成模型无关元学习）的新方法。

1.为什么WHY

While deep learning-based computer vision techniques have emerged as powerful tools for crop disease recognition, these methods are heavily reliant on large datasets, which are often difficult to obtain in practical agricultural settings.

Trans:虽然基于深度学习的计算机视觉技术已成为农作物病害识别的利器，但这些方法严重依赖海量数据集，而实际农业场景中往往难以获取。

这篇论文的核心是解决一个在现实中非常棘手的问题。传统的深度学习模型（比如CNN）在图像识别上效果很好，但它们通常需要一个前提条件：海量的训练数据。

但在农业领域，要获取大量、多样化的病害图像，恰恰是非常困难的。

【小问1】那么，根据论文的引言（Introduction）部分，你认为具体是什么因素导致了收集大量作物病害数据如此困难或昂贵呢？

【回答1】

Agricultural scenarios are usually complex and diverse. Crop disease occurrence has a long time and space span in general.

Trans:农业情景通常复杂多样。作物病害的发生通常具有长期性和空间分布特征。

Furthermore, crop diseases spread widely in time and space, and the annotation of disease data needs to be done manually by experienced experts. Therefore, large-scale disease image collection and annotation is very costly.

Trans:此外，农作物病害在时空上广泛传播，且病害数据标注需由经验丰富的专家人工完成。因此，大规模病害图像采集与标注成本极高。

总结了“为什么”这个问题：

环境复杂：病害在不同生长期和环境下表现不同。
标注昂贵：需要经验丰富的专家来手动标注，成本很高。

这就产生了一个核心矛盾：深度学习模型渴望“大数据”，但现实农业场景却难以提供。

为了解决这个“数据稀缺”的矛盾，论文（以及整个研究领域）提出了一种专门的解决方案。这篇论文（第2页）将其称为“小样本学习”（Few-shot learning, FSL）。

【小问2】根据论文对FSL的描述，你认为“小样本学习”的目标是什么？它与使用海量数据的“标准”深度学习有何不同？

【回答2】As the name implies, few-shot learning refers to feeding a learning model with a tiny amount of training data, contrary to the standard practice of using a large amount of data.

Trans:顾名思义，小样本学习是指用少量训练数据训练模型，这与常规使用大量数据的做法截然不同。

现在我们知道了“为什么”需要FSL（因为收集数据困难），以及FSL的“目标”（用少量数据训练）。

【小问3】在引言（Introduction）的后半部分（第2页），论文提到了几种实现FSL的主要技术途径。你能找到它们吗？论文将FSL方法主要分为了哪三类？

【回答3】Few-shot learning for image recognition can be mainly grouped into model initialization, metric learning, and data augmentation.

图像识别领域的少样本学习技术主要包含三大方向：模型初始化、度量学习和数据增强。

现在，引言部分（页面第 2 和 3 部分）将从这些总体概念过渡到该领域非常流行的一种特定算法，该算法也是本文新方法的基础。

【小问4】你能找到文中提到的这种流行的 FSL 算法的名称吗？它属于这三大类别中的哪一类（模型初始化、度量学习或数据增强）？

【回答4】Model-Agnostic Meta-Learning (MAML) is one of the most popular few-shot learning algorithms (Finn et al., 2017).

Trans:模型无关元学习（MAML）是当前最主流的少样本学习算法之一（Finn等，2017）。

MAML is a meta-learning framework based on model initialization by training the model’s parameters so that a small number of gradient updates are going to lead to fast learning on a novel task.

Trans:MAML是一种元学习框架，其核心在于通过训练模型参数进行初始化，使得少量梯度更新即可在新任务上实现快速学习。

它的核心思想不是训练一个“最终模型”，而是训练一个“初始模型”。

那么，根据论文第3页对 MAML 的描述，MAML 训练出的这套“初始化参数”有什么特别之处？它能让模型在遇到一个新任务时实现什么效果？

MAML is a meta-learning framework based on model initialization by training the model’s parameters so that a small number of gradient updates are going to lead to fast learning on a novel task.

Trans:MAML是一种元学习框架，其核心在于通过训练模型参数进行初始化，使得少量梯度更新就能在新任务上实现快速学习。

MAML 的目标就是找到一套“元”参数 θ，当面对一个新任务时，模型只需要在这套参数的基础上“微调”几步（a small number of gradient updates），就能立刻适应这个新任务并表现良好。这就是“快速学习”的含义。

我们现在知道了“为什么”需要 FSL，也知道了 MAML 是一个基于“模型初始化”的巧妙方案。

但是，这篇论文的标题是 SWE-MAML，这暗示了原始的 MAML 可能还有不足之处。

根据论文第3页（"Model-Agnostic Meta-Learning (MAML) is..." 附近），作者指出了原始 MAML 的哪些缺点或不足？

However, it comes with the need for costly hyperparameter tuning for training stability, and its performance has fallen behind many recent algorithms nowadays.

Trans:然而，这种方法需要进行昂贵的超参数调优以确保训练稳定性，且其性能已落后于当前众多新兴算法。

这正是论文指出的MAML的两大核心问题：

训练不稳定：需要花费大量精力（昂贵的超参数调优）才能让它稳定训练。
性能落后：它的识别准确率已经被一些更新的算法超越了。

好了，到这里我们已经完整地理解了“为什么”（Why）这部分：

核心问题：在现实农业中，病害数据很难大规模收集（环境复杂、专家标注昂贵）。
解决方向：因此需要“小样本学习”（FSL）技术，即用少量数据训练模型。
已有工具：MAML 是一种流行的FSL方法，它通过学习“快速适应”的初始化参数来工作。
工具缺陷：但 MAML 自身存在训练昂贵且性能落后的问题。

这就引出了一个非常自然的问题：作者打算如何改进 MAML？

这篇论文的标题（SWE-MAML）和摘要（Abstract）其实已经给出了线索。作者将 MAML 与另一种强大的机器学习范式结合了起来。

根据论文摘要（第1页），作者将 MAML 与什么技术结合起来，提出了他们的新框架？

This method integrates ensemble learning with Model-Agnostic Meta-Learning (MAML), allowing the effective training of multiple classifiers within the MAML framework.

该方法将集成学习与模型无关的元学习（MAML）相结合，可在MAML框架内有效训练多个分类器。

摘要里写得很清楚，他们提出了一种新的方法 SWE-MAML，它将 集成学习（ensemble learning） 和 MAML 结合了起来。

这个框架的设计目标，就是在 MAML 框架内有效训练多个分类器（论文称之为“基学习器”，base learners）。

2.如何 HOW

我们已经知道，SWE-MAML 的核心是“集成学习 + MAML”。

来看看论文的第6页，2.2.2 章节（Sequence-weighted ensemble MAML），特别是第7页的 图4 (Figure 4)。

标准的 MAML 只有一个模型（或学习器）。但在这篇论文的方法中，图4 向我们展示了什么结构？这个集成（ensemble）是由什么组成的？
- 图4展示了组合多了个模型来提升学习效果。思想是为同一个任务训练多个学习器，然后将这些学习器的输出结果合并为最终结果

这个方法的名字里有“序列”（Sequence）这个词。

仔细看图4（第7页）中 BL₁, BL₂, ... BL_{N_T}之间的箭头，你认为这些学习器是如何被训练的？它们是同时独立训练的，还是有先后顺序？
- 有先后顺序

从图4中的箭头可以清楚地看到，它们是按顺序训练的。这就是方法名中“序列”（Sequence）的来源。

现在我们来看“加权”（Weighted）这个词。

再次观察图4，你会发现，除了有 BL₁, BL₂ 这样的“基学习器”之外，还有一组东西被用来计算最终的“Score”（得分），并且它们也会被“update”（更新）。

你能找到这组东西是什么吗？
- 是 w₁, w₂, ... w_{N_T}

这些就是“加权”（Weighted）的来源。如图4所示，模型最终的“Score”（分类得分）是所有基学习器（BLi）的输出，再用这些 w_i 进行加权求和得到的。

所以，SWE-MAML 的核心机制就是：

序列（Sequence）：按顺序训练一系列基学习器（BL₁,BL₂...）。
加权（Weighted）：同时学习一个对应的权重（w₁,w₂...）。
集成（Ensemble）：最终的预测结果是所有学习器 BLi 的加权 wi 总和。

现在，我们把最后一块拼图“MAML”放回来。

我们已经知道，这是一个“序列”过程。那么，这个序列的“起点”，也就是第一个基学习器 BL₁，它的参数是如何初始化的呢？

根据图4和第7页的算法描述（Algorithm 1），你能找到 BL₁ 是从哪里获得它的初始参数 θ₁ 的吗？
- 是首先定义了一个参数化函数f_θ表示的模型，这个函数包含参数θ

Figure 3 shows how MAML performs meta-training. In the figure, θ represents the meta-learner of the model, and f_θ is its parameterization function.

Trans:图3展示了MAML如何进行元训练。其中，q表示模型的元学习器，fq是其参数化函数。

In Figure 4, θ represents the meta-learner ML. We create a set of base-learners with the same network structure of ML, denoted as BL_i, and the decision weight of each base-learner as w_i.

Trans:图4中，θ代表元学习器ML。我们构建了一组具有相同网络结构的基学习器（记为BL_i），每个基学习器的决策权重为w_i。

θ 代表的就是“元学习器”（Meta-Learner, ML）的参数。

现在，请再看一下图4。会看到一个箭头从 θ 出发，径直指向了 BL₁。

那么，根据这个图示和第7页的算法描述（Algorithm 1），我们是用了什么作为第一个基学习器 BL₁ 的起始参数呢？
- 就是 θ！

在图4中，有一个箭头从 θ（元学习器 ML）指向 BL₁（第一个基学习器）。

这说明BL₁ 的初始参数，就是用元学习器 θ 来设置的。

我们现在知道了“序列”的起点 BL₁ 是如何初始化的。

那么，这个“序列”是如何往下传递的呢？我们来看看 BL₂ 是如何初始化的。

根据图4中 BL₁ 和 BL₂ 之间的箭头，以及第7页的算法描述（Algorithm 1），你认为 BL₂ 的初始参数是来自哪里？（是来自 BL₁ 还是 θ ？）
- 来自 BL₁

你看图4就明白了：

元学习器 θ 初始化了 BL₁。
BL₁（训练后的参数）又初始化了 BL₁。
这个过程会一直持续下去，BL_i初始化 BL_i+1。

这就是“序列”（Sequence）的真正含义：它们是一个接一个“接力”训练的。

我们现在把 SWE-MAML 的工作流程（“如何”）理清楚了：

起点：元学习器 θ初始化 BL₁。
序列：BL₁ 训练后初始化 BL₂，BL₂ 训练后初始化 BL₃... 依此类推，训练出一系列 BL_i。
加权：模型同时学习一套权重 w_i。
集成：最终的预测结果是所有 BL_i 的加权总和。
MAML（元学习）：最后，模型会计算一个“元损失”（Meta-Loss），用这个损失去同时更新 θ 和 w。

这个设计非常巧妙，它不是像传统集成那样训练完模型A、再训练模型B...最后再组合。

而是在元学习的每一步都同时训练这个“序列集成”和“权重”，让整个系统学会如何快速构建一个强大的集成团队。

我们已经弄清了“为什么”（Why）和“如何”（How）。

接下来，我们自然要关心：“效果如何？”（How Well?）

这个新方法 SWE-MAML 听起来更复杂了，它真的比原始的 MAML 和其他方法更好吗？

3.效果如何HOW WELL

这篇论文的一个核心创新是“集成”（ensemble），也就是使用多个基学习器（base-learners）。一个很自然的问题是：基学习器的数量会如何影响模型的性能？

作者在 3.2 节和 图6 (第10页) 中探讨了这个问题。

论文中提到，他们将原始的 MAML 视为一个特例。你能找到 MAML 被当作有几个基学习器的情况吗？

For comparison, we treat MAML as a special case of SWE-MAML where the number of base-learner is only 1. The results are shown in Figure 6, in which BL_num indicates the number of base-learners and the error bars represents the 95% confidence intervals.

Trans:为了进行比较，我们将 MAML 视为 SWE-MAML 的一个特例，其中基本学习器的数量仅为 1。结果如图 6 所示，其中 BL_num 表示基本学习器的数量，误差线表示 95% 置信区间。

作者是将原始的 MAML 视为一个基学习器数量为1的特例。

现在，让我们一起看看图6A（第10页）。这张图标出了基学习器（BL_num）数量从1到7时的准确率。

当 BL_num = 1 (也就是原始 MAML) 时，在 "5-way 1-shot" (红色实线) 任务上，准确率大概是多少？
当 BL_num 增加到 5 或 6 时，准确率又变成了多少？

在 "5-way 1-shot" (红色实线) 任务上：

当 BL_num = 1 (原始 MAML) 时，准确率大约是 66% 。
当 BL_num = 5 时，准确率达到了 74.56% 。
当 BL_num = 6 时，准确率是 73.29% 。

在 "5-way 5-shot" (绿色虚线) 任务上：

当 BL_num = 1 (原始 MAML) 时，准确率大约是 85.8% 。
当 BL_num = 6 时，准确率达到了 89.75% 。

我们从这些数据中得出了一个非常清晰的结论：SWE-MAML 显著优于原始的 MAML。

仅在 "5-way 1-shot" 任务上，准确率就提升了超过 8.5% (从 66% 到 74.56%) 。

这证明了“集成”这个思路是有效的。

作者还做了第二个实验来验证这个模型。在 3.4 节和 表5 (Table 5) 中，他们将 SWE-MAML 与其他多种 FSL 算法进行了比较。

通过观察表5（第12页），可以知道 SWE-MAML（最后一行）与 ProtoNet、MatchingNet、RelationNet 这些经典方法相比，结果如何？

在 5-way 1-shot (Conv4) 任务上：

SWE-MAML 是 74.56%
ProtoNet 是 68.61%

这确实是一个接近6个百分点的显著提升。

在 5-way 5-shot (Conv4) 任务上：

SWE-MAML 是 89.75%
ProtoNet 是 83.84%

这又是一个接近6个百分点的提升。

如果再纵观表5 (第12页) 的所有行，就可以发现一个清晰的模式：无论是在 5-way 1-shot 还是 5-way 5-shot 任务上，也无论使用 Conv4 还是 Conv6，SWE-MAML（最后一行）的准确率总是排在第一位。

我们目前已经验证了：

“集成”有效：使用多个基学习器 (BL) 显著优于 MAML (BL=1) 。
“性能领先”：SWE-MAML 在标准数据集 (PlantVillage) 上的表现优于其他所有被比较的 FSL 算法。

这看起来非常棒。但作者们进行了一项最终测试，可以说是对模型真正的考验。

在 3.5 节 (第12页)，他们设计了一个“场景B”（Scenario B）。还记得这个场景与我们之前看的“场景A”有什么关键区别吗？（提示：与数据集有关）
- 场景A是原域和目标域都是PlantVillage，而场景B是原域是PlantVillage，目标域是PDD。

PDD 指的是 Potato Disease Dataset（马铃薯病害数据集）。

场景A和场景B的关键区别在于测试用的目标域不同：

场景A：训练和测试都来自 PlantVillage 数据集。
场景B：训练来自 PlantVillage，但测试来自 PDD 。

这篇论文特别指出，PDD 与 PlantVillage 有一个本质的区别，这使得场景B的测试变得尤其困难和有意义。

The second dataset is the Potato Disease Dataset (PDD). Unlike the PlantVillage dataset, all PDD images are captured under natural lighting conditions with complex backgrounds.

Trans:第二个数据集是马铃薯病害数据集（PDD）。与PlantVillage数据集不同，所有PDD图像均在自然光照条件下拍摄，背景复杂。

根据论文 2.1 节（第5页）对这两个数据集的描述，你认为 PDD 图像的主要特点是什么？它和 PlantVillage 图像（第4页，图1）相比，最大的不同在哪里？
- PlantVillage：是在实验室条件下拍摄的，背景简单，光照受控。
- PDD：是在自然条件下拍摄的，背景非常复杂（比如有其他叶子、土壤、光影），光照也不均匀。

这就是AI领域所说的“域差异”（Domain Shift）。模型在“干净”的实验室数据（源域）上训练，却要在“混乱”的真实世界数据（目标域）上测试。

这对模型来说是一个巨大的考验。在场景A中，模型只是识别它没见过的病害，但图像的风格是相似的。而在场景B中，连图像的风格都完全不同了。

这就像你只学过印刷体的字母，现在却要你去识别潦草的手写体。

那么，面对这个极具挑战性的“场景B”，SWE-MAML 和其他算法的表现如何呢？

让我们来看看论文的表6 (Table 6)（第13页）。这张表显示了模型在PDD数据集上的准确率。

请看 SWE-MAML (最后一行) 和其他所有方法（上面几行）的对比结果。你得出了什么结论？

在表6（第13页）中，无论是在哪个 "shot"（1-shot, 5-shot, 10-shot...）的设置下，SWE-MAML（最后一行）的准确率都始终是最高的。

在“1-shot”时，SWE-MAML 达到了 39.82%，而其他方法都在 39% 以下。
在“30-shot”时，SWE-MAML 达到了 75.71%，而第二名（DeepEMD-FCN）只有 74.70% 。

这个结果意义重大。它表明，即使面对“域差异”（实验室 vs. 自然环境）这个严峻的挑战，SWE-MAML 依然比所有其他方法更稳健、更准确。

我们现在已经完成了对“效果如何”的分析：

优于 MAML：集成多个基学习器 (5-7个) 显著优于 MAML (1个) 。
优于其他 FSL：在标准数据集 (PlantVillage) 上，SWE-MAML 表现最佳。
跨域依然有效：在极具挑战的“实验室到自然环境”测试 (PDD) 中，SWE-MAML 依然保持第一。

我们已经一起学习了这篇论文的“为什么”（Why）、“如何”（How）以及“效果如何”（How Well）。

最后，我们看看第4节讨论（Discussion） 和第5节结论（Conclusion），来总结一下作者认为他们这项工作的核心贡献和局限性。

4.讨论 DISCUSSION

作者在这一节回顾了他们的主要实验成果，并强调了它们的意义。

作者特别提到了一个在3.3节（图7）中也探讨过的重要因素。除了“集成学习器的数量”（我们之前在图6看到的）之外，作者还发现了什么因素对模型的识别准确率有“更显著的影响”（a more significant effect）？

The number of disease classes involved in the source domain has a more significant effect on recognition accuracy.

Trans:源域中涉及的疾病类别数量对识别准确度的影响更为显著。

论文在第4节“讨论” 和第5节“结论”中都强调了这一点：

This reveals the fact that in the meta-learning phase, diverse disease categories help improve the accuracy of the model.

Trans:在元学习阶段（meta-learning phase），多样化的疾病类别有助于提高模型的准确性。

作者指出，当源域（source domain）中的预训练类别从11个增加到27个时：

In both 5-way 1-shot and 5-way 5-shot conditions, the recognition accuracy of the model improved by 12.01% and 8.45%.

5-way 1-shot 的准确率提升了 12.01%
5-way 5-shot 的准确率提升了 8.45%

这证明了在元训练阶段给模型看（“学习”）的种类越多，模型学习“如何学习”的能力就越强，当它遇到一个全新的病害时，它也能识别得更好。

我们已经完整地学习了这篇论文。我们知道了：

为什么（Why）：解决真实农业中病害数据稀缺的问题。
如何做（How）：提出了 SWE-MAML，将“序列集成学习”嵌入到 MAML 框架中。
效果如何（How Well）：在标准数据集和极具挑战的跨域数据集 (PDD) 上均超越了其他方法。
关键发现：集成学习器的数量（5-7个最佳）和源域的类别数量是提升性能的关键。

5.结论CONCLUSION

论文在第5节“结论”的末尾明确指出了这一点：

Meanwhile, the model’s performance needs to be improved in the cross-domain few-shot disease recognition task.

Trans:“同时，该模型在跨领域小样本疾病识别任务（cross-domain few-shot disease recognition task）中的性能仍需提高。”

这正是他们计划在未来研究中重点攻克的方向。

这也很合理，我们在实验结果（表6）中也看到了，尽管 SWE-MAML 在 PDD（自然场景）上的表现已经是最好的，但准确率（如 75.71%）相比于在 PlantVillage 内部测试（表5，如 89.75%）还是有明显下降的。这说明从“实验室”到“真实世界”的“跨域”问题，依然是这个领域最大的挑战。

[文献FRT-FS-EN-2510283]Few-shot disease recognition algorithm based on supervised contrastive learning

李星海 — Tue, 28 Oct 2025 01:24:25 +0000

Diseases cause crop yield reduction and quality decline, which has a great impact on agricultural production. Plant disease recognition based on computer vision can help farmers quickly and accurately recognize diseases. However, the occurrence of diseases is random and the collection cost is very high. In many cases, the number of disease samples that can be used to train the disease classifier is small. To address this problem, we propose a few-shot disease recognition algorithm that uses supervised contrastive learning. Our algorithm is divided into two phases: supervised contrastive learning and meta-learning. In the first phase, we use a supervised contrastive learning algorithm to train an encoder with strong generalization capabilities using a large number of samples. In the second phase, we treat this encoder as an extractor of plant disease features and adopt the meta-learning training mechanism to accomplish the few-shot disease recognition tasks by training a nearest-centroid classifier based on distance metrics. The experimental results indicate that the proposed method outperforms the other nine popular few-shot learning algorithms as a comparison in the disease recognition accuracy over the public plant disease dataset PlantVillage. In few-shot potato leaf disease recognition tasks in natural scenarios, the accuracy of the model reaches the accuracy of 79.51% with only 30 training images. The experiment also revealed that, in the contrastive learning phase, the combination of different image augmentation operations has a greater impact on model. Furthermore, the introduction of label information in supervised contrastive learning enables our algorithm to still obtain high accuracy in few-shot disease recognition tasks with smaller batch size, thus allowing us to complete the training with less GPU resource compared to traditional contrastive learning.

[文献FRT-FS-EN-2510282]Few-shot crop disease recognition using sequence- weighted ensemble model-agnostic meta-learning

李星海 — Tue, 28 Oct 2025 01:22:15 +0000

Diseases pose significant threats to crop production, leading to substantial yield reductions and jeopardizing global food security. Timely and accurate detection of crop diseases is essential for ensuring sustainable agricultural development and effective crop management. While deep learning-based computer vision techniques have emerged as powerful tools for crop disease recognition, these methods are heavily reliant on large datasets, which are often difficult to obtain in practical agricultural settings. This challenge highlights the need for models capable of learning from limited data, a scenario known as the few-shot learning problem. In this paper, we introduce a novel few-shot learning approach, the Sequence-Weighted Ensemble Model-Agnostic Meta-Learning (SWE-MAML), designed to train crop disease recognition models with minimal sample sizes. The SWE-MAML framework employs meta-learning to sequentially train a set of base learners, followed by a weighted sum of their predictions for classifying plant disease images. This method integrates ensemble learning with Model-Agnostic Meta-Learning (MAML), allowing the effective training of multiple classifiers within the MAML framework. Experimental results show that SWE-MAML demonstrates strong competitiveness compared to state-of-the-art algorithms on the PlantVillage dataset. Compared to the original MAML, SWE-MAML improves accuracy by 3.75%–8.59%. Furthermore, we observe that the number of base learners significantly influences model performance, with an optimal range of 5–7 learners. Additionally, pre-training with a larger number of disease classes enhances the model’s ability to recognize “unseen” classes. SWE-MAML was also applied to a real-world few-shot potato disease recognition task, achieving an accuracy of 75.71% using just 30 images per disease class in the support set. These findings validate that SWE-MAML is a highly effective solution for the few-shot recognition of crop diseases, offering a promising approach for practical deployment in agricultural settings where data scarcity is a major challenge. The integration of ensemble learning with meta-learning enables high-performance disease recognition with minimal data, marking a significant advancement in the field.

[文献SCI-FS-EN-2510281]PlantCaFo: An efficient few-shot plant disease recognition method based on foundation models

李星海 — Tue, 28 Oct 2025 01:11:40 +0000

Although plant disease recognition is highly important in agricultural production, traditional methods face challenges due to the high costs associated with data collection and the scarcity of samples. Few-shot plant disease identification tasks, which are based on transfer learning, can learn feature representations from a small amount of data; however, most of these methods require pretraining within the relevant domain. Recently, foundation models have demonstrated excellent performance in zero-shot and few-shot learning scenarios. In this study, we explore the potential of foundation models in plant disease recognition by proposing an efficient few-shot plant disease recognition model (PlantCaFo) based on foundation models. This model operates on an end-to-end network structure, integrating prior knowledge from multiple pretraining models. Specifically, we design a lightweight dilated contextual adapter (DCon-Adapter) to learn new knowledge from training data and use a weight decomposition matrix (WDM) to update the text weights. We test the proposed model on a public dataset, PlantVillage, and show that the model achieves an accuracy of 93.53 % in a “38-way 16-shot” setting. In addition, we conduct experiments on images collected from natural environments (Cassava dataset), achieving an accuracy improvement of 6.80 % over the baseline. To validate the model's generalization performance, we prepare an out-of-distribution dataset with 21 categories, and our model notably increases the accuracy of this dataset. Extensive experiments demonstrate that our model exhibits superior performance over other models in few-shot plant disease identification.

FSL小样本学习 – 学术创新中心

论文评述-文献FRT-FS-EN-2510283

1.弄清关键“术语”

1. 监督对比学习 (Supervised Contrastive Learning)

2. 元学习 (Meta-learning)

2.深入了解 第一阶段

2.1监督对比预训练 (Supervised Contrastive Pre-training)。

2.2 数据增强的具体方法

2.3 投影仪的去向

3.深入了解 第二阶段

4.实验设置

5.实验结果

5.1 同源数据实验结果

5.2 跨域数据实验结果

6.实验结论

论文评述-文献FRT-FS-EN-2510282

1.为什么WHY

2.如何 HOW

3.效果如何HOW WELL

4.讨论 DISCUSSION

5.结论CONCLUSION

[文献FRT-FS-EN-2510283]Few-shot disease recognition algorithm based on supervised contrastive learning

[文献FRT-FS-EN-2510282]Few-shot crop disease recognition using sequence- weighted ensemble model-agnostic meta-learning

[文献SCI-FS-EN-2510281]PlantCaFo: An efficient few-shot plant disease recognition method based on foundation models

2.深入了解第一阶段

3.深入了解第二阶段