论文评述-文献U509181

本期评述文章：

[文献U509181]Identification of hickory nuts with different oxidation levels by integrating self-supervised and supervised learning

山核桃因为富含不饱和脂肪酸，所以很容易氧化变质，这会影响其食用品质和安全。传统上，人们依靠主观经验或电子鼻技术来筛选，但这些方法要么不够准确、速度慢，要么设备特殊、难以推广。因此，研究者们提出了一种名为DEEPMAE的新模型，旨在通过分析山核桃仁的图像来自动、准确地判断其氧化等级。

1.研究背景

简单来说，这项研究的出发点是山核桃的商业价值和保鲜难题之间的矛盾。

[1]The hickory (Carya cathayensis) nuts are considered as a traditional nut in Asia due to nutritional components such as phenols and steroids, amino acids and minerals, and especially high levels of unsaturated fatty acids.

[2]Furthermore, a mature hickory nut kernel contains more than 90% unsaturated fatty acids and 70%
oil, which is in the top place in all oil-bearing crops (Kurt, 2018; Narayanankutty et al., 2018; Zhenggang et al., 2021).

[3]In Lin’an, the hickory plantation covers an area of 40,000 km², with an annual production of 15,000 tons of hickory nuts. The output value of the whole hickory nuts industry is about 5 billion yuan.

[4]However, the edible quality of hickory nuts is rapidly deteriorated by oxidative rancidity.

[5]With the oxidation of hickory nuts, a series of changes in color,odor, taste, and other conditions occur. Significantly the kernels of hickory nuts change from light yellow to yellow-brown or brown,the taste gradually becomes lighter and lighter, and a strong rancid smell from the nuts (Jiang et al., 2012).

[6]Traditional methods of identifying hickory nuts are mainly manual and electronic nose screening (Pang et al., 2011).

[7]However, electronic nose technology has a slow response time and requires special equipment, making it difficult to promote in the marketplace.

山核桃的价值与特性：
- 山核桃（Carya cathayensis）是一种在亚洲很受欢迎的传统坚果，营养价值高。[1]
- 它的一个显著特点是脂肪含量极高，其中不饱和脂肪酸含量超过90%，含油量超过70% 。[2]
- 在中国，山核桃产业的产值相当可观，仅临安地区的年产值就约50亿元。[3]
核心问题：氧化酸败：
- 正是因为山核桃富含不饱和脂肪酸，它也面临一个不可避免的问题——氧化酸败，这是导致其品质下降的主要原因。[4]
- 当山核桃氧化后，它的仁会发生一系列变化：颜色从浅黄色变为黄褐色或棕色，口感变差，并散发出强烈的哈喇味（rancid smell）。[5]
传统检测方法的局限性：
- 人工筛选：这是最传统的方法，主要依靠人的主观经验来判断。这种方法的缺点是准确性不稳定，而且筛选速度很慢。[6]
- 电子鼻技术：这种技术可以通过分析不同氧化程度产生的气味来区分山核桃。但它的响应时间较慢，且需要特殊的专业设备，因此很难在市场上广泛推广。[7]

鉴于传统方法的这些不足，研究者们认为，既然氧化会引起山核桃仁外观颜色的变化，那么利用图像识别技术对其进行自动分类是一个非常有前景的方向。通过深度学习算法自动提取外观特征，可以有效避免传统方法的主观性和低效率，从而为工厂自动化生产和保障消费者食品安全提供一种快速、准确的新方法。

2.核心技术

DEEPMAE模型的核心创新主要有三个方面。我们可以逐一来看：

处理输入图像的方式：在模型开始分析之前，它如何巧妙地预处理山核桃图像。
模型的学习方法：它如何将两种不同的学习方式（自监督和监督）结合在一起，让学习过程更高效。
模型的内部结构：它内部使用了一种叫做“Re-attention”的特殊机制，这让它可以比其他模型“看”得更深、学得更好。

2.1处理输入图像的方式

The workflow of Vision Transformer (VIT; Dosovitskiy et al., 2020) firstly requires dividing the original image into several regular non-overlapping blocks and spreading the divided blocks into a sequence, after which the sequence is transmitted into the Transformer Encoder.

传统的模型，比如Vision Transformer (ViT)，处理图像的方式很直接：它们会把一张图片像切蛋糕一样，切成很多个不重叠的小方块（patches），然后把这些小方块直接送入模型进行分析。

DEEPMAE模型觉得这样做有点“粗糙”，于是换了一种更聪明的方法。它并没有直接使用这些原始的像素方块。

在你看来，直接用原始像素方块可能会有什么缺点呢？
- 原始像素方块是否会因为拍摄图像的光照和视角不同从而引起对被测物体分析的误差

这正是一个关键问题！直接使用原始像素方块，就像让模型去看一个个孤立的马赛克，它会面临几个挑战：

信息冗余：相邻的像素点通常非常相似，这意味着模型需要处理大量重复的信息。
缺乏稳定性：正如你提到的，光照、角度的轻微变化都会让像素值产生巨大差异。模型很难学到，在不同光线下呈现不同像素值的山核桃仁，其实是同一种氧化等级。这会影响模型的稳定性和泛化能力。

DEEPMAE模型通过一个巧妙的步骤解决了这个问题。它没有直接“看”这些原始的像素方块，而是先用卷积操作对整张图像进行处理，提取出边缘、纹理和颜色等低阶特征（low-level features）。

所以，模型分析的不再是零散的像素点，而是更有意义的特征信息，比如“这是一块黄褐色的纹理”或“这里有一个弧形的边缘”。

那么，你认为用这种经过“预处理”的特征信息来代替原始像素方块，最大的好处是什么呢？
- 减少了信息冗余，模型不需要处理重复大量的信息，并且有助于提高检测的准确性

我们来总结一下：

减少冗余，提取精华：卷积操作就像一个预处理器，它把图像中海量的、零散的像素点，总结成了更有意义的特征，比如物体的边缘和纹理。送入模型的是「精华摘要」，而不是「原始全文」。
提升稳定性和准确性：这些「特征」比原始像素点更能抵抗光照和视角的变化。无论光线亮一点还是暗一点，山核桃仁的「边缘」和「纹理」基本是不变的。这让模型学到的东西更具通用性，从而提升了准确度。

我们已经弄清楚了模型如何巧妙地处理输入。接下来，我们可以探讨它是如何进行学习的。

2.2模型的学习方法

DEEPMAE模型同时运用了两种学习方式，这也是它的一个创新之处。

大多数的分类模型采用的是监督式学习 (Supervised Learning)。这就像我们用单词卡学习一样：

正面：一张山核桃仁的图片。
反面：它的氧化等级标签（比如 A 级）。

模型会看成千上万张这样的「单词卡」，学习将图片与正确的标签对应起来。

但DEEPMAE模型在此基础上，还加入了一种自监督学习 (Self-supervised Learning) 的方法。这更像是在玩一个拼图游戏：

模型拿到一张山核桃仁的图片。
我们随机遮住（mask）图片的一部分特征。
要求模型根据看见的部分，「猜」出被遮住的部分应该长什么样，也就是完成「重建」(reconstruction)。

DEEPMAE的创新之处在于，它将这两种学习方式合二为一，在训练过程中同时进行。模型必须一心二用，既要完成分类任务（像背单词卡），又要完成特征重建任务（像玩拼图）。

那么，你认为这样做的用意是什么呢？为什么强迫模型去「玩拼图」，会让它在「背单字卡」这件事上做得更好？
- 让模型在学习的时候可以自主判断这个山核桃仁的图片品质。

这正是这种双重学习方法的核心优势。

强迫模型去“玩拼图”（重建特征），能让它在“背单词卡”（分类）时表现得更好，原因在于：

迫使模型理解深层特征：为了能准确地“猜”出被遮盖的部分，模型不能只看表面。它必须学会山核桃仁固有的模式、纹理和颜色关联。比如，它会学到“A级山核桃仁的这个部位是浅黄色，那么它旁边被遮住的部位也应该是类似的颜色和纹理”。
建立内部“品质标准”：通过重建上万张图片，模型在内部建立了一个关于“什么样才算是一个标准的A级、B级...山核桃仁”的概念。这个概念远比单纯的标签要丰富得多。

所以，当模型在进行分类任务时，它不仅仅是把一张图片匹配给一个标签。它实际上是在用自己通过“玩拼图”建立起来的深刻理解，来判断这张新图片最符合哪个“品质标准”。

这个过程让模型学到的特征更鲁棒（robust），不容易被光照、角度等无关因素干扰，从而大大提高了分类的准确性。

我们已经了解了模型如何处理输入（低阶特征）和它的学习方法（监督+自监督）。最后一块拼图是它的内部结构。

2.3模型的内部结构

想象一下，一个标准的深度学习模型就像一座摩天大楼。你可能认为，建造更多楼层（增加更多层）总是会让它变得更好，让你从顶部看到更广阔的视野。然而，由于 DEEPMAE 所基于的架构（Transformer），简单地堆叠越来越多的层可能会导致问题。

However, the structure based on the Transformer does not obtain better results by simply stacking it like the convolutional networks (CNN)structure. Instead, it quickly sinks into saturation at deeper levels. That is called attention collapse (Zhou et al., 2021).

超过某个时间点后，新层会停止学习新事物。就好像所有顶层的居民都开始进行完全相同且无聊的对话。这被称为注意力崩溃。

Re-attention (Equation 4) could replace the MHSA module in the VIT and regenerate the attention maps to establish crosshead communication in a learnable way.

DEEPMAE 在其结构中使用了一种特殊的技巧来解决这个问题。它引入了一种名为“再关注”的机制。再关注可以理解为一种鼓励每层楼的居民进行更有趣、更多样化的对话，在将信息传递到下一层之前，彼此分享不同观点的方法。

想象一下，我们有一个侦探团队 🕵️，他们的任务是判断一颗山核桃仁的氧化等级。

情况A（没有 Re-attention）：团队里的每个侦探都只关注同一个线索，比如“颜色有多深”。
情况B（有 Re-attention）：每个侦探被要求关注不同的线索。一个看颜色，一个看纹理，一个看形状，还有一个看表面的光泽度。然后他们会汇总各自的发现。

你认为哪个团队（A或B）最终的判断会更准确、更可靠？为什么呢？
- B，因为看到参数更多，对线索的识别程度也就越高

团队B的判断会更准确，因为它综合了更多样化的线索。一个只看颜色的侦探可能会被相似颜色的不同等级山核桃迷惑，但如果另一个侦探同时发现了纹理上的细微差异，团队就能做出更精准的判断。

这正是 Re-attention 机制在DEEPMAE模型里所做的事情。

它确保模型在每一层都能从不同角度去审视特征，而不是陷入单一的思维模式。这种内部的“多样性讨论”避免了“注意力崩溃”，让模型可以建得更深，同时学到更丰富、更有区分度的信息。

我们已经一起学习了DEEPMAE模型的三个核心技术创新点：

[1]

Firstly, unlike VIT, MAE and DeepVIT, the blocks sequence input to DEEPMAE is not from the original image but is composed of low-level features extracted from the original image by convolutional operations.

Therefore, we change the patch embedding of DEEPMAE to an operation with multiple small convolutional kernels and convert the low-level features of the acquired images into patches, similar to the Image-to-Tokens module (Yuan et al., 2021).

[2]

DEEPMAE combines self-supervised and supervised learning, which are usually considered two different approaches, into a single unified model. And DEEPMAE outperformed the base MAE model in classifying hickory nuts kernels. Furthermore,the DEEPMAE model is lighter. It uses fewer parameters to achieve better results.

In addition, unlike MAE, which uses only the trained parameters of the Encoder when processing classification tasks, our DEEPMAE always retains both Encoder and Decoder and combines the reconstruction of image features and classification into one complete model.

The classification is a supervised learning. Eventually, the complete structure of DEEPMAE contains both self-supervised and supervised processes.

[3]

Re-attention (Equation 4) could replace the MHSA module in the VIT and regenerate the attention maps to establish crosshead communication in a learnable way.

Secondly, we introduce Re-attention into MAE, reduce the MAE model width, and increase its depth to achieve a deeper stacking of the Transformer to obtain a more vigorous representation of some of the blocks, which can reduce the computational effort while avoiding attention collapse.

聪明的输入：用卷积提取低阶特征，而不是直接用原始像素块。 [1]
高效的学习：将分类（监督）和图像重建（自监督）结合在一起，迫使模型深度理解特征。 [2]
精巧的结构：引入Re-attention机制，让模型可以建得更深，学习更多样化的特征。 [3]

现在我们已经理解了模型“为什么”会这么设计，让我们看看它在实际测试中的表现如何，也就是论文中的实验结果部分。

3.实验结果

总的来说，DEEPMAE不仅识别准确率很高，而且比其他模型更轻量、更高效。

为了更好地理解这些成果，我们可以从几个不同的角度来看。

模型的最终准确率：看看DEEPMAE在测试中的具体分数。
与其他模型的对比：了解DEEPMAE相比于其他模型强在哪里。
模型学到了什么：探讨研究者是如何“打开黑盒子”，弄清楚模型是依据什么特征来做判断的。

3.1模型的最终准确率

研究发现，DEEPMAE 模型在最终测试集上的准确率达到了 96.42%。

为了更具体一点，假设一家工厂使用该模型对 1,000 个山核桃进行分类。基于这个准确率，该模型大概会错误分类多少个山核桃？
- 35.8个

所以，在1000颗山核桃中，模型会搞错大约36颗。

现在我们知道了这个数字，下一个问题自然就是：这个成绩算好还是算差呢？要回答这个问题，我们需要一个参照物。

你认为这个结果和谁去比较，才最有意义？
- 和已有的研究

和已有的研究成果进行比较是评估它好坏的关键。

3.2与其他模型的对比

这篇论文中，DEEPMAE模型主要和两类“对手”进行了比较：

它的“前辈”：也就是构成DEEPMAE基础的ViT和MAE模型。
其他“主流选手”：比如像VGG、EfficientNet这些经典的CNN模型。

你认为，先和哪一类模型比较，更能直接地体现出DEEPMAE的创新之处呢？
- 和它的“前辈”

将一个模型与其前代模型进行比较是检验新想法是否有效的最佳方法。

3.2.1与它的“前辈”对比

让我们来看看测试集上的准确率：

DEEPMAE：96.4%
ViT：94.8%
MAE：93.8%

DEEPMAE 的准确率显然更高，但这只是故事的一半。该研究还通过两种方式衡量了模型的效率：

参数 (M)：模型的“规模”或复杂程度。参数越少越好。
MAC (G)：所需的计算量。参数越低，速度越快。

以下是它们的比较结果：

模型	参数 (M)	MAC (G)
DEEPMAE	48.94	7.281
ViT	114.77	22.446

那么，当同时考虑准确率和效率时，DEEPMAE 的性能主要体现在哪些方面？
- 准确率高的同时效率也高了。

这就是DEEPMAE模型最核心的优势：它打破了“性能越强，模型就越臃肿、越慢”的常规认知。它用更小的模型尺寸和更低的计算量，实现了更高的准确率。

这充分证明了研究者对模型结构和学习方法的改进是非常成功的。

3.2.2与其他“主流选手”对比

我们已经看到DEEPMAE“青出于蓝而胜于蓝”，超越了它的前辈。接下来，我们可以看看它和另一类“主流选手”——经典的CNN模型（如VGG, EfficientNet）的对比结果。

你认为把DEEPMAE和这些CNN模型进行比较，能帮助我们了解它的什么特性？
- 了解与传统模型相比的新思路

我们来看看DEEPMAE和传统CNN模型的对比。

这两种模型“看”图的方式有根本的不同。CNN模型像是一个拿着放大镜 🔎 的侦探，它会一小块一小块地仔细检查图像，寻找局部的线索，比如边缘和纹理。

而DEEPMAE的核心是Transformer，它更像是站在高处俯瞰全局 🗺️ 的指挥官。

对于判断山核桃的氧化程度——这个通常整体颜色和光泽都发生变化的任务——你觉得这种“全局视野”可能有什么优势？
- 这种“全局视野”更有利于提高对山核桃氧化程度判断的准确度

对于像氧化这种会影响整个山核桃仁外观的任务，“全局视野”有巨大优势。它能更好地捕捉整体颜色、亮度的渐变，而不是只关注某个局部斑点。

The DEEPMAE model was able to achieve an overall classification accuracy of 96.14% on the validation set and 96.42% on the test set.

From the accuracy performance of each model in the validation set (Figure 6), it is easy to see that the MobileNetV3 and VGG19 models performed average level. They were slow to optimize, and their final accuracy was just over 80%.

论文中的数据也证实了这一点：

DEEPMAE的准确率达到了96.42%。
相比之下，一些传统的CNN模型（如VGG19和MobileNetV3）表现平平，准确率刚过80%。

这个性能差距，很直观地体现了Transformer架构在这种任务上的优势。

我们已经讨论了模型的准确率，也对比了不同模型。现在只剩下最后一个有趣的问题了：模型到底学会了看什么？

3.3模型学到了什么

研究者们设计了一个巧妙的实验来“打开黑盒子”，弄清楚模型是根据什么特征来做判断的。你觉得模型是学会了关注山核桃仁的哪些外观线索呢？
- 山核桃的颜色和亮度

模型学会了像人眼一样，通过山核桃仁外观的亮度和颜色来进行判断。

These values appear to be the main features learned by DEEPMAE to distinguish walnuts, such as their appearance brightness and color.

In addition, by aggregating information from image samples, we have confirmed that the critical features learned by DEEPMAE are precisely the brightness and color of the appearance of kernels.

研究者们通过一个非常巧妙的实验证明了这一点：

他们创建了几组新的测试图片。在这些图片里，他们故意把所有山核桃仁的亮度调得更接近，或者把颜色（特别是黄色度）调得更接近。
然后，他们让已经训练好的DEEPMAE模型去识别这些被“干扰”过的图片。

It shows that the range of L-values of D in AL is much smaller than in Figure 5A, resulting in images of D being largely misclassified as adjacent C. The ranges of b-values of B, C, and D are closely linked, indicating that C of Figure 11 was misclassified as B and D. After adjusting the L-value or b-value of images, the results of DEEPMAE demonstrated a strong relationship between the data distribution and the classification effect, indicating that the L-value or b-value characteristics are of great importance for the classification process of DEEPMAE.

结果，模型的准确率急剧下降。这就像一个只靠颜色区分物体的侦探，突然看到了一个黑白世界，于是就无法判断了。这个实验有力地证明了，亮度和颜色就是DEEPMAE模型进行分类时所依赖的最关键特征。

我们已经一起探讨了这项研究的背景、核心技术和关键的实验结果。你认为，这项研究最终得出的最重要的结论是什么？它对山核桃产业可能有什么实际意义？
- 结论是山核桃的颜色和亮度与其品质具有关联性。对山核桃产业的意义是做了一种无损检测山核桃品质的方法

我们来总结一下：

最重要的结论是：研究者们成功地在山核桃仁的外观变化（颜色和亮度）与内在品质（氧化酸败程度）之间建立了一座数据驱动的桥梁。
对产业的实际意义是：他们提供了一种快速、客观、且不会损伤样品（无损）的自动化方法，来替代传统缓慢、主观的人工筛选。这可以大大提高工厂的生产效率和质量控制水平。

4.应用延申

4.1计算机视觉技术在其他食品质量检测中的应用

它的核心思想——通过外观来判断内在品质——在许多食品领域都有广泛应用。计算机视觉就像一个超级质检员，不知疲倦地检查着颜色、形状、大小和纹理等特征。

我们可以从几个不同的应用方向来探讨。

水果成熟度判断：这和山核桃的氧化等级非常相似。比如，判断一根香蕉 🍌 的成熟阶段，或者筛选出最佳甜度的草莓 🍓。
瑕疵与异物检测：这更侧重于食品安全和品相。比如，在流水线上自动挑出有碰伤的苹果 🍎，或者发现混入坚果中的小石子。
尺寸与形状分级：这主要是为了标准化。比如，根据大小给鸡蛋 🥚 分级，或者将土豆按形状分类以方便后续加工。

4.1.1水果成熟度判断

这个应用和我们刚刚讨论的山核桃氧化问题原理几乎一样。对计算机来说，水果的成熟过程就是一系列外观特征的变化过程。

就拿香蕉 🍌 来说，香蕉从青涩到成熟，颜色从绿变黄，熟透了还会出现褐色的斑点（梅纳反应的产物）。

对计算机来说，这些视觉变化都可以被量化成具体的数据。比如，它“看到”的绿色和黄色，其实是不同的RGB颜色值。模型通过学习成千上万张图片，就能建立起“这种特定的黄色调，有95%的概率是成熟可销售的香蕉”这样的判断标准。

人眼也能轻易地看到这些变化。那么，你认为在工厂流水线上，用计算机和摄像头来判断成千上万根香蕉的成熟度，相比于用人眼，可能会有什么优势呢？
- 人眼误判率高而且主观性强，用计算机和摄像头成本也相对比较低

这正是计算机视觉技术的核心优势。我们来总结一下：

客观和一致 ⚙️：计算机没有情绪，也不会疲劳。它对每一根香蕉都使用完全相同的标准，避免了人为主观判断带来的误差。
高速和规模化 🚀：一条生产线每小时可以处理成千上万个水果，这是人力远不能及的，大大提高了效率。
数据化精准 📊：计算机可以识别出人眼难以察觉的细微颜色差异。它能将成熟度量化为具体的数据，而不仅仅是“看起来差不多黄了”这种模糊的感觉。

那么，我们来想一想这个过程中的挑战。如果我们想训练一个模型来识别草莓 🍓 的成熟度，仅仅给它看“成熟草莓”和“未熟草莓”的照片就足够了吗？为什么？

提示：一颗草莓 🍓 可能底部鲜红（成熟），但靠近顶部的果肩部分还是白色或青色的（未熟）。

所以，如果我们想训练一个非常精准的模型，你认为更好的方法是：

只给模型看“成熟”和“未熟”两类图片，希望它自己能弄明白其中的复杂性？
还是创建更精细的分类，比如“未熟”、“七成熟”、“全熟”和“过于成熟”？

创建更精细的分类是训练一个更强大、更有用模型的好方法。

一个只能判断“成熟/未熟”的模型，能做出的决定很有限。但一个能分辨“七成熟”、“全熟”和“过于成熟”的模型，就能帮助生产者做出更复杂的商业决策。

想象一下，如果你是草莓果农，对于“七成熟”的草莓和“全熟”的草莓，你会分别把它们送去哪里销售呢？
- 七成熟的草莓我会拿去网上销售，因为运输过程中给了草莓继续成熟的时间。而全熟的草莓我会拿去市场上销售。

这正是一个完美的商业应用案例！

七成熟的草莓 🍓 -> 送往需要运输时间的远方市场或电商平台。
全熟的草莓 🍓 -> 直接送到本地市场或加工厂，因为它们需要尽快销售或食用。

一个精准的计算机视觉系统就能在流水线上自动完成这个分拣工作，将不同成熟度的草莓分到不同的传送带上，实现精细化管理。

我们已经探讨了通过颜色判断成熟度。除了颜色，计算机视觉还能检测形状和纹理。

4.1.2瑕疵与异物检测

这个应用的核心，是教会计算机玩一个非常高级的“找不同”游戏。它需要在一大堆看起来差不多的东西里，瞬间发现那个“不对劲”的家伙。

想象一下，一条传送带上快速地滚过成千上万颗苹果 🍎。我们的任务是自动挑出那些有碰伤或虫眼儿的。

那么，在教计算机识别一颗“坏”苹果之前，我们必须先让它对什么有一个非常清晰、深刻的认识？
- 对好苹果有非常清晰深刻的认识

模型必须先学习什么是“正常的”或“完美的”苹果。这就像训练一个保安 👮‍，你不会给他看所有坏人的照片，而是让他先记住所有员工的脸。任何不匹配的脸，就是需要警惕的陌生人。

在这个例子里，“好苹果”就是“员工”，而碰伤、虫眼、霉斑等瑕疵就是“陌生人”。模型通过学习海量的完美苹果图片，掌握了“正常”的标准，任何偏离这个标准的特征都会被识别出来。

现在我们知道了模型的工作原理。那么，除了碰伤和虫眼，你还能想到哪些水果或蔬菜上常见的，可以用计算机视觉来检测的瑕疵或异物吗？
- 区分坚果中的小石头

在坚果加工厂里，混入小石子或金属碎片是常见且危险的问题。

我们还是用“找不同”的思路来分析。假设我们正在处理一大堆杏仁，里面可能混有颜色和大小都差不多的小石子。

除了颜色之外，如果让你描述一颗杏仁和一颗小石头的区别，你会从哪些方面入手？
- 杏仁可能外观上都趋近于一个固定的样式，而小石头以不规则的形状为主

杏仁 🌰 的形状相对统一，而石头的形状则千奇百怪。这种形状的一致性正是计算机可以学习的关键特征之一。

除了整体形状，我们再来想一个更细微的特征。杏仁的表面和石头的表面，它们看起来有什么不同？比如在纹理和反光上？
- 杏仁的纹理更有规律，也更容易受到反光

这正是计算机可以利用的细微线索。

纹理 (Texture) ✍️：杏仁的表皮有细微、相对规律的褶皱和纹路。而石头的纹理通常更粗糙、更随机。摄像头 📷 捕捉到的这些像素模式是完全不同的。
反光 (Reflectance) ✨：杏仁表面带有一点天然的油性光泽，在光线下会产生特定的高光。而大多数小石头表面是哑光的，不会那样反光。

所以，一个先进的检测系统不仅仅是看颜色和形状，它还会分析这些更高级的特征。通过结合颜色、形状、纹理和反光特性，模型就能非常精准地把混在杏仁 🌰 里的小石头 🪨 识别出来并剔除。

我们已经探讨了如何利用计算机视觉技术来判断水果成熟度和检测瑕疵异物。这两者都属于质量控制的范畴。

4.1.3尺寸与形状分级

这就像给产品“排队”一样，不是按好坏，而是按“高矮胖瘦”。一个最经典的例子就是给鸡蛋 🥚 分级。我们在超市里会看到标有“大号”、“中号”的鸡蛋盒。

你认为，对于消费者或者烘焙店来说，购买规格统一的鸡蛋有什么好处呢？为什么他们需要知道鸡蛋的精确大小？
- 购买规格统一的鸡蛋对消费者来说便于储存，对烘培店来说可以控制产品出品质量。

对于消费者 👨‍🍳：尤其是在烘焙时，食谱通常要求使用“大号”或“中号”鸡蛋。规格统一能保证食谱的准确性，从而控制出品质量。
对于生产者 🏭：能够对产品进行标准化定价和包装，满足不同市场的需求。

我们知道了“为什么”要分级。现在来思考“怎么做”。

如果一个摄像头 📷 从传送带正上方往下看，它无法称重。那么，它能通过分析鸡蛋的图像来获得哪些信息，从而判断它的大小呢？

鸡蛋的宽度和高度，然后根据一些算法来判断出这个鸡蛋的大小

计算机视觉系统就是这么做的。摄像头 📷 捕捉到鸡蛋的二维图像，然后：

测量尺寸：计算出图像中鸡蛋的轮廓、长度（高度）和宽度。
估算大小：通过分析成千上万个样本，系统能建立起一个模型，将这些二维尺寸与鸡蛋的实际重量或体积等级（如大、中、小）对应起来。

这个方法在鸡蛋 🥚 躺平的时候非常有效。但我们来思考一个实际生产中可能出现的小问题：

如果一颗鸡蛋在传送带上不是平躺着，而是稍微倾斜，甚至是立起来的，那么摄像头从正上方拍到的图像，它的长度和宽度测量值会发生什么变化？
- 会出现不符合正态分布的异常值

你说得完全正确。倾斜的鸡蛋在俯拍图像中确实会变成一个“异常值”，它会显得比实际更“矮”也更“胖”。

这是一个在实际应用中必须解决的工程问题。

既然一个从上往下的摄像头不够可靠，我们可以在摄像头设置上做一个什么样的简单改变，来获得更完整的鸡蛋形状信息呢？
- 把摄像头放在传送带的侧面

在传送带侧面增加一个摄像头 📸，我们就能获得一个完美的侧面轮廓，从而准确测量鸡蛋的高度，无论它如何倾斜。

现在，我们把这两个摄像头结合起来：一个在顶部，一个在侧面。如果我们把这两个视图（顶视图和侧视图）的信息整合在一起，我们能得到关于鸡蛋的什么信息呢？

鸡蛋的三维图像信息

通过整合顶部和侧面的视图，我们就能重建出鸡蛋的三维轮廓信息。

我们现在有了更完整的形状数据，而不再是单一角度的投影。那么，有了这个更准确的三D轮廓，我们就能更精确地估算出鸡蛋的体积，从而实现更可靠的分级。

体积和重量是直接相关的，所以通过计算体积，计算机系统就能实现比二维图像更可靠、更精确的大小分级。

我们已经一起探讨了计算机视觉在食品行业的三个主要应用：

成熟度判断 🍌🍓
瑕疵与异物检测 🍎🪨
标准化分级 🥚🥔

这些技术正在改变食品加工的方式。

微信扫描下方的二维码阅读本文

1.研究背景