75 lines
4.0 KiB
Markdown
75 lines
4.0 KiB
Markdown
# 3
|
||
|
||
Crop: tomato
|
||
Date of Lecture: 16 de julio de 2025
|
||
Link: https://arxiv.org/pdf/2307.01530
|
||
Name: Tomato Maturity Recognition with Convolutional
|
||
Transformers
|
||
Type: Maturity
|
||
|
||
## 1. Obiettivo e motivazione
|
||
|
||
Gli autori affrontano il problema della **classificazione automatica del grado di maturazione dei pomodori** (verdi, mediamente maturi e maturi) sulla base di immagini RGB scattate in serre reali, con illuminazione variabile, occlusioni e telecamere mobili. Ciò è fondamentale per automatizzare la raccolta selettiva, il confezionamento e il controllo qualità, riducendo i costi e i danni al frutto.
|
||
|
||
## 2. Contributi principali
|
||
|
||
1. **Architettura ibrida “Convolutional Transformer”**
|
||
- Combina un **encoder convoluzionale** (che estrae caratteristiche locali e contestuali) con un **transformer** di visione (che cattura le relazioni globali tra le porzioni dell'immagine) e un **decoder** che ricostruisce la segmentazione per pixel in tre classi di maturità.
|
||
1. **Nuovo dataset KUTomaData**
|
||
- ~700 immagini reali di serre ad Abu Dhabi, con pomodori in tre fasi di maturità, diverse condizioni di luce e livelli di occlusione.
|
||
2. **Funzione di perdita Lt**
|
||
- Combina due termini (una variante del coefficiente di Sørensen-Dice e l'entropia incrociata con la “temperatura”) per affrontare lo squilibrio sfondo/frutto e ottenere una convergenza più stabile durante l'addestramento.
|
||
|
||
## 3. Architettura del modello
|
||
|
||
1. **Blocco Encoder**
|
||
- 5 livelli di convoluzioni con blocchi residui e di conservazione della forma.
|
||
- Genera mappe di caratteristiche ricche di dettagli strutturali e contestuali.
|
||
2. **Blocco Transformer**
|
||
- L'immagine viene suddivisa in patch, a cui vengono aggiunti embedding posizionali e vengono elaborati con **3 livelli** di attenzione multi-head.
|
||
- Rafforza la capacità di distinguere tra le fasi di maturità in base al contesto e al colore globale.
|
||
3. **Blocco Decoder**
|
||
- Ricostruisce la segmentazione con livelli di **max-unpooling**, ridimensionamento e connessioni saltate (skip connections).
|
||
- Applica softmax finale per etichettare ogni pixel come “verde”, “mediamente maturo” o “maturo”.
|
||
|
||
## 4. Dataset utilizzati
|
||
|
||
- **KUTomaData**: Principale, ~700 immagini con annotazioni di tre classi di maturità.
|
||
- **Laboro Tomato**: 1.005 immagini per la segmentazione di istanze, con pomodori di diverse dimensioni.
|
||
- **Rob2Pheno**: RGB‑D (colore + profondità) di serra, 994 immagini annotate di frutti.
|
||
|
||
---
|
||
|
||
## 5. Metriche e risultati chiave
|
||
|
||
| Dataset | mIoU | Coeff. Dice | mAP | AUC |
|
||
| --- | --- | --- | --- | --- |
|
||
| **KUTomaData** | 0,624 | 0,769 | 0,581 | 0,738 |
|
||
| **Laboro** | 0,695 | 0,820 | 0,654 | 0,742 |
|
||
| **Rob2Pheno** | 0,734 | 0,847 | 0,664 | 0,825 |
|
||
- In tutti i casi supera U‑Net, SegNet, PSPNet, SegFormer e altri modelli presenti in letteratura.
|
||
- Dimostra robustezza di fronte a occlusioni complesse e variazioni di illuminazione.
|
||
|
||
---
|
||
|
||
## 6. Studi di ablazione
|
||
|
||
1. **Con vs. senza trasformatore**: l'aggiunta del blocco di attenzione migliora il mIoU del 3-4%.
|
||
2. **Backbone a confronto**: HRNet, EfficientNet, ResNet... ma il proprio encoder ha vinto in tutte le metriche.
|
||
3. **Parametri ottimali**:
|
||
- β₁=0,9, β₂=0,1 per la perdita Lt.
|
||
- Temperatura τ=1,5 per smussare le probabilità.
|
||
|
||
---
|
||
|
||
## 7. Applicazioni pratiche
|
||
|
||
- **Robot per la raccolta**: rilevamento in tempo reale dei frutti maturi per il pick & place.
|
||
- **Classificazione degli imballaggi**: selezione automatica in base alla maturità per l'esportazione.
|
||
- **Monitoraggio delle colture**: monitoraggio fenologico senza danneggiare il frutto e senza richiedere sensori costosi.
|
||
|
||
---
|
||
|
||
### Conclusione
|
||
|
||
Questo lavoro dimostra che un **modello ibrido CNN + Transformer** è in grado di classificare con elevata precisione lo stato di maturazione dei pomodori utilizzando **solo immagini RGB**, in condizioni reali di serra. Inoltre, fornisce un prezioso set di dati (KUTomaData) e una nuova funzione di perdita che ne facilitano l'adozione in sistemi agricoli autonomi. |