Phenology/Doc/Documents/Papers/3.md

75 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 3
Crop: tomato
Date of Lecture: 16 de julio de 2025
Link: https://arxiv.org/pdf/2307.01530
Name: Tomato Maturity Recognition with Convolutional
Transformers
Type: Maturity
## 1. Obiettivo e motivazione
Gli autori affrontano il problema della **classificazione automatica del grado di maturazione dei pomodori** (verdi, mediamente maturi e maturi) sulla base di immagini RGB scattate in serre reali, con illuminazione variabile, occlusioni e telecamere mobili. Ciò è fondamentale per automatizzare la raccolta selettiva, il confezionamento e il controllo qualità, riducendo i costi e i danni al frutto.
## 2. Contributi principali
1. **Architettura ibrida “Convolutional Transformer”**
- Combina un **encoder convoluzionale** (che estrae caratteristiche locali e contestuali) con un **transformer** di visione (che cattura le relazioni globali tra le porzioni dell'immagine) e un **decoder** che ricostruisce la segmentazione per pixel in tre classi di maturità.
1. **Nuovo dataset KUTomaData**
- ~700 immagini reali di serre ad Abu Dhabi, con pomodori in tre fasi di maturità, diverse condizioni di luce e livelli di occlusione.
2. **Funzione di perdita Lt**
- Combina due termini (una variante del coefficiente di Sørensen-Dice e l'entropia incrociata con la “temperatura”) per affrontare lo squilibrio sfondo/frutto e ottenere una convergenza più stabile durante l'addestramento.
## 3. Architettura del modello
1. **Blocco Encoder**
- 5 livelli di convoluzioni con blocchi residui e di conservazione della forma.
- Genera mappe di caratteristiche ricche di dettagli strutturali e contestuali.
2. **Blocco Transformer**
- L'immagine viene suddivisa in patch, a cui vengono aggiunti embedding posizionali e vengono elaborati con **3 livelli** di attenzione multi-head.
- Rafforza la capacità di distinguere tra le fasi di maturità in base al contesto e al colore globale.
3. **Blocco Decoder**
- Ricostruisce la segmentazione con livelli di **max-unpooling**, ridimensionamento e connessioni saltate (skip connections).
- Applica softmax finale per etichettare ogni pixel come “verde”, “mediamente maturo” o “maturo”.
## 4. Dataset utilizzati
- **KUTomaData**: Principale, ~700 immagini con annotazioni di tre classi di maturità.
- **Laboro Tomato**: 1.005 immagini per la segmentazione di istanze, con pomodori di diverse dimensioni.
- **Rob2Pheno**: RGBD (colore + profondità) di serra, 994 immagini annotate di frutti.
---
## 5. Metriche e risultati chiave
| Dataset | mIoU | Coeff. Dice | mAP | AUC |
| --- | --- | --- | --- | --- |
| **KUTomaData** | 0,624 | 0,769 | 0,581 | 0,738 |
| **Laboro** | 0,695 | 0,820 | 0,654 | 0,742 |
| **Rob2Pheno** | 0,734 | 0,847 | 0,664 | 0,825 |
- In tutti i casi supera UNet, SegNet, PSPNet, SegFormer e altri modelli presenti in letteratura.
- Dimostra robustezza di fronte a occlusioni complesse e variazioni di illuminazione.
---
## 6. Studi di ablazione
1. **Con vs. senza trasformatore**: l'aggiunta del blocco di attenzione migliora il mIoU del 3-4%.
2. **Backbone a confronto**: HRNet, EfficientNet, ResNet... ma il proprio encoder ha vinto in tutte le metriche.
3. **Parametri ottimali**:
- β₁=0,9, β₂=0,1 per la perdita Lt.
- Temperatura τ=1,5 per smussare le probabilità.
---
## 7. Applicazioni pratiche
- **Robot per la raccolta**: rilevamento in tempo reale dei frutti maturi per il pick & place.
- **Classificazione degli imballaggi**: selezione automatica in base alla maturità per l'esportazione.
- **Monitoraggio delle colture**: monitoraggio fenologico senza danneggiare il frutto e senza richiedere sensori costosi.
---
### Conclusione
Questo lavoro dimostra che un **modello ibrido CNN + Transformer** è in grado di classificare con elevata precisione lo stato di maturazione dei pomodori utilizzando **solo immagini RGB**, in condizioni reali di serra. Inoltre, fornisce un prezioso set di dati (KUTomaData) e una nuova funzione di perdita che ne facilitano l'adozione in sistemi agricoli autonomi.