4.0 KiB
3
Crop: tomato Date of Lecture: 16 de julio de 2025 Link: https://arxiv.org/pdf/2307.01530 Name: Tomato Maturity Recognition with Convolutional Transformers Type: Maturity
1. Obiettivo e motivazione
Gli autori affrontano il problema della classificazione automatica del grado di maturazione dei pomodori (verdi, mediamente maturi e maturi) sulla base di immagini RGB scattate in serre reali, con illuminazione variabile, occlusioni e telecamere mobili. Ciò è fondamentale per automatizzare la raccolta selettiva, il confezionamento e il controllo qualità, riducendo i costi e i danni al frutto.
2. Contributi principali
- Architettura ibrida “Convolutional Transformer”
- Combina un encoder convoluzionale (che estrae caratteristiche locali e contestuali) con un transformer di visione (che cattura le relazioni globali tra le porzioni dell'immagine) e un decoder che ricostruisce la segmentazione per pixel in tre classi di maturità.
- Nuovo dataset KUTomaData
- ~700 immagini reali di serre ad Abu Dhabi, con pomodori in tre fasi di maturità, diverse condizioni di luce e livelli di occlusione.
- Funzione di perdita Lt
- Combina due termini (una variante del coefficiente di Sørensen-Dice e l'entropia incrociata con la “temperatura”) per affrontare lo squilibrio sfondo/frutto e ottenere una convergenza più stabile durante l'addestramento.
3. Architettura del modello
- Blocco Encoder
- 5 livelli di convoluzioni con blocchi residui e di conservazione della forma.
- Genera mappe di caratteristiche ricche di dettagli strutturali e contestuali.
- Blocco Transformer
- L'immagine viene suddivisa in patch, a cui vengono aggiunti embedding posizionali e vengono elaborati con 3 livelli di attenzione multi-head.
- Rafforza la capacità di distinguere tra le fasi di maturità in base al contesto e al colore globale.
- Blocco Decoder
- Ricostruisce la segmentazione con livelli di max-unpooling, ridimensionamento e connessioni saltate (skip connections).
- Applica softmax finale per etichettare ogni pixel come “verde”, “mediamente maturo” o “maturo”.
4. Dataset utilizzati
- KUTomaData: Principale, ~700 immagini con annotazioni di tre classi di maturità.
- Laboro Tomato: 1.005 immagini per la segmentazione di istanze, con pomodori di diverse dimensioni.
- Rob2Pheno: RGB‑D (colore + profondità) di serra, 994 immagini annotate di frutti.
5. Metriche e risultati chiave
| Dataset | mIoU | Coeff. Dice | mAP | AUC |
|---|---|---|---|---|
| KUTomaData | 0,624 | 0,769 | 0,581 | 0,738 |
| Laboro | 0,695 | 0,820 | 0,654 | 0,742 |
| Rob2Pheno | 0,734 | 0,847 | 0,664 | 0,825 |
- In tutti i casi supera U‑Net, SegNet, PSPNet, SegFormer e altri modelli presenti in letteratura.
- Dimostra robustezza di fronte a occlusioni complesse e variazioni di illuminazione.
6. Studi di ablazione
- Con vs. senza trasformatore: l'aggiunta del blocco di attenzione migliora il mIoU del 3-4%.
- Backbone a confronto: HRNet, EfficientNet, ResNet... ma il proprio encoder ha vinto in tutte le metriche.
- Parametri ottimali:
- β₁=0,9, β₂=0,1 per la perdita Lt.
- Temperatura τ=1,5 per smussare le probabilità.
7. Applicazioni pratiche
- Robot per la raccolta: rilevamento in tempo reale dei frutti maturi per il pick & place.
- Classificazione degli imballaggi: selezione automatica in base alla maturità per l'esportazione.
- Monitoraggio delle colture: monitoraggio fenologico senza danneggiare il frutto e senza richiedere sensori costosi.
Conclusione
Questo lavoro dimostra che un modello ibrido CNN + Transformer è in grado di classificare con elevata precisione lo stato di maturazione dei pomodori utilizzando solo immagini RGB, in condizioni reali di serra. Inoltre, fornisce un prezioso set di dati (KUTomaData) e una nuova funzione di perdita che ne facilitano l'adozione in sistemi agricoli autonomi.