# 3 Crop: tomato Date of Lecture: 16 de julio de 2025 Link: https://arxiv.org/pdf/2307.01530 Name: Tomato Maturity Recognition with Convolutional Transformers Type: Maturity ## 1. Obiettivo e motivazione Gli autori affrontano il problema della **classificazione automatica del grado di maturazione dei pomodori** (verdi, mediamente maturi e maturi) sulla base di immagini RGB scattate in serre reali, con illuminazione variabile, occlusioni e telecamere mobili. Ciò è fondamentale per automatizzare la raccolta selettiva, il confezionamento e il controllo qualità, riducendo i costi e i danni al frutto. ## 2. Contributi principali 1. **Architettura ibrida “Convolutional Transformer”** - Combina un **encoder convoluzionale** (che estrae caratteristiche locali e contestuali) con un **transformer** di visione (che cattura le relazioni globali tra le porzioni dell'immagine) e un **decoder** che ricostruisce la segmentazione per pixel in tre classi di maturità. 1. **Nuovo dataset KUTomaData** - ~700 immagini reali di serre ad Abu Dhabi, con pomodori in tre fasi di maturità, diverse condizioni di luce e livelli di occlusione. 2. **Funzione di perdita Lt** - Combina due termini (una variante del coefficiente di Sørensen-Dice e l'entropia incrociata con la “temperatura”) per affrontare lo squilibrio sfondo/frutto e ottenere una convergenza più stabile durante l'addestramento. ## 3. Architettura del modello 1. **Blocco Encoder** - 5 livelli di convoluzioni con blocchi residui e di conservazione della forma. - Genera mappe di caratteristiche ricche di dettagli strutturali e contestuali. 2. **Blocco Transformer** - L'immagine viene suddivisa in patch, a cui vengono aggiunti embedding posizionali e vengono elaborati con **3 livelli** di attenzione multi-head. - Rafforza la capacità di distinguere tra le fasi di maturità in base al contesto e al colore globale. 3. **Blocco Decoder** - Ricostruisce la segmentazione con livelli di **max-unpooling**, ridimensionamento e connessioni saltate (skip connections). - Applica softmax finale per etichettare ogni pixel come “verde”, “mediamente maturo” o “maturo”. ## 4. Dataset utilizzati - **KUTomaData**: Principale, ~700 immagini con annotazioni di tre classi di maturità. - **Laboro Tomato**: 1.005 immagini per la segmentazione di istanze, con pomodori di diverse dimensioni. - **Rob2Pheno**: RGB‑D (colore + profondità) di serra, 994 immagini annotate di frutti. --- ## 5. Metriche e risultati chiave | Dataset | mIoU | Coeff. Dice | mAP | AUC | | --- | --- | --- | --- | --- | | **KUTomaData** | 0,624 | 0,769 | 0,581 | 0,738 | | **Laboro** | 0,695 | 0,820 | 0,654 | 0,742 | | **Rob2Pheno** | 0,734 | 0,847 | 0,664 | 0,825 | - In tutti i casi supera U‑Net, SegNet, PSPNet, SegFormer e altri modelli presenti in letteratura. - Dimostra robustezza di fronte a occlusioni complesse e variazioni di illuminazione. --- ## 6. Studi di ablazione 1. **Con vs. senza trasformatore**: l'aggiunta del blocco di attenzione migliora il mIoU del 3-4%. 2. **Backbone a confronto**: HRNet, EfficientNet, ResNet... ma il proprio encoder ha vinto in tutte le metriche. 3. **Parametri ottimali**: - β₁=0,9, β₂=0,1 per la perdita Lt. - Temperatura τ=1,5 per smussare le probabilità. --- ## 7. Applicazioni pratiche - **Robot per la raccolta**: rilevamento in tempo reale dei frutti maturi per il pick & place. - **Classificazione degli imballaggi**: selezione automatica in base alla maturità per l'esportazione. - **Monitoraggio delle colture**: monitoraggio fenologico senza danneggiare il frutto e senza richiedere sensori costosi. --- ### Conclusione Questo lavoro dimostra che un **modello ibrido CNN + Transformer** è in grado di classificare con elevata precisione lo stato di maturazione dei pomodori utilizzando **solo immagini RGB**, in condizioni reali di serra. Inoltre, fornisce un prezioso set di dati (KUTomaData) e una nuova funzione di perdita che ne facilitano l'adozione in sistemi agricoli autonomi.