Phenology/Doc/Documents/Papers/3.md

4.0 KiB
Raw Permalink Blame History

3

Crop: tomato Date of Lecture: 16 de julio de 2025 Link: https://arxiv.org/pdf/2307.01530 Name: Tomato Maturity Recognition with Convolutional Transformers Type: Maturity

1. Obiettivo e motivazione

Gli autori affrontano il problema della classificazione automatica del grado di maturazione dei pomodori (verdi, mediamente maturi e maturi) sulla base di immagini RGB scattate in serre reali, con illuminazione variabile, occlusioni e telecamere mobili. Ciò è fondamentale per automatizzare la raccolta selettiva, il confezionamento e il controllo qualità, riducendo i costi e i danni al frutto.

2. Contributi principali

  1. Architettura ibrida “Convolutional Transformer”
  • Combina un encoder convoluzionale (che estrae caratteristiche locali e contestuali) con un transformer di visione (che cattura le relazioni globali tra le porzioni dell'immagine) e un decoder che ricostruisce la segmentazione per pixel in tre classi di maturità.
  1. Nuovo dataset KUTomaData
    • ~700 immagini reali di serre ad Abu Dhabi, con pomodori in tre fasi di maturità, diverse condizioni di luce e livelli di occlusione.
  2. Funzione di perdita Lt
  • Combina due termini (una variante del coefficiente di Sørensen-Dice e l'entropia incrociata con la “temperatura”) per affrontare lo squilibrio sfondo/frutto e ottenere una convergenza più stabile durante l'addestramento.

3. Architettura del modello

  1. Blocco Encoder
    • 5 livelli di convoluzioni con blocchi residui e di conservazione della forma.
    • Genera mappe di caratteristiche ricche di dettagli strutturali e contestuali.
  2. Blocco Transformer
    • L'immagine viene suddivisa in patch, a cui vengono aggiunti embedding posizionali e vengono elaborati con 3 livelli di attenzione multi-head.
    • Rafforza la capacità di distinguere tra le fasi di maturità in base al contesto e al colore globale.
  3. Blocco Decoder
    • Ricostruisce la segmentazione con livelli di max-unpooling, ridimensionamento e connessioni saltate (skip connections).
    • Applica softmax finale per etichettare ogni pixel come “verde”, “mediamente maturo” o “maturo”.

4. Dataset utilizzati

  • KUTomaData: Principale, ~700 immagini con annotazioni di tre classi di maturità.
  • Laboro Tomato: 1.005 immagini per la segmentazione di istanze, con pomodori di diverse dimensioni.
  • Rob2Pheno: RGBD (colore + profondità) di serra, 994 immagini annotate di frutti.

5. Metriche e risultati chiave

Dataset mIoU Coeff. Dice mAP AUC
KUTomaData 0,624 0,769 0,581 0,738
Laboro 0,695 0,820 0,654 0,742
Rob2Pheno 0,734 0,847 0,664 0,825
  • In tutti i casi supera UNet, SegNet, PSPNet, SegFormer e altri modelli presenti in letteratura.
  • Dimostra robustezza di fronte a occlusioni complesse e variazioni di illuminazione.

6. Studi di ablazione

  1. Con vs. senza trasformatore: l'aggiunta del blocco di attenzione migliora il mIoU del 3-4%.
  2. Backbone a confronto: HRNet, EfficientNet, ResNet... ma il proprio encoder ha vinto in tutte le metriche.
  3. Parametri ottimali:
  • β₁=0,9, β₂=0,1 per la perdita Lt.
  • Temperatura τ=1,5 per smussare le probabilità.

7. Applicazioni pratiche

  • Robot per la raccolta: rilevamento in tempo reale dei frutti maturi per il pick & place.
  • Classificazione degli imballaggi: selezione automatica in base alla maturità per l'esportazione.
  • Monitoraggio delle colture: monitoraggio fenologico senza danneggiare il frutto e senza richiedere sensori costosi.

Conclusione

Questo lavoro dimostra che un modello ibrido CNN + Transformer è in grado di classificare con elevata precisione lo stato di maturazione dei pomodori utilizzando solo immagini RGB, in condizioni reali di serra. Inoltre, fornisce un prezioso set di dati (KUTomaData) e una nuova funzione di perdita che ne facilitano l'adozione in sistemi agricoli autonomi.