Un due - Guangzhou CMM Co., Ltd

Rapporti scientifici volume 13, numero articolo: 12846 (2023) Citare questo articolo

258 accessi

2 Altmetrico

Dettagli sulle metriche

Questo lavoro ha proposto KidneyRegNet, una nuova pipeline di registrazione profonda per scansioni renali 3D CT e 2D U/S della respirazione libera, che comprende una rete di funzionalità e una rete di registrazione 3D-2D basata su CNN. La rete di funzionalità dispone di livelli di texture realizzati artigianalmente per ridurre il divario semantico. La rete di registrazione è una struttura codificatore-decodificatore con perdita di funzionalità-immagine-movimento (FIM), che consente la regressione gerarchica a livello di decodificatore ed evita la concatenazione di reti multiple. È stato prima addestrato con un set di dati retrospettivo con una strategia di generazione di dati di addestramento e quindi adattato ai dati specifici del paziente mediante apprendimento di trasferimento a ciclo unico non supervisionato in applicazioni in loco. L'esperimento è stato eseguito su 132 sequenze U/S, 39 immagini CT multifase e 210 immagini CT monofase pubbliche e 25 coppie di sequenze CT e U/S. Ciò ha comportato una distanza media del contorno (MCD) di 0,94 mm tra i reni sulle immagini TC e U/S e una MCD di 1,15 mm sulle immagini TC e TC di riferimento. I set di dati con piccole trasformazioni hanno prodotto MCD rispettivamente di 0,82 e 1,02 mm. Grandi trasformazioni hanno prodotto MCD rispettivamente di 1,10 e 1,28 mm. Questo lavoro ha affrontato le difficoltà nella registrazione renale 3DCT-2DUS durante la respirazione libera tramite nuove strutture di rete e strategie di allenamento.

La registrazione delle immagini mediche è un processo che allinea un'immagine a un'altra proveniente dalla stessa o diversa modalità. Questa immagine allineata contiene più informazioni spazio-temporali, che sono importanti per applicazioni come la chirurgia guidata da immagini1, il monitoraggio delle malattie2 e la previsione del rischio3. La registrazione tra immagini della stessa modalità è una registrazione monomodale, mentre la registrazione tra immagini di modalità diverse è una registrazione multimodale. Diverse tecniche di imaging sono sensibili a diversi tessuti del corpo. Pertanto, le immagini di modalità diverse devono essere registrate tra loro per fornire informazioni complementari. Tuttavia, questo è difficile a causa della complessa relazione tra le intensità delle strutture corrispondenti nelle due immagini. Le immagini ad ultrasuoni (U/S) sono particolarmente impegnative a causa del loro ampio movimento, del campo visivo ridotto e della bassa qualità di scansione. Tuttavia, è necessaria la registrazione 3D–2D. Il potenziale del deep learning su tali questioni non è stato pienamente raggiunto4. In questo lavoro, abbiamo proposto un metodo di deep learning in due fasi per indirizzare la registrazione renale dalla tomografia computerizzata 3D (CT) all'ecografia 2D (3DCT-2DUS).

I metodi allo stato dell'arte (SOTA)5 possono essere classificati come registrazione supervisionata, debolmente supervisionata e non supervisionata, secondo la strategia di apprendimento o la registrazione delle immagini basata su rete neurale convoluzionale (CNN), basata su rete avversaria profonda e basata su trasformatore, secondo l'architettura di rete di base. La registrazione supervisionata 6 è addestrata a prevedere la trasformazione utilizzando immagini e le loro trasformazioni reali. La registrazione scarsamente supervisionata7,8,9 utilizza segmentazioni sovrapposte di strutture anatomiche come una funzione di perdita, che riduce le limitazioni associate ai dati di verità di base. La registrazione non supervisionata10,11,12,13,14,15 viene addestrata minimizzando una misura di dissomiglianza data una serie di immagini e non necessita di trasformazioni di verità. La registrazione delle immagini basata sulla CNN16,17 addestra un'architettura CNN progettata e apprende la mappatura tra le immagini di input e i campi di deformazione. La registrazione profonda delle immagini contraddittorie18,19 consiste in una rete di generatori e una rete di discriminatori. La rete del generatore è addestrata a generare trasformazioni e la rete del discriminatore apprende la metrica di somiglianza per garantire che le trasformazioni generate siano realistiche o che le immagini di input siano ben registrate. La registrazione basata su Vision Transformer (ViT)20,21,22,23,24 apprende le relazioni intrinseche tra i dati attraverso il meccanismo di attenzione. La nostra soluzione è la registrazione non supervisionata basata sulla CNN. Ci riferiamo alla registrazione come apprendimento non supervisionato perché la sottorete di registrazione è sottoposta ad addestramento non supervisionato. Le sottoreti delle funzionalità vengono addestrate separatamente e non specificamente per l'attività di registrazione. Sono estrattori di funzionalità indipendenti e le funzionalità universali sono applicabili anche alla nostra soluzione.