I prodotti della linea HyperluX LP di onsemi, hanno trasformato i sensori di immagine in dispositivi con intelligenza integrata particolarmente adatti per l'uso alla periferia della rete
Grazie a connessioni più veloci, a un ricorso massiccio all’automazione e alla disponibilità di sistemi più “intelligenti”, Industry 4.0 ha contribuito ad accelerare l’adozione dei sistemi di visione nel settore manifatturiero e all’integrazione di un certo livello di intelligenza in ciò che in precedenza erano semplici sistemi di acquisizione dati. I sistemi di visione della generazione precedente acquisivano le immagini, le preparano per l’invio e trasferivano i dati di immagine per la successiva elaborazione “a valle” da parte di dispositivi quali FPGA, ASIC o più costosi SoC (System on Chip). Al giorno d’oggi, Industry 5.0 (che completa il paradigma di Industry 4.0) sta contribuendo all’evoluzione di questo processo, integrando l’intelligenza artificiale (AI) e l’apprendimento automatico (ML – Machine Learning) nell’intero percorso dati e consentendo la personalizzazione di massa. Le telecamere sono diventate “intelligenti”, grazie alla capacità di elaborare i dati dell’immagine a livello dell’applicazione e fornire in uscita solamente i metadati utili per il processo decisionale.
La focalizzazione su ciò che avviene alla periferia della rete (edge) ha rappresentato uno sviluppo cruciale nel passaggio tra queste diverse generazioni di sistemi. Il mondo reale è prevalentemente analogico e un gran numero di sistemi elettronici ed elettromeccanici (EEM - Electronic & Electro-Mechanical) che accompagnano le persone nella vita di tutti i giorni vengono azionati da ingressi di natura sensoriale. I sensori elettronici di visione (luce), temperatura (calore), audio (suoni), prossimità e posizione, pressione (tocchi) posti alla periferia di un sistema acquisiscono questi ingressi fisici e li traducono in dati opportunamente elaborati che conferiscono doti di intelligenza al sistema e semplificano il processo decisionale. D’altra parte, per tradurre in pratica il paradigma di Industry 4.0 era necessaria la disponibilità di sensori caratterizzati di livelli di intelligenza ed efficienza più elevati. Numerosi sensori impiegati in applicazioni diverse da quelle industriali e commerciali sono progressivamente evoluti, gettando le basi per realizzare versioni migliorate che adottano i processi e gli standard tipici di quelli utilizzati nel campo dell’automazione industriale.
L'adozione su larga scala di sensori avviene anche in un momento in cui vi è una crescente richiesta di dispositivi smart a basso consumo alimentati a batteria integrati praticamente ovunque. I consumi comportano l’insorgere di parecchi problemi per i sistemi di visione e le modalità adottate dai sensori di immagine per cercare di risolverli, garantendo nel contempo prestazioni migliori, possono rappresentare un fattore di differenziazione per tali sistemi.
Sensori di immagine: il meccanismo di ingresso per il rilevamento visivo
Il rilevamento visivo è diventato un metodo diffuso per acquisire i dati alla periferia della rete. I dati dell’immagine raccolti possono essere utilizzati per prendere decisioni in modo rapido ed efficiente. In assenza di un sensore di visione, a esempio, gli oggetti presenti in una scena necessitano di innumerevoli e specifici sensori per trasmettere la composizione della scena. Ciò comporta la generazione di una grande mole di dati e un’elaborazione decisamente complessa che, con una certa dose di fortuna, fornisce una rappresentazione fedele della scena. D’altro canto, un’immagine trasmette tutto ciò che è presente in una scena in un unico fotogramma (frame), dando vita a un sistema estremamente efficiente.
Questa facilità di rappresentazione dei dati ha permesso ai sensori di immagine di evolvere a un ritmo accelerato, in modo da supportare prodotti consumer da usare in mobilità come gli smartphone: capaci di assicurare risoluzioni superiori a 100 MP, questi sensori sono supportati da risorse hardware e software che forniscono dettagli e caratteristiche eccellenti sia per le immagini fisse sia per lo streaming video. In questo caso, gli obiettivi sono leggermente differenti per quanto concerne il processo decisionale, in quanto i prodotti per la mobilità vengono impiegati principalmente per l’intrattenimento e per scopi personali. D’altro canto, i sistemi di visione per applicazioni in ambito automotive, industriale e commerciale devono conseguire obiettivi ben definiti, e molti di essi utilizzano le uscite (dei sensori) per prendere decisioni automatizzate e richiedono un accurato bilanciamento tra risoluzione, velocità di acquisizione (frame rate) e consumi.
Al crescere dell’importanza dell’intelligenza alla periferia, queste applicazioni devono adattarsi per soddisfare le esigenze di differenti casi d’uso. Ora sono necessarie risoluzioni più spinte e prestazioni complessive migliori per supportare adeguatamente i sistemi decisionali utilizzati nel campo dell’automazione e della visione artificiale (sia che si tratti di Computer Vision, ovvero della tecnologia che permette ai computer di ottenere una migliore comprensione delle immagini digitali, oppure di Machine Vision, la tecnologia che permette alle apparecchiature di vedere e interpretare l’ambiente che le circonda). In parecchi casi, una maggior ricchezza di dettagli è sicuramente molto apprezzata, in quanto fornisce le sfaccettature necessarie per minimizzare il rischio di decisione errate. Al crescere della risoluzione, aumenta il numero di pixel di un sensore di immagine e, di conseguenza, i dati di immagine forniti dal sensore al processore ISP (Image Signal Processor) o al SoC (System on Chip). L’enorme quantità di dati di immagine proveniente dal sensore e la loro elaborazione da parte del processore ISP (o del SoC) si traduce in un elevato consumo di energia, che rappresenta un problema di notevole entità per il progetto del sistema di visione. (Figura 1)
I progettisti devono quindi tenere in considerazione fattori quali necessità di fornire potenze elevate, alti consumi e costi di una BoM (Bill of Material) del sistema che prevede componenti elettronici che devono gestire potenze elevate. Sebbene la riduzione dei consumi sia una tendenza generalizzata, la gestione termica rappresenta un problema in quanto la maggior parte dei sistemi visione utilizza un flusso d'aria convettivo per dissipare il calore generato nei sistemi stessi. I sensori di immagine sono particolarmente sensibili al calore e qualsiasi carenza a livello di scelte progettuali e di gestione efficiente dei fattori sopra menzionati può portare alla realizzazione di un sistema di visione non affidabile.
Efficienza quantica: il fattore chiave
L'efficienza quantica (QE - Quantum Efficiency) di un sensore di immagine definisce la capacità del suo fotodiodo di ottimizzare la conversione dei fotoni incidenti in elettroni. È un fatto risaputo che maggiore è il QE, migliore sarà la luminosità dell'immagine. Un'elevata efficienza quantica, un fattore estremamente importante in applicazioni in condizioni di scarsa illuminazione, è solitamente ottenuta mediante pixel di maggiori dimensioni oppure integrando la scena con un'illuminazione visibile o invisibile. In entrambi i casi, per i sistemi di visione ciò comporta un aggravio in termini di costi, consumi e ingombri, che potrebbe aumentare in maniera esponenziale in funzione delle caratteristiche del sensore di immagine e delle condizioni della scena. (Figura 2)
Questo problema risulta particolarmente critico nel caso dell'illuminazione invisibile che solitamente utilizza LED IR (a infrarossi) che generano luce con lunghezze d'onda comprese tra 850 e 940 nm, un intervallo che viene rilevato dai sensori di immagine ma non dall'occhio umano. Nel settore questa viene generalmente definita “illuminazione attiva”. I LED IR consumano energia e quindi devono essere alimentati, sono caratterizzati da ingombri significativi e contribuiscono ad aumentare il costo della BoM. Un sensore di immagine caratterizzato da un'elevata efficienza quantica nello spettro del vicino infrarosso (NIR) permette di ridurre il numero di LED richiesti, l'intensità luminosa e il costo complessivo della BoM senza per questo compromettere la qualità dell'immagine.
Qualità dell'immagine più elevata per ridurre il TCO complessivo
È importante assicurarsi che l'elevata efficienza quantica fornita dal pixel del sensore d'immagine non sia influenzata dal rumore presente nel resto del percorso dei dati, compromettendo la qualità complessiva dell'immagine. Ad esempio, se l'architettura dei pixel non prevede un sufficiente isolamento dei diversi pixel, la diafonia tra i pixel potrebbe ridurre la funzione di trasferimento della modulazione (MTF - Modular Transfer Function, che fornisce informazioni circa la risoluzione delle immagini) e il contrasto/la nitidezza degli oggetti dell'immagine, compromettendo in ultima analisi la qualità della stessa. Un altro problema potrebbe essere causato da un circuito di lettura inadeguato, con conseguente rumore di lettura elevato.
La scarsa qualità dell’immagine comporta un carico di lavoro aggiuntivo per il processore ISP o il SoC, il che comporta una riduzione della velocità di acquisizione (frame rate) complessiva del sistema di visione, oppure la necessità di operare a una frequenza di clock più elevata per mantenere la medesima sincronizzazione “end-to-end”. Nel primo caso il sistema di visione risulta sostanzialmente inefficiente e, in entrambe le situazioni, i consumi del sistema risultano più elevati. Per poter gestire in maniera adeguata il carico di elaborazione, potrebbe essere necessario ricorrere a un ISP/SoC con caratteristiche avanzate, con conseguente aumento del costo complessivo della BoM.
Un’immagine di qualità superiore permetterebbe di attenuare queste problematiche e ridurre il TCO (Total Cost of Owership) complessivo del sistema di visione.
Modalità di sotto-campionamento
I sensori di immagine come quelli di onsemi (un esempio è rappresentato dalla famiglia di prodotti Hyperlux LP) sono stati sviluppati tenendo conto di queste esigenze operative e integrano un’ampia gamma di modalità di sotto-campionamento. Tali modalità, come Binning, Cropping e Skipping, riducono in modo sostanziale l’ampiezza di banda generata e trasmessa. (Figura 3)
Queste funzionalità contribuiscono a rendere più “intelligente” il sistema di visione, consentendo di scegliere i profili consumi/prestazioni ottimali in base alle esigenze della particolare applicazione considerata. Nel caso di uno scanner biometrico, a esempio, un singolo sistema con un array di sensori da 5 MP può ora essere utilizzato per eseguire scansioni in maniera incrementale, partendo dalla scansione di un singolo dito in modalità sotto-campionata fino ad arrivare a una scansione facciale alla massima risoluzione. L’aspetto più importante, comunque, è la riduzione dei dati che l’ISP/SoC deve elaborare, con conseguente riduzione dei consumi, sia dell’ISP/SoC sia dell'intero sistema di visione.
I vantaggi dello scaling
I sensori di immagine con risoluzioni maggiori generano un’ampiezza di banda elevata. A esempio, un sensore da 20 MP operante a 60 fps (frame per secondo) trasferirà 12 Gbps di dati di immagine che devono essere gestiti in maniera idonea non solo attraverso le interfacce ad alta velocità del sensore, ma anche da parte dell’ISP/SoC che li riceve. L’elaborazione di una tale quantità di dati richiede la presenza di risorse dedicate e costose all’interno di questi engine di calcolo, l’erogazione di potenza e può dar luogo a problemi per quel che concerne i consumi e, quindi, la gestione termica. Oltre a ciò, le limitazioni relative alle velocità di interfacciamento rappresentano un ulteriore problema.
Nella maggior parte delle applicazioni, è assai probabile che la massima risoluzione alla massima velocità operativa sia richiesta solamente per una frazione del tempo di funzionamento, mentre per il tempo rimanente è sufficiente una risoluzione inferiore. Sebbene le modalità di sotto-campionamento possano ridurre l’ampiezza di banda e assicurare alcuni vantaggi, debbono sottostare ad alcuni vincoli per quanto concerne la scelta della risoluzione e la completezza della scena.
Gli scaler (usati per adattare la risoluzione) presenti all’interno del sensore rappresentano un mezzo utile per superare questi vincoli e soddisfare in maniera efficace le esigenze delle operazioni a più bassa risoluzione. Essi permettono di controllare l’ampiezza di banda direttamente alla fonte invece di essere gestiti dall’ISP/SoC. Gli scaler assicurano la massima flessibilità in termini di granularità, pur preservando la completezza del campo visivo (FOV – Field of View). Gli algoritmi di scaling possono essere anche molto sofisticati, come quelli del sensore di immagine AR2020 di onsemi – il dispositivo da 20 MP della serie Hyperlux LP - in grado quindi di garantire una qualità dell’immagine decisamente superiore anche con risoluzioni notevolmente ridotte. Ad esempio, mentre una risoluzione di 20 MP è sicuramente necessaria per acquisire i dettagli di un oggetto posto a una certa distanza, questi potrebbero essere necessari solo in una particolare regione dell'immagine, non nell'intera immagine. Mediante operazioni di cropping (ritaglio) o dimensionamento (scaling) effettuate solamente in questa regione definita in modo dinamico è possibile ottenere i vantaggi tipici di un sensore da 20 MP, senza per questo dover elaborare costantemente tutta la mole di dati generati da un sensore di questo tipo. (Figura 4)
Modalità WOM (Wake on Motion) per minimizzare i consumi
Il sensore può trovarsi in uno stato operativo “ridotto” - ovvero con bassa risoluzione e velocità di acquisizione limitata - per la maggior parte del tempo di funzionamento. Esso passa a una configurazione predeterminata nel momento in cui viene rilevato un movimento: tale modalità viene indicata con l’acronimo WOM (Wake on Motion). Il sensore di immagine ha questa capacità intrinseca di risolvere questi cambiamenti e permettere all'ISP/SoC di commutarlo nella configurazione/modalità desiderata. Esso, inoltre, è in grado di mascherare le regioni nelle quali il movimento non è rilevante per l'applicazione: grazie a tale caratteristica, sia il sensore sia il sistema di visione risultano più focalizzati ed efficienti. In precedenza, tale funzione veniva svolta nel processore: l'esecuzione nel sensore permette di ridurre il numero di risorse del sistema richieste e i consumi. (Figura 5)
Il notevole impatto di tali funzionalità risulta particolarmente evidente nelle applicazioni alimentate a batteria, come i sistemi di accesso “intelligenti”, gli scanner per la vendita al dettaglio, i sistemi di monitoraggio utilizzati in ambito medico e così via. Le applicazioni alimentate a batteria traggono il massimo vantaggio da questi sensori perché ora possono ridurre al minimo i consumi del sistema. In un'applicazione come, ad esempio, un videocitofono con risoluzione pari a 4K, un sensore di immagine da 8 MP come AR0830 di onsemi, che trasmetterebbe dati 6G in modalità completamente attiva, può ora rimanere in modalità WOM per oltre il 98% del proprio tempo operativo. Durante questa fase di pre-rilevamento, esso genera/trasmette una quantità di dati estremamente ridotta, consentendo all'intero sistema di visione con operare con una frazione della potenza consumata nella modalità operativa completa.
I sensori di immagine, finora, sono stati utilizzati con profitto come dispositivi per acquisizione e trasferimento dati. Le tendenze e le evoluzioni descritte nel corso dell'articolo, che trovano applicazione pratica nei prodotti della linea HyperluX LP di onsemi, hanno trasformato i sensori di immagine in dispositivi con intelligenza integrata particolarmente adatti per l'uso alla periferia della rete. Grazie a una tecnologia dei pixel innovativa, a regioni di interesse (ROI) intelligenti configurabili e all'integrazione di funzioni come il rilevamento del movimento, ora possono essere progettati per rispondere alle esigenze di casi d'uso specifici, dando vita a sistemi di visione differenziati ed estremamente efficienti che assicurano prestazioni superiori a fronte di una consistente riduzione dei consumi.