Per affrontare la rapida ascesa del calcolo dell'intelligenza artificiale (AI) su edge della rete, e dei suoi algoritmi di inferenza associati, Intelligent Hardware Korea (IHWK) sta sviluppando una piattaforma di calcolo neuromorfico per dispositivi neurotecnologici e dispositivi neuromorfici programmabili sul campo. Microchip, attraverso la sua controllata Silicon Storage Technology (SST), sta lavorando allo sviluppo di questa piattaforma fornendo un sistema di valutazione per la sua soluzione di memoria neuromorfica SuperFlash memBrain. La soluzione si basa sulla comprovata tecnologia non-volatile memory (NVM) SuperFlash di Microchip ed è ottimizzata per eseguire Vector Matrix Multiplication (VMM) per reti neurali attraverso un approccio analogico di calcolo in-memory.
L’memBrain technology evaluation kit è progettato per consentire a IHWK di dimostrare l'assoluta efficienza energetica della sua piattaforma di calcolo neuromorfico nell’esecuzione di algoritmi di inferenza su edge. L'obiettivo finale è creare una Analog Processing Unit (APU) a bassissimo consumo per applicazioni quali modelli di Intelligenza Artificiale generativa, auto a guida autonoma, diagnosi medica, elaborazione vocale, sicurezza/sorveglianza e droni commerciali.
Poiché gli attuali modelli di reti neurali per l'inferenza edge possono richiedere 50 milioni o più di sinapsi (weight) per l'elaborazione, diventa difficile avere una larghezza di banda sufficiente per la DRAM off-chip richiesta da soluzioni puramente digitali, creando un collo di bottiglia per il calcolo della rete neurale che limita la potenza di calcolo complessiva, offrendo miglioramenti significativi sia nell'efficienza energetica che nella latenza del sistema. Di contro, la soluzione memBrain memorizza weight sinaptici nel floating gate on-chip in modalità sub-threshold a bassissimo consumo e utilizza le stesse celle di memoria per eseguire il calcolo. Rispetto ai tradizionali approcci digitali DSP e basati su SRAM/DRAM, offre un consumo energetico da 10 a 20 volte inferiore per decisione inferenziale e può ridurre drasticamente la distinta base complessiva.
Per sviluppare l'APU, IHWK sta anche lavorando con il Korea Advanced Institute of Science & Technology (KAIST), Daejeon, per lo sviluppo dei dispositivi e la Yonsei University di Seoul, per l'assistenza alla progettazione dei dispositivi.
L'APU finale dovrebbe ottimizzare gli algoritmi a livello di sistema per l'inferenza e operare tra 20 e 80 TeraOPS per Watt, ovvero la migliore prestazione disponibile per una soluzione di computing-in-memory progettata per l'uso in dispositivi alimentati a batteria.
“Utilizzando NVM collaudate piuttosto che soluzioni di memoria off-chip alternative per eseguire il calcolo della rete neurale e l’archiviazione di weight, la tecnologia computing-in-memory memBrain di Microchip è pronta a eliminare gli enormi colli di bottiglia delle comunicazioni dati altrimenti associati all'esecuzione dell'elaborazione AI su edge della rete”, ha affermato Mark Reiten, vice president of SST, licensing business unit di Microchip. “Lavorare con IHWK, le università e i clienti di prima adozione è una grande opportunità per dimostrare ulteriormente la nostra tecnologia per l'elaborazione neurale e far progredire il nostro coinvolgimento nell’area AI impegnandoci con una società leader nell’R&D in Corea”.
“La Corea è un hotspot importante per lo sviluppo di semiconduttori per AI”, ha affermato Sanghoon Yoon, branch manager di IHWK. “I nostri esperti di memoria non volatile ed emergente hanno confermato che il prodotto memBrain di Microchip basato sulla comprovata tecnologia NVM è l'opzione migliore quando si tratta di creare sistemi di calcolo a memoria”.
La memorizzazione permanente dei modelli neurali all'interno dell'elemento di elaborazione della soluzione memBrain supporta anche la funzionalità instant-on per l'elaborazione della rete neurale in tempo reale. IHWK sta sfruttando la non volatilità delle floating gate cell della memoria SuperFlash per raggiungere un nuovo punto di riferimento nei dispositivi di edge computing a basso consumo che supportano l'inferenza nel Machine Learning utilizzando modelli di ML avanzati.