Chip neuromorfik baru untuk AI yang canggih, dengan harga yang kecil

Sebuah tim peneliti internasional telah merancang dan membangun sebuah chip yang menjalankan komputasi secara langsung dalam memori dan dapat menjalankan berbagai macam aplikasi AI-semua dengan energi yang dikonsumsi oleh platform komputasi untuk komputasi AI tujuan umum.

Chip neuromorfik NeuRRAM membawa AI selangkah lebih dekat untuk berjalan di berbagai perangkat edge, terputus dari cloud, di mana mereka dapat melakukan tugas kognitif yang canggih di mana saja dan kapan saja tanpa bergantung pada koneksi jaringan ke server terpusat. Aplikasi berlimpah di setiap sudut dunia dan setiap aspek kehidupan kita, dan mulai dari jam tangan pintar, hingga headset VR, earbud pintar, sensor pintar di pabrik, dan penjelajah untuk eksplorasi ruang angkasa.

Chip NeuRRAM tidak hanya dua kali lebih hemat energi daripada chip “compute-in-memory” yang canggih, kelas chip hybrid inovatif yang menjalankan komputasi dalam memori, chip ini juga memberikan hasil yang seakurat chip digital konvensional. Platform AI konvensional jauh lebih besar dan biasanya dibatasi untuk menggunakan server data besar yang beroperasi di cloud.

Selain itu, chip NeuRRAM sangat serbaguna dan mendukung banyak model dan arsitektur jaringan saraf yang berbeda. Hasilnya, chip tersebut dapat digunakan untuk berbagai aplikasi, termasuk pengenalan dan rekonstruksi gambar serta pengenalan suara.

“Kebijaksanaan konvensional adalah bahwa efisiensi komputasi-dalam-memori yang lebih tinggi adalah dengan mengorbankan keserbagunaan, tetapi chip NeuRRAM kami memperoleh efisiensi tanpa mengorbankan keserbagunaan,” kata Weier Wan, penulis koresponden pertama makalah dan Ph.D. lulusan Universitas Stanford yang bekerja pada chip saat di UC San Diego, di mana ia diberi nasihat oleh Gert Cauwenberghs di Departemen Bioengineering.

Tim peneliti, yang dipimpin oleh para bioengineer di University of California San Diego, mempresentasikan hasil mereka dalam edisi 17 Agustus dari Alam.

Saat ini, komputasi AI sangat haus daya dan mahal secara komputasi. Sebagian besar aplikasi AI di perangkat edge melibatkan pemindahan data dari perangkat ke cloud, tempat AI memproses dan menganalisisnya. Kemudian hasilnya dipindahkan kembali ke perangkat. Itu karena sebagian besar perangkat edge bertenaga baterai dan akibatnya hanya memiliki jumlah daya terbatas yang dapat didedikasikan untuk komputasi.

Dengan mengurangi konsumsi daya yang diperlukan untuk inferensi AI di edge, chip NeuRRAM ini dapat menghasilkan perangkat edge yang lebih kuat, lebih cerdas, dan dapat diakses serta manufaktur yang lebih cerdas. Ini juga dapat mengarah pada privasi data yang lebih baik karena transfer data dari perangkat ke cloud disertai dengan peningkatan risiko keamanan.

Pada chip AI, memindahkan data dari memori ke unit komputasi adalah salah satu hambatan utama.

“Ini setara dengan melakukan perjalanan delapan jam untuk hari kerja dua jam,” kata Wan.

Untuk mengatasi masalah transfer data ini, peneliti menggunakan apa yang dikenal sebagai memori akses acak resistif, sejenis memori non-volatil yang memungkinkan komputasi langsung di dalam memori daripada di unit komputasi terpisah. RRAM dan teknologi memori baru lainnya yang digunakan sebagai susunan sinapsis untuk komputasi neuromorfik dipelopori di lab Philip Wong, penasihat Wan di Stanford dan kontributor utama untuk pekerjaan ini. Komputasi dengan chip RRAM tidak selalu baru, tetapi umumnya mengarah pada penurunan akurasi komputasi yang dilakukan pada chip dan kurangnya fleksibilitas dalam arsitektur chip.

“Komputasi dalam memori telah menjadi praktik umum dalam rekayasa neuromorfik sejak diperkenalkan lebih dari 30 tahun yang lalu,” kata Cauwenberghs. “Apa yang baru dengan NeuRRAM adalah efisiensi ekstrem sekarang berjalan bersama dengan fleksibilitas luar biasa untuk beragam aplikasi AI dengan hampir tanpa kehilangan akurasi dibandingkan platform komputasi tujuan umum digital standar.”

Metodologi yang dibuat dengan hati-hati adalah kunci untuk pekerjaan dengan berbagai tingkat “pengoptimalan bersama” di seluruh lapisan abstraksi perangkat keras dan perangkat lunak, mulai dari desain chip hingga konfigurasinya untuk menjalankan berbagai tugas AI. Selain itu, tim memastikan untuk memperhitungkan berbagai kendala mulai dari fisika perangkat memori hingga sirkuit dan arsitektur jaringan.

“Chip ini sekarang memberi kami platform untuk mengatasi masalah ini di seluruh tumpukan mulai dari perangkat dan sirkuit hingga algoritma,” kata Siddharth Joshi, asisten profesor ilmu komputer dan teknik di Universitas Notre Dame, yang mulai mengerjakan proyek tersebut sebagai gelar Ph.D. mahasiswa dan peneliti postdoctoral di lab Cauwenberghs di UC San Diego.

Kinerja chip

Para peneliti mengukur efisiensi energi chip dengan ukuran yang dikenal sebagai produk penundaan energi, atau EDP. EDP ​​menggabungkan jumlah energi yang dikonsumsi untuk setiap operasi dan jumlah waktu yang diperlukan untuk menyelesaikan operasi. Dengan ukuran ini, chip NeuRRAM mencapai EDP 1,6 hingga 2,3 kali lebih rendah (lebih rendah lebih baik) dan kepadatan komputasi 7 hingga 13 kali lebih tinggi daripada chip canggih.

Para peneliti menjalankan berbagai tugas AI pada chip. Ini mencapai akurasi 99% pada tugas pengenalan digit tulisan tangan; 85,7% pada tugas klasifikasi gambar; dan 84,7% pada tugas pengenalan perintah ucapan Google. Selain itu, chip ini juga mencapai pengurangan 70% dalam kesalahan rekonstruksi gambar pada tugas pemulihan gambar. Hasil ini sebanding dengan chip digital yang ada yang melakukan komputasi di bawah bit-presisi yang sama, tetapi dengan penghematan energi yang drastis.

Para peneliti menunjukkan bahwa salah satu kontribusi utama dari makalah ini adalah bahwa semua hasil yang ditampilkan diperoleh langsung pada perangkat keras. Dalam banyak karya chip komputasi-dalam-memori sebelumnya, hasil benchmark AI sering diperoleh sebagian dengan simulasi perangkat lunak.

Langkah selanjutnya termasuk meningkatkan arsitektur dan sirkuit dan menskalakan desain ke node teknologi yang lebih maju. Para peneliti juga berencana untuk menangani aplikasi lain, seperti jaringan saraf spiking.

“Kami dapat melakukan yang lebih baik di tingkat perangkat, meningkatkan desain sirkuit untuk mengimplementasikan fitur tambahan dan menangani beragam aplikasi dengan platform NeuRRAM dinamis kami,” kata Rajkumar Kubendran, asisten profesor untuk University of Pittsburgh, yang mulai mengerjakan proyek tersebut sambil meraih gelar Ph.D. .D. mahasiswa dalam kelompok penelitian Cauwenberghs di UC San Diego.

Selain itu, Wan adalah anggota pendiri startup yang bekerja untuk memproduksi teknologi komputasi dalam memori. “Sebagai peneliti dan insinyur, ambisi saya adalah membawa inovasi penelitian dari laboratorium ke dalam penggunaan praktis,” kata Wan.

Arsitektur baru

Kunci efisiensi energi NeuRRAM adalah metode inovatif untuk merasakan keluaran dalam memori. Pendekatan konvensional menggunakan tegangan sebagai input dan mengukur arus sebagai hasilnya. Tetapi ini mengarah pada kebutuhan akan sirkuit yang lebih kompleks dan lebih haus daya. Di NeuRRAM, tim merekayasa sirkuit neuron yang mendeteksi tegangan dan melakukan konversi analog-ke-digital dengan cara yang hemat energi. Penginderaan mode tegangan ini dapat mengaktifkan semua baris dan semua kolom dari larik RRAM dalam satu siklus komputasi, memungkinkan paralelisme yang lebih tinggi.

Dalam arsitektur NeuRRAM, sirkuit neuron CMOS secara fisik disisipkan dengan bobot RRAM. Ini berbeda dari desain konvensional di mana sirkuit CMOS biasanya berada di periferal bobot RRAM. Koneksi neuron dengan array RRAM dapat dikonfigurasi untuk berfungsi sebagai input atau output neuron. Hal ini memungkinkan inferensi jaringan saraf di berbagai arah aliran data tanpa menimbulkan overhead di area atau konsumsi daya. Ini pada gilirannya membuat arsitektur lebih mudah untuk dikonfigurasi ulang.

Untuk memastikan akurasi komputasi AI dapat dipertahankan di berbagai arsitektur jaringan saraf, para peneliti mengembangkan serangkaian teknik ko-optimasi algoritma perangkat keras. Teknik diverifikasi pada berbagai jaringan saraf termasuk jaringan saraf convolutional, memori jangka pendek yang panjang, dan mesin Boltzmann terbatas.

Sebagai chip AI neuromorfik, NeuroRRAM melakukan pemrosesan terdistribusi paralel di 48 inti neurosinaptik. Untuk secara bersamaan mencapai keserbagunaan tinggi dan efisiensi tinggi, NeuRRAM mendukung paralelisme data dengan memetakan lapisan dalam model jaringan saraf ke beberapa inti untuk inferensi paralel pada banyak data. Juga, NeuRRAM menawarkan model-paralelisme dengan memetakan lapisan model yang berbeda ke inti yang berbeda dan melakukan inferensi dengan cara pipelined.

Tim peneliti internasional

Karya tersebut merupakan hasil tim peneliti internasional.

Tim UC San Diego merancang sirkuit CMOS yang mengimplementasikan fungsi saraf yang berinteraksi dengan susunan RRAM untuk mendukung fungsi sinaptik dalam arsitektur chip, untuk efisiensi dan keserbagunaan yang tinggi. Wan, bekerja sama dengan seluruh tim, mengimplementasikan desain; menandai chip; melatih model AI; dan melakukan eksperimen. Wan juga mengembangkan rantai alat perangkat lunak yang memetakan aplikasi AI ke dalam chip.

Array sinapsis RRAM dan kondisi operasinya dikarakterisasi dan dioptimalkan secara ekstensif di Universitas Stanford.

Array RRAM dibuat dan diintegrasikan ke CMOS di Universitas Tsinghua.

Tim di Notre Dame berkontribusi pada desain dan arsitektur chip serta desain dan pelatihan model pembelajaran mesin berikutnya.

Penelitian ini dimulai sebagai bagian dari proyek Ekspedisi dalam Komputasi yang didanai National Science Foundation pada Visual Cortex on Silicon di Penn State University, dengan dukungan pendanaan lanjutan dari program Office of Naval Research Science of AI, Semiconductor Research Corporation dan program DARPA JUMP, dan Perusahaan Digital Barat.

Komputasi Seluler