NVIDIA menggandakan model bahasa AI dan inferensi sebagai substrat untuk Metaverse, di pusat data, cloud, dan di edge
Hardware

NVIDIA menggandakan model bahasa AI dan inferensi sebagai substrat untuk Metaverse, di pusat data, cloud, dan di edge

GTC, acara unggulan NVIDIA, selalu menjadi sumber pengumuman seputar semua hal tentang AI. Edisi musim gugur 2021 tidak terkecuali. Keynote Huang menekankan apa yang disebut NVIDIA sebagai Omniverse. Omniverse adalah simulasi dunia virtual dan platform kolaborasi NVIDIA untuk alur kerja 3D, menyatukan teknologinya.

Berdasarkan apa yang telah kami lihat, kami akan menggambarkan Omniverse sebagai pandangan NVIDIA terhadap Metaverse. Anda akan dapat membaca lebih lanjut tentang Omniverse dalam liputan Stephanie Condon dan Larry Dignan di sini ZDNet. Apa yang dapat kami katakan adalah bahwa memang, untuk sesuatu seperti ini untuk bekerja, pertemuan teknologi diperlukan.

Jadi mari kita lihat beberapa pembaruan dalam tumpukan teknologi NVIDIA, dengan fokus pada komponen seperti model bahasa besar (LLM) dan inferensi.

NeMo Megatron, platform model bahasa besar open source NVIDIA

NVIDIA meluncurkan apa yang disebutnya sebagai kerangka kerja NVIDIA NeMo Megatron untuk model bahasa pelatihan. Selain itu, NVIDIA menyediakan Megatron LLM, model dengan 530 miliar yang dapat dilatih untuk domain dan bahasa baru.

Bryan Catanzaro, Wakil Presiden Applied Deep Learning Research di NVIDIA, mengatakan bahwa “membangun model bahasa besar untuk bahasa dan domain baru kemungkinan merupakan aplikasi superkomputer terbesar, dan sekarang kemampuan ini dapat dijangkau oleh perusahaan dunia”.

Sementara LLM tentu saja melihat banyak daya tarik, dan semakin banyak aplikasi, utilitas penawaran khusus ini memerlukan beberapa pengawasan. Pertama, pelatihan LLM bukan untuk menjadi lemah hati, dan membutuhkan kantong yang dalam. Diperkirakan bahwa pelatihan model seperti GPT-3 OpenAI menelan biaya sekitar $12 juta.

OpenAI telah bermitra dengan Microsoft dan membuat API di sekitar GPT-3 tersedia untuk mengkomersialkannya. Dan ada sejumlah pertanyaan untuk ditanyakan seputar kelayakan pelatihan LLM sendiri. Yang jelas adalah apakah Anda mampu membelinya, jadi katakan saja Megatron tidak ditujukan untuk perusahaan secara umum, tetapi subset perusahaan tertentu pada saat ini.

Pertanyaan kedua adalah – untuk apa? Apakah Anda benar-benar membutuhkan LLM Anda sendiri? Catanzaro mencatat bahwa LLMS “telah terbukti fleksibel dan mampu, mampu menjawab pertanyaan domain yang dalam, menerjemahkan bahasa, memahami dan meringkas dokumen, menulis cerita dan menghitung program”.

morpheus-image.jpg

Mendukung prestasi AI yang mengesankan didasarkan pada serangkaian kemajuan perangkat lunak dan perangkat keras, dan NVIDIA menangani keduanya. Gambar: NVIDIA

Kami tidak akan mengatakan bahwa LLM “memahami” dokumen, misalnya, tetapi mari kita akui bahwa LLM cukup berguna, dan akan terus menjadi lebih baik. Huang mengklaim bahwa LLM “akan menjadi aplikasi HPC arus utama terbesar yang pernah ada”.

Pertanyaan sebenarnya adalah – mengapa membangun LLM Anda sendiri? Mengapa tidak menggunakan API GPT-3, misalnya? Diferensiasi kompetitif mungkin merupakan jawaban yang sah untuk pertanyaan ini. Biaya untuk menilai fungsi mungkin satu lagi, dalam inkarnasi lain dari pertanyaan “beli versus bangun” kuno.

Dengan kata lain, jika Anda yakin Anda memerlukan LLM untuk menjalankan aplikasi Anda, dan Anda berencana menggunakan GPT-3, atau LLM lainnya dengan istilah penggunaan serupa, cukup sering, mungkin lebih ekonomis untuk melatih Anda sendiri. NVIDIA menyebutkan kasus penggunaan seperti membangun chatbot khusus domain, asisten pribadi, dan aplikasi AI lainnya.

Untuk melakukan itu, akan lebih masuk akal untuk memulai dari LLM yang telah dilatih sebelumnya dan menyesuaikannya dengan kebutuhan Anda melalui pembelajaran transfer, daripada melatihnya dari awal. NVIDIA mencatat bahwa NeMo Megatron dibangun berdasarkan kemajuan dari Megatron, sebuah proyek sumber terbuka yang dipimpin oleh peneliti NVIDIA yang mempelajari pelatihan efisien model bahasa transformator besar dalam skala besar.

Perusahaan menambahkan bahwa kerangka kerja NeMo Megatron memungkinkan perusahaan untuk mengatasi tantangan dalam melatih model pemrosesan bahasa alami yang canggih. Jadi, proposisi nilainya tampaknya — jika Anda memutuskan untuk berinvestasi di LLM, mengapa tidak menggunakan Megatron? Meskipun itu terdengar seperti proposisi yang masuk akal, kita harus mencatat bahwa Megatron bukanlah satu-satunya game di kota ini.

Baru-baru ini, EleutherAI, sekelompok peneliti AI independen, membuka sumber model 6 miliar parameter GPT-j mereka. Selain itu, jika Anda tertarik dengan bahasa di luar bahasa Inggris, kami sekarang memiliki model bahasa Eropa besar yang fasih berbahasa Inggris, Jerman, Prancis, Spanyol, dan Italia oleh Aleph Alpha. Wudao, adalah LLM China yang juga merupakan LLM terbesar dengan parameter 1,75 triliun, dan HyperCLOVA adalah LLM Korea dengan 204 miliar parameter. Plus, selalu ada LLM open source lain yang sedikit lebih tua / lebih kecil seperti GPT2 atau BERT dan banyak variasinya.

Bertujuan pada inferensi model AI membahas total biaya kepemilikan dan operasi

Satu peringatan adalah bahwa dalam hal LLM, lebih besar (seperti memiliki lebih banyak parameter) tidak selalu berarti lebih baik. Satu lagi adalah, bahwa bahkan dengan basis seperti Megatron untuk dibangun, LLM adalah binatang yang mahal baik untuk dilatih maupun dioperasikan. Penawaran NVIDIA diatur untuk mengatasi kedua aspek ini, dengan secara khusus menargetkan inferensi juga.

Megatron, catatan NVIDIA, dioptimalkan untuk memperluas infrastruktur komputasi akselerasi skala besar NVIDIA DGX SuperPOD™. NeMo Megatron mengotomatiskan kompleksitas pelatihan LLM dengan perpustakaan pemrosesan data yang menyerap, mengkurasi, mengatur, dan membersihkan data. Menggunakan teknologi canggih untuk paralelisasi data, tensor, dan pipeline, ini memungkinkan pelatihan model bahasa besar untuk didistribusikan secara efisien di ribuan GPU.

Tapi bagaimana dengan inferensi? Lagi pula, setidaknya dalam teori, Anda hanya melatih LLM sekali, tetapi modelnya digunakan berkali-kali untuk menyimpulkan — menghasilkan hasil. Fase inferensi operasi menyumbang sekitar 90% dari total biaya energi operasi untuk model AI. Jadi memiliki inferensi yang cepat dan ekonomis sangat penting, dan itu berlaku di luar LLM.

NVIDIA mengatasi hal ini dengan mengumumkan pembaruan besar pada Server Inferensi Triton, karena 25.000+ perusahaan di seluruh dunia menerapkan inferensi AI NVIDIA. Pembaruan mencakup kemampuan baru dalam perangkat lunak open source NVIDIA Triton Inference Server™, yang menyediakan inferensi lintas platform pada semua model dan kerangka kerja AI, dan NVIDIA TensorRT™, yang mengoptimalkan model AI dan menyediakan runtime untuk inferensi kinerja tinggi pada GPU NVIDIA .

NVIDIA memperkenalkan sejumlah perbaikan untuk Server Inferensi Triton. Ikatan yang paling jelas untuk LLM adalah bahwa Triton sekarang memiliki fungsionalitas multi-GPU multinode. Ini berarti LLM berbasis Transformer yang tidak lagi muat dalam satu GPU dapat diinferensikan ke beberapa GPU dan node server, yang menurut NVIDIA memberikan kinerja inferensi waktu nyata.

llmco2.png

90% dari total energi yang dibutuhkan untuk model AI berasal dari inferensi

Triton Model Analyzer adalah alat yang mengotomatiskan tugas pengoptimalan utama dengan membantu memilih konfigurasi terbaik untuk model AI dari ratusan kemungkinan. Menurut NVIDIA, Ini mencapai kinerja optimal sambil memastikan kualitas layanan yang diperlukan untuk aplikasi.

RAPIDS FIL adalah back-end baru untuk inferensi GPU atau CPU dari model pohon keputusan hutan acak dan yang didorong oleh gradien. yang memberikan pengembang mesin penerapan terpadu untuk pembelajaran mendalam dan pembelajaran mesin tradisional dengan Triton.

Last but not least di bagian perangkat lunak, Triton kini hadir dengan Amazon SageMaker Integration, memungkinkan pengguna untuk dengan mudah menerapkan model multi-framework menggunakan Triton dalam SageMaker, layanan AI yang dikelola sepenuhnya oleh AWS.

Di bagian depan perangkat keras, Triton sekarang juga mendukung CPU Arm, selain GPU NVIDIA dan CPU x86. Perusahaan juga memperkenalkan NVIDIA A2 Tensor Core GPU, akselerator kecil berdaya rendah untuk inferensi AI di edge yang diklaim NVIDIA menawarkan kinerja inferensi hingga 20X lebih banyak daripada CPU.

Triton menyediakan inferensi AI pada GPU dan CPU di cloud, data center, enterprise edge dan embedded, terintegrasi ke dalam AWS, Google Cloud, Microsoft Azure dan Alibaba Cloud, dan disertakan dalam NVIDIA AI Enterprise. Untuk membantu memberikan layanan berbasis teknologi AI NVIDIA, Huang mengumumkan NVIDIA Launchpad.

NVIDIA bergerak secara proaktif untuk mempertahankan keunggulannya dengan ekosistem perangkat keras dan perangkat lunaknya

Dan itu jauh dari semua yang diungkapkan NVIDIA hari ini. NVIDIA Modulus membangun dan melatih model pembelajaran mesin berbasis fisika yang dapat mempelajari dan mematuhi hukum fisika. Grafik — struktur data utama dalam ilmu data modern — kini dapat diproyeksikan ke dalam kerangka kerja jaringan saraf dalam dengan Deep Graph Library, atau DGL, paket Python baru.

Huang juga memperkenalkan tiga perpustakaan baru: ReOpt, untuk industri logistik senilai $10 triliun. cuQuantum, untuk mempercepat penelitian komputasi kuantum. Dan cuNumeric, untuk mempercepat NumPy bagi para ilmuwan, ilmuwan data dan pembelajaran mesin dan peneliti AI di komunitas Python. Dan NVIDIA memperkenalkan 65 SDK baru dan yang diperbarui di GTC.

Jadi, apa yang harus dilakukan dari semua itu? Meskipun kami memilih, masing-masing item ini mungkin memerlukan analisisnya sendiri. Gambaran besarnya adalah, sekali lagi, NVIDIA bergerak secara proaktif untuk mempertahankan keunggulannya dalam upaya bersama untuk mengikat perangkat kerasnya dengan perangkat lunaknya.

LLM mungkin tampak eksotis untuk sebagian besar organisasi pada saat ini, tetapi NVIDIA bertaruh bahwa mereka akan melihat lebih banyak minat dan aplikasi praktis, dan memposisikan dirinya sebagai platform LLM untuk dikembangkan oleh orang lain. Meskipun ada alternatif, memiliki sesuatu yang dikuratori, didukung, dan dibundel dengan ekosistem dan merek perangkat lunak dan perangkat keras NVIDIA mungkin akan tampak seperti proposisi yang menarik bagi banyak organisasi.

Hal yang sama berlaku untuk fokus pada inferensi. Dalam menghadapi persaingan yang semakin ketat oleh berbagai vendor perangkat keras yang membangun arsitektur yang dirancang khusus untuk beban kerja AI, NVIDIA menggandakan inferensi. Ini adalah bagian dari operasi model AI yang memainkan peran terbesar dalam total biaya kepemilikan dan operasi. Dan NVIDIA, sekali lagi, melakukannya dengan gaya khasnya – memanfaatkan perangkat keras dan perangkat lunak ke dalam suatu ekosistem.

Posted By : keluaran hk 2021