Desain AI dapat berubah dengan Apache TVM open-source dan sedikit bantuan dari startup OctoML
Hardware

Desain AI dapat berubah dengan Apache TVM open-source dan sedikit bantuan dari startup OctoML

Dalam beberapa tahun terakhir, program kecerdasan buatan telah mendorong perubahan dalam desain chip komputer, dan komputer baru juga memungkinkan jenis jaringan saraf baru dalam AI. Ada umpan balik yang terjadi yang sangat kuat.

Di tengahnya terdapat teknologi perangkat lunak yang mengubah program jaringan saraf untuk berjalan pada perangkat keras baru. Dan di tengahnya ada proyek open-source baru-baru ini yang mendapatkan momentum.

Apache TVM adalah kompiler yang beroperasi secara berbeda dari kompiler lainnya. Alih-alih mengubah program menjadi instruksi chip biasa untuk CPU atau GPU, program ini mempelajari “grafik” operasi komputasi dalam jaringan saraf, dalam bentuk TensorFlow atau Pytorch, seperti konvolusi dan transformasi lainnya, dan mencari cara terbaik untuk memetakannya. operasi ke perangkat keras berdasarkan ketergantungan antar operasi.

Di jantung operasi itu ada startup berusia dua tahun, OctoML, yang menawarkan ApacheTVM sebagai layanan. Seperti yang dieksplorasi pada bulan Maret oleh ZDNetGeorge Anadiotis, OctoML bergerak di bidang MLOps, membantu mengoperasionalkan AI. Perusahaan menggunakan TVM untuk membantu perusahaan mengoptimalkan jaringan saraf mereka untuk berbagai macam perangkat keras.

Juga: OctoML mendapatkan $28 juta untuk dipasarkan dengan open source Apache TVM, standar de facto untuk MLOps

Dalam perkembangan terbaru dalam loop umpan balik perangkat keras dan penelitian, proses pengoptimalan TVM mungkin sudah membentuk aspek bagaimana AI dikembangkan.

“Sudah dalam penelitian, orang-orang menjalankan kandidat model melalui platform kami, melihat kinerjanya,” kata co-founder OctoML Luis Ceze, yang menjabat sebagai CEO, dalam sebuah wawancara dengan ZDNet melalui Zoom. Metrik kinerja mendetail berarti bahwa pengembang ML dapat “benar-benar mengevaluasi model dan memilih model yang memiliki properti yang diinginkan”.

Saat ini, TVM digunakan secara eksklusif untuk inferensi, bagian dari AI di mana jaringan saraf yang dikembangkan sepenuhnya digunakan untuk membuat prediksi berdasarkan data baru. Namun di masa depan, TVM akan memperluas ke pelatihan, proses pertama mengembangkan jaringan saraf.

luis-ceze-octoml-sept-2021.png

“Sudah dalam penelitian, orang menjalankan kandidat model melalui platform kami, melihat kinerjanya,” kata Luis Ceze, salah satu pendiri dan CEO startup OctoML, yang mengkomersialkan kompiler Apache TVM open-source untuk pembelajaran mesin, mengubahnya menjadi sebuah layanan awan. Metrik kinerja mendetail berarti bahwa pengembang ML dapat “benar-benar mengevaluasi model dan memilih model yang memiliki properti yang diinginkan”.

“Pelatihan dan pencarian arsitektur ada di peta jalan kami,” kata Ceze, mengacu pada proses merancang arsitektur jaringan saraf secara otomatis, dengan membiarkan jaringan saraf mencari desain jaringan yang optimal. “Itu adalah perpanjangan alami dari pendekatan land-and-expand kami” untuk menjual layanan komersial TVM, katanya.

Akankah pengembang jaringan saraf kemudian menggunakan TVM untuk memengaruhi cara mereka berlatih?

“Kalau belum, saya kira mereka akan mulai,” kata Ceze. “Seseorang yang datang kepada kami dengan tugas pelatihan, kami dapat melatih model untuk Anda” sambil mempertimbangkan bagaimana kinerja model yang terlatih pada perangkat keras.

Perluasan peran TVM, dan layanan OctoML, adalah konsekuensi dari fakta bahwa teknologi tersebut merupakan platform yang lebih luas daripada yang biasanya diwakili oleh kompiler.

“Anda dapat menganggap TVM dan OctoML dengan ekstensi sebagai lapisan otomatisasi berbasis ML yang fleksibel untuk akselerasi yang berjalan di atas semua jenis perangkat keras yang berbeda tempat model pembelajaran mesin dijalankan—GPU, CPU, TPU, akselerator di cloud,” Ceze diberi tahu ZDNet.

“Masing-masing perangkat keras ini, tidak peduli yang mana, memiliki cara mereka sendiri dalam menulis dan mengeksekusi kode,” katanya. “Menulis kode itu dan mencari tahu cara terbaik memanfaatkan perangkat keras ini hari ini dilakukan hari ini dengan tangan di seluruh pengembang ML dan vendor perangkat keras.”

Kompiler, dan layanan, menggantikan penyetelan tangan itu — hari ini di tingkat inferensi, dengan model yang siap untuk diterapkan, besok, mungkin, dalam pengembangan/pelatihan yang sebenarnya.

Juga: AI mengubah seluruh sifat komputasi

Inti dari daya tarik TVM adalah kinerja yang lebih besar dalam hal throughput dan latency, dan efisiensi dalam hal konsumsi daya komputer. Itu menjadi semakin penting untuk jaringan saraf yang semakin besar dan semakin menantang untuk dijalankan.

“Beberapa model ini menggunakan jumlah komputasi yang gila-gilaan,” Ceze mengamati, terutama model pemrosesan bahasa alami seperti GPT-3 OpenAI yang menskalakan hingga satu triliun bobot saraf, atau parameter, dan banyak lagi.

Ketika model seperti itu ditingkatkan, mereka datang dengan “biaya ekstrem,” katanya, “tidak hanya dalam waktu pelatihan, tetapi juga waktu penyajian” untuk inferensi. “Itulah kasus untuk semua model pembelajaran mesin modern.”

Akibatnya, tanpa mengoptimalkan model “dengan urutan besarnya,” kata Ceze, model yang paling rumit tidak benar-benar layak dalam produksi, mereka tetap hanya keingintahuan penelitian.

Tetapi melakukan pengoptimalan dengan TVM melibatkan kerumitannya sendiri. “Ada banyak pekerjaan untuk mendapatkan hasil seperti yang mereka inginkan,” kata Ceze.

OctoML menyederhanakan banyak hal dengan menjadikan TVM lebih sebagai urusan tombol-tekan.

“Ini adalah platform pengoptimalan,” begitulah cara Ceze mencirikan layanan cloud.

“Dari sudut pandang pengguna akhir, mereka mengunggah model, membandingkan model, dan mengoptimalkan nilai pada sekumpulan besar target perangkat keras,” begitulah cara Ceze menggambarkan layanan tersebut.

“Kuncinya adalah ini otomatis – tidak ada keringat dan air mata dari insinyur tingkat rendah yang menulis kode,” kata Ceze.

OctoML melakukan pekerjaan pengembangan untuk memastikan model dapat dioptimalkan untuk konstelasi perangkat keras yang meningkat.

“Kuncinya di sini adalah mendapatkan yang terbaik dari setiap perangkat keras.” Itu berarti “mengkhususkan kode mesin ke parameter spesifik dari model pembelajaran mesin tertentu pada target perangkat keras tertentu.” Sesuatu seperti konvolusi individu dalam jaringan saraf konvolusi khas dapat dioptimalkan agar sesuai dengan blok perangkat keras tertentu dari akselerator perangkat keras tertentu.

Hasilnya dapat dibuktikan. Dalam tes benchmark yang diterbitkan pada bulan September untuk rangkaian uji MLPerf untuk inferensi jaringan saraf, OctoML memiliki skor tertinggi untuk kinerja inferensi untuk algoritme pengenalan gambar ResNet yang terhormat dalam hal gambar yang diproses per detik.

Layanan OctoML telah dalam pra-rilis, status akses awal sejak Desember tahun lalu.

Untuk memajukan strategi platformnya, OctoML awal bulan ini mengumumkan telah menerima $85 juta dalam putaran pendanaan Seri C dari hedge fund Tiger Global Management, bersama dengan investor yang ada, Addition, Madrona Venture Group, dan Amplify Partners. Putaran pendanaan membawa total pendanaan OctoML menjadi $132 juta.

Pendanaan tersebut merupakan bagian dari upaya OctoML untuk menyebarkan pengaruh Apache TVM ke lebih banyak perangkat keras AI. Juga bulan ini, OctoML mengumumkan kemitraan dengan ARM Ltd., perusahaan Inggris yang sedang dalam proses pembelian oleh pembangkit tenaga chip AI Nvidia. Itu mengikuti kemitraan yang diumumkan sebelumnya dengan Advanced Micro Devices dan Qualcomm. Nvidia juga bekerja dengan OctoML.

Kemitraan ARM diharapkan dapat menyebarkan penggunaan layanan OctoML kepada pemegang lisensi inti CPU ARM, yang mendominasi ponsel, jaringan, dan Internet of Things.

Loop umpan balik mungkin akan menyebabkan perubahan lain selain desain jaring saraf. Ini dapat mempengaruhi secara lebih luas bagaimana ML digunakan secara komersial, yang merupakan inti dari MLOps.

Saat pengoptimalan melalui TVM menyebar, teknologi ini dapat secara dramatis meningkatkan portabilitas dalam penyajian ML, prediksi Ceze.

Karena cloud menawarkan semua jenis pertukaran dengan semua jenis penawaran perangkat keras, dapat mengoptimalkan dengan cepat untuk target perangkat keras yang berbeda pada akhirnya berarti dapat bergerak lebih gesit dari satu target ke target lainnya.

“Pada dasarnya, kemampuan untuk memeras lebih banyak kinerja dari target perangkat keras apa pun di cloud berguna karena memberikan lebih banyak fleksibilitas target,” begitulah Ceze menggambarkannya. “Mampu mengoptimalkan secara otomatis memberikan portabilitas, dan portabilitas memberikan pilihan.”

Itu termasuk menjalankan perangkat keras apa pun yang tersedia dalam konfigurasi cloud, tetapi juga memilih perangkat keras yang kebetulan lebih murah untuk SLA yang sama, seperti latensi, throughput, dan biaya dalam dolar.

Dengan dua mesin yang memiliki latensi yang sama di ResNet, misalnya, “Anda akan selalu mengambil throughput per dolar tertinggi”, mesin yang lebih ekonomis. “Selama saya mencapai SLA, saya ingin menjalankannya semurah mungkin.”

Posted By : keluaran hk 2021