Ulah Anggap Panyimpenan Janten Bottleneck Utama dina Pelatihan Model

Disebutkeun yén perusahaan téknologi boh scrambling pikeun GPU atanapi dina jalur pikeun meunangkeunana. Dina April, CEO Tesla Elon Musk ngagaleuh 10,000 GPU sareng nyatakeun yén perusahaan bakal teras-terasan mésér jumlah GPU anu ageung ti NVIDIA. Di sisi perusahaan, tanaga IT ogé ngadorong pisan pikeun mastikeun yén GPU terus-terusan dianggo pikeun maksimalkeun hasil investasi. Sanajan kitu, sababaraha pausahaan bisa manggihan yén bari jumlah GPUs naek, GPU idleness jadi leuwih parna.

Upami sajarah parantos ngajarkeun urang ngeunaan komputasi berprestasi tinggi (HPC), nya éta neundeun sareng jejaring henteu kedah dikorbankeun ku cara museurkeun teuing kana komputasi. Upami panyimpenan teu tiasa sacara éfisién nransper data ka unit komputasi, sanaos anjeun gaduh GPU paling seueur di dunya, anjeun moal ngahontal efisiensi anu optimal.

Numutkeun Mike Matchett, analis di Small World Big Data, model anu langkung alit tiasa dieksekusi dina mémori (RAM), ngamungkinkeun langkung difokuskeun kana komputasi. Nanging, modél anu langkung ageung sapertos ChatGPT sareng milyaran titik henteu tiasa disimpen dina mémori kusabab biaya anu luhur.

"Anjeun teu tiasa nyocogkeun milyaran titik dina mémori, janten panyimpenan janten langkung penting," saur Matchett. Hanjakal, neundeun data mindeng overlooked salila prosés perencanaan.

Sacara umum, henteu paduli kasus pamakean, aya opat titik umum dina prosés latihan modél:

1. Modél Pelatihan
2. Aplikasi Inferensi
3. Panyimpenan Data
4. Komputasi Gancangan

Nalika nyiptakeun sareng nyebarkeun modél, sabagéan ageung syarat masihan prioritas bukti-of-konsép gancang (POC) atanapi lingkungan tés pikeun ngamimitian pelatihan modél, kalayan panyimpen data henteu kedah dipertimbangkeun.

Nanging, tangtanganna aya dina kanyataan yén latihan atanapi panyebaran inferensi tiasa salami sababaraha bulan atanapi malah taun. Seueur perusahaan gancang-gancang ningkatkeun ukuran modélna salami waktos ieu, sareng infrastrukturna kedah dilegakeun pikeun nampung modél sareng set data anu ngembang.

Panaliti ti Google ngeunaan jutaan beban kerja latihan ML ngungkabkeun yén rata-rata 30% waktos latihan diséépkeun pikeun saluran input data. Bari panalungtikan kaliwat geus fokus kana optimizing GPUs pikeun ngagancangkeun latihan, masih loba tantangan dina ngaoptimalkeun rupa-rupa bagian tina pipa data. Lamun anjeun boga kakuatan komputasi signifikan, bottleneck nyata jadi kumaha gancang anjeun tiasa eupan data kana komputasi pikeun meunangkeun hasil.

Husus, tangtangan dina panyimpen sareng manajemén data ngabutuhkeun perencanaan pikeun kamekaran data, ngamungkinkeun anjeun terus-terusan nimba nilai data nalika anjeun maju, khususna nalika anjeun usaha kana kasus pamakean anu langkung maju sapertos diajar jero sareng jaringan saraf, anu nempatkeun tungtutan anu langkung luhur. panyimpen dina hal kapasitas, kinerja, sareng skalabilitas.

Khususna:

Skalabilitas
Pembelajaran mesin butuh nanganan data anu ageung, sareng nalika volume data ningkat, akurasi modél ogé ningkat. Ieu ngandung harti yén usaha kedah ngumpulkeun sareng nyimpen langkung seueur data unggal dinten. Nalika panyimpenan teu tiasa skala, beban kerja intensif data nyiptakeun bottlenecks, ngabatesan kinerja sareng nyababkeun waktos dianggurkeun GPU anu mahal.

Kalenturan
Pangrojong anu fleksibel pikeun sababaraha protokol (kalebet NFS, SMB, HTTP, FTP, HDFS, sareng S3) diperyogikeun pikeun nyumponan kabutuhan sistem anu béda-béda, tinimbang dugi ka hiji jinis lingkungan.

Latén
Latensi I/O penting pisan pikeun ngawangun sareng ngagunakeun modél nalika data dibaca sareng dibaca deui sababaraha kali. Ngurangan latency I/O tiasa nyepetkeun waktos latihan model ku dinten atanapi sasih. Ngembangkeun modél anu langkung gancang langsung ditarjamahkeun kana kauntungan bisnis anu langkung ageung.

Throughput
The throughput sistem gudang penting pisan pikeun latihan modél efisien. Prosés palatihan ngalibatkeun jumlah data anu ageung, biasana dina terabytes per jam.

Aksés Paralel
Pikeun ngahontal throughput anu luhur, modél latihan ngabagi kagiatan kana sababaraha pancén paralel. Ieu sering hartosna yén algoritma pembelajaran mesin ngaksés file anu sami tina sababaraha prosés (berpotensi dina sababaraha server fisik) sakaligus. Sistem panyimpen kedah nanganan tungtutan sakaligus tanpa kompromi kinerja.

Kalayan kamampuan anu luar biasa dina latency low, throughput tinggi, sareng I/O paralel skala ageung, Dell PowerScale mangrupikeun pelengkap neundeun idéal pikeun komputasi anu gancangan GPU. PowerScale sacara efektif ngirangan waktos anu diperyogikeun pikeun model analisis anu ngalatih sareng nguji set data multi-terabyte. Dina PowerScale sadaya-flash gudang, rubakpita ngaronjat ku 18 kali, ngaleungitkeun I / O bottlenecks, sarta bisa ditambahkeun kana klaster Isilon aya pikeun ngagancangkeun tur muka konci nilai jumlah badag data teu terstruktur.

Leuwih ti éta, kamampuhan aksés multi-protokol PowerScale urang nyadiakeun kalenturan taya pikeun ngajalankeun workloads, sahingga data bisa disimpen maké hiji protokol jeung diakses maké séjén. Husus, fitur kuat, kalenturan, skalabilitas, sareng fungsionalitas kelas perusahaan tina platform PowerScale ngabantosan ngatasi tantangan ieu:

- Ngagancangkeun inovasi nepi ka 2,7 kali, ngurangan siklus latihan modél.

- Ngaleungitkeun bottlenecks I / O sareng nyayogikeun pelatihan sareng validasi modél anu langkung gancang, akurasi modél ningkat, produktivitas élmu data ditingkatkeun, sareng maksimalkeun hasil investasi komputasi ku cara ngamangpaatkeun fitur kelas perusahaan, kinerja luhur, konkurensi, sareng skalabilitas. Ningkatkeun akurasi modél nganggo set data anu langkung jero, résolusi anu langkung luhur ku ngamangpaatkeun kapasitas panyimpen anu efektif dugi ka 119 PB dina hiji klaster.

- Ngahontal panyebaran dina skala ku ngamimitian skala leutik sareng mandiri skala komputasi sareng neundeun, nganteurkeun panyalindungan data sareng pilihan kaamanan anu kuat.

- Ningkatkeun produktivitas élmu data kalayan analitik di tempat sareng solusi anu tos divalidasi pikeun panyebaran anu langkung gancang sareng berisiko rendah.

- Leveraging desain kabuktian dumasar kana téknologi pangalusna-of-breed, kaasup NVIDIA GPU akselerasi jeung arsitéktur rujukan jeung sistem NVIDIA DGX. Kinerja luhur sareng konkurensi PowerScale nyumponan sarat kinerja panyimpen dina unggal tahapan pembelajaran mesin, ti akuisisi data sareng persiapan dugi ka latihan modél sareng inferensi. Kalayan sistem operasi OneFS, sadaya titik tiasa beroperasi sacara lancar dina klaster anu didorong ku OneFS anu sami, kalayan fitur tingkat perusahaan sapertos manajemén kinerja, manajemén data, kaamanan, sareng panyalindungan data, ngamungkinkeun parangkat latihan modél sareng validasi langkung gancang pikeun usaha.


waktos pos: Jul-03-2023