شماره ركورد
33411
پديد آورنده
مطهره ميرزائي
عنوان
ارائه روشي براي آموزش بهينه شبكههاي عصبي عميق با استفاده از زيرساختهاي ناهمگون
مقطع تحصيلي
ارشد
رشته تحصيلي
سيستمهاي نرمافزاري
سال تحصيل
1400
تاريخ دفاع
1403/11/28
استاد راهنما
مهرداد آشتياني
استاد مشاور
-
دانشكده
مهندسي كامپيوتر
چكيده
در دنياي كنوني، مدلهاي پيشآموزشيافته مانند Bert و GPT-3 و استفاده از ترانسفورمرها كه بهعنوان مدلهاي بزرگ هوش مصنوعي شناخته ميشوند، اهميت چشمگيري پيدا كردهاند. براي افزايش سرعت آموزش اين مدلها، آموزش توزيعشده به يك راهكار اساسي تبديل شده است. اين روش امكان اجراي آموزش مدلها بر روي چندين پردازنده گرافيكي را فراهم ميكند و بهويژه براي مدلهايي كه نيازمند داده و زمان آموزشي بيشتري هستند، ضروري است. با وجود پيشرفتهاي گذشته، بهرهگيري بهينه از تمام ظرفيت پردازندههاي گرافيكي همچنان چالشي بزرگ باقي مانده است به خصوص در محيطهاي آكادميك كه معمولاً داراي بسترهاي ناهمگون و پهناي باند محدود بين گرهها هستند كه با فرضيات روشهاي موجود همخواني ندارند. در روشهاي قبلي، گرهاي با كمترين توان محاسباتي بهعنوان عامل محدودكننده در نظر گرفته ميشود كه اين مسئله باعث ايجاد تنگناهاي محاسباتي و افزايش زمان انتظار ساير گرهها ميگردد. در اين پژوهش، اين مشكل با تنظيم اندازه دستهها به نحوي كه زمان انتظار گرهها به حداقل برسد، برطرف شده است. اين رويكرد باعث بهبود بهرهوري استفاده از گرهها بدون كاهش سرعت همگرايي ميشود. علاوه بر اين، روشهاي موجود براي مقابله با مشكل كمبود حافظه گرافيكي معمولاً به ارتباطات پرسرعت بين گرهها متكي هستند كه در شرايطي با پهناي باند شبكه پايين (مانند Gb/s 1)، زمان آموزش را افزايش ميدهند. در اين پژوهش، با استفاده از روش LSDP (Locally Sharded Data Parallel)، كه بهجاي اتكا به ارتباطات بين گرهها از حافظه پردازنده مركزي استفاده ميكند، اين چالش برطرف شده است. در نهايت، با تركيب اين دو راهكار، چارچوب LSHDP (Locally Sharded Heterogeneous Data Parallel) ارائه شده كه براي بسترهاي ناهمگون با سرعت ارتباط پايين بين گرهها مناسب است. آزمايشهاي انجامشده نشاندهنده عملكرد بهتر اين روش در مقايسه با روشهاي پيشين در اين گونه بسترها است، بهگونهاي كه به ترتيب بهبود %35.39 و %52.57 نسبت به روشهاي داده موازي و FSDP (Fully Sharded Data Parallel) به دست آمده است.
تاريخ ورود اطلاعات
1404/03/03
عنوان به انگليسي
An Approach for Efficient Training of Deep Neural Networks Using Heterogeneous Infrastructures
تاريخ بهره برداري
2/16/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
مطهره ميرزائي
چكيده به لاتين
In today's world, pre-trained models such as BERT and GPT-3, along with the use of transformers, which are recognized as large AI models, have gained significant importance. To accelerate the training of these models, distributed training has become a fundamental approach. This method enables the execution of model training across multiple GPUs, which is particularly essential for models that require more data and training time. Despite past advancements, achieving optimal utilization of GPU capacity remains a major challenge, especially in academic environments that often feature heterogeneous infrastructures and limited bandwidth between nodes, which do not align with the assumptions of existing methods. In previous methods, the node with the lowest computational power is considered the bottleneck, leading to computational slowdowns and increased waiting times for other nodes. This study addresses the issue by adjusting batch sizes in a way that minimizes node waiting times. This approach improves the efficiency of node utilization without reducing the convergence speed. Moreover, existing methods to address GPU memory limitations often rely on high-speed inter-node communication. In scenarios with low network bandwidth (e.g., 1 Gb/s), this reliance increases training time. In this research, the challenge is mitigated using the LSDP (Locally Sharded Data Parallel) method, which leverages CPU memory instead of inter-node communication. Finally, by combining these two strategies, the LSHDP (Locally Sharded Heterogeneous Data Parallel) framework is introduced, which is suitable for heterogeneous infrastructures with low inter-node communication speeds. Experiments demonstrate that this method outperforms previous approaches in such environments, achieving improvements of 35.39% and 52.57% compared to data-parallel and Fully Sharded Data Parallel (FSDP) methods, respectively.
كليدواژه هاي فارسي
آموزش توزيعشده , شبكههاي عصبي , گرههاي ناهمسان
كليدواژه هاي لاتين
Distributed Training , neural networks , Heterogeneous Nodes
Author
Motahareh Mirzaei
SuperVisor
Dr Mehrdad Ashtiani