مطهره ميرزائي

عنوان

ارائه روشي براي آموزش بهينه شبكه‌هاي عصبي عميق با استفاده از زيرساخت‌هاي ناهمگون

مقطع تحصيلي

ارشد

رشته تحصيلي

سيستم‌هاي نرم‌افزاري

سال تحصيل

1400

تاريخ دفاع

1403/11/28

استاد راهنما

مهرداد آشتياني

استاد مشاور

دانشكده

مهندسي كامپيوتر

چكيده

در دنياي كنوني، مدل‌هاي پيش‌آموزش‌يافته مانند Bert و GPT-3 و استفاده از ترانسفورمرها كه به‌عنوان مدل‌هاي بزرگ هوش مصنوعي شناخته مي‌شوند، اهميت چشمگيري پيدا كرده‌اند. براي افزايش سرعت آموزش اين مدل‌ها، آموزش توزيع‌شده به يك راهكار اساسي تبديل شده است. اين روش امكان اجراي آموزش مدل‌ها بر روي چندين پردازنده گرافيكي را فراهم مي‌كند و به‌ويژه براي مدل‌هايي كه نيازمند داده و زمان آموزشي بيشتري هستند، ضروري است. با وجود پيشرفت‌هاي گذشته، بهره‌گيري بهينه از تمام ظرفيت پردازنده‌هاي گرافيكي همچنان چالشي بزرگ باقي مانده است به خصوص در محيط‌هاي آكادميك كه معمولاً داراي بسترهاي ناهمگون و پهناي باند محدود بين گره‌ها هستند كه با فرضيات روش‌هاي موجود همخواني ندارند. در روش‌هاي قبلي، گره‌اي با كمترين توان محاسباتي به‌عنوان عامل محدودكننده در نظر گرفته مي‌شود كه اين مسئله باعث ايجاد تنگناهاي محاسباتي و افزايش زمان انتظار ساير گره‌ها مي‌گردد. در اين پژوهش، اين مشكل با تنظيم اندازه دسته‌ها به نحوي كه زمان انتظار گره‌ها به حداقل برسد، برطرف شده است. اين رويكرد باعث بهبود بهره‌وري استفاده از گره‌ها بدون كاهش سرعت همگرايي مي‌شود. علاوه بر اين، روش‌هاي موجود براي مقابله با مشكل كمبود حافظه گرافيكي معمولاً به ارتباطات پرسرعت بين گره‌ها متكي هستند كه در شرايطي با پهناي باند شبكه پايين (مانند Gb/s 1)، زمان آموزش را افزايش مي‌دهند. در اين پژوهش، با استفاده از روش LSDP (Locally Sharded Data Parallel)، كه به‌جاي اتكا به ارتباطات بين گره‌ها از حافظه پردازنده مركزي استفاده مي‌كند، اين چالش برطرف شده است. در نهايت، با تركيب اين دو راهكار، چارچوب LSHDP (Locally Sharded Heterogeneous Data Parallel) ارائه شده كه براي بسترهاي ناهمگون با سرعت ارتباط پايين بين گره‌ها مناسب است. آزمايش‌هاي انجام‌شده نشان‌دهنده عملكرد بهتر اين روش در مقايسه با روش‌هاي پيشين در اين گونه بستر‌ها است، به‌گونه‌اي كه به ترتيب بهبود %35.39 و %52.57 نسبت به روش‌هاي داده موازي و FSDP (Fully Sharded Data Parallel) به دست آمده است.

تاريخ ورود اطلاعات

1404/03/03

عنوان به انگليسي

An Approach for Efficient Training of Deep Neural Networks Using Heterogeneous Infrastructures

تاريخ بهره برداري

2/16/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

مطهره ميرزائي

Name: مطهره ميرزائي
Author: مطهره ميرزائي

چكيده به لاتين

In today's world, pre-trained models such as BERT and GPT-3, along with the use of transformers, which are recognized as large AI models, have gained significant importance. To accelerate the training of these models, distributed training has become a fundamental approach. This method enables the execution of model training across multiple GPUs, which is particularly essential for models that require more data and training time. Despite past advancements, achieving optimal utilization of GPU capacity remains a major challenge, especially in academic environments that often feature heterogeneous infrastructures and limited bandwidth between nodes, which do not align with the assumptions of existing methods. In previous methods, the node with the lowest computational power is considered the bottleneck, leading to computational slowdowns and increased waiting times for other nodes. This study addresses the issue by adjusting batch sizes in a way that minimizes node waiting times. This approach improves the efficiency of node utilization without reducing the convergence speed. Moreover, existing methods to address GPU memory limitations often rely on high-speed inter-node communication. In scenarios with low network bandwidth (e.g., 1 Gb/s), this reliance increases training time. In this research, the challenge is mitigated using the LSDP (Locally Sharded Data Parallel) method, which leverages CPU memory instead of inter-node communication. Finally, by combining these two strategies, the LSHDP (Locally Sharded Heterogeneous Data Parallel) framework is introduced, which is suitable for heterogeneous infrastructures with low inter-node communication speeds. Experiments demonstrate that this method outperforms previous approaches in such environments, achieving improvements of 35.39% and 52.57% compared to data-parallel and Fully Sharded Data Parallel (FSDP) methods, respectively.

كليدواژه هاي فارسي

آموزش توزيع‌شده , شبكه‌هاي عصبي , گره‌هاي ناهمسان

كليدواژه هاي لاتين

Distributed Training , neural networks , Heterogeneous Nodes

Author

Motahareh Mirzaei

SuperVisor

Dr Mehrdad Ashtiani

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=33411&Field=0&DTC=6