زاهد گلابي

عنوان

طراحي و پياده سازي سازوكاري جهت تحمل پذيري خطا در سيستم هاي محاسباتي مقياس اگزا

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

نرم افزار

سال تحصيل

۱۳۹۴

تاريخ دفاع

۱۳۹۷/۷/۲۹

استاد راهنما

دكتر محسن شريفي

دانشكده

كامپيوتر

چكيده

در طول سال هاي اخير، كنفرانس هاي علمي متعددي در سراسر جهان برگزار شده است كه نتايج آن، نشان دهنده وجود برخي سؤالات پژوهشي بي پاسخ در حوزههاي مختلف علوم ازجمله، آب و هوا، فيزيك هسته اي، علم مواد، شيمي، زيست شناسي و امنيت بوده است. پاسخ به اين پرسش ها، بدون توسعه نسل بعدي سيستم هاي محاسباتي يعني سيستم هاي محاسباتي مقياس اگزا، امكانپذير نيست. دستيابي به سيستم هاي محاسباتي مقياس اگزا، داراي چالش هاي بسياري ازجمله، مصرف بالاي انرژي، مقياس پذيري، نرخ بالاي ارسال و دريافت داده ها و بالا بودن نرخ رخداد خطا مي باشد. سيستم هاي محاسباتي مقياس اگزا به دليل داشتن تعداد گره هايي بين ۹۰۰ هزار تا يك ميليون، به طور ميانگين در هر دو دقيقه گره ها با خرابي مواجه مي شوند. از طرفي رويكردهاي كنوني براي تحمل پذيري خطا مبتني بر افزونگي مكاني و زماني مي باشند. در رويكرد نقطه ي بررسي كه مبتني بر افزونگي زماني است، در فواصل معيني بايد از اجراي برنامه ي كاربردي نقطه ي بررسي گرفته شود. در مقياس هاي بالا به علت خرابي زياد، بايد در فواصل كوتاهي از اجرا نقطه ي بررسي گرفته شود. بنابراين بيشتر زمان پردازنده صرف ايجاد نقطه ي بررسي مي شود و برنامه ي كاربردي، كارآمدي مناسبي نخواهد داشت. رويكرد ديگر تكرار كامل مي باشد كه همزمان به ازاي يك پردازه، تكرار همان پردازه در گره ديگر اجرا مي شود. رويكرد تكرار كامل نيز به طور ميانگين كارآمدي ۵۰ درصد خواهد داشت. در اين پژوهش روش تكرار پردازه جزئي ارائه شده است به گونه اي كه به ازاي هر پردازه برنامه ي كاربردي، يك پردازه جزئي خواهيم داشت كه با پردازه جزئي پردازه ديگر روي يك پردازنده به صورت اشتراك زماني در حال اجرا مي باشند. هدف از ارائه ي اين روش افزايش كارآمدي برنامه ي كاربردي نسبت به روش نقطه ي بررسي و نيز امكان استفاده از تعداد گره كمتر نسبت به رويكرد تكرار كامل است. نتايج شبيه سازي نشان از برتري روش پيشنهادي نسبت به رويكرد نقطه ي بررسي و تكرار كامل دارد. كارآمدي برنامه ي كاربردي در بهترين حالت 66 درصد خواهد بود. همچنين در اين روش از تعداد گره كمتري نسبت به رويكرد تكرار كامل استفاده ميشود. واژههاي كليدي: محاسبات توان بالا، سيستم هاي محاسباتي مقياس اگزا، تحمل پذيري خطا، نقطه ي بررسي، تكرار كامل، تكرار پردازه جزئي

تاريخ ورود اطلاعات

1398/03/04

عنوان به انگليسي

Design and Implementation of a Mechanism for Fault Tolerance in Exascale Computing Systems

تاريخ بهره برداري

10/21/2018 12:00:00 AM

دانشجوي وارد كننده اطلاعات

زاهد گلابي

Name: زاهد گلابي
Author: زاهد گلابي

چكيده به لاتين

There are some unanswered research questions in various fields of science, including climate, nuclear physics, materials science, Chemistry, biology and security. The answer to these questions is not possible without the development of the next generation of computing systems, exascale computing systems. The exascale computing systems have many challenges, including high energy consumption, scalability, high transmission and receipt data rates, and high fault rates. Due to the number of nodes between 100 thousands and 1 million in exascale computing systems, on average, nodes fail every 2 minutes. Current approaches for fault tolerance are based on spatial and temporal redundancy. In checkpoint approach which is based on temporal redundancy, the application should take a checkpoint after certain intervals. In the extreme-scale because of large failure, a check point should be made at short distances. Therefore, most processor’s time is spent on taking a checkpoint. The other approach is the full replication, in which each application’s process transparently is running on two separated processor. The full replication approach also has an average efficiency of 50%. In this dissertation, the partial process replication method is presented in such a way that for each application process, there is a partial process running on a processor in a time sharing manner with a partial process of another process. The purpose of this method is to increase the efficiency of the applications compared to the checkpoint method, as well as the feasibility of using less nodes than the full replication approach. The results of the simulations indicate that the proposed method outperforms the checkpoint and full replication methods. At the worst, the efficiency of application will be 50%. Also, in this method the number of nodes is less than the full replication approach. Keywords: High Performance Computing, Exascale Computing Systems, Fault Tolerance, Checkpoint, Full Replication, Partial Process Replication

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=20535&Field=0&DTC=6