-
شماره ركورد
27266
-
پديد آورنده
علي اصغر داودآبادي فراهاني
-
عنوان
شتابدهندههاي عمومي قابل بازپيكربندي در پردازندههاي نهفته
-
مقطع تحصيلي
دكتري
-
رشته تحصيلي
كامپيوتر معماري كامپيوتر
-
سال تحصيل
1394
-
تاريخ دفاع
1401/07/17
-
استاد راهنما
دكتر بيت اللهي دكتر فتحي
-
استاد مشاور
دكتر برنگي
-
دانشكده
كامپيوتر
-
چكيده
يكي از روشهاي جديد افزايش كارايي و سرعت پردازندهها، استفاده از پردازشگرهاي قابل بازپيكربندي است. در اين روش از يك سختافزار قابل بازپيكربندي، در كنار پردازنده استفاده ميشود. اين سختافزار بعضي از وظايف پردازشي پردازنده اصلي را به عهده گرفته و با سرعت بيشتر و يا به بيان ديگر در زمان كمتر انجام ميدهد و باعث افزايش كارايي پردازنده ميشود. در بعضي از متون، كتب و مقالات اين روش "شتابدهندههاي سختافزاري قابل بازپيكربندي پويا" نيز ناميده ميشود. انتظار ميرود كه با استفاده گسترده از اين روش بتوان به افزايش سرعت بيشتري در پردازندهها رسيد. در مبحث، شتابدهندههاي قابل بازپيكربندي پويا، چالشهاي بسياري از قبيل حجم سختافزار شتابدهنده، زمان نگاشت-بازپيكربندي بالا و تعداد زياد بيتهاي پيكربندي وجود دارند. در اين رساله دكتري، سه شتابدهنده قابل بازپيكربندي ارائه خواهد شد كه سختافزار آن به نسبت كارهاي مشابه آنها كوچكتر شده، زمان و حجم بيتهاي پيكربندي نيز كمتر ميشود. هسته اصلي شتابدهندههاي پيشنهادي، با استفاده از معماري خاصي در كنار پردازنده قرار خواهد گرفت. بطور خلاصه در اين رساله دكتري، بر روي طراحي شتابدهنده براي پردازندههاي نهفته در سه محور تمركز گرديده است. در محور اول و دوم، شتابدهنده بر اساس CGRA يك شتابدهنده پويا است، به نوعي طراحي خواهد شد كه چندين دستورالعمل زبان ماشين پيدرپي را بتوان در آن نگاشت نمود و در يك سيكل اجرا كرد. روش نگاشت اول بر اساس وابستگي بين دستورالعملهاي متوالي است. در روش ابداعي كه روش نگاشت دوم ميباشد، ديگر نيازي به وابستگي بين دستورالعملها نيست. در اين دو روش از آنجا كه تمامي مراحل در سختافزار انجام ميشود، تشخيص، نگاشت و پيكربندي با سرعت بالا انجام ميگيرد. نتايج نشان ميدهد كه تا سي و هفت درصد افزايش سرعت در محاسبات عددي، منطقي و اعداد صحيح ميتواند ايجاد شود. همچنين افزايش سطح تراشه در حدود بيست درصد است. در محور سوم واحد سختافزاري قابل بازپيكربندي شبكههاي يادگيري عميق همگشتي؛ يك شتابدهنده شبكههاي يادگيري عميق همگشتي طراحي شده است كه بتواند در كنار پردازندههاي كوچك و نهفته قرار گيرد و اين پردازندهها كه عموماً قادر به اجراي اين شبكهها نيستند، را قادر به اجراي اين شبكههاي همگشتي بگرداند. نتايج پيادهسازي اين محور نشان ميدهد كه بين بيست تا صد فريم تصوير 224×224 پيكسل در شبكههايي از نوع ResNet و MobileNet در اين شتابدهندهها قابل اجرا ميباشد.
-
تاريخ ورود اطلاعات
1401/08/16
-
عنوان به انگليسي
Dynamic Reconfigurable General Accelerators for embedded processors
-
تاريخ بهره برداري
10/9/2023 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
علي اصغر داودآبادي فراهاني
-
چكيده به لاتين
Reconfigurable computing in modern processors are one of the new techniques to improve the performance and speed of processors. The reconfigurable hardware locates beside the main processor. The reconfigurable hardware is in the charge of intensive tasks and completes them quicker than the main processor. Some articles and books call the method the “reconfigurable accelerators”. The reconfigurable hardware is the type of coarse grain and in short, it is called CGRA (Coarse Grained Reconfigurable Architecture). There are some main bottlenecks and challenges in the research area of adding reconfigurable computing to processors including large area, high mapping and reconfigurable time, large volume of reconfigurable bits and the static nature of the reconfigurable hardware. This thesis proposal proposes three reconfigurable accelerator architectures. In first and second architectures, The CGRA is the heart of accelerator. In proposed architectures several sequential machine language instructions are mapped to CGRA to run in one clock cycle. In first architecture the mapping algorithm is relays on data dependency between instructions. In second architecture we propose a new mapping technique such that could map more instructions to CGA more effectively. Since all the steps are done in the hardware, the speed of detection, mapping and configuration will be very high. The results illustrate that our proposed CGRA architectures improve the speed of integer and logic instructions in the processors up to 37 percent. The estimated area overhead for the proposed CGRA is about 20 percent. In third accelerator we propose a new accelerator for convolutional neural network that could accelerate some AI networks on embedded processor. Mostly embedded processor cannot run convolution neural networks. The results illustrate that our proposed AI accelerator could run some AI networks such as MobileNet and ResNet on 224x224 pixel images 20-100 frames per second.
-
كليدواژه هاي فارسي
پردازشگري قابل بازپيكربندي , شتابدهنده , CGRA , يادگيري عميق , پردازنده نهفته , همگشتي , نگاشت
-
كليدواژه هاي لاتين
Reconfigurable Computing , Accelerator , CGRA , Deep Learning , Embedded processor , Convolution , mapping
-
Author
Ali Asghar Davoodabadi Farahani
-
SuperVisor
Hakem Beitollahi
-
لينک به اين مدرک :