علي اصغر داودآبادي فراهاني

شماره ركورد
27266
پديد آورنده
علي اصغر داودآبادي فراهاني
عنوان
شتاب‌دهنده‌هاي عمومي قابل بازپيكربندي در پردازنده‌هاي نهفته
مقطع تحصيلي
دكتري
رشته تحصيلي
كامپيوتر معماري كامپيوتر
سال تحصيل
1394
تاريخ دفاع
1401/07/17
استاد راهنما
دكتر بيت اللهي دكتر فتحي
استاد مشاور
دكتر برنگي
دانشكده
كامپيوتر
چكيده
يكي از روشهاي جديد افزايش كارايي و سرعت پردازنده‌ها، استفاده از پردازشگرهاي قابل بازپيكربندي است. در اين روش از يك سخت‌افزار قابل بازپيكربندي، در كنار پردازنده استفاده مي‌شود. اين سخت‌افزار بعضي از وظايف پردازشي پردازنده اصلي را به عهده گرفته و با سرعت بيشتر و يا به بيان ديگر در زمان كمتر انجام مي‌دهد و باعث افزايش كارايي پردازنده مي‌شود. در بعضي از متون، كتب و مقالات اين روش "شتاب‌دهنده‌هاي سخت‌افزاري قابل بازپيكربندي پويا" نيز ناميده مي‌شود. انتظار مي‌رود كه با استفاده گسترده از اين روش بتوان به افزايش سرعت بيشتري در پردازندهها رسيد. در مبحث، شتاب‌دهنده‌هاي قابل بازپيكربندي پويا، چالش‌هاي بسياري از قبيل حجم سخت‌افزار شتاب‌دهنده، زمان نگاشت-بازپيكربندي بالا و تعداد زياد بيتهاي پيكربندي وجود دارند. در اين رساله دكتري، سه شتاب‌دهنده قابل بازپيكربندي ارائه خواهد شد كه سخت‌افزار آن به نسبت كارهاي مشابه آن‌ها كوچك‌تر شده، زمان و حجم بيت‌هاي پيكربندي نيز كمتر مي‌شود. هسته اصلي شتاب‌دهنده‌هاي پيشنهادي، با استفاده از معماري خاصي در كنار پردازنده قرار خواهد گرفت. بطور خلاصه در اين رساله دكتري، بر روي طراحي شتاب‌دهنده براي پردازنده‌هاي نهفته در سه محور تمركز گرديده است. در محور اول و دوم، شتاب‌دهنده بر اساس CGRA يك شتاب‌دهنده پويا است، به نوعي طراحي خواهد شد كه چندين دستورالعمل زبان ماشين پي‌درپي را بتوان در آن نگاشت نمود و در يك سيكل اجرا كرد. روش نگاشت اول بر اساس وابستگي بين دستورالعمل‌هاي متوالي است. در روش ابداعي كه روش نگاشت دوم مي‌باشد، ديگر نيازي به وابستگي بين دستورالعمل‌ها نيست. در اين دو روش از آنجا كه تمامي مراحل در سخت‌افزار انجام مي‌شود، تشخيص، نگاشت و پيكربندي با سرعت بالا انجام مي‌گيرد. نتايج نشان مي‌دهد كه تا سي و هفت درصد افزايش سرعت در محاسبات عددي، منطقي و اعداد صحيح مي‌تواند ايجاد شود. همچنين افزايش سطح تراشه در حدود بيست درصد است. در محور سوم واحد سخت‌افزاري قابل بازپيكربندي شبكه‌هاي يادگيري عميق همگشتي؛ يك شتاب‌دهنده شبكه‌هاي يادگيري عميق همگشتي طراحي شده است كه بتواند در كنار پردازنده‌هاي كوچك و نهفته قرار گيرد و اين پردازنده‌ها كه عموماً قادر به اجراي اين شبكه‌ها‌ نيستند، را قادر به اجراي اين شبكه‌هاي همگشتي بگرداند. نتايج پياده‌سازي اين محور نشان مي‌دهد كه بين بيست تا صد فريم تصوير 224×224 پيكسل در شبكه‌هايي از نوع ResNet و MobileNet در اين شتاب‌دهنده‌ها قابل اجرا مي‌باشد.
تاريخ ورود اطلاعات
1401/08/16
عنوان به انگليسي
Dynamic Reconfigurable General Accelerators for embedded processors
تاريخ بهره برداري
10/9/2023 12:00:00 AM
دانشجوي وارد كننده اطلاعات
علي اصغر داودآبادي فراهاني
چكيده به لاتين
Reconfigurable computing in modern processors are one of the new techniques to improve the performance and speed of processors. The reconfigurable hardware locates beside the main processor. The reconfigurable hardware is in the charge of intensive tasks and completes them quicker than the main processor. Some articles and books call the method the “reconfigurable accelerators”. The reconfigurable hardware is the type of coarse grain and in short, it is called CGRA (Coarse Grained Reconfigurable Architecture). There are some main bottlenecks and challenges in the research area of adding reconfigurable computing to processors including large area, high mapping and reconfigurable time, large volume of reconfigurable bits and the static nature of the reconfigurable hardware. This thesis proposal proposes three reconfigurable accelerator architectures. In first and second architectures, The CGRA is the heart of accelerator. In proposed architectures several sequential machine language instructions are mapped to CGRA to run in one clock cycle. In first architecture the mapping algorithm is relays on data dependency between instructions. In second architecture we propose a new mapping technique such that could map more instructions to CGA more effectively. Since all the steps are done in the hardware, the speed of detection, mapping and configuration will be very high. The results illustrate that our proposed CGRA architectures improve the speed of integer and logic instructions in the processors up to 37 percent. The estimated area overhead for the proposed CGRA is about 20 percent. In third accelerator we propose a new accelerator for convolutional neural network that could accelerate some AI networks on embedded processor. Mostly embedded processor cannot run convolution neural networks. The results illustrate that our proposed AI accelerator could run some AI networks such as MobileNet and ResNet on 224x224 pixel images 20-100 frames per second.
كليدواژه هاي فارسي
پردازشگري قابل بازپيكربندي , شتاب‌دهنده , CGRA , يادگيري عميق , پردازنده نهفته , همگشتي , نگاشت
كليدواژه هاي لاتين
Reconfigurable Computing , Accelerator , CGRA , Deep Learning , Embedded processor , Convolution , mapping
Author
Ali Asghar Davoodabadi Farahani
SuperVisor
Hakem Beitollahi
لينک به اين مدرک :
http://dl.iust.ac.ir/dL/search/default.aspx?Term=27266&Field=0&DTC=6

کلیه حقوق این اثر برای شرکت مهندسی ارتباطات پيام مشرق محفوظ می باشد