-
شماره ركورد
28965
-
پديد آورنده
زهرا شامي
-
عنوان
طراحي يك چهارچوب هدفمند در ساخت شتابدهندههاي HLS بر اساس يادگيري عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق
-
سال تحصيل
1399
-
تاريخ دفاع
1402/04/25
-
استاد راهنما
دكتر ميرزاكوچكي
-
دانشكده
برق
-
چكيده
شبكهي عصبي كانولوشن يكي از تأثيرگذارترين الگوريتمهاي يادگيري عميق در حل بسياري از مسائل مانند پردازش تصوير است. دقت بالاي CNN حاصل پردازشهاي پيچيدهاي است كه چالشهاي بسياري را در زمينهي طراحي واحدهاي سختافزاري آن ايجاد كرده است. در سالهاي اخير، آرايهي دروازهي ميداني برنامهپذير ، با قابليتهايي نظير پيكربندي مجدد، امكان موازيسازي در سطوح مختلف و مصرف انرژي بهينه بعنوان شتابدهندهي CNN با كارايي بالا معرفي شده است. در اين راستا، ابزار سنتز سطح بالا نقش شاياني در تسهيل طراحي اين نوع شتابدهندهها ايفا مينمايند.
در اين پاياننامه، به تدوين يك چهارچوب هدفمند براي طراحي يك شتابدهندهي سختافزاري مبتني بر CNN با بهرهگيري از HLS در FPGA پرداختهايم. در معماري پيشنهادي از دادههاي 15 بيتي براي نمايش وروديها و پارامترهاي شبكه استفاده شده و انتقال دادهها بصورت جرياني صورت ميگيرد. در طرح پيشنهادي، با استفاده از يك الگوريتم نوين براي پيادهسازي لايهي كانولوشن، رجوع به حافظه و در نتيجه توان مصرفي كاهش يافته است. همچنين، موازيسازي در سطوح مختلف و استفاده از روش خطلوله موجب كاهش تأخير گشته است. معماري پيشنهادي انعطافپذيري بالايي داشته و با تغيير فراپارامترها ميتوان هر شبكهي CNN كه شامل لايههاي كانولوشن و ادغام از نوع بيشينه باشد را روي اين سيستم اجرا نمود. در اين پاياننامه، شتابدهندهي CNN پيشنهادي بر روي تراشهي Xilinx XC7Z020 پيادهسازي شد و با استفاده از پايگاهدادهي MNIST مورد ارزيابي قرار گرفت. دقت تشخيص ارقام دستنويس توسط مدل CNN پيشنهادي برابر 7/98% و تأخير تشخيص آن برابر 39140 چرخهي كلاك در فركانس كاري 100 مگا هرتز است. در پيادهسازي سختافزاري اين مدل، 3% از بلوكهاي BRAM، %23 از قطعات DSP48E، %50 از منابع LUT و 15% از فليپ فلاپهاي موجود در تراشه استفاده ميشود. مقايسهي نتايج اين پاياننامه با طراحيهاي مرتبط بر روي تراشهي zynq 7000 براي دادههاي MNIST، بهبود حداقل 2 برابري در شاخص ارزش معرفي شده بر اساس دقت، تأخير و استفاده از منابع سختافزاري را نشان ميدهد.
-
تاريخ ورود اطلاعات
1402/08/06
-
عنوان به انگليسي
Design a targeted framework for building HLS accelerators based on deep learning
-
تاريخ بهره برداري
7/15/2024 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
زهرا شامي
-
چكيده به لاتين
Convolutional Neural Network (CNN) is one of the most influential deep learning algorithms in solving various problems, such as image processing. The high accuracy of CNN is achieved by complex computations, which have created many challenges in the design of its hardware units. In recent years, Field-Programmable Gate Arrays (FPGA) have been introduced as high-performance CNN accelerators with features such as reconfigurability, parallelization at different levels and energy efficiency. In this regard, High-Level Synthesis (HLS) tools play a significant role in facilitating the design of such accelerators.
In this thesis, we have developed a targeted framework for designing a CNN hardware accelerator based on FPGA using HLS. The proposed architecture uses 15-bit data representation for input and network parameters. The data in the presented model is transmitted as streaming data. In the proposed model, the use of a novel algorithm for implementing the convolution layer has reduced memory access and consequently reduced power consumption. Additionally, parallelization at different levels and the use of pipelining techniques have resulted in reduced latency. The proposed architecture has high flexibility and by changing the hyperparameters, it can execute any CNN network containing convolution and max-pooling layers on this system.
In this thesis, the proposed CNN accelerator was implemented on the Xilinx XC7Z020 FPGA and evaluated using the MNIST database. The accuracy of digit recognition by the proposed CNN model is 98.7% and the detection latency is 39,140 clock cycles at 100 MHz frequency. In the hardware implementation of this model, 3% of BRAM blocks, 23% of DSP48E slices, 50% of LUT resources and 15% of flip-flops available in the XC7Z020 FPGA are used. Comparing the results of this thesis with the related designs on the zynq 7000 chip for MNIST dataset shows at least a 2-fold improvement in the introduced FOM based on accuracy, latency, and hardware resource utilization.
-
كليدواژه هاي فارسي
شبكهي عصبي كانولوشن , شتابدهندهي سختافزاري , آرايه دروازه برنامهپذير ميداني زينك , ابزار سنتز سطح بالا
-
كليدواژه هاي لاتين
Convolutional Neural Network , Harddware accelerator , Zynq FPGA , High Level Synthesis
-
Author
Zahr Shami
-
SuperVisor
Dr. Mirzakuchaki
-
لينک به اين مدرک :