علي مهدوي

عنوان

پياده‌سازي بهينه‌ي مدل‌هاي يادگيري عميق در پلتفرم‌هاي مبتني بر FPGA

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق

سال تحصيل

1401

تاريخ دفاع

1404/5/25

استاد راهنما

دكتر ستار ميرزاكوچكي

استاد مشاور

-‎--

دانشكده

مهندسي برق

چكيده

پياده‌سازي مدل‌هاي پيچيده‌‌ي يادگيري عميق در كاربردهاي لبه چالش‌هاي زيادي به‌همراه دارد و نيازمند بهينه‌سازي سخت‌افزاري ‌در سطوح مختلف پياده‌سازي مي‌باشد. FPGA ها به‌دليل ساختار منعطفي كه دارند براي پياده‌سازي بهينه‌ي اين مدل‌ها گزينه‌ي مناسبي مي‌باشند. در اين تحقيق ابتدا مدل يادگيري‌عميق ResNet18 برروي پردازنده‌ي گرافيكي NVIDIA RTX3060 و با استفاده از پايگاه داده‌ي UIE تعليم داده شد. سپس پارامترهاي تعليم‌يافته‌ي آن از قبيل وزن‌ها و باياس‌ها در ابتدا هرس و بعد از آن كوانتيزه شده و تمامي پارامتر‌ها به داده ‌هاي مميز ثابت INT8 تبديل شدند. در گام بعدي براي پياده‌سازي اين مدل به كمك FPGA از سنتز سطح بالا استفاده شد و تمامي لايه‌هاي محاسباتي شبكه از قبيل كانولوشن، لايه‌ي ادغام، ReLU و لايه‌ي كاملا متصل با استفاده از زبان C++ توصيف شده و بهينه‌سازي‌هاي مورد نياز براي پياده‌سازي مدل نيز با كمك اين توصيف انجام شدند. درنهايت اين مدل برروي قطعه‌ي KU115-flva Kintex Ultrascale پياده‌سازي شد. سرعت انجام محاسبات روبه‌جلو در شتاب‌دهنده براي داده‌هاي ارزيابي برابر با GOPS 28/671 مي‌باشد كه نسبت به نتايج مشابه اخيردر پياده‌سازي به ميزان %8/12 افزايش يافته است. همچنين مصرف توان شتاب‌دهنده برحسب وات برابر با 73/14 و ميزان استفاده از منابع موجود در FPGA براي قطعات DSP برابر با 75%، قطعات BRAM 90% و براي LUT ها برابر با 20% مي‌باشد.

تاريخ ورود اطلاعات

1404/06/05

عنوان به انگليسي

optimized implementation of deep learning models on FPGA based platforms

تاريخ بهره برداري

8/16/2026 12:00:00 AM

دانشجوي وارد كننده اطلاعات

علي مهدوي

Name: علي مهدوي
Author: علي مهدوي

چكيده به لاتين

Despite their significant advantages, deploying complex deep learning models in edge application entails considerable limitations, necessitating hardware optimizations at multiple levels. FPGAs (Field Programmable Gate Array), due to their flexible architecture are suitable choice for optimizing these models. In this study the ResNet18 deep learning model was first trained on an Nvidia RTX3060 GPU using UIE dataset. Subsequently, the trained parameters (e.g., weights an‎d biases) underwent pruning followed by quantization, converting all parameters to INT8 fixed point data. In the next step for FGA implementation, high level synthesis (HLS) was deployed an‎d all computation layers of the network including convolution, pooling, ReLU an‎d fully connected layers were described an‎d optimized using C++ language. The optimized model was then deployed on a Xilinx KU115-flva Kintex Ultrascale FPGA. inference speed for test data is 671/28 GOPS. power usage of the accelerator is 14/769 watt. resource utilization for DSP slices in FPGA is 75%, for BRAM resources is 90% an‎d for LUT resources is 20%.

كليدواژه هاي فارسي

يادگيري عميق , اف پي جي اي , كانولوشن , شتاب‌دهنده

كليدواژه هاي لاتين

ِdeep learning , FPGA , Convolution , Accelerator

Author

Ali Mahdavi

SuperVisor

Sattar Mirzakuchaki

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=33621&Field=0&DTC=6