شماره ركورد
33621
پديد آورنده
علي مهدوي
عنوان
پيادهسازي بهينهي مدلهاي يادگيري عميق در پلتفرمهاي مبتني بر FPGA
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق
سال تحصيل
1401
تاريخ دفاع
1404/5/25
استاد راهنما
دكتر ستار ميرزاكوچكي
استاد مشاور
---
دانشكده
مهندسي برق
چكيده
پيادهسازي مدلهاي پيچيدهي يادگيري عميق در كاربردهاي لبه چالشهاي زيادي بههمراه دارد و نيازمند بهينهسازي سختافزاري در سطوح مختلف پيادهسازي ميباشد. FPGA ها بهدليل ساختار منعطفي كه دارند براي پيادهسازي بهينهي اين مدلها گزينهي مناسبي ميباشند. در اين تحقيق ابتدا مدل يادگيريعميق ResNet18 برروي پردازندهي گرافيكي NVIDIA RTX3060 و با استفاده از پايگاه دادهي UIE تعليم داده شد. سپس پارامترهاي تعليميافتهي آن از قبيل وزنها و باياسها در ابتدا هرس و بعد از آن كوانتيزه شده و تمامي پارامترها به داده هاي مميز ثابت INT8 تبديل شدند. در گام بعدي براي پيادهسازي اين مدل به كمك FPGA از سنتز سطح بالا استفاده شد و تمامي لايههاي محاسباتي شبكه از قبيل كانولوشن، لايهي ادغام، ReLU و لايهي كاملا متصل با استفاده از زبان C++ توصيف شده و بهينهسازيهاي مورد نياز براي پيادهسازي مدل نيز با كمك اين توصيف انجام شدند. درنهايت اين مدل برروي قطعهي KU115-flva Kintex Ultrascale پيادهسازي شد. سرعت انجام محاسبات روبهجلو در شتابدهنده براي دادههاي ارزيابي برابر با GOPS 28/671 ميباشد كه نسبت به نتايج مشابه اخيردر پيادهسازي به ميزان %8/12 افزايش يافته است. همچنين مصرف توان شتابدهنده برحسب وات برابر با 73/14 و ميزان استفاده از منابع موجود در FPGA براي قطعات DSP برابر با 75%، قطعات BRAM 90% و براي LUT ها برابر با 20% ميباشد.
تاريخ ورود اطلاعات
1404/06/05
عنوان به انگليسي
optimized implementation of deep learning models on FPGA based platforms
تاريخ بهره برداري
8/16/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
علي مهدوي
چكيده به لاتين
Despite their significant advantages, deploying complex deep learning models in edge
application entails considerable limitations, necessitating hardware optimizations at multiple
levels. FPGAs (Field Programmable Gate Array), due to their flexible architecture are suitable
choice for optimizing these models.
In this study the ResNet18 deep learning model was first trained on an Nvidia RTX3060 GPU
using UIE dataset. Subsequently, the trained parameters (e.g., weights and biases) underwent
pruning followed by quantization, converting all parameters to INT8 fixed point data.
In the next step for FGA implementation, high level synthesis (HLS) was deployed and all
computation layers of the network including convolution, pooling, ReLU and fully connected
layers were described and optimized using C++ language. The optimized model was then
deployed on a Xilinx KU115-flva Kintex Ultrascale FPGA.
inference speed for test data is 671/28 GOPS. power usage of the accelerator is 14/769 watt.
resource utilization for DSP slices in FPGA is 75%, for BRAM resources is 90% and for LUT
resources is 20%.
كليدواژه هاي فارسي
يادگيري عميق , اف پي جي اي , كانولوشن , شتابدهنده
كليدواژه هاي لاتين
ِdeep learning , FPGA , Convolution , Accelerator
Author
Ali Mahdavi
SuperVisor
Sattar Mirzakuchaki