• شماره ركورد
    28965
  • پديد آورنده

    زهرا شامي

  • عنوان
    طراحي يك چهارچوب هدفمند در ساخت شتاب‌دهنده‌هاي HLS بر اساس يادگيري عميق
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    مهندسي برق
  • سال تحصيل
    1399
  • تاريخ دفاع
    1402/04/25
  • استاد راهنما
    دكتر ميرزاكوچكي
  • دانشكده
    برق
  • چكيده
    شبكه‌ي عصبي كانولوشن يكي از تأثيرگذارترين الگوريتم‌هاي يادگيري عميق در حل بسياري از مسائل مانند پردازش تصوير است. دقت بالاي CNN حاصل پردازش‌هاي پيچيده‌اي است كه چالش‌هاي بسياري را در زمينه‌ي طراحي واحدهاي سخت‌افزاري آن‌ ايجاد كرده است. در سال‌هاي اخير، آرايه‌ي دروازه‌ي ميداني برنامه‌پذير ، با قابليت‌هايي نظير پيكربندي مجدد، امكان موازي‌سازي در سطوح مختلف و مصرف انرژي بهينه‌ بعنوان شتاب‌دهنده‌ي CNN با كارايي بالا معرفي شده‌ است. در اين راستا، ابزار سنتز سطح بالا نقش شاياني در تسهيل طراحي اين نوع شتاب‌دهنده‌ها ايفا مي‌نمايند. در اين پايان‌نامه، به تدوين يك چهارچوب هدفمند براي طراحي يك شتاب‌دهنده‌ي سخت‌افزاري مبتني بر CNN با بهره‌گيري از HLS در FPGA پرداخته‌ايم. در معماري پيشنهادي از داده‌هاي 15 بيتي براي نمايش ورودي‌ها و پارامترهاي شبكه استفاده شده و انتقال داده‌ها بصورت جرياني صورت مي‌گيرد. در طرح پيشنهادي، با استفاده از يك الگوريتم‌ نوين براي پياده‌سازي لايه‌ي كانولوشن، رجوع به حافظه و در نتيجه توان مصرفي كاهش يافته است. همچنين، موازي‌سازي در سطوح مختلف و استفاده از روش خط‌لوله موجب كاهش تأخير گشته است. معماري پيشنهادي انعطاف‌‌پذيري بالايي داشته و با تغيير فراپارامترها مي‌توان هر شبكه‌ي CNN كه شامل لايه‌هاي كانولوشن و ادغام از نوع بيشينه باشد را روي اين سيستم اجرا نمود. در اين پايان‌نامه، شتاب‌دهنده‌ي CNN پيشنهادي بر روي تراشه‌ي Xilinx XC7Z020 پياده‌سازي شد و با استفاده از پايگاه‌داده‌ي MNIST مورد ارزيابي قرار گرفت. دقت تشخيص ارقام دست‌نويس توسط مدل CNN پيشنهادي برابر 7/98% و تأخير تشخيص آن برابر 39140 چرخه‌ي كلاك در فركانس كاري 100 مگا هرتز است. در پياده‌سازي سخت‌افزاري اين مدل، 3% از بلوك‌هاي BRAM، %23 از قطعات DSP48E، %50 از منابع LUT و 15% از فليپ فلاپ‌هاي موجود در تراشه استفاده مي‌شود. مقايسه‌ي نتايج اين پايان‌نامه با طراحي‌هاي مرتبط بر روي تراشه‌ي zynq 7000 براي داده‌هاي MNIST، بهبود حداقل 2 برابري در شاخص ارزش معرفي شده بر اساس دقت، تأخير و استفاده‌ از منابع سخت‌افزاري را نشان مي‌دهد.
  • تاريخ ورود اطلاعات
    1402/08/06
  • عنوان به انگليسي
    Design a targeted framework for building HLS accelerators based on deep learning
  • تاريخ بهره برداري
    7/15/2024 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    زهرا شامي

  • چكيده به لاتين
    Convolutional Neural Network (CNN) is one of the most influential deep learning algorithms in solving various problems, such as image processing. The high accuracy of CNN is achieved by complex computations, which have created many challenges in the design of its hardware units. In recent years, Field-Programmable Gate Arrays (FPGA) have been introduced as high-performance CNN accelerators with features such as reconfigurability, parallelization at different levels and energy efficiency. In this regard, High-Level Synthesis (HLS) tools play a significant role in facilitating the design of such accelerators. In this thesis, we have developed a targeted framework for designing a CNN hardware accelerator based on FPGA using HLS. The proposed architecture uses 15-bit data representation for input and network parameters. The data in the presented model is transmitted as streaming data. In the proposed model, the use of a novel algorithm for implementing the convolution layer has reduced memory access and consequently reduced power consumption. Additionally, parallelization at different levels and the use of pipelining techniques have resulted in reduced latency. The proposed architecture has high flexibility and by changing the hyperparameters, it can execute any CNN network containing convolution and max-pooling layers on this system. In this thesis, the proposed CNN accelerator was implemented on the Xilinx XC7Z020 FPGA and eva‎luated using the MNIST database. The accuracy of digit recognition by the proposed CNN model is 98.7% and the detection latency is 39,140 clock cycles at 100 MHz frequency. In the hardware implementation of this model, 3% of BRAM blocks, 23% of DSP48E slices, 50% of LUT resources and 15% of flip-flops available in the XC7Z020 FPGA are used. Comparing the results of this thesis with the related designs on the zynq 7000 chip for MNIST dataset shows at least a 2-fold improvement in the introduced FOM based on accuracy, latency, and hardware resource utilization.
  • كليدواژه هاي فارسي
    شبكه‌ي عصبي كانولوشن , شتاب‌دهنده‌ي سخت‌افزاري , آرايه دروازه برنامه‌پذير ميداني زينك , ابزار سنتز سطح بالا
  • كليدواژه هاي لاتين
    Convolutional Neural Network , Harddware accelerator , Zynq FPGA , High Level Synthesis
  • Author
    Zahr Shami
  • SuperVisor
    Dr. Mirzakuchaki