• شماره ركورد
    33514
  • پديد آورنده

    پيمان آهنين جان

  • عنوان
    استفاده از FPGA ها به عنوان شتاب دهنده سخت افزاري
  • مقطع تحصيلي
    كارشناسي ارشد
  • رشته تحصيلي
    سيستم‌هاي الكترونيك ديجيتال
  • سال تحصيل
    1401
  • تاريخ دفاع
    1404/3/3
  • استاد راهنما
    ستار ميرزاكوچكي
  • استاد مشاور
    -
  • دانشكده
    دانشكده مهندسي برق
  • چكيده
    الگوريتم‌هاي سنتي پردازش تصوير ماهيت متوالي دارند. وقتي اين الگوريتم‌ها در يك سيستم بلادرنگ پياده‌سازي شوند، زمان پاسخ‌دهي زيادي خواهند داشت. در يك پلتفرم تعبيه‌شده، چنين الگوريتم‌هايي به دليل تعداد سيكل‌هاي ساعت بيشتري كه براي اجراي آن‌ها لازم است، انرژي بيشتري نيز مصرف مي‌كنند. با ظهور آرايه‌هاي دروازه قابل برنامه‌ريزي ميداني (FPGA)، معماري‌هاي موازي گسترده‌اي مي‌توانند براي افزايش سرعت اجراي چندين الگوريتم پردازش تصوير طراحي شوند. در مقاله‌اي با عنوان "Accelerating CNN inference on FPGAs: A Survey" به بررسي جامع روش‌هاي شتاب‌دهي استنتاج شبكه‌هاي عصبي كانولوشني (CNN) با استفاده از FPGA پرداخته شده است. نويسندگان اين مقاله به تحليل بارهاي محاسباتي، روش‌هاي موازي‌سازي و چگونگي دسترسي به حافظه در اين حوزه پرداخته‌اند و بهينه‌سازي‌هاي مختلف در سطح نورون و شبكه را مورد بررسي قرار داده‌اند. يكي ديگر از كارهاي تاثيرگذار در اين زمينه توسط آقاي David Gschwend انجام شده است. ايشان در پايان‌نامه كارشناسي ارشد خود با عنوان "ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network" يك شبكه عصبي كانولوشني بهينه‌سازي‌شده براي طبقه‌بندي تصاوير طراحي و پياده‌سازي كرده‌اند. اين شبكه بر روي پلتفرم Zynq FPGA اجرا شده و با استفاده از سنتز سطح بالا (HLS) به كارايي بالايي دست يافته است. گروهي ديگر نيز در مقاله‌اي با عنوان "Face Recognition with Hybrid Efficient Convolution Algorithms on FPGAs" به بررسي استفاده از الگوريتم‌هاي كانولوشن سريع مانند Winograd و FFT براي شتاب‌دهي در تشخيص چهره با استفاده از FPGA پرداخته‌اند. آن‌ها يك سيستم شتاب‌دهنده مبتني بر IP براي FaceNet طراحي كرده‌اند كه بر روي دستگاه Xilinx Ultrascale پياده‌سازي شده و نسبت به GPUهاي پيشرفته سرعت بالاتري دارد. در اين گزارش نيز من شبيه‌سازي دو الگوريتم پردازشي مهم يعني NLM و Histogram Equalization را به صورت سخت‌افزاري و نرم‌افزاري انجام داده و به شتاب‌دهي‌هاي قابل توجهي دست يافته‌ام. در مورد الگوريتم NLM، شبيه‌سازي آن بر روي پردازشگر FPGA Spartan6 نسبت به پردازشگر CPU باعث شد به تسريع 100 برابري دست پيدا كنم. اين فرآيند را براي الگوريتم Histogram Equalization نيز تكرار كردم و به شتاب‌دهي 20 برابري رسيدم.
  • تاريخ ورود اطلاعات
    1404/04/28
  • عنوان به انگليسي
    Using FPGAs as hardware accelerator
  • تاريخ بهره برداري
    1/1/1900 12:00:00 AM
  • دانشجوي وارد كننده اطلاعات

    پيمان اهنين جان

  • چكيده به لاتين
    Traditional image processing algorithms are inherently sequential. When implemented in a real-time system, they often lead to high response times. On embedded platforms, such algorithms consume more energy due to the larger number of clock cycles required for execution. With the advent of Field Programmable Gate Arrays (FPGAs), it has become possible to design highly parallel architectures to accelerate the execution of various image processing algorithms. In the paper titled *"Accelerating CNN inference on FPGAs: A Survey"*, the authors provide a comprehensive review of methods for accelerating convolutional neural network (CNN) inference using FPGAs. They analyze computational workloads, parallelization strategies, an‎d memory access patterns, an‎d they explore various optimizations at both the neuron an‎d network levels. Another influential work in this area was conducted by David Gschwend. In his masterʹs thesis titled *"ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network"*, he designed an‎d implemented an optimized CNN for image classification. The network was deployed on a Zynq FPGA platform an‎d achieved high performance through the use of High-Level Synthesis (HLS) techniques. Another research group, in a paper titled *"Face Recognition with Hybrid Efficient Convolution Algorithms on FPGAs"*, investigated the use of fast convolution algorithms such as Winograd an‎d FFT to accelerate face recognition on FPGAs. They designed an IP-based accelerator system for FaceNet, implemented on a Xilinx Ultrascale device, which outperformed advanced GPUs in terms of speed. In this report, I also performed both hardware an‎d software simulations of two key image processing algorithms: NLM (Non-Local Means) an‎d Histogram Equalization. For the NLM algorithm, implementing it on an FPGA (Spartan6) resulted in a 100x speedup compared to a CPU-based implementation. The same process was applied to the Histogram Equalization algorithm, which achieved a 20x acceleration.
  • كليدواژه هاي فارسي
    پردازش تصوير , سيستم تعبيه‌شده , آرايه دروازه قابل برنامه‌ريزي ميداني
  • كليدواژه هاي لاتين
    image processing , Embedded System , Field-Programmable Gate Array (FPGA)
  • Author
    Peyman Ahanin jan
  • SuperVisor
    Dr Sattar Mirzakuchaki