ارشيا حسين زاده

عنوان

بهبود سرعت استنتاج يادگيري عميق بر روي سكو هاي Jetson

مقطع تحصيلي

كارشناسي

رشته تحصيلي

مهندسي كامپيوتر

سال فارغ التحصيلي

1403

استاد راهنما

دكتر مرضيه ملكي مجد

استاد مشاور

دكتر محمدرضا محمدي

دانشجوي وارد كننده اطلاعات

ارشيا حسين زاده

Name: ارشيا حسين زاده
Author: ارشيا حسين زاده

تاريخ ورود اطلاعات

1403/07/16

دانشكده

مهندسي كامپيوتر

عنوان به انگليسي

Optimizing Deep Learning Inference Performance on Jetson Platforms

چكيده

در سال‌هاي اخير، يادگيري عميق به‌عنوان يكي از تكنيك‌هاي كليدي در زمينه‌ي يادگيري ماشين به‌طور چشمگيري توسعه يافته است. اين پيشرفت‌ها موجب افزايش دقت و كارايي مدل‌هاي يادگيري عميق شده و اين مدل‌ها را به ابزاري اساسي در تحليل داده‌هاي بزرگ و پيچيده تبديل كرده‌اند. با اين حال، اجراي اين مدل‌ها در دستگاه‌هاي لبه‌اي (Edge Devices) و سيستم‌هاي يكپارچه‌ي تعبيه‌شده (Embedded Systems) كه منابع محاسباتي محدودي دارند، چالش‌هاي قابل‌توجهي به همراه دارد. از جمله اين چالش‌ها مي‌توان به زمان طولاني استنتاج و مصرف انرژي بالا اشاره كرد كه مي‌تواند بر كارايي كلي سيستم تأثير منفي بگذارد. براي مقابله با اين چالش‌ها، چارچوب NVIDIA TensorRT به‌عنوان ابزاري قدرتمند براي بهينه‌سازي مدل‌هاي يادگيري عميق معرفي شده است. اين چارچوب با ارائه بهينه‌سازي‌هاي مختلف، قابليت اجراي سريع‌تر و با مصرف انرژي كمتر را براي مدل‌ها فراهم مي‌كند. اين پايان‌نامه بر بهبود سرعت و كارايي استنتاج مدل‌هاي يادگيري عميق بر روي پلتفرم‌هاي مبتني بر NVIDIA Jetson AGX Xavier تمركز دارد و تلاش مي‌كند با استفاده از تكنيك‌هاي پيشرفته، عملكرد اين مدل‌ها را بهبود بخشد. در اين پژوهش از تكنيك‌هاي مختلفي از جمله كوانتيزاسيون (Quantization)، ادغام لايه‌ها، تنظيم خودكار كرنل، و كنترل دقيق دقت لايه‌ها بهره گرفته مي‌شود تا بهينه‌سازي‌هاي مؤثري براي مدل‌ها فراهم شود. در اين راستا، الگوريتم‌هاي متنوع كوانتيزاسيون و ادغام لايه‌هاي شبكه به‌صورت دقيق مورد بررسي قرار مي‌گيرند تا نتايج دقيق‌تري نسبت به روش‌هاي قبلي ارائه دهند. نتايج اين پژوهش نشان مي‌دهد كه با استفاده از تكنيك‌هاي بهينه‌سازي، به‌ويژه كوانتيزاسيون و فشرده‌سازي مدل‌ها در TensorRT، عملكرد استنتاج مدل‌هاي يادگيري عميق به‌طور قابل‌توجهي بهبود يافته است. مدل‌هاي كوانتيزه‌شده با دقت‌هاي FP16 و INT8 توانستند تا 6 برابر سرعت بيشتري داشته باشند بدون آنكه كاهش محسوسي در دقت استنتاج مشاهده شود. همچنين اين بهينه‌سازي‌ها منجر به كاهش مصرف انرژي و منابع محاسباتي شده است. تركيب اين روش‌ها با ساير قابليت‌هاي TensorRT منجر به بهبود چشمگير كارايي سيستم و اجراي بهينه‌ي مدل‌ها در محيط‌هاي با منابع محدود شده است.

كليدواژه ها

Deep Learning Inference , TensorRT , Quantization , Model Optimization , Jetson AGX Xavier

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=9320&Field=0&DTC=12