-
شماره ركورد
31311
-
پديد آورنده
كوثر خسروي
-
عنوان
ارائه يك رويكرد يكپارچه و بيدرنگ بهمنظور تبديل تصوير جانبي به ديد از بالا با استفاده از يادگيري عميق
-
مقطع تحصيلي
كارشناسي ارشد
-
رشته تحصيلي
مهندسي برق - كنترل
-
سال تحصيل
1400
-
تاريخ دفاع
1403/03/21
-
استاد راهنما
سعيد عبادالهي
-
استاد مشاور
...
-
دانشكده
مهندسي برق
-
چكيده
با توجه به پيشرفتهاي روزافزون در زمينه بينايي كامپيوتر، توليد تصوير در نماي چشم پرنده از يك تصوير در نماي جلو، يك كار پيشپردازشي مهم در برنامههاي بينايي كامپيوتر مختلف مانند سيستمهاي كمكراننده، تشخيص و رديابي اشيا، نظارت تصويري و پارك خودرو در نظر گرفته ميشود. تصوير دوربين نمايشي از دنياي سهبعدي بر روي يك صفحة دوبعدي است. اين بدان معني است كه بسياري از ساختار صحنه مانند فاصله مطلق بين دو جسم، در نظر گرفته نميشود و اطلاعات عمق از دست ميرود؛ بنابراين درك طرح سهبعدي يك صحنه از يك تصوير پرسپكتيو يكي از مشكلات اساسي در بينايي كامپيوتر است. با توليد تصوير در نماي چشم پرنده، اعوجاج پرسپكتيو صفحه زمين حذف ميشود. اين تصحيح صفحه زمين اجازه ميدهد تا هندسه صحنه در سطح زمين مستقيماً از يك تصوير اندازهگيري شود. روشهاي مختلفي براي تبديل تصاوير از نماي جلو به تصاوير در نماي چشم پرنده وجود دارد كه براي اين منظور از سنسورهاي ليدار، رادار و دوربين استفاده ميشود. به طور كلي، اين روشها را ميتوان به دو دسته روشهاي مبتني بر هندسه و روشهاي مبتني بر يادگيري تقسيمبندي كرد. روشهاي هندسي با وجود زمان پردازش پايين، از دقت كافي برخوردار نيستند و تصوير نهايي در نماي چشم پرنده دچار اعوجاج خواهد بود. در سالهاي اخير روشهاي مبتني بر يادگيري به دليل ارائه نتايج اميدواركننده، بيشتر مورد توجه بودهاند. اما اكثر اين روشها، سرعت پاييني دارند و در كاربردهاي واقعي مناسب به نظر نميرسند. بنابراين، هدف اين پاياننامه ارائه يك رويكرد بيدرنگ براي تبديل تصوير نماي جلو به تصوير در نماي چشم پرنده با استفاده از يادگيري عميق و تنها يك دوربين به عنوان سنسور است. رويكرد ارائه شده شامل دو مدل يادگيري عميق است. ابتدا تصوير به دست آمده از دوربين نماي جلو، با استفاده از مدل DeeplabV3+، تقسيمبندي معنايي شده است. سپس، خروجي تقسيمبندي شده به عنوان ورودي وارد مدل دوم، شامل يك شبكه عصبي پيچشي شده و خروجي تقسيمبندي شدهي معنايي در نماي چشم پرنده توليد شده است. در رويكرد ارائه شده، نگاشت پرسپكتيو معكوس به عنوان ترنسفورمر در لايههاي شبكه مورد استفاده قرار گرفته است. اين پاياننامه توانسته با وجود حفظ دقت مدل، زمان استنتاج آن را با استفاده از سه روش بهينهسازي ساختار شبكه تا حد قابل قبولي كاهش دهد و امكان پيادهسازي آن را در حوزههاي مختلف بينايي ماشين به صورت بيدرنگ فراهم كند.
-
تاريخ ورود اطلاعات
1403/07/17
-
عنوان به انگليسي
An end-to-end realtime aproach to map frontal view to bird's-eye-view using deep learning
-
تاريخ بهره برداري
6/10/2025 12:00:00 AM
-
دانشجوي وارد كننده اطلاعات
كوثر خسروي
-
چكيده به لاتين
By the rapid advancements in computer vision, converting a frontal view image into a bird's-eye view image is an important pre-processing task in various computer vision applications such as driver assistance systems, object detection and tracking, video surveillance, and vehicle parking. The camera image represents the 3D world onto a 2D plane, meaning that much of the scene structure like absolute distances between objects is not captured and depth information is lost. Therefore, understanding the 3D layout of a scene from a perspective image is a fundamental challenge in computer vision. By generating a bird's-eye view image, the perspective distortion of the ground plane is eliminated. This ground plane rectification allows the scene geometry at the ground level to be directly measured from a single image.
There are various methods to convert frontal view images to bird's-eye view, using sensors like LiDAR, radar, and cameras. These methods can generally be categorized into geometry-based and learning-based approaches. Geometric methods have low processing time but lack sufficient accuracy, resulting in distortions in the final bird's-eye view image. In recent years, learning-based methods have gained more attention due to their promising results. However, most of these methods have low speed and may not be suitable for real-world applications.
Therefore, the goal of this thesis is to present a real-time approach for converting a frontal view image to a bird's-eye view image using deep learning and a single camera as the sensor. The proposed approach consists of two deep learning models. First, the frontal view image is semantically segmented using the DeepLabV3+ model. Then, the segmented output is fed into a second model comprising a convolutional neural network, which generates the semantic segmentation in the bird's-eye view. In the proposed approach, the inverse perspective mapping is used as a transformer in the network layers. This thesis has been able to significantly reduce the inference time of the model while maintaining its accuracy, enabling real-time implementation in various machine vision domains.
-
كليدواژه هاي فارسي
نماي چشم پرنده , يادگيري عميق , تقسيمبندي معنايي , نگاشت پرسپكتيو معكوس , ماتريس هموگرافي
-
كليدواژه هاي لاتين
Bird's-eye view , Deep learning , Semantic segmentation , Inverse perspective mapping , Homography matrix
-
Author
Kosar Khosravi
-
SuperVisor
Dr. Saeed Ebadollahi
-
لينک به اين مدرک :