كوثر خسروي

عنوان

ارائه يك رويكرد يكپارچه و بي‌درنگ به‌منظور تبديل تصوير جانبي به ديد از بالا با استفاده از يادگيري عميق

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق - كنترل

سال تحصيل

1400

تاريخ دفاع

1403/03/21

استاد راهنما

سعيد عبادالهي

استاد مشاور

...

دانشكده

مهندسي برق

چكيده

با توجه ‌به پيشرفت‌هاي روزافزون در زمينه بينايي كامپيوتر، توليد تصوير در نماي چشم پرنده از يك تصوير در نماي جلو، يك كار پيش‌پردازشي مهم در برنامه‌هاي بينايي كامپيوتر مختلف مانند سيستم‌هاي كمك‌راننده، تشخيص و رديابي اشيا، نظارت تصويري و پارك خودرو در نظر گرفته مي‌شود. تصوير دوربين نمايشي از دنياي سه‌بعدي بر روي يك صفحة دو‌بعدي است. اين بدان معني است كه بسياري از ساختار صحنه مانند فاصله مطلق بين دو جسم، در نظر گرفته نمي‌شود و اطلاعات عمق از دست مي‌رود؛ بنابراين درك طرح سه‌بعدي يك صحنه از يك تصوير پرسپكتيو يكي از مشكلات اساسي در بينايي كامپيوتر است. با توليد تصوير در نماي چشم پرنده، اعوجاج پرسپكتيو صفحه زمين حذف مي‌شود. اين تصحيح صفحه زمين اجازه مي‌دهد تا هندسه صحنه در سطح زمين مستقيماً از يك تصوير اندازه‌گيري شود. روش‌هاي مختلفي براي تبديل تصاوير از نماي جلو به تصاوير در نماي چشم پرنده وجود دارد كه براي اين منظور از سنسورهاي ليدار، رادار و دوربين استفاده مي‌شود. به طور كلي، اين روش‌ها را مي‌توان به دو دسته روش‌هاي مبتني بر هندسه و روش‌هاي مبتني بر يادگيري تقسيم‌بندي كرد. روش‌هاي هندسي با وجود زمان پردازش پايين، از دقت كافي برخوردار نيستند و تصوير نهايي در نماي چشم پرنده دچار اعوجاج خواهد بود. در سال‌هاي اخير روش‌هاي مبتني بر يادگيري به دليل ارائه نتايج اميدواركننده، بيشتر مورد توجه بوده‌اند. اما اكثر اين روش‌ها، سرعت پاييني دارند و در كاربردهاي واقعي مناسب به نظر نمي‌رسند. بنابراين، هدف اين پايان‌نامه ارائه يك رويكرد بي‌درنگ براي تبديل تصوير نماي جلو به تصوير در نماي چشم پرنده با استفاده از يادگيري عميق و تنها يك دوربين به عنوان سنسور است. رويكرد ارائه شده شامل دو مدل يادگيري عميق است. ابتدا تصوير به دست آمده از دوربين نماي جلو، با استفاده از مدل DeeplabV3+، تقسيم‌بندي معنايي شده است. سپس، خروجي تقسيم‌بندي شده به عنوان ورودي وارد مدل دوم، شامل يك شبكه عصبي پيچشي شده و خروجي تقسيم‌بندي شده‌ي معنايي در نماي چشم پرنده توليد شده است. در رويكرد ارائه شده، نگاشت پرسپكتيو معكوس به عنوان ترنسفورمر در لايه‌هاي شبكه مورد استفاده قرار گرفته است. اين پايان‌نامه توانسته با وجود حفظ دقت مدل، زمان استنتاج آن را با استفاده از سه روش بهينه‌سازي ساختار شبكه تا حد قابل قبولي كاهش دهد و امكان پياده‌سازي آن را در حوزه‌هاي مختلف بينايي ماشين به صورت بي‌درنگ فراهم كند.

تاريخ ورود اطلاعات

1403/07/17

عنوان به انگليسي

An end-to-end realtime aproach to map frontal view to bird's-eye-view using deep learning

تاريخ بهره برداري

6/10/2025 12:00:00 AM

دانشجوي وارد كننده اطلاعات

كوثر خسروي

Name: كوثر خسروي
Author: كوثر خسروي

چكيده به لاتين

By the rapid advancements in computer vision, converting a frontal view image into a bird's-eye view image is an important pre-processing task in various computer vision applications such as driver assistance systems, object detection and tracking, video surveillance, and vehicle parking. The camera image represents the 3D world onto a 2D plane, meaning that much of the scene structure like absolute distances between objects is not captured and depth information is lost. Therefore, understanding the 3D layout of a scene from a perspective image is a fundamental challenge in computer vision. By generating a bird's-eye view image, the perspective distortion of the ground plane is eliminated. This ground plane rectification allows the scene geometry at the ground level to be directly measured from a single image. There are various methods to convert frontal view images to bird's-eye view, using sensors like LiDAR, radar, and cameras. These methods can generally be categorized into geometry-based and learning-based approaches. Geometric methods have low processing time but lack sufficient accuracy, resulting in distortions in the final bird's-eye view image. In recent years, learning-based methods have gained more attention due to their promising results. However, most of these methods have low speed and may not be suitable for real-world applications. Therefore, the goal of this thesis is to present a real-time approach for converting a frontal view image to a bird's-eye view image using deep learning and a single camera as the sensor. The proposed approach consists of two deep learning models. First, the frontal view image is semantically segmented using the DeepLabV3+ model. Then, the segmented output is fed into a second model comprising a convolutional neural network, which generates the semantic segmentation in the bird's-eye view. In the proposed approach, the inverse perspective mapping is used as a transformer in the network layers. This thesis has been able to significantly reduce the inference time of the model while maintaining its accuracy, enabling real-time implementation in various machine vision domains.

كليدواژه هاي فارسي

نماي چشم پرنده , يادگيري عميق , تقسيم‌بندي معنايي , نگاشت پرسپكتيو معكوس , ماتريس هموگرافي

كليدواژه هاي لاتين

Bird's-eye view , Deep learning , Semantic segmentation , Inverse perspective mapping , Homography matrix

Author

Kosar Khosravi

SuperVisor

Dr. Saeed Ebadollahi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=31311&Field=0&DTC=6