حميد احمدآبادي

عنوان

شناسايي فعاليت انسان در تصاوير ثابت با استفاده از Vision Transformer

مقطع تحصيلي

كارشناسي ارشد

رشته تحصيلي

مهندسي برق گرايش سيستم‌هاي الكترونيك ديجيتال

سال تحصيل

1399

تاريخ دفاع

1402/7/29

استاد راهنما

دكتر احمد آيت اللهي

دانشكده

مهندسي برق

چكيده

امروزه شناسايي فعاليت انسان از طريق تصاوير ثابت، به عنوان يك زمينه‌ي تحقيقاتي مهم در بينايي كامپيوتر و تشخيص الگو شناخته شده است. زمينه‌ي هوش‌مصنوعي در تلاش است كه نوع رفتار يا فعاليت انسان را از تصوير ثابت شناسايي و دسته‌بندي كند. در تصوير ثابت برخلاف ويدئو، اطلاعات حركتي وجود ندارد كه به وسيله‌ي آن نوع فعاليت توصيف شود. بنابراين تشخيص و شناسايي نوع فعاليت از تصاوير ثابت، نيازمند توسعه‌ي روش‌هاي موثر و چالش برانگيزي است. بديهي است كه شبكه‌هاي يادگيري عميق مانند شبكه‌هاي عصبي كانولوشني، در دوران اخير به عنوان ابزارهاي قدرتمند در حوزه‌هاي مختلف يادگيري ماشين ظهور پيدا كرده‌اند. اما در حال حاضر، شبكه‌هاي تبديل‌گر تصوير به دليل عملكرد بهتر و كارايي بالاتر، جايگزيني جذابي براي شبكه‌ي كانولوشني محسوب مي‌شوند. همچنين، در زمينه تشخيص فعاليت انسان از تصاوير ثابت، مسئله دسترسي به مجموعه‌داده‌هاي برچسب‌خورده به ميزان كافي به‌عنوان يك چالش مهم مطرح مي‌شود. در شرايطي كه داده‌هاي آموزشي محدود هستند، استفاده از شبكه‌هاي عميق مي‌تواند به بيش‌برازش منجر شود. به منظور مقابله با اين چالش، از شبكه‌هاي عميق با وزن‌هاي اوليه از پيش آموزش ديده ImageNet مي‌توان بهره برد. در اين پژوهش ابتدا پنج شبكه‌ي تبديل‌گر تصوير با معماري جديد و بهينه‌شده با وزن‌هاي از پيش آموزش ديده انتخاب شده‌است و روي مجموعه داده‌ي Stanford40 آموزش داده شد. از آن جا كه ماهيت شبكه‌هاي تبديل‌گر تصوير توجه و تاكيد بر ويژگي‌هاي سراسري و جهاني است پس از بررسي و مقايسه دقت‌هاي بدست آمده به منظور افزايش دقت و بهبود نتايج از ايده‌ي تقطير يا چكانش دانش استفاده گرديد كه در آن دانش از يك شبكه‌ي پيچيده و بزرگتر به نام معلم به شبكه‌ي كوچك‌تر كه به آن دانش‌آموز مي‌گويند منتقل مي‌شود. اين روش با انتقال اطلاعات احتمالي و نرم‌تر از خروجي شبكه‌ي معلم، به شبكه‌ي دانش‌آموز كمك مي‌كند كه از دانش شبكه‌ي معلم بهره‌برداري كند و عملكرد بهتري داشته باشد. از شبكه‌ي كانولوشني ConvNext به عنوان شبكه‌ي معلم استفاده شد كه پارامترهاي آن دو برابر شبكه‌هاي دانش‌آموز بود و اين امكان را فراهم مي‌كرد كه ويژگي‌هاي محلي درون تصاوير ثابت را به گونه‌اي به روند يادگيري شبكه‌هاي دانش‌آموز تزريق و منتقل گردد. اين روش سبب شد در تمامي حالات از 1 تا 3 درصد افزايش و بهبود دقت در تشخيص فعاليت انسان با شبكه‌هاي دانش‌آموز ميسر گردد.

تاريخ ورود اطلاعات

1403/01/25

عنوان به انگليسي

Human Action Recognition in Still Images Using Vision Transformer

تاريخ بهره برداري

1/1/1900 12:00:00 AM

دانشجوي وارد كننده اطلاعات

حميد احمدابادي

Name: حميد احمدابادي
Author: حميد احمدآبادي

چكيده به لاتين

Today, the identification of human activities through still images has emerged as a significant research area in computer vision and pattern recognition. The field of artificial intelligence strives to recognize and categorize types of human behavior or activities from a still image. Unlike videos, still images lack motion information that can describe the activity. Therefore, detecting and identifying activities from still images requires the development of effective and challenging methods. It is evident that deep learning networks, such as convolutional neural networks, have recently emerged as powerful tools in various machine learning domains. However, vision transformers, due to their superior performance and efficiency, are now seen as an attractive alternative to convolutional networks. Additionally, in the context of human activity recognition from still images, the availability of sufficiently labeled datasets poses a significant challenge. With limited training data, deep networks may lead to overfitting. To counter this, deep networks with pre-trained weights from ImageNet can be utilized. In this research, initially, five vision transformer networks with new and optimized architectures and pre-trained weights were selected and trained on the Stanford40 dataset. Given the nature of vision transformers to focus on global and comprehensive features, the accuracy obtained from these networks was analyzed and compared. To enhance accuracy and improve results, the concept of knowledge distillation was employed, where knowledge is transferred from a larger, more complex network, referred to as the teacher, to a smaller network, known as the student. This method facilitates the transfer of softer, probabilistic information from the teacher network's output, enabling the student network to leverage the teacher's knowledge and perform better. The ConvNext convolutional network was used as the teacher network, with twice the parameters of the student networks, allowing local features within still images to be injected into and transferred to the student networks' learning process. This approach led to an improvement in accuracy by 1 to 3 percent in human activity recognition with the student networks.

كليدواژه هاي فارسي

شناسايي فعاليت انسان , يادگيري عميق , شبكه‌هاي تبديل‌گر تصوير , تقطير دانش , انتقال يادگيري

كليدواژه هاي لاتين

Human Action recognition , Deep Learning , Vision Transformer Networks , Knowledge Distillation , Transfer Learning

Author

Hamid Ahmadabadi

SuperVisor

Dr. Ahmad Ayatollahi

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=30700&Field=0&DTC=6