شماره ركورد
30700
پديد آورنده
حميد احمدآبادي
عنوان
شناسايي فعاليت انسان در تصاوير ثابت با استفاده از Vision Transformer
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
مهندسي برق گرايش سيستمهاي الكترونيك ديجيتال
سال تحصيل
1399
تاريخ دفاع
1402/7/29
استاد راهنما
دكتر احمد آيت اللهي
دانشكده
مهندسي برق
چكيده
امروزه شناسايي فعاليت انسان از طريق تصاوير ثابت، به عنوان يك زمينهي تحقيقاتي مهم در بينايي كامپيوتر و تشخيص الگو شناخته شده است. زمينهي هوشمصنوعي در تلاش است كه نوع رفتار يا فعاليت انسان را از تصوير ثابت شناسايي و دستهبندي كند. در تصوير ثابت برخلاف ويدئو، اطلاعات حركتي وجود ندارد كه به وسيلهي آن نوع فعاليت توصيف شود. بنابراين تشخيص و شناسايي نوع فعاليت از تصاوير ثابت، نيازمند توسعهي روشهاي موثر و چالش برانگيزي است. بديهي است كه شبكههاي يادگيري عميق مانند شبكههاي عصبي كانولوشني، در دوران اخير به عنوان ابزارهاي قدرتمند در حوزههاي مختلف يادگيري ماشين ظهور پيدا كردهاند. اما در حال حاضر، شبكههاي تبديلگر تصوير به دليل عملكرد بهتر و كارايي بالاتر، جايگزيني جذابي براي شبكهي كانولوشني محسوب ميشوند. همچنين، در زمينه تشخيص فعاليت انسان از تصاوير ثابت، مسئله دسترسي به مجموعهدادههاي برچسبخورده به ميزان كافي بهعنوان يك چالش مهم مطرح ميشود. در شرايطي كه دادههاي آموزشي محدود هستند، استفاده از شبكههاي عميق ميتواند به بيشبرازش منجر شود. به منظور مقابله با اين چالش، از شبكههاي عميق با وزنهاي اوليه از پيش آموزش ديده ImageNet ميتوان بهره برد. در اين پژوهش ابتدا پنج شبكهي تبديلگر تصوير با معماري جديد و بهينهشده با وزنهاي از پيش آموزش ديده انتخاب شدهاست و روي مجموعه دادهي Stanford40 آموزش داده شد. از آن جا كه ماهيت شبكههاي تبديلگر تصوير توجه و تاكيد بر ويژگيهاي سراسري و جهاني است پس از بررسي و مقايسه دقتهاي بدست آمده به منظور افزايش دقت و بهبود نتايج از ايدهي تقطير يا چكانش دانش استفاده گرديد كه در آن دانش از يك شبكهي پيچيده و بزرگتر به نام معلم به شبكهي كوچكتر كه به آن دانشآموز ميگويند منتقل ميشود. اين روش با انتقال اطلاعات احتمالي و نرمتر از خروجي شبكهي معلم، به شبكهي دانشآموز كمك ميكند كه از دانش شبكهي معلم بهرهبرداري كند و عملكرد بهتري داشته باشد. از شبكهي كانولوشني ConvNext به عنوان شبكهي معلم استفاده شد كه پارامترهاي آن دو برابر شبكههاي دانشآموز بود و اين امكان را فراهم ميكرد كه ويژگيهاي محلي درون تصاوير ثابت را به گونهاي به روند يادگيري شبكههاي دانشآموز تزريق و منتقل گردد. اين روش سبب شد در تمامي حالات از 1 تا 3 درصد افزايش و بهبود دقت در تشخيص فعاليت انسان با شبكههاي دانشآموز ميسر گردد.
تاريخ ورود اطلاعات
1403/01/25
عنوان به انگليسي
Human Action Recognition in Still Images Using Vision Transformer
تاريخ بهره برداري
1/1/1900 12:00:00 AM
دانشجوي وارد كننده اطلاعات
حميد احمدابادي
چكيده به لاتين
Today, the identification of human activities through still images has emerged as a significant research area in computer vision and pattern recognition. The field of artificial intelligence strives to recognize and categorize types of human behavior or activities from a still image. Unlike videos, still images lack motion information that can describe the activity. Therefore, detecting and identifying activities from still images requires the development of effective and challenging methods. It is evident that deep learning networks, such as convolutional neural networks, have recently emerged as powerful tools in various machine learning domains. However, vision transformers, due to their superior performance and efficiency, are now seen as an attractive alternative to convolutional networks. Additionally, in the context of human activity recognition from still images, the availability of sufficiently labeled datasets poses a significant challenge. With limited training data, deep networks may lead to overfitting. To counter this, deep networks with pre-trained weights from ImageNet can be utilized. In this research, initially, five vision transformer networks with new and optimized architectures and pre-trained weights were selected and trained on the Stanford40 dataset. Given the nature of vision transformers to focus on global and comprehensive features, the accuracy obtained from these networks was analyzed and compared. To enhance accuracy and improve results, the concept of knowledge distillation was employed, where knowledge is transferred from a larger, more complex network, referred to as the teacher, to a smaller network, known as the student. This method facilitates the transfer of softer, probabilistic information from the teacher network's output, enabling the student network to leverage the teacher's knowledge and perform better. The ConvNext convolutional network was used as the teacher network, with twice the parameters of the student networks, allowing local features within still images to be injected into and transferred to the student networks' learning process. This approach led to an improvement in accuracy by 1 to 3 percent in human activity recognition with the student networks.
كليدواژه هاي فارسي
شناسايي فعاليت انسان , يادگيري عميق , شبكههاي تبديلگر تصوير , تقطير دانش , انتقال يادگيري
كليدواژه هاي لاتين
Human Action recognition , Deep Learning , Vision Transformer Networks , Knowledge Distillation , Transfer Learning
Author
Hamid Ahmadabadi
SuperVisor
Dr. Ahmad Ayatollahi