شماره ركورد

15486

عنوان

مطالعه مدلهاي زباني-بينايي براي برنامه‌ريزي وظايف چندمرحله‌اي در رباتيك

سال تحصيل

1403

استاد راهنما

دكتر بهروز مينايي بيدگلي

چکيده

ايجاد عامل‌هاي رباتيك هوشمند كه قادر به درك دستورات زبان طبيعي سطح بالا و اجراي آن‌ها در محيط‌هاي فيزيكي پيچيده باشند، يكي از چالش‌هاي ديرينه در هوش مصنوعي است. به طور سنتي، اين امر مستلزم برنامه‌ريزي‌هاي صريح و پرهزينه يا آموزش‌هاي گسترده و خاص دامنه بود. ظهور مدل‌هاي زباني-بينايي (VLM ) در مقياس بزرگ، كه بر روي داده‌هاي عظيم اينترنتي آموزش ديده‌اند، الگوي جديدي را معرفي كرده است. اين مدل‌ها، دانش عقل سليم و قابليت‌هاي استدلال معنايي بي‌سابقه‌اي را ارائه مي‌دهند كه پتانسيل تحول در حوزه برنامه‌ريزي وظايف رباتيك را دارد. با اين حال، انتقال اين دانش مفهومي از درك منفعلانه به عمل تجسم‌يافته و هدفمند – يعني گذار از VLM به مدل‌هاي بينايي-زباني-عمل (VLA )يك چالش تحقيقاتي باز و اساسي است. مسئله اصلي در «زمينه‌سازي » مفاهيم انتزاعي زباني در تعاملات فيزيكي دقيق و ممكن در دنياي واقعي نهفته است. اين مطالعه، به بررسي عميق و تحليل انتقادي معماري‌ها و استراتژي‌هاي محاسباتي مي‌پردازد كه با تمركز ويژه بر برنامه‌ريزي وظايف رباتيك، براي پر كردن اين شكاف طراحي شده‌اند. ما ابتدا مفاهيم بنيادي هوش مصنوعي، يادگيري عميق، پردازش زبان طبيعي و بينايي كامپيوتر را كه زيربناي اين مدل‌ها هستند، مرور مي‌كنيم. سپس، هسته اصلي اين پژوهش را با كالبدشكافي و دسته‌بندي معماري‌هاي پيشرفته مدل‌هاي VLA ارائه مي‌دهيم. اين دسته‌بندي شامل مدل‌هاي يكپارچه ، رويكردهاي سلسله‌مراتبي مبتني بر تجزيه وظيفه، مدل‌هاي مبتني بر قابليت‌دهي و مدل‌هاي جهان است. با تحليل انتقادي مدل‌هاي معرف در هر، چالش‌هاي كليدي نظير تعميم‌پذيري ، كارايي داده، استدلال چندمرحله‌اي و اجراي بلادرنگ را شناسايي مي‌كنيم. اين تحليل، چارچوبي جامع براي درك چشم‌انداز فعلي پژوهش و ترسيم مسيرهاي آتي براي توسعه عامل‌هاي رباتيك همه‌منظوره و هوشمند فراهم مي‌آورد.

نام دانشجو

عليرضا نظري

Name: عليرضا نظري
Author: عليرضا نظري

تاريخ ارائه

11/5/2025 12:00:00 AM

متن كامل

88732

پديد آورنده

عليرضا نظري

تاريخ ورود اطلاعات

1404/09/15

عنوان به انگليسي

Study of language-vision models for multi-step task planning in robotics

كليدواژه هاي فارسي

برنامه‌ريزي وظايف , مدل‌هاي VLM , مدل‌هاي VLA , هوش مصنوعي تجسم‌يافته , مدل‌هاي بينايي-زباني

كليدواژه هاي لاتين

vision language models , task planning , Language models

لينک به اين مدرک

https://dl.iust.ac.ir/dl/search/default.aspx?Term=15486&Field=0&DTC=14