شماره ركورد
15486
عنوان
مطالعه مدلهاي زباني-بينايي براي برنامهريزي وظايف چندمرحلهاي در رباتيك
سال تحصيل
1403
استاد راهنما
دكتر بهروز مينايي بيدگلي
چکيده
ايجاد عاملهاي رباتيك هوشمند كه قادر به درك دستورات زبان طبيعي سطح بالا و اجراي آنها در محيطهاي فيزيكي پيچيده باشند، يكي از چالشهاي ديرينه در هوش مصنوعي است. به طور سنتي، اين امر مستلزم برنامهريزيهاي صريح و پرهزينه يا آموزشهاي گسترده و خاص دامنه بود. ظهور مدلهاي زباني-بينايي (VLM ) در مقياس بزرگ، كه بر روي دادههاي عظيم اينترنتي آموزش ديدهاند، الگوي جديدي را معرفي كرده است. اين مدلها، دانش عقل سليم و قابليتهاي استدلال معنايي بيسابقهاي را ارائه ميدهند كه پتانسيل تحول در حوزه برنامهريزي وظايف رباتيك را دارد.
با اين حال، انتقال اين دانش مفهومي از درك منفعلانه به عمل تجسميافته و هدفمند – يعني گذار از VLM به مدلهاي بينايي-زباني-عمل (VLA )يك چالش تحقيقاتي باز و اساسي است. مسئله اصلي در «زمينهسازي » مفاهيم انتزاعي زباني در تعاملات فيزيكي دقيق و ممكن در دنياي واقعي نهفته است.
اين مطالعه، به بررسي عميق و تحليل انتقادي معماريها و استراتژيهاي محاسباتي ميپردازد كه با تمركز ويژه بر برنامهريزي وظايف رباتيك، براي پر كردن اين شكاف طراحي شدهاند. ما ابتدا مفاهيم بنيادي هوش مصنوعي، يادگيري عميق، پردازش زبان طبيعي و بينايي كامپيوتر را كه زيربناي اين مدلها هستند، مرور ميكنيم. سپس، هسته اصلي اين پژوهش را با كالبدشكافي و دستهبندي معماريهاي پيشرفته مدلهاي VLA ارائه ميدهيم. اين دستهبندي شامل مدلهاي يكپارچه ، رويكردهاي سلسلهمراتبي مبتني بر تجزيه وظيفه، مدلهاي مبتني بر قابليتدهي و مدلهاي جهان است. با تحليل انتقادي مدلهاي معرف در هر، چالشهاي كليدي نظير تعميمپذيري ، كارايي داده، استدلال چندمرحلهاي و اجراي بلادرنگ را شناسايي ميكنيم. اين تحليل، چارچوبي جامع براي درك چشمانداز فعلي پژوهش و ترسيم مسيرهاي آتي براي توسعه عاملهاي رباتيك همهمنظوره و هوشمند فراهم ميآورد.
نام دانشجو
عليرضا نظري
تاريخ ارائه
11/5/2025 12:00:00 AM
متن كامل
88732
پديد آورنده
عليرضا نظري
تاريخ ورود اطلاعات
1404/09/15
عنوان به انگليسي
Study of language-vision models for multi-step task planning in robotics
كليدواژه هاي فارسي
برنامهريزي وظايف , مدلهاي VLM , مدلهاي VLA , هوش مصنوعي تجسميافته , مدلهاي بينايي-زباني
كليدواژه هاي لاتين
vision language models , task planning , Language models