• شماره ركورد
    15486
  • عنوان
    مطالعه مدلهاي زباني-بينايي براي برنامه‌ريزي وظايف چندمرحله‌اي در رباتيك
  • سال تحصيل
    1403
  • استاد راهنما
    دكتر بهروز مينايي بيدگلي
  • چکيده
    ايجاد عامل‌هاي رباتيك هوشمند كه قادر به درك دستورات زبان طبيعي سطح بالا و اجراي آن‌ها در محيط‌هاي فيزيكي پيچيده باشند، يكي از چالش‌هاي ديرينه در هوش مصنوعي است. به طور سنتي، اين امر مستلزم برنامه‌ريزي‌هاي صريح و پرهزينه يا آموزش‌هاي گسترده و خاص دامنه بود. ظهور مدل‌هاي زباني-بينايي (VLM ) در مقياس بزرگ، كه بر روي داده‌هاي عظيم اينترنتي آموزش ديده‌اند، الگوي جديدي را معرفي كرده است. اين مدل‌ها، دانش عقل سليم و قابليت‌هاي استدلال معنايي بي‌سابقه‌اي را ارائه مي‌دهند كه پتانسيل تحول در حوزه برنامه‌ريزي وظايف رباتيك را دارد. با اين حال، انتقال اين دانش مفهومي از درك منفعلانه به عمل تجسم‌يافته و هدفمند – يعني گذار از VLM به مدل‌هاي بينايي-زباني-عمل (VLA )يك چالش تحقيقاتي باز و اساسي است. مسئله اصلي در «زمينه‌سازي » مفاهيم انتزاعي زباني در تعاملات فيزيكي دقيق و ممكن در دنياي واقعي نهفته است. اين مطالعه، به بررسي عميق و تحليل انتقادي معماري‌ها و استراتژي‌هاي محاسباتي مي‌پردازد كه با تمركز ويژه بر برنامه‌ريزي وظايف رباتيك، براي پر كردن اين شكاف طراحي شده‌اند. ما ابتدا مفاهيم بنيادي هوش مصنوعي، يادگيري عميق، پردازش زبان طبيعي و بينايي كامپيوتر را كه زيربناي اين مدل‌ها هستند، مرور مي‌كنيم. سپس، هسته اصلي اين پژوهش را با كالبدشكافي و دسته‌بندي معماري‌هاي پيشرفته مدل‌هاي VLA ارائه مي‌دهيم. اين دسته‌بندي شامل مدل‌هاي يكپارچه ، رويكردهاي سلسله‌مراتبي مبتني بر تجزيه وظيفه، مدل‌هاي مبتني بر قابليت‌دهي و مدل‌هاي جهان است. با تحليل انتقادي مدل‌هاي معرف در هر، چالش‌هاي كليدي نظير تعميم‌پذيري ، كارايي داده، استدلال چندمرحله‌اي و اجراي بلادرنگ را شناسايي مي‌كنيم. اين تحليل، چارچوبي جامع براي درك چشم‌انداز فعلي پژوهش و ترسيم مسيرهاي آتي براي توسعه عامل‌هاي رباتيك همه‌منظوره و هوشمند فراهم مي‌آورد.
  • نام دانشجو

    عليرضا نظري

  • تاريخ ارائه
    11/5/2025 12:00:00 AM
  • متن كامل
    88732
  • پديد آورنده

    عليرضا نظري

  • تاريخ ورود اطلاعات
    1404/09/15
  • عنوان به انگليسي
    Study of language-vision models for multi-step task planning in robotics
  • كليدواژه هاي فارسي
    برنامه‌ريزي وظايف , مدل‌هاي VLM , مدل‌هاي VLA , هوش مصنوعي تجسم‌يافته , مدل‌هاي بينايي-زباني
  • كليدواژه هاي لاتين
    vision language models , task planning , Language models