• شماره ركورد
    9704
  • پديد آورنده

    نويد ابراهيمي

  • عنوان
    تبديل تصاوير با فرمت PNG به كد TikZ معادل آن با استفاده از مدل‌هاي بينايي-زباني
  • مقطع تحصيلي
    كارشناسي
  • رشته تحصيلي
    مهندسي كامپيوتر
  • سال فارغ التحصيلي
    1404
  • استاد راهنما
    دكتر مرضيه ملكي‌مجد
  • دانشجوي وارد كننده اطلاعات

    نويد ابراهيمي

  • تاريخ ورود اطلاعات
    1404/03/09
  • دانشكده
    مهندسي كامپيوتر
  • عنوان به انگليسي
    Generating TikZ code from PNG images using Vision Language models
  • چكيده
    تصاوير را مي‌توان به شيوه‌هاي گوناگوني نمايش داد كه هر يك بسته به نياز و كاربرد، مزايا و معايب خاص خود را دارند. يكي از روش‌هاي قدرتمند و پركاربرد در محيط‌هاي علمي و آكادميك، بهره‌گيري از كدهاي TikZ است. اين روش با توليد برداري تصاوير، امكان ايجاد نمودارها، شكل‌ها و دياگرام‌هايي با دقت بالا و انعطاف‌پذيري بسيار را فراهم مي‌كند. برخلاف فرمت‌هاي رايج‌تر مانند PNG كه به‌صورت پيكسلي ذخيره مي‌شوند، تصاوير توليدشده با TikZ حتي در بزرگ‌نمايي‌هاي زياد نيز افت كيفيت ندارند و جزئيات خود را به‌خوبي حفظ مي‌كنند. اين ويژگي به‌ويژه در مستندات علمي مانند مقالات، پايان‌نامه‌ها و كتاب‌ها كه نياز به تصاوير با وضوح بالا دارند، از اهميت زيادي برخوردار است. با وجود اين مزايا، توليد خودكار كد TikZ از تصاوير PNG همچنان يك چالش مهم به شمار مي‌رود. كمبود مدل‌هاي دقيق و كارآمد براي انجام اين تبديل و حفظ كيفيت ساختاري تصوير نهايي، يكي از موانع اصلي در مسير بهره‌گيري گسترده از اين روش است. براي پاسخ به اين نياز، ما يك رويكرد نوآورانه و دو مرحله‌اي را پيشنهاد مي‌دهيم. در مرحله نخست، با استفاده از تكنيك‌هاي پيشرفته داده‌افزايي، مجموعه داده‌ اوليه‌ كدهاي TikZ را غني‌سازي كرده و تنوع آن را افزايش مي‌دهيم. اين كار منجر به ايجاد مدل‌هايي با توانايي تعميم بهتر در مواجهه با داده‌هاي جديد مي‌شود. در مرحله دوم، با بهره‌گيري از مدل‌هاي تركيبي بينايي-زباني و به‌كارگيري تكنيك‌هاي سبك‌سازي آموزش و تنظيم دقيق مانند LoRA، مدل را بر روي وظيفه‌ تبديل تصوير به كد TikZ تنظيم مي‌كنيم. اين رويكرد نه تنها موجب افزايش دقت و كارايي مدل مي‌شود، بلكه امكان پياده‌سازي آن را در محيط‌هاي محدود از نظر منابع محاسباتي نيز فراهم مي‌سازد.
  • كليدواژه ها
    مدل‌هاي بينايي-زباني , LoRA , داده‌افزايي , كد TikZ