شماره ركورد
34575
پديد آورنده
اوس الحيالي
عنوان
ها در ترجمه اهداف كابر به بيكر بندى هاى شبكةLLMارزيابى
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
شبكه هاى كامبيوتر
سال تحصيل
1404
تاريخ دفاع
1404/11/26
استاد راهنما
ناصر مزيني
استاد مشاور
استاد مشاور
دانشكده
مهندس كامبيوتر
چكيده
چالش مداوم مديريت دستي شبكههاي چندفروشندهاي نيازمند خودكارسازي پيكربنديهاي شبكه است و از آنجايي كه «توهم مدل» ميتواند پيكربنديها را كمدقتتر كند، مدلهاي زبان بزرگ (LLM) به رفع اين چالش كمك خواهند كرد. اين تحقيق بر اساس اين ايده است كه LLMها بايد با ترجيحات و ارزشهاي فردي كاربران (از طريق SFT و RLHF) همسو شوند و ما بايد از آزمونهاي ايستا و مبتني بر فرض به سمت چارچوبهاي چندبعدي حركت كنيم كه همزمان امنيت و عملكرد كد توليد شده (CWeval) و توانايي آن در تعامل با APIهاي خارجي (SEAL) را ارزيابي ميكنند. اين حوزه همچنين با چالشهاي زباني و فرهنگي روبرو است زيرا سوگيري زباني و خطاهاي ترجمه در معيارها ميتوانند به شدت بر نتايج ارزيابي تأثير بگذارند و به استراتژيهاي دقيق سازگاري فرهنگي نياز است. اين مطالعه از تركيبي از روشها و فناوريهاي سطح بالا براي رسيدگي به اين مسائل استفاده ميكند. با تركيب LLMها با برنامهريزي كلاسيك و استفاده از نمايشهاي ASP و PDDL، مشكلاتي كه LLMها در مديريت پرسوجوهاي ناقص دارند، برطرف ميشود. عاملهاي وب را ميتوان با LLMها به عنوان مدلهاي جهاني كه فرآيندهاي برگشتپذير را شبيهسازي ميكنند (WebDREAMERS) بهبود بخشيد. سيستمهاي RouteLLM و چندعاملي براي يافتن تعادل بين هزينه و عملكردي كه با گذشت زمان تغيير ميكند، استفاده ميشوند. در ارزيابي، نقش LLMها از ناظران منفعل به منتقدان فعال تبديل ميشود و معيارهاي ارزيابي خود-مشتق را تدوين ميكنند، در حالي كه از سوگيري خودشيفتگي كه قابليت اطمينان ارزيابيهاي مبتني بر LLM را به عنوان يك استاندارد قطعي به خطر مياندازد، آگاه هستند. اين تحقيق، چارچوب IRAG را به عنوان يك راه حل اوليه براي مقابله با مسئله توهم از طريق يك ماژول بازيابي مبتني بر قصد و يك مكانيسم تأييد معنايي دو مرحلهاي پيشنهاد ميكند. آزمايشها به طور قطعي نشان دادهاند كه اين رويكرد تركيبي ضروري است. نتايج اوليه نشان داد كه اعتبارسنجي معنايي اصلاً كار نميكند (دقت 0.0٪)، حتي اگر ساختار زباني به خوبي كار كند. اين بدان معناست كه اضافه كردن يك موتور سياست OPA براي اطمينان از بالا بودن دقت كلي قصد (95.0٪) و كارايي بالا مهم است. در نهايت، حتي اگر LLMهايي كه از استراتژيهاي ReAct استفاده ميكنند ممكن است در شبيهسازيهاي گفتگوي وظيفهگرا (TOD) از موفقيت سنتي به خوبي عمل نكنند، اما افراد را در زندگي واقعي شادتر ميكنند. واژههاي كليدي: مدلهاي زبان بزرگ (LLM)، ترجمه پيكربندي شبكه، اعتبارسنجي معنايي، موتور سياست OPA بهرهوري منابع
تاريخ ورود اطلاعات
1404/12/05
عنوان به انگليسي
evalUATING LLMS IN TRANSLATING USER INTENTS INTO NETWORK CONFIGURATIONS
تاريخ بهره برداري
2/15/2026 12:00:00 AM
دانشجوي وارد كننده اطلاعات
اوس الحيالي
چكيده به لاتين
The ongoing challenge of manually managing multi-vendor networks requires automation of network configurations, and since "model hallucination" can make configurations less accurate, Large Language Models (LLMs) will help to address this challenge. The research is based on the idea that LLMs need to be aligned to the individual preferences and values of users (via SFT and RLHF), and we have to move away from static, assumption-based tests towards multidimensional frameworks that simultaneously assess the security and functionality of generated code (CWeval) and its ability to interact with external APIs (SEAL). The field also faces linguistic and cultural challenges because linguistic bias and translation errors in metrics can strongly influence the results of evaluation, and careful cultural adaptation strategies are needed. The study utilizes a combination of methods and high-level technologies to address these issues. By combining LLMs with classical planning and using ASP and PDDL representations, the problems that LLMs have with handling incomplete queries are fixed. Web agents can be improved with LLMs as world models that simulate reversible processes (WebDREAMERS). RouteLLM and multi-agent systems are used to find a balance between cost and performance that changes over time. In evaluation, the role of LLMs transitions from passive observers to active critics, formulating self-derived evaluation criteria, while remaining aware of the narcissistic bias that compromises the reliability of LLM-based assessments as a conclusive standard. The research proposes the IRAG framework as a primary solution to tackle the hallucination issue through an intent-supported retrieval module and a two-stage semantic verification mechanism. Experiments have definitively demonstrated that this hybrid approach is essential. The first results showed that semantic validation didnʹt work at all (0.0% accuracy), even though the linguistic structure worked well. This means that adding an OPA policy engine is important to make sure that overall intent accuracy is high (95.0%) and that efficiency is high. Finally, even though LLMs that use ReAct strategies might not do as well in task-oriented dialogue (TOD) simulations of traditional success, they make people happier in real life.
كليدواژه هاي فارسي
مدلهاي زبان بزرگ (LLM , ترجمه پيكربندي شبكه , اعتبارسنجي معنايي
كليدواژه هاي لاتين
: Large Language Models (LLMs) , ), Network Configuration Translation , Semantic Validation
Author
Aws Al-Hayali
SuperVisor
DR.NASSER MOZAYANI