شماره ركورد
10000
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
10000
پديد آورنده
ارائه دهنده: سيد امين منعميان
عنوان
خلاصهسازي متون فارسي با استفاده از تحليل مفهوم نهفته و فاصله نرمالشده گوگلي
مقطع تحصيلي
درجهي كارشناسي ارشد
رشته تحصيلي
مهندسي كامپيوتر گرايش هوش مصنوعي
سال تحصيل
شهريور ماه 1390
تاريخ دفاع
شهريور ماه 1390
استاد راهنما
دكتر بهروز مينايي
چكيده
چكيده
با رشد و گسترش سريع دنياي وب و سرويسهاي اطلاعاتي برخط، دادهها و اطلاعات بسيار زيادي در محدوده دسترسي قرار دارند. اين رشد بسيار زياد، منجر به معضل انباشته شدن حجم عظيم اطلاعات شده است. با توجه به زمان محدود كاربران براي دسترسي به اطلاعات مورد نياز، تسريع در دستيابي به اطلاعات، امر بسيار مهمي به شمار ميرود. در اين پاياننامه سعي داريم با بررسي برخي روشها و راهكارهاي موجود در امر خلاصهسازي، به ارائهي روشي نوين در امر خلاصهسازي خودكار متون فارسي و همچنين طراحي و پيادهسازي آن بپردازيم. بدين منظور، ابتدا با انجام عمليات پيشپردازش متن مانند حذف كلمات بازدارنده و نيز تشخيص جملات، متن ورودي را براي انجام عمليات آماده مينماييم. همچنين با استفاده از يك مجموعه عظيم مستندات براي بهدست آوردن اهميت عبارات، مهمترين عبارتهاي موجود در متن را شناسايي ميكنيم و با تمركز بر روش تحليل مفهوم نهفته به عنوان يكي از متداولترين تكنيكهاي استفاده شده در حوزهي پردازش زبانهاي طبيعي، معيارهاي مختلف براي اندازه گيري ميزان ارتباط كلمات را بررسي خواهيم كرد و نشان خواهيم داد كه معيار فاصله نرمالشده گوگلي به عنوان يك معيار تأثيرگذار در امر خلاصهسازي متون ميتواند كانون توجه ويژه قرار گيرد. با پر كردن ماتريس مربوط به روش تحليل مفهوم نهفته، و اعمال تجزيهي مقادير تكين بر روي آن، مهمترين واحدهاي متني را استخراج ميكنيم. استفاده از روش ارائه شده در خلاصهسازي مستندات زبان فارسي، نتايج بسيار خوبي را به همراه داشته است.
واژههاي كليدي: خلاصهسازي متن، تحليل مفهوم نهفته، روشهاي آماري، كاهش بعد، معيار شباهت، فاصله نرمالشده گوگلي