شماره ركورد
10373
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
10373
پديد آورنده
سعيد كريمي
عنوان
بهبود بازيابي اطلاعات متون فارسي با استفاده از برچسبگذاري ادات سخن و وزندهي كلمات
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
كامپيوتر - نرمافزار
سال تحصيل
فروردين ماه 1391
تاريخ دفاع
فروردين ماه 1391
استاد راهنما
دكتر محمد عبداللهي ازگمي - دكتر بهروز مينايي بيدگلي
چكيده
توسعه سيستمهاي رايانهاي و گسترش استفاده از فناوري اطلاعات در زندگي روزمره باعث شده تا اطلاعات از درجه اهميت بالايي برخوردار شوند؛ چنانكه عصر حاضر را «عصر اطلاعات» ناميدهاند. هرچه حجم اين اطلاعات افزايش مييابد كنترل و مديريت آن مشكلتر ميشود، لذا توليد و وجود اطلاعات به تنهايي كافي نيست بلكه بايد ابزارهايي براي استفاده از اين اطلاعات فراهم شود. در نتيجه روشهاي بازيابي اطلاعات در قالب پاسخدهي به نياز اطلاعاتي كاربران اهميت ويژهاي پيدا ميكند. به طور كلي در سيستمهاي بازيابي اطلاعات، مهمترين عامل كه نقش كلمات را از نظر ميزان تاثير آنها به عنوان كلمات كليدي متن مشخص ميكند، وزن كلمه است. در مرحله وزندهي، با استفاده از تكنيكهاي مختلف وزندهي، به هر كلمه يا عبارت استخراج شده وزني نسبت داده ميشود. اين وزن بيانگر ميزان تاثير كلمه در موضوع اصلي متن در مقايسه با ساير كلمات به كار رفته در متن است. از يك سو ميتوان ادعا نمود كه هر چه ميزان دقت تعيين وزن كلمات بالاتر باشد و وزنهاي تخصيصي، واقعيتر باشند، دقت بازيابي نيز افزايش خواهد يافت لذا ارائه يك روش وزندهي مناسب ميتواند دقت بازيابي متون را بهبود بخشد. از سوي ديگر با بهرهگيري از اطلاعات ادات سخن، ميتوان ميزان دقت وزندهي و در نتيجه دقت بازيابي را در متون فارسي بهبود بخشيد.
در اين پاياننامه پس از بررسي روشهاي وزندهي موجود، يك روش وزندهي در حوزه مدلهاي احتمالي معرفي ميشود، سپس اين روش بسط داده شده طوريكه بتوان ويژگيهايي خاص با ضرايبي مشخص را در آن لحاظ نمود و در انتها با استفاده از اين تابع وزندهي و به كارگيري اطلاعات ادات سخن، به عنوان يكي از ويژگيهاي زبان فارسي، سعي خواهد شد تا كارايي سيستمهاي بازيابي اطلاعات در متون فارسي بهبود يابد.
نتايج بيانگر تاثير مثبت استفاده از اطلاعات ادات سخن در تعيين وزن كلمات و بهبود معيارهاي بازيابي در متون فارسي است.
واژههاي كليدي:
بازيابي اطلاعات، وزندهي كلمات، زبان فارسي، رتبهبندي اسناد، مدلهاي احتمالي