شماره ركورد
18385
شماره راهنما(اين فيلد مربوط به كارشناس ميباشد لطفا آن را خالي بگذاريد)
۱۸۳۸۵
پديد آورنده
طاهره كهريزي
عنوان
بازيابي اسناد فارسي با مدل فضاي برداري
مقطع تحصيلي
كارشناسي ارشد
رشته تحصيلي
هوش مصنوعي و رباتيك
تاريخ دفاع
مهرماه ۱۳۹۶
استاد راهنما
دكتر مرتضي آنالوئي
دانشكده
كامپيوتر
چكيده
افزايش ميزان داده¬هاي متني الكترونيكي، يك انگيزه مهم براي جستجوي روش¬هاي كارآمد در زمينهي كاوش دادههاي متني و به طور خاص، بازيابي اسناد است. هدف اصلي بازيابي اسناد، شناسايي اسناد مرتبط با نياز كاربر در يك پايگاه داده است. در واقع، بازيابي سند كه معمولاً با همان نام بازيابي اطلاعات مورد مراجعه قرار ميگيرد، ايجاد يك ليست از اسنادي است كه با درخواست كاربر مرتبط است. اين كار توسط مقايسه درخواست كاربر با يك فهرست از محتواهاي متني اسناد داخل سيستم انجام ميشود. امروزه، تقريباً همه از سيستمهاي بازيابي سند استفاده ميكنند، اگرچه ممكن است تحت اين عنوان به آن مراجعه نكنند، بلكه مثلاً آن را به عنوان موتور جستجوي مبتني بر وب بكار ببرند.
مدلهاي مختلفي براي بازيابي اسناد مطرح و استفاده شده است اما مدلهاي استانداردي كه در بازيابي اسناد استفاده ميشوند بر پايهي يك بازنمايي برداري از اسناد هستند. در مدل فضاي برداري، اسناد در قالب بردارهايي در فضاي برداري نشان داده ميشوند. بردارها به خوبي ميتوانند بازنماييهاي كمّي از معني كلمات ارائه دهند و معني كلمات را به راحتي براي ما قابل مقايسه كنند. در اين مدل، سندها و پرسوجوها به عنوان بستهي كلمه در نظر گرفته ميشوند.
در اين پاياننامه پس از بررسي روشهاي بازيابي اسناد، روشي جديد مبتني بر مدل فضاي برداري و معيار شباهت كسينوسي نرم جهت در نظر گرفتن ارتباط و معاني كلمات و بهبود نتايج، پيشنهاد شده است. در روش پيشنهادي، برخي مشكلات و نواقص مدل فضاي برداري مرتفع گرديده است.
تاريخ ورود اطلاعات
1396/11/01
تاريخ بهره برداري
1/21/2018 12:00:00 AM
دانشجوي وارد كننده اطلاعات
طاهره كهريزي
چكيده به لاتين
Increasing the amount of electronic text data is an important motive for finding efficient ways of exploring textual data and, in particular, documents retrieval. The primary purpose of document retrieval is to identify documents related to the user's needs in a database. In fact, document retrieval, which usually referred to information retrieval, is a creation of a list of documents that is related to the user's request. This is done by comparing the user's request with a list of textual content of documents within the system. Today, almost all of users use the document retrieval systems, although they may not refer to it by this name, but, for example, use it as a web-based search engine. Different models have been used and proposed for document retrieval, but the standard models used in document retrieval are based on a vector representation of documents. In vector space model, documents are represented in the form of vectors in vector spaces. Vectors can well represent quantitative representations of the meaning of words and can easily make comparable the meaning of words to us. In this model, documents and queries are considered as Bag of word.
In this thesis, after reviewing the methods of document retrieval, a new method based on the vector space model and the soft cosine similarity has been proposed to consider the relation and meanings of words and to improve the results. In the proposed method has tried to eliminate some of the problems and drawbacks of the vector-space model.