چکيده
امروزه ما با منابع توليد دادههاي جرياني روبهرو هستيم كه دادهها را با سرعت بالايي توليد ميكنند. مدلكردن دادههاي حجيم، پيوسته، سريع و متغيير در زمان با توجه به محدوديتهاي زماني و منابع محاسباتي نيازمند الگوريتمهاي يادگيري است كه با يكبار مشاهدهي داده و با رعايت محدوديت حافظه اصلي، به صورت بلادرنگ پاسخگو باشند. همچنين به دليل ماهيت متغيير دادهها در اين فضا، اين الگوريتمها بايد توانايي تشخيص رانش مفهوم را داشته باشند. به الگوريتمهايي كه با دادههاي نامحدود، پويا و گذرا كار ميكنند «الگوريتمهاي يادگيري دادههاي جرياني» گفته ميشود. حال اگر منبع توليد اين دادهها، يك توليد كننده محتواي متني باشد مساله به جهت نفرين ابعاد در دادههاي متني، وقوع بيشتر رانش مفهوم و دشواريهاي پردازش زبانهاي طبيعي، پيچيدهتر ميشود.
در سالهاي اخير، هم از نظر تئوري و هم از نظر عملي، الگوريتمهاي يادگيري ماشين و دادهكاوي، تمركز خود را بر روي مجموعههاي دادهاي ايستا، يكجا، همجنس، پايدار، معين، محدود و در نهايت مدلهاي ايستا معطوف كردهاند در حالي كه امروزه، بسياري ابزارهاي كاربردي، حجم بسيار زيادي از دادههاي جرياني را با سرعت بالايي تولييد ميكنند. دادهكاوي و يادگيري از جريانهاي دادهاي، به ويژه دادههاي متني كه ابعاد بالايي دارند، يكي از موضوعات داغ تحقيقاتي است كه ميتواند كاربردي باشد.