IJE TRANSACTIONS C: Aspects Vol. 28, No. 12 (December 2015) 1728-1737   

PDF URL: http://www.ije.ir/Vol28/No12/C/5-2140.pdf  
A. Darvishi and H. Hassanpour
( Received: October 08, 2015 – Accepted: December 24, 2015 )

Abstract    The main objective of data mining is to acquire information from a set of data for prospect applications using a measure. The concerning issue is that one often has to deal with large scale data. Several dimensionality reduction techniques like various feature extraction methods have been developed to resolve the issue. However, the geometric view of the applied measure, as an additional consideration, is generally neglected. Since each measure has its own perspective to the data, different interpretations may achieved on data depending on the used measure. While efforts are often focused on adjusting the feature extraction techniques for mining the data, choosing a suitable measure regarding to the nature or general characteristics of the data or application is more appropriate. Given a couple of sequences, a specific measure may consider them as similar while another one may quantify them as dissimilar. The goal of this research is twofold: to evince the role of feature extraction in data mining, and to reveal the significance of similarity measures geometric attributes in detecting the relationships between data.


Keywords    Data mining, Feature extraction, Similarity measures, Geometric view


چکیده    مقصود اصلی داده کاوی، اخذ اطلاعات توسط یک معیار از مجموعه­ایی از داده ها برای کاربردهای موردنظر است. مشکل عمده، رویارویی با داده ها در مقیاس بزرگ است. تکنیک­های کاهش ابعاد متعددی همانند روش­های گوناگون استخراج مشخصه برای حل این معضل ارائه شده­اند. با این حال، دید هندسی معیار بکار رفته به عنوان عاملی موثر بطور کلی نادیده گرفته شده­است. از آنجایی که هر معیار چشم انداز مخصوص بخود را نسبت به داده­ها دارا ست، ممکن است تفسیر متفاوتی نسبت به داده­ها ارائه کند. در حالی که اقدامات محققین اغلب بر روی استخراج مشخصه بهتر برای داده کاوی معطوف شده است، به نظر می­رسد انتخاب معیاری مناسب بر مبنای ماهیت داده و یا خصوصیات کاربردی شایسته­تر باشد. یک معیار خاص ممکن است دو سری زمانی را مشابه در نظر بگیرد، درحالی که معیاری دیگر همان دو دنباله را بی­شباهت بداند. هدف این تحقیق شامل دو مورد: نشان دادن نقش استخراج مشخصه در داده کاوی و ابراز اهمیت خصوصیات هندسی معیارهای شباهت در تشخیص ارتباط بین داده هاست. همچنین کارایی معیارهای شباهت مختلف در کلاس بندی سه مجموعه داده مصنوعی و یک مجموعه داده واقعی از سری­های زمانی نوار قلب بررسی شدئ است.



International Journal of Engineering
