مقدمه:
جهان پیرامون ما سرشار از داده ها و اطلاعات گوناگون میباشد. برای پیش بینی گرایشات و جریان های آتی و به منظور اتخاذ تصمیم گیری بهتر در زمینه علوم، تکنولوژی ، صنعت، بازار وغیره.
انسان همواره با اشتیاقی حریصانه به دنبال کشف دانش از این موداب داده ها بوده است. قدیمی ترین دست نوشت ها کشف شده بر روی لوح های گلی مربوط به چهار قرن قبل از میلاد مسیح میباشد. با ساخت کاغذ داده های فراوانی بر روی هزاران جلد کتاب وسایر مستندات دیگر وغیره شد.
توامروزه نیز با افزایش روز افزون کاربرد کامپیوتر ها حجم عظیمی از داده ها دیسک های سخت را به صورت اطلاعات دیجیتالی پر کرده اند. با دراختیار داشتن حجم عظیم داده ها مساله اصلی چگونگی یا فتن جمعآوری و به کارگیری روش هایی است که بتوان آنها را در کشف دانش از داده ها و به کارگیری دانش کشف شده در موارد مختلف به کار گرفت.
اگر چه در دهه های اخیر زمینه جدید با عنوان داده کاوی به رواج یافته است ولی عملکردها و وظایف این علم مثل دسته بندی و جداسازی، از سالها پیش وجودداشته و به کار گرفته می شده اند. با توجه به اینکه هدف داده کاوی کشف الگوهای ناشناخته از داده ها میباشد روش های این علم از آموزش ماشین،هوش مصنوعی، آمار وغیره مشتق شده اند. با گسترش این علم روش های داده کاوی در زمینه هایی خارج از علوم کامپیوتر وهوش مصنوعی همچون دنیای تجارت وخطوط مونتا کارخانه ها نیز به کار گرفته شد.
بدین ترتیب قابلیت های داده کاوی در زمینه هایی چون افزایش رقابت در بازار تجاری تشخیص کلاه برداری، تشخیص بیماریها با توجه به مدارک پزشکی وغیره نیز مورد آزمایش قرار گرفت و به اثبات رسید.
معمولا در یک سیستم داده کاوی قابلیت هایی به منظور جمع آوری ذخیره سازی دسترسی پردازش و نهایتا توصیف ونمایش مجموعه های داده ای در نظر گرفته شود. جنبه های مختلف داده کاوی را میتوان به صورت مجزا مورد بررسی قراردارد. اگر چه جمع آوری وذخیره سازی اطلاعات در داده کاوی فوقالعاده با اهمیت می باشند ولی گاها این دو مورد را جز وظایف داده کاوی به شمار نمی آورد. در این میان افزونگی وگاها نامربوط بودن اطلاعات موجود در مجموعه های داده ها کاوی فوق العاده با اهمیت می باشند ولی گاها این دو مورد جزء وظایف داده کاوی به شمار نمی آورد. در این میان افزودگی وگاها نامربوط بودن اطلاعات موجود در مجموعه های داده ها وهمچنین قالب های ناسازگار مجموعه های داده ای جمع آوری شده را میتوان از جمله عواملی برشمرد که روند داده کاوی را با مشکل مواجه می کنند وحتی ممکن است باعث به وجودآمدن مسیرهای جستجوی گمراه کننده یا پایین آوردن کیفیت نتایج داده کاوی شوند. این مسائل وقتی بروز می دهند که افرادی که وظایف جمع آوری وپردازش کاویدن اطلاعات را بر عهده دارنددر یک گروه وکنار هم کارنکننده که در بسیاری از موارد راههای جمع آوری شده از ابتدا به منظور داده کاوی فراهم نشده اند.
داده کاوی اصول وروش کار:
عملیات داده کاوی را به صورت های مختلفی می توان دسته بندی کرد.در این متن ما به بررسی روش کار و روندعملیات در داده کاوی می پردازیم ودسته بندی این عملیات را به صورت پیش پردازش داده ها مدل سازی داده کاوی وتوصیف دانش مورد مطالعه قرار میدهیم شکل 1 عملیات پیش پردازش داده ها را میتوان شامل حذف نوفد انتخاب مشخصه ها، افراز داده ها، تبدیل داده ها، الحاق داده ها، پردازش داده های مفقود کاهش اندازه داده وغیره در نظر گرفت. در ادامه به بررسی بخش های مختلف یک سیستم داده کاوی می پردازیم.
کاهش اندازه داده ها:
کاهش اندازه داده ها میتواند باعث کاهش فضای جستجوی مفروض کاهش در جمع آوری داده ها هزینه های ذخیره سازی شود. همچنین میتواند نتایجی را چون افزایش کارایی داده کاوی وساده سازی نتایج آن را به دنبال داشته باشد.
یکی از روشهای کاهش اندازه داده ها استخراج مشخصه میباشد که در این روش مشخصه های جدید از مشخصه های اصلی موجود استخراج شده تا با به کاری گیری این مشخصه های جدید توان وکارایی محاسباتی وهمچنین دقت دسته بندی را افزایش داد.روش های استخراج مشخصه ها معمولا با تبدیل های غیرخطی سروکار دارند. از این میان میتوان به روش هایی چون شبکه های عصبی تا کردن تبدیل مختصات پیمانه ای و انتشار غیر خطی اشاره کرد. روش های مبتنی بر تبدیل هیا غیرخطی در ترتیب خوب عمل می کنند و همچنین در مواجهه با مسائل غیرخطی عملیاتی قدرتمند هستند این روش ها ممکن است عوارضی جانبی غیرقابل پیش بینی وناخواسته ای در داده ها به وجود آورند. همچنین این روش ها معمولا برگشت ناپذیر بوده و دانش آموخته شده به وسیله اعمال یکی از روش های مبتنی بر تبدیل های غیرخطی در یک فضای مشخصه قابل تبدیل به فضای مشخصه دیگر نمی باشد. از دیگر روش های معمول برای استخراج مشخصه ها میتوان به تحلیل تکنیکی خطی وتحلیل مولفه های اصلی اشاره کرد.در استخراج مشخصه ها معانی مشخصه های جدید به سختی قابل تفسیر می باشند.
یکی دیگر از روش های کاهش اندازه داده ها انتخاب مشخصه ها میباشد. در این روش زیر مجموعه ای از مشخصه های اصلی را به عنوان مشخصه های جدید انتخاب می کنیم که در سیستم های استقرایی مثل سیستم دسته بندی به خوبی عمل میکند معمولا جستجوبرای زیر مجموعه ای بهینه از مشخصه ها مشکل میباشد وحتی برای بسیاری از مسائل انتخاب مشخصه ها ثابت شده است. که Np-hard هستند روش های انتخاب مشخصه ها به طور وسیعی مورد مطالعه قرار گرفته اند زیرا مشخصه های انتخاب شده از مشخصه های اصی در مقایسه با مشخصه های جدیدی که از مجموعه مشخصه های اصلی استخراج شده اند به سادگی قابل تفسیر می باشند در موارد بسیاری چون دسته بندی مستندات داده کاری، بازشناسی اجسام وپردازش تصویر برای پیش پردازش داده ها از روش های انتخاب مشخصه ها کمک گرفته می شود.
برخی از روشهای انتخاب مشخصه ها شامل دو بخش می شوند: یک معیار رتبه بندی :منظور رده بندی اهمیت هر مشخصه یا زیر مجموعه ای از مشخصه ها و بخش دیگر شامل یک الگوریتم جستجو به عنوان مثال یک الگوریتم جستجوی پیش سویا پس شو.
به روش های جستجویی که در آنها مشخصه ها به صورت پشت سرهم اضافه (پایین به بالا) و یا حذف (بالا به پایین) می شوند تا جائیکه شرط خاتمه ارضا شود روش های دنباله ای نیز می گویند. به عنوان مثال انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای –الگوریتم های اولیه باشد. انتخاب پیش سوی دنباله ای روشی پایین به بالا میباشد که در این روش مشخصه های که در یک سری معیار ها صدق میکند. به زیر مجموعه مشخصه های انتخاب شده اضافه می شود واین کار تا جایی ادامه می یابد که تعداد زیرمجموعه های انتخاب شده به برسد. در روش انتخاب پس سوی دنباله ای که روشی بالا به پایین میباشد مشخصه هایی یکی از مجموعه مشخصه ها حذف میشوند تا جایی که تعداد مشخصه های حذف شده به n-d برسد. در هر دو الگوریتم بالا انتخاب پیش سوی دنباله ای وانتخاب پس سوی دنباله ای تعداد زیر مجموعه های مشخصه هایی که باید مورد بررسی قرار بگیرند برابر خواهد بود با
به هر حال بارمحاسباتی روش انتخاب پس سوی دنباله ای سنگین تر از روش انتخاب پیش سوی دنباله ای میباشد در حالیکه ابعاد زیر مجموعه های مشخصه هایی که در روش انتخاب پس سوی دنباله ای مورد بررسی قرار می گیرند بزرگتر و یا مساوی خواهد بود.
به عنوان مثال در روش انتخاب پس سوی دنباله ای در ابتدا همه زیر مجموعه های مشخصه ها با ابعادمورد بررسی قرار می گیرند در حالیکه ابعاد زیر مجموعه های مشخصه ها در روش انتخاب پیش سوی دنباله ای حداکثر خواهد بود.
روش های زیادی برای انتخاب مشخصه هی بر مبنای روش های انتخاب پیش سو وپس سوی دنباله ای توسعه یافته اند.همچنین توابع محک مختلفی برای حذف و یا انتخاب یک زیرمجموعه از مشخصه ها ازمجموعه مشخصه های انتخاب شده مورد بررسی قرار گرفته اند.
با رتبه بندی میزان اهمیت مشخصه ها در دسته های مجزا فقط زیرمجموعه ازمشخصه ها به منظور انتخاب زیرمجموعه نهایی مورد بررسی قرار خواهد گرفت. رتبه بندی اهمیت مشخصه ها در دسته های مجزا فقط زیر مجموعه از مشخصه ها به منظور انتخاب زیر مجموعه نهایی مورد بررسی قرارخواهد گرفت. رتبه بندی اهمیت مشخصه ها به صورت مجزا فقط زیرمجموعه از مشخصه ها به منظور انتخاب زیر مجموعه نهایی مورد بررسی قرار خواهد گرفت. رتبه بندی اهمیت مشخصه ها به صورت مجزا در مقایسه با ارزیابی همه ترکیب های مشخصه های میتواند موجب کاهش هزینه محاسباتی شود اگر چه در این روش ممکن است ترکیب های بهتر مشخصه ها را از دست دهیم. بنابرین هنگامی که هزینه محاسباتی به اندازه ای سنگین باشد که متحمل شدن این هزینه سخت یا غیرممکن باشد انتخاب مشخصه ها بر مبنای رتبه بندی اهمیت مشخصه ها به صورت مجزا ترجیح داده میشود. به کمک یک معیار رتبه بندی آنتروپی مشخصه ها میتوان مشخصه ها یکی یکی از مجموعه اصلی آنها حذف کرد. بدین ترتیب فقط زیرمجموعه از مشخصه ها به منظور انتخاب یک زیر مجموعه از آنها مورد بررسی قرار میگیرندکه این روش دسته بندی با دقت بالا را نتیجه خواهد داد. والبته در این حالت لازم نیست که پیشاپیش تعداد مشخصه هایی راکه قرار است انتخاب شوند دانست. در این روش میزان آنتروپی مشخصه ها برای رتبه بندی اهمیت آنها مورد استفاده قرارمی گیرند.
اگر بخواهیم مشخصه هایی افزوند ویا نامربوط را تشخیص دهیم باید از اطلاعات نشان دسته ها استفاده کنیم. این مساله ما را بر آن می دارد که برای انتخاب مشخصه ها از اطلاعات نشان دسته ها استفاده کنیم که ممکن است به نتایج بهتری در انتخاب مشخصه ها منتهی شود مثلا مجموعه کوچک تری از مشخصه ها با قابلیت دسته بندی با دقتی بالاتر.