مقدمه
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.
با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد، کاربران هر چقدرحرفه ای و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند، هزینه عملیات از نظر نیروی انسانی و مالی بسیار بالا است.
بنابراین میشود گفت که درحال حاضر یک تغییر الگو از مدل سازی و تحلیل های کلاسیک برپایه اصول اولیه به مدل های درحال پیشرفت و تحلیل های مربوط بطور مستقیم از داده ها وجود دارد.
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.
تعاریف داده کاوی
در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده اند. در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است.
برخی از این تعاریف عبارتند از :
داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر، از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم.
فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود.
داده کاوی یعنی فرایند جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها.
داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها.
داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ.
نکته: همانگونه که در تعاریف گوناگون داده کاوی مشاهده می شود، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است.
" داده کاوی فرآیندی است که طی آن با استفاده از ابزار های تحلیل داده به دنبال کشف الگوها و ارتباطات میان داده های موجود که ممکن است منجر به استخراج اطلاعات جدیدی از پایگاه داده گردند، می باشد."
در داده کاوی از بخشی از به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شودبنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها، هوش مصنوعی، یادگیری ماشین وعلم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود.
باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها در حد گیگابایت یا ترابایت، مواجه باشیم که از این نظر یکی از بزرگترین بازارهای هدف، انبارجامع داده ها، مراکز داده وسیستم های پشتیبانی تصمیم برای بدست آوردن تخصص هایی در صنایعی مثل شبکه های توزیع مویرگی، تولیدف مخابرات، بیمه و... می باشد.
نکته: در تعاریفی که از داده کاوی ارائه شد به اصطلاح "فرایند" اشاره شد. حتی در بعضی محیط های حرفه ای این نظر وجود دادرد که داده کاوی شامل انتخاب و بکارگیری ابزارهای مبتنی بر کامپیوتر برای حل مسائل فعلی و بدست آوردن یک راه حل بطور اتوماتیک و خودکار میباشد.
برای اموزش داده کاوی، باید بر مفاهیم و روش های اعمال شده برخلاف همه جاذبه های ابزارهای مبتنی بر کامپیوتر که امور رابا جزئیات ودستورات با فرمت های خاصی باید به خیلی از سوالات از جمله چگونگی طراحی واستفاده از فرایندها را پاسخ داد به جای بیان جزئیات عملی ابزار مختلف داده کاوی تکیه نمود.
طبقه بندی روش های داده کاوی:
داده کاوی توصیفی یا توصیف کننده که اطلاعات جدید وغیربدیهی رابراساس مجموعه داده های موجود ارائه می دهد.
در این روش توصیف، هدف کلی بدست اوردن یک شناخت از سیستم های تجزیه و تحلیل شده توسط الگوها و روابط بین داده هایData Warehouse ها که تحت عناوینی مثل کشف الگوی ترتیبی، کشف قانون وابستگی و خوشه بندی هستند، می باشد.
داده کاوی پیش گویانه مدلی از سیستم را ارائه می دهد که شامل بکارگیری متغییرها و فیلدهادرData Warehouseها جهت پیشگویی مقادیر ناشناخته می باشد. در این طیف)پیش گویانه( هدف کلی داده کاوی ایجاد مدلی است که بعنوان یک برنامه بنوان از آن برای طبقه بندی و تشخیص و کشف خطا استفاده کرد.
مراحل فرایند کشف دانش از پایگاه داده ها
فرایند کشف دانش از پایگاه داده ها شامل پنج مرحله است که عبارتند از:
درک قلمرو یا بیان مسئله و فرموله کردن فرضیه
انتخاب و جمع آوری داده ها
تبدیل داده ها
کاوش در داده ها
تفسیر نتیجه یا تفسیر مدل و رسیدن به نتایج
بیان مسئله و فرموله کردن فرضیه:
در ابتدای امر پیش زمینه کشف دانش، فهم درست داده و مساله می باشد. بدون این فهم درست هیچ الگوریتمی صرف نظر از خبره بودن آن نمی تواند نتیجه مطمئنی برای شما حاصل نماید و داده را جهت کاوش آماده نموده یا نتایج را به طور صحیح تفسیر نمود. برای استفاده بهتر از داده کاوی باید یک بیان واضح از هدف داشت. در این مرحله انچه نیاز است ترکیبی از تخصص یک زمینه کاربردی و یک مدل داده کاوی است و شاید بتوان گفت یک تقابل نزدیک سر یک مسئله واحد و چندین فرضیه فرموله شده بین متخصصین داده کاوی و متخصصین کاربردی میباشد.
انتخاب و جمع آوری داده ها:
این مرحله درارتباط با چگونگی تولید و جمع آوری داده ها است.
بطور کلی، دو امکان وجود دارد:
روش آزمون طراحی: زمانی است که فرایند تولید داده ها تحت کنترل یک متخصص کاربردی)مدل ساز سیستم( باشد.
روش دیداری: امکان دوم زمانی مطرح است که متخصص قادر به تولید فرآیند نیست یعنی تولید داده بصورت تصادفی در نظر گرفته شود.
پس از اینکه داده ها جمع اوری شدند یا در فرایند جمع اوری داده ها تا اندازه ای قرار گرفتند، توزیع نمونه گیری کاملا نامعلوم است.(یعنی داده هایی که بعدا برای تست و بکارگیری آن مدل بکار می روند از چند نمونه مشابه استفاده می شوند.)
نکته: برای فرایند داده کاوی داده ها ی مورد نیاز موجود در انبار داده ها باید انتخاب شوند. درک این مطلب که برای ارزیابی یک مدل که بعدا برای تست و بکارگیری آن مدل بکار می رود، موفقیت آمیز باشد، بسیار مهم است در غیر اینصورت نتایج درستی حاصل نمی گردد.
مثلا انبار داده ها شامل انواع مختلف و گوناگونی از داده ها است به عنوان مثال در یک پایگاه داده های مربوط به سیستم فروشگاهی، اطلاعاتی در مورد خرید مشتریان، خصوصیات آماری آنها،dispatcher ها (توزیع کنندگان)، مشتریان، حسابداری و ... وجود دارند که همه آنها در داده کاوی مورد نیاز نیستند.
پیش پردازش ها یا تبدیل داده ها
زمانی که که داده های مورد نیاز از پایگاه داده های موجود در انبار داده ها "جمع اوری" شدند و داده های مورد کاوش مشخص گردیدند، معمولا به تبدیلات خاصی روی داده ها نیاز است که شامل حداقل دو مرحله متداول می باشد:
1. آشکارسازی ( حذف) داده های غیرعادی:
داده های غیرعادی یا غیر معمول درحقیقت داده های نتیجه سنجش خطاها، کدنویسی و ثبت خطاها است. دراینجا باید یا 1. داده های غیرعادی را تشخیص داد و خذف کرد ویا 2. باید روش های قوی مدل سازی رابگونه ای توسعه داد که نسبت به این نوع داده ها غیر حساس باشند.