مقدمه
بازار ابزار استخراج داده ها از دو راه ابتدایی خود در حال ظهور میباشد . بسیاری از ابزارهایی که در اینجا توضیح داده میشوند ، در مرحله اول انتشار میباشند.
موقعیت در بازار CRM که عموماً بخشی از سیستم تجارت الکترونیکی در نظر گرفته میشود ، پیچیده تر میباشد و بنابراین با سرعت وب یا شبکه در حال حرکت میباشد. بازار CRM ، حتی بیشتر از بازار ابزار استخراج داده ها با چندین فروشنده که بر تعریف خود بازار و موقعیت خود در این بازار متمرکزند ، توصیف میگردد.
این اشتباه، با ماهیت بسیار دینامیک خود بازار که یک فعالیت قابل رویت تحکیم مشتری، شرکتهای ادغامیو تملیک ها را تحمل میکند، بیشتر میگردد. علی رغم کل این چالشها، باز رو به تکامل میرود و فروشندگان، پیشرفت مهمیدر علمیبودن ابزار، قابلیت استفاده و قابلیت اداره کسب میکنند.
اولین بخش این فصل ، به کاربردهای بسته بندی شده استخراج داده ها میپردازد. این کاربردها ، بر اساس چندین تکنیک استخراج داده ها ادغام شده در ابزارهای بهتر میباشد . همراه با بهترین عملکرد ها ، اسلوب شناسی های خوب تعریف شده و فرآیندها، راه خود را در محیط های تولید شرکتها که در آن استخراج داده ها بخشی از یک فرآیند موسسه ای شده میشود مییابند که شامل رشد و یادگیری سازمانی میشود .
بازار استخراج داده ها
بیائید بازار استخراج داده ها را از نقطه نظر منحنی اقتباسی تکنولوژی در نظر بگیریم ایمنی به اقتباس کنندگان اولیه ، از تکنولوژی لبه یادگیری برای دستیابی به مزیت رقابتی استفاده میکنند ؛ هنگامیکه تکنولوژی تکامل مییابد ، شرکتهای بیشتری آن را اقتباس میکنند ، و در یک حالت تجارت زمانی و عادی درج مینمایند . همچنین مناطق عملی بودن ابزاهای استخراج داده ها بزرگتر و بزرگتر میشوند. به عنوان مثال ، تکنولوژی وایت اوک ( یک شرکت استخراج داده ها در مریلند) از جانب کمیسیون فدرال الکترون، مجوز فروش سیستم گچین ماینر Capain Miner را کسب کرده است که بی نظمیدر دخالتهای سیاسی فدرال را کشف میکند . نورتل، یک بسته کشف کلاهبرداری را توسعه داده است به نام سوپر اسلوت فراود ادوایسور ، که از تکنولوژیهای شبکه عصبی استفاده میکند .
صنعت ابزار استخراج داده ها ، برخلاف تکنولوژیهای استخراج داده ها ، در مرحله عدم تکامل قرار دارد و میکوشد تا بازار را تعیین نماید . و وجودش را تائید کند . به همین دلیل است که در مییابیم بازار ابزارهای استخراج داده ها تحت تاثیر موارد زیر قرار دارد:
ادغام پیوسته و مداوم ابزارها با اتکاء به تکنولوژیهای مکمل و به عنوان مثال OLAP
ظهور کاربردهای بسته بندی شده عمودی و یا اجزاء استخراج داده ها برای توسعه کاربرد .
استراتژیهای بسیار اقتباس شده شرکت بین فروشندگان ابزار استخراج داده ها و فروشندگان تهیه کنندگان راه حل جامع و ادغام کننده های سیستم ها : فروشندگان مقیاس مؤسسه ، همانند IBM NCR ، اوراکل ، میکروسافت ) به عنوان مثال ، اوراکل چندین شریک متعدد استخراج داده ها به عنوان بخشی از او را کل ویرهاوس اینتیشیتیو از جمله آنگاسن دیتا مایند ، دیتاپکیج اینفورمیشن دیسکاوری ، SRA , SPSS اینترنشنال و تینکینگ ماشینز را انتخاب کرده است .
اصول طبقه بندی ابزارهای استخراج داده ها
ما میتوانیم کل بازار ابزارهای استخراج داده ها را به سه گروه اصلی تقسیم نمائیم ؛ ابزارهای دارای هدف کلی ، ابزارهای ادغام شده استخراج داده ها DSSOLAP ، و ابزارهای به سرعت در حال رشد و برای کاربرد.
ابزارهای هدف کلی بخش بزرگتر و کامل تر بازار را اشغال میکند . آنها بنا به تعریف و برای کاربرد نیستند و حوزه آنها از نظر ماهیت افقی است . این ابزار شامل موارد زیر میشود .
SAS اینترپراز ماینر
IBM اینتلیجنت مایننر
یونیکا PRW
SPSS کلمنتین
SGI ماین ست
اوراکل داروین
آنگاس نالج سیکر
بخش ابزار مرکب یا اداغام شده استخراج داده ها بر شرط تجاری بسیار واقعی و اجباری داشتن ابزار چند منظوره تقویت تصمیم تاکید میکند که گزارش مدیریت ، پردازش تحلیلی روی خط ، و قابیت های استخراج داده ها در یک قالب کاری عادی را فراهم میکند . نمونه های این ابزار های مرکب شامل کاکنوس سیناریو و بیزینس آبجکت میشود.
بخش ابزارهای ویژه کاربرد ، به سرعت در حال حرکت است ، و فروشندگان در این فضا ، میکوشند تا خود را با ارائه راه حلهای تجاری به جای جستجوی تکنولوژی برای یک راه حل ، از سابرین متمایز نمایند . حوزه این ابزار ، بنا به تعریف از نظر ماهیت عمودی است . در بین این ابزارها ، موارد زیر قرار دارند:
KD1 ( متمرکز بر خرده فروشی است )
حق انتخابها و انتخابها ( بر صنعت بیمه متمرکز است )
HNC ( بر کشف کلاهبرداری متمرکز است )
یونیکا مدل 1 ( بر بازاریابی متمرکز است )
ارزیابی ابزار : صفات و اسلوب شناسی ها
کل این عوامل ارائه یک توصیف بهینه از ابزارهای استخراج طولانی تر موجود را مشکل ساخته است . بنابراین . بطور کلی ابزارهای استخراج داده ها را میتوان با استفاده از صفات زیر ، توصیف نمود :
تکامل محصول و ثبات و استحکام شرکت . به دلیل عدم تکامل کلی بازار تجاری برای ابزارهای استخراج داده ها ، این مقوله محصولاتی را توضیح میدهد که برای جنبش از چند سال وجود داشته اند.
سکوها و معماری. سکوهای متنوع از نظر تجاری موجود را تقویت کنید ، مدل چند تأبیری مشتری / خادم را تقویت کنید . هدف قابلیت سنجش، دسترسی به سرعت نزدیک به خطی و سنجش زمان اجرا ، به عنوان میزان داده ها ( اندازه بانک اطلاعاتی ) ، تعداد متغیرها ، و تعداد کاربران متصل به هم میباشد که در حال رشد هستند .
تداخلهای داده ها ، قابلیت ابزار برای دسترسی به بانکهای اطلاعاتی ارتباطی ، فایلهای یکنواخت و سایر فورمتها.
قابلیت های استخراج داده ها از جمله تکنیکها ، الگوریتم ها و کاربردهای تحلیلی ، تکنیکهای استخراج داده ( ANN ، CART ، ایفاء قانون و غیره ) با تداخل عادی کاربر که ابزار میتواند آن را تقویت نماید، توانایی ایجاد و مقایسه چندین مدل ؛ و توانایی برای تقویت تعدادی از انواع مختلف تجزیه و تحلیل از جمله طبقه بندی ، پیشگویی و کشف اتحاد.
ایجاد داده ها قابلیت تغییر شکل و طبقه بندی متغیرهای پیوسته ، ایجاد متغیرهای جدید ، استفاده از تاریخها و زمان ، استفاده از ارزشهای از دست رفته و غیره.
مدل (خصوصیت تفسیر ، ارزیابی ، صف بندی) . این مقوله ، ابزار را از نظر قابلیت انجام کارهای زیر ، ارزیابی میکند:
شناسایی مدل بطور اتوماتیک یا دستی ، توسط کاربر
توضیح نتایج و تعریف مقایسهای اعتمادی یعنی احتمالات طبقه بندی ، حدود اعتماد و غیره
ارزیابی نتایج مدل با درجه و تناسب
گزارش دخالت و سهم هر متغیر در مدل ، گزارش درجه افزایش و غیره
صف بندی مدل برای امتیاز بانکهای اطلاعاتی منبع
استخراج مقرارت از مدل
دسته بندی قوانین استخراج شده در یک شکل استاندارد ( به عنوان مثال کد SQL، اظهارات روشی )
عملکرد
اعتبار پیشگویی اعتبار بر اساس نرخ خطای نمونه پیشگویی میباشد ؛ اعتبار مدل را میتوان با درجه افزایش اندازه گیری نمود.
کارایی پردازش . اجزای بهینه زمان اجرای الگوریتم ها
تداخلهای کاربر . این مقوله در مییابد آیا ابزار یک کاربر مبتدی و یا کارشناس را تقویت میکند یا نه و موارد زیر را تقویت مینماید:
الگوهای سنجش تجاری . قابلیت ایجاد الگوهای از قبل بسته بندی شده ، برای تقویت بسته های تجاری ویژه ( به عنوان مثلا بازاریابی هدف ، امتیازدهی اعتبار، کشف کلاهبرداری ).
تداخل متادیتا . قابلیت تقویت وظیفه طراحی معنایی ؛ دستیابی به متادیتا برای کدگذاری جداول مقادیر مقوله ای ، دستیابی به قوانین استخراج ، تغییر شکل و مهاجرت به تعریف دیدگاه تجاری خروجی مدل
قابلیت اداره
کنترل پیچیدگی . این یکی از روشهای اصلاح تصمیم مدل است ، بنابراین مدل را بیشتر قابل اداره مینماید . به عنوان مثال ، استفاده از پارامترهای بسیار آزاد منجر به تناسب بیش از حد میگردد ( قبلاً بحث شد ) ؛ این پیچیدگی را میتوان با زوال وزن ، کنترل نمود . الگوریتم های درخت تصمیم CART از فاز شاخه زنی یا ضریب برای کاهش پیچیدگی مدل درخت استفاده مینمایند .
سختی . اعتبار درخت و موجود بودن به قابلیت یا بهبود سریع از یک نقطه ضعف . استفاده از اجزاء کلیدی به منظور ادغام در قالب کاری مدیریت سیستم ها ( به عنوان مثال BMCpatrol ، Tivolitme10 و غیره.)
مرسوم سازی . قابلیت ابزار برای ایجاد یک معماری باز، انعطاف پذیر و قابل گسترش با تداخلهای برنامه ریزی کاربرد منتشر شده و نقاط خروجی کاربر که امکان این کاربردهای تقویت تصمیم، ویژه کاربر و همینطور ادغام با سایر کاربردها را فراهم میآورد.
هر گاه که ممکن باشد، ما ابزارهایی که از این مقوله ها استفاده میکند را مورد بحث قرار خواهیم داد. با این وجود ، به دلیل این که هدف این فصل ، ایجاد یک بررسی کلی از ابزرهای برجسته و استخراج داده ها میباشد و صفات یا خصوصیات عملکرد که میتوانیم تنها با انجام یک ارزیابی جامع از محصول با استفاده از دادهها بدست آوریم ، در این بحث در نظر گرفته نخواهد شد . دیگر این که فروشنده یک معیار منتشر شده یا اطلاعات بررسی کاربر در مورد عملکرد ابزار را فراهم نماید.
ارزیابی ابزار
ابزارهایی که بطور مفصل در این فصل بحث شد ، شامل کلمنتین (SPSS) ، کاکنوس 4t hought ، کاکنوس سناریو ، دینا ماینر دیتا مایند ) ، داروین ( اوراکل ) ایستگاه کاری استخراج بانک اطلاعاتی (HNC) سریهای تصمیم ( نئوویستا ) ، اینترپرایزماینر SAS . اینتلیجنت ماینر (IBM) ، نالوج سیکر و نالوج استادیو (AGNOSS) ، و مدل 1 و PRW ( یونیکا ) . ابزارهای دیگر بطور مختصر مورد بحث قرار میگیرند . سطح جزئیات موجود برای برخی از این ابزارها به دلیل فقدان تکامل محصول محدود میباشد . این ابزارها به ترتیب حروف الفبا مورد بحث قرار میگیرند.
کلمنیتین (SPSS)
بررسی ، کلمنیتین ، یک ابزار کاربرد استخراج داده ها از SPSS میباشد . این ابزار یک تداخل کاربر گرافیکی را با چندین نوع تکنیکهای تجزیه و تحلیل از جمله شبکه های عصبی به قوانین اتحاد و تکنیکهای القاء قانون ، ترکیب میکند . این قابلیتهای فنی ، در یک محیط برنامه ریزی دیداری که استفاده از آن ساده است ارائه میشوند .
استعاره گرافیکی که کلمنتین استفاده میکند، استعاره گرفتن ، انداختن و اتصال گره های عمل روی صفحه است. گره هایی برای دسترسی داده ها ، ساخت دادهها ، تجسم داده ها ، یادگیری ماشین ، تجزیه و تحلیل مدل وجود دارد . فرایند توسعه مدلی مرکب از انتخاب گره های صحیح از یک پالت ، قرار داده آنها روی صفحه و اتصال گره ها میباشد.
کلمنتین دارای یک سری غنی از قابلیت های دسترسی اطلاعات از جمله فایلهای یکنواخت و بانکهای اطلاعاتی ارتباطی ( از طریق ODBC ) میباشد . بیشتر، کلمنتین قابلیت دائمیساختن نتایج طراحی را از طریق نوشتن آنها در ODBC – Compliant DBMS دارد.
ساخت داده های ورودی شامل هماهنگی در نماها و توانایی اشتقاق حوزه های جدید ، میشود . قابلیت های تجسم داده های کلمین شامل نمودارهای پراکندگی ، طرحهای خطی و تجزیه و تحلیل وب میباشد.
کلمنتین روی سیستم های اینتل پنتیو اجرا میشود که سریهای ویندوز ، NT ، HP 9000 که HPUX10 و بالا سیلیکون گرافیکس که IRIX ، Sun SPARC که سولاریس 2.x و دیجیتال APLHA که دیجیتال UNIX 3.X یا VMS 6.X را اجرا میکند .
دسترسی به اطلاعات ساخت و پیش پردازش . کلمنتن فایهای متن تحریر شده ، فایلهای ارزش مجزا شده با کاما و فایلهای ثبت ثابت (ASCII) را وارد میکند . سایر منابع اطلاعاتی از طریق یک تداخل ODBC حمایت میشوند . سیستم های بانک اطلاعاتی ارتباطی اصلی ، از جمله اوراکل سیباس ، اینفورمیکس و CA-IN gres از طریق ODBC در دسترس میباشد.
قابلیت های ساخت داده های کلمنتین شامل موارد زیر میشود:
ادغام ثبت ها از طریق توالی ثبت
تراز داده ها با افزایش نسبت ثبت ها با خصوصیات ویژه
تراکم تعیین شده کاربر
تصفیه ثبتهای بیگانه و نامربوط
اشتقاق جدید حوزه با استفاده از فرمولهای تعیین شده کاربر و اپراتورهای منطقی
قابلیت های نمونه گیری داده هاا ، از جمله اولین و آخرین N ثبت ، 1 در N نمونه گیری ، و نمونه گیری اتفاقی تکنیک های استخراج داده ها ، الگوریتم ها و کاربردها
کلمنتین الگوریتم های القایی قانون شبکه های عصبی و از جمله شبکه های کوهونن ، او قوانین مربوطه را تقویت میکند :
درک الگوریتم های القاء قانون کلمنتین ساده میباشد : الگوریتم ها هنگامیکه آموزش داده شوند یک درخت تصمیم را ایجاد میکنند که قانون را نشان میدهد . یک فرآیند دائمیکه دنبال میشود ، قرار دارد و متغیرهای مهم در سطوح بالای درخت و سپس آموزش شبکه عصبی با این متغیرها میشود.
شبکه های عصبی کلمنتین در توپولوژیهای متنوع و روشهای آموزش ، ارائه میشوند . شبکه معیوب لایه پنهان برای ارزیابی عملکرد
کلمنتین شبکه های عصبی سولمونس را برای حل مسائل دسته بندی ارائه میکند .
قوانین اتحاد همانگونه که از نامش پیداست . یک نتیجه ویژه را به یک سری از صفات ، مربوط مینماید . اتحادها را میتوان بین صفات یافت که برای کاربردهایی همانند تجزیه و تحلیل سبد بازار ، بسیار مفید است .
کلمنتین برش عمودی مشتری ، تجزیه و تحلیل سریهای زمانی ، تجزیه و تحلیل سه بازار و کشف کلاهبرداری را تقویت میکند .
کار با ابزار مدل در محیط برنامه ریزی دیداری با استفاده از استعاره گره های متصل ، مشخص میگردد . جعبه های دیالوگ با گره های طراحی مدل وجود دارد که به کنترل الگوریتم ها و روشهای آموزشی کمک میکند .
کلمنتین به کاربران امکان میدهد تا در یابند کدام ورودیها در مدل دارای اهمیت در پیشگویی کننده هستند ، گر چه تغییر شبکه های عصبی ذاتاً مشکل است. الگوریتم های درخت تصمیم یک بررسی قانون دارای تاثیر متقابل ، که استفاده از از آن ساده است را تقویت میکند .
کلمنتین حدودی از وظایف را برای ارزیابی مدل ، ارائه میدهد . اینها شامل یک گره تجزیه و تحلیل میشود که تعداد تشخیص های صبح را برای ورودی مدل گزارش میکند ؛ مقادیر اطمینان متغیر از 0 تا 1 ، گره ماتریس که کاربر میتواند جدول سازی در زمینه های انتخابی را در آن انجام دهد.
کلمتین میتواند درختان تصمیم، شبکه های عصبی ، و شبکه های کوملونس را به عنوان کد C ، صادر نماید . بعد از آنکه مدل در کلمنتین ساخته شد ، آن را میتوان به عنوان کد C که باید در محیط خارجی صف بندی شود ، صادر نمود . به عنوان مثال ، اگر مدل شبکه عصبی بایستی صادر شود . کلمنتین سه فایل را صادر خواهد نمود : یک سر فایل ، یک فایل وظیفه ، و یک فایل تعریف شبکه. قوانینی که الگوریتم القاء قوانین ایجاد میکند ، قابل صدور میباشد.
محیط برنامه ریزی دیداری کلمنتین ، برای یک مبتدی ، مناسب است . توالی طراحی به طور مشخص ارائه میگردد و حق انتخابهای متعدد ، انعطاف پذیری را افرایش میدهند . یک کاربر کارشناسی که مایل به ساخت الگوریتم های کلمنتین میباشد ، آن آزادی را ندارد . با این وجود ، حذف انتخابهایی در شبکه های عصبی برای تنظیم نرخ یادگیری و کنترل خستگی مشتری در الگوریتم های درخت تصمیم وجود دارد . کلمنتین الگوهای تجاری ارائه نمیکند . تداخل مقاومتها در میزان نوشتن این بحث وجود نداشت .
نتیجه گیری . کلمنتین یک محصول قوی است . در معیارهای منتشر شده مشتری ، آن برحسب قابلیت سنجش اعتبار پیشگویی کننده و زمان پردازش خوب کار میکند . بطور کلی ، کلمنتین ، بسیار خوب با اجراهای تجزیه و تحلیل مقیاس اندک و بزرگ ، همانگ بود.
4 تفکر و سناریو ( cognos)
بررسی کوگنوس ، به عنوان یکی از رهبران در بازار OLAP ، با معرفی دو ابزار استخراج داده ها در موجودی دارایی خود از نظر مقام ، ارتقاء یافته است :
این ابزارها یا بهره برداری از شبکه های عصبی و تکنیکهای CHAID قابلیت های استخراج داده ها را ارائه میکند . بطور کلی این ابزارها در سکوهای کاکنوس تقویت میشوند. و بطور مشخص در محیط ویندوز مورد توجه قرار میگیرند . هر دو ابزار داده ها را از صفحه گسترده بانکهای اطلاعاتی و فایلهای متن Ascll تحصیل میکند .
4 thought برای رسیدگی به مسائل تجاری متنوع از جمله بهینه سازی قیمت، پیش بینی تقاضا و پیشگویی و سنجش عملکرد ایجاد میگردد . 4 thought از پیشگویی چند لایه ای ( MPL ) تکنولوژی شبکه عصبی استفاده میکند که بسیار برای تجزیه مسائلی که به اشکال غیر خطی ، داده های اغتشاش و مجموعه های کوچک داده ها میپردازد، هماهنگ است . دو تجزیه و تحلیل اصلی که 4 thought ارائه داد تجزیه و تحلیل سریهای زمانی و برش عمودی مشتری هستند . تجزیه و تحلیل سریهای زمانی ، به دنبال روندهایی بر اساس رفتار متناوب هستند. در صورتیکه ، ایجاد برش عمودی مشتری به داده های دموگرافیک ، به عنوان مثال برای پیشگویی این که آیا مشتری یک محصول ویژه را خریداری میکند یا نه میپردازد.
سناریو برای طبقه بندی و مسائل اتحاد، طراحی میشوند ؛ آن میتواند روابطی را بین متغیرها در مجموعه داده ها بیابد . سناریو از کشف تاثیر متقابل اتوماتیک مربع خی دو (CHAID) استفاده میکند ، و میتواند اشتقاقهای چند جهته را برای متغیرهای پیشگویی کننده فراهم نماید . سناریو ، استراتژیهای تجزیه و تحلیل متفاوت ، نمونه گیری اتوماتیک و تصمیم و ایجاد درخت را ارائه میدهد . با این وجود ، سناریو برای رسیدگی به متغیرهای هدف مقوله ای طراحی نمیشود. سناریو در کشف و تجسم داده ها قوی است.
ثبات سناریو و 4 thought ، تداخل کاربر جامع و درک کننده آن است، اساساً در یک کاربر مبتدی هدف قرار میگیرد . آن از ترسیم نمودار برای تجزیه و تحلیل تک متغیره با استعاره درخت تصمیم استفاده میکند ،و نمایش دیداری خوب را برای تغییرات اطلاعاتی بین بخشها برای تجزیه و تحلیل روند و همبستگی عامل فراهم میسازد . سناریو ، دارای الگویی برای تجزیه و تحلیل اطلاعات سود از داده های رقابتی و فصلی میباشد.
کاکنوس ذکر کرد که آن 4 thought و سناریو را با پاور پلی (OLAP ) و کاربردهای (گزارشی ) Impromtu ترکیب خواهد نمود.
محصولات کاکنوس در سیستم های عملیاتی ویندوز میکروسافت اجرا میشوند (ویندوز 95 یا با راحتی ، و یا NT ).
دسترسی به داده ها ، ساخت و پیش پردازش . 4 thought میتواند داده ها را به شکل صفحه گسترده های اکسل به فایلهای لوتوس 123 ، فایلهای SPSS ، فایلهای متن صدور شده ، فایلهای ارزش با کاما جدا شده فایلهای دارای پهنای ثابت ، وارد نماید . بعلاوه ، دسترسی به بانکهای اطلاعاتی ارتباطی از طریق محرک odbc از کتابخانه و بانک اطلاعاتی Q&E تقویت میشود.
سناریو میتواند داده ها را از فایلهای یکنواخت ، صفحه گسترده اکسل ، و جداول dBase ، وارد نماید همچنین ، سناریو میتواند از کاکنوس ایمبرومتو برای وارد ساختن داده ها از بورلاند اینتربیس، سنئورا SQLBase ، اینفورمیکس ، میکروسافت SQL سرور، اوراکل ، سیبس SQL سرور ، و مسیرهای بانک اطلاعاتی اصلی از جمله مسیر MDI DB2 ، مسیر omni SQL ، مسیر اوراکل ترانس پرنت، مسیر سیبس نت ، استفاده میکند .
قابلیتهای ساخت اطلاعات شامل موارد زیر میشود.
طبقه بندی
جایگزینی ارزش از دست رفته ( با یک ارزش مقدم یا استفاده از تفسیر)
تبدیل ارزش رشته متن به ارزش عددی
تبدیل خودکار سیاه به صفر
تصفیه ثبت های بیگانه یا دور دست
قابلیتهای محدود نمونه گیری داده ها و 4 thought میتواند نمونه گیر اتفاقی را تقویت نماید ، اما نمونه گیری لایه لایه وجود ندارد .
تکنیک های استخراج داده ها ، الگوریتم ها و کاربردها
4 thought از تکنولوژی شبکه عصبی پیشگویی چند لایه استفاده میکند که طراحی ورودی به خروجی را بر اساس محاسبات گره های متصل بهم ایجاد مینماید . خروجی هر گره یک تابع غیر خطی مجموع وزن دار و ورودیهای از گرمای دو لایه های قبلی میباشد.
سناریو از الگوریتم درخت تصمیم بر اساس CHALD استفاده میکند . آن قوانینی را ایجاد میکند که میتواند برای مجموعه داده های طبقه بندی شده برای پیشگویی این که کدام ثبت ها پیامد مطلوب خواهند داشت که بکار برد . الگوریتم درخت تصمیم سناریو . به اندازه کافی انعطاف پذیر است که حق انتخاب تقسیم هر متغیر یا یک اشتقاق بر اساس اهمیت آماری به کاربر میدهد .
سناریو ، طبقه بندی وسائل اتحاد را تقویت میکند، و میتوان در ترسیم برش عمودی و تقسیم بندی بازار ، از آن استفاده نمود . 4 thought برای تجزیه و تحلیل سریهای زمانی طراحی مدل پیشگویی کننده و پیش بینی مسائل بهتر مناسب است . هر دو ابزار ، امکان تجزیه گرافیکی مواد خام از طریق نقشه های خطی میله ای و نمودار پراکندگی را فراهم میآورد. سناریو منظره گراف و درخت را که بر اطلاعات کلی مشابه تکیه دارد ، پیشنهاد میدهد. سناریو میتواند از متغیرهای دو تایی مداوم ، و پیشگویی کننده مقوله ای استفاده نماید ؛ اما آن تنها از متغیر عددی به عنوان اهداف استفاده مینماید.
سناریو سه استراتژی تجزیه و تحلیل را ارائه میدهد.
حالت طبقه بندی . حداقل به 1000 ثبت نیاز دارد ، که نیمیاز آن برای تست حفظ میشود و به تولید نتایج با اطمینان بالا ، توجه میکند .
حالت تست یا آزمایش ، نیازمند ثبت های کمتری میباشد ، و از یک سوم این ثبت ها برای تست استفاده میکند . و بطور کلی معیارهای کمتر بی ارزش را برای دسته بندی ارائه میدهد .
حالت بررسی . به حداقل شرایط ثبت نیاز ندارد و برای بررسی داده های اولیه طراحی میشود .
کار با ابزار در سناریو ، ، مدلی در یک محیط برنامه ریزی دیداری با استفاده از یک افسونگر مشخص میگردد. سناریو بطور خودکار انواع متغیر را انتخاب میکند ، و به کاربر امکان میدهد تا داده ها را نمونه گیری کند و داده ها را به نمونه های آموزشی و تست، تقسیم نماید . همانگونه که قبلاً ذکر شد ، سناریو سه استراتژی تجزیه و تحلیل را ارائه میدهند که شناسایی ، تست و بررسی سناریو میتواند یک درخت را بطور خودکار ایجاد کند، یا به کاربر امکان میدهد تا هر بخش و قسمت را به یک درخت تبدیل کند . کاربر میتواند بطور مداوم به سادگی محصور شوند و سناریو فهرستی از متغیرهای از نظر آماری مهم درجه بندی شده را ایجاد میکند ، و میتواند بطور خوکار به متغیرهای دارای بالاترین رتبه تقسیم شود.
4 thought به کاربر امکان میدهد تا مدل شبکه عصبی را با اولین تصمیم گیری در این مورد که آیا آن برای تجزیه و تحلیل سریهای زمانی میباشد یا نه ، شناسایی نماید . کاربر در مورد ماهیت سریهای زمانی تصمیم می گیرد (روزها ، هفته ها و ماهها و سالها و یا زمان مشخص شده توسط کاربر). برای سریهای زمانی و تجزیه و تحلیل طراحی مدل پیشگویی کننده، کاربر ، مدل را از طریق جعبه شناساسی و یا اگر مدلی ایجاد مینماید . کاربر دارای انعطاف پذیری انتخاب یک شبکه تک لایه دو لایه ، میباشد. 4 thought دو حالت از تست مدل را برای تعیین زمان توقف ارائه میدهد :
تست ساده : ابزار داده ها را به گروههای آموزشی و تست تقسیم میکند ، و از یک گروه تست در سراسر فاز آموزشی برای تعیین نقطه انقضاء وخاتمه ، استفاده میکند .
تست کامل : که ابزار چندین مدل را ایجاد میکند ، و سعی میکند تا یک نقطه توقف بهینه را بیابد.
4 thought ، یک تفسیر گرافیکی و یک نمودار پراکندگی مدل در برابر داده های واقعی و همینطور فهرست دینامیکی از متغیرهای بحرانی را برای کاربر فراهم میکند .
در سناریو ، خواه یک نمودار یا منظره درخت استفاده شود ، کاربر میتواند خلاصه ، آمار همانند میانگین متوسط انحراف معیار و غیره را مشاهده نماید 4 thought یک گزارش آماری کامل ، یک گزارش مسطح مقطع و گزارش سناریو را ارائه میدهد . گزارش آخر ، به کاربر امکان میدهد تا مقادیر کل متغیرهای ورودی را برای برگشت پاسخ خروجی انتظاری مدل شناسایی نماید.
مدلهایی که توسط سناریو ساخته شده قابل صدور نیستند ، اما شرحهایی تعقیبی طراحی میشوند که دارای قوانین قابلیتهای صدور میباشد . 4 thought میتوانند در ارتباط با اکسل لوتوس 123 و spss کار نمایند . و میتوانند یک مدل آموخته شده را به صورت یک تابع ریاضی در هر یک از این محیط ها ، صف بندی نمایند.
نتیجه گیری. 4 thought و سناریو هر دو قابلیت های حمایت تصمیم کوکناس را توسعه میدهند . و عملی بودن استخراج داده ها را ایجاد مینماید . در معیارهای منتشر شده مشتری سناریو ، نتایج خوب و تداخل دوستانه کاربر را نشان میدهد . 4thought دسترسی به درجه بندی های معقول بر اساس عملکرد و اعتبار را گزارش میکند .
داروین ( اوراکل )
بررسی . داروین که اغب، یکی از ابزارهای ابتدایی استخراج داده ها در نظر گرفته میشود، شهرتش را تائید میکند . اخیراً ، اوراکل، داروین را از شرکت Thinking Machine برای افزایش پیشنهاد و تولید خود بدست آورد و خصوصاً در فضای CRM که استخراج داده ها همانگونه که قبلاً بحث شد، نقش بحرانی ایفا میکند . بحث زیر بر اساس خصوصیات داروین میباشد ، درست همانگونه که Thinking Machine توسعه داده و بازاریابی کرد . و ارواکل ، تصمیم میگیرد تا هر مشخصه ، اجزاء و معماری ابزار را تغییردهد.
ابزار استخراج داده های داروین به عنوان یک محصول پیچیده حاوی ابزار استخراج داده ها طراحی شد : شبکه های عصبی ، درخت k نزدیکترین همسایه . ابزار شبکه عصبی داروین ( Darwin Net ) یک سری جامع از توابع را برای ساخت مدل فراهم میکند . آن میتواند از پیشگویی کننده های مقوله ای و مداوم و متغیرهای هدف استفاده کند . و میتوان برای مسائل طبقه بندی ، پیشگویی ، و پیش بین مورد استفاده قرار داد.
ابزار درخت تصمیم ( درخت داروین ) از الگوریتمهای CART استفاده میکند . میتوان برای حل مسئله طبقه بندی با متغیرهای مداوم و مقوله ای مورد استفاده قرار داد. ابزار k نزدیکترین همسایه (darwin Match) را میتوان برای حل مسئله طبقه بندی متغیرهای وابسته مقوله ای و متغیرهای پیشگویی کننده مقولهای و پیوسته مورد استفاده قرار داد.
اگر چه هر ابزار جزء دارایی نقصهای است . اما Darwin شامل یک سری کامل از توابع برای ارزیابی مدل میشود . آن خلاصه آمار ، ماتریس اغتشاش و جداول درجه افزایش را برای کل انواع مدلها ، ایجاد میکند .
داروین تداخلهای نسبتاً قوی کاربر را برای افراد مبتدی همینطور کارشناسها ارائه میدهد ، اگر چه تداخلها بهتر با یک کاربر کارشناس هماهنگ هستند.
داروین که از یک شرکت معروف به عنوان یکی از اولین سازندگان کامپیوتری موازی حاصل شده است ، مزیت زیادی در پردازش کارایی و قابلیت انعطاف پذیری دارد . الگوریتم های آن برای اثبات موازی بهینه میشوند و به اندازه کافی بهینه هستند که در معماریهای موازی و سری اجرا میشوند . این قابلیت بطور مشخصی از توجه اوراکل فرار نکرد و به اوراکل کمک میکند تا به یک فروشنده اولیه بانک اطلاعاتی و محصولات کاربر تبدیل شوند که میتواند یک مؤسسه جهانی بزرگ را درجه بندی کند.
داروین به عنوان یک سیستم ارباب رجوع / سرور یا خادم طراحی میشود و سکوی خادم از پردازشگرهای متحد تا SMPS تا پردازشگرهای موازی از جمله سیستم های وینتل که در ویندوز NT اجرا میشوند و همینطور محصولات مبتنی بر UNIX از میکور سیستم های SUN ، HP ، IBM و NER ، Compag/Digital متغیر است.
دسترسی به داده ها ، ساخت و پیش پردازش. داروین میتواند داده های محدود با طول ثابت را از فایلهای یکنواخت (ASCII) و بانکهای اطلاعاتی ارتباطی از طریق ODBC وارد نماید . بطور داخلی ، داده ها در یک قالب و فورمت اختصاص ذخیره میشوند که میتوان بطور مؤثر در یک سیستم چندین پردازشگر ، طرح بندی نمود .
قابلیت های ساخت داده های داروین شامل موارد زیر میشود.
قابلیت ادغام برای مجموعه داده های مجزا
حذف متغیرها از مجموعه اطلاعاتی
تعیین نوع متغیر ( به عنوان مثال مقوله ای مرتب شده )
تبدیل به یک محموعه داده های سری به مجموعه داده های موازی
نمونه گیری داده ها و جداسازی
تکنیکهای استخراج داده ها ، الگوریتم ها و کاربردها. الگوریتم های اصلی که در زمان چاپ تقویت و تائید میشوند ، و شبکه های عصبی ، درخت تصمیم نزدیکترین همسایه میباشد.
الگوریتم های آموزشی شبکه عصبی شامل انتشار رو به عقب ، تندترین فرود یا نزول ، نیوتن اصلاح شده و غیره میباشد . توابع انتقال شامل خطی ، سیگموند ، هیپوتانژانت میشوند.
درخت تصمیم از الگوریتم های CART استفاده میکند که میتواند به طور خودکار درخت را با انتخاب تعداد درختان فرعی که در تجزیه و تحلیل در نظر گرفته میشود . هرس نماید.
الگوریتم K نزدیکترین همسایه بر اساس تکنیک استدلال مبتنی بر حافظه ( MBR) میباشد آن یک ارزش متغیر وابسته را بر اساس واکنشهای K نزدیکترین ثبت هماهنگ کننده در مجموعه آموزشی پیشگویی میکند که در آنجا نزدیکی همسایه با به حداقل رساندن فاصله وزن دارEuclidean بین متغیرها ، تعیین میشود.
شبکه عصبی داورین را میتوان برای ساخت مدلهای پیشگویی کننده و پیش بینی کننده مورد استفاده قرار دارد و متغیرهای مقوله ای و مداوم را بکار برد . درخت تصمیم و ابزارهای k نزدیکترین همسایه را برای مسائل طبقه بندی مورد استفاده قرار داد.