img

آسیب‌شناسی و اولویت‌بندی مولفه‌های موثر در پیاده‌سازی پروژه‌های هوشمندی کسب‌وکار – بخش دوم

/
/
/

4 مفاهیم و ابزارها در هوشمندی کسب‌وکار
1-4- مراحل هوشمندی کسب‌وکار
پیاده‌سازی سیستم‌های هوشمندی کسب‌وکارهم مانند دیگر سیستم‌ها شامل فاز‌ها و مراحلی است که در ادامه به آن پرداخته می‌شود.
• تنظیم و برنامه‌ریزی : این قسمت فاز ابتدایی این پروسه است. در این فاز برنامه‌ای مدون و زمان‌دار برای جمع‌اوری اطلاعات ایجاد می‌شود.
• جمع‌آوری اطلاعات : منابع زیادی برای کسب اطلاعات وجود دارند. اطلاعات بعد از انالیز و پردازش به دانش تبدیل می‌شوند. در این قسمت منابع مختلف مورد تحقیق و بررسی قرار می‌گیرند تا اطلاعات لازم و مناسب برای سوالات و خواسته‌ها به دست آید.
• پردازش داده‌ها : در این قسمت داده‌های خام به صورت‌های قابل انالیز شدن تبدیل می‌شوند. این کار می‌تواند به صورت ایجاد پایگاه داده و یا افزودن داده‌ها به پایگاه داده فعلی و یا نمودار و گراف باشد. این مرحله را به اصطلاح مرحله استخراج، دگرگونی و بارگذاری1 می‌نامند.
• آنالیز و تولید : تیم بررسی‌کننده از ابزارهای کاوش اطلاعات برای دسته‌بندی داده‌ها و انالیز انها استفاده کرده، اگاهی و هوش ایجاد می‌کند. نتیجه این کار در واقع جواب سوالات است که گاهی اوقات به صورت یک گزارش معمولی و یا یک ارزیابی دقیق و موشکافانه باشد. در این قسمت سوالات جانبی دیگری نیز ممکن است ایجاد شود که برای حل به فاز اولیه فرستاده می‌شود.
• انتشار : در این فاز هوش و اگاهی و در واقع جواب سوالات به درخواست‌کننده داده می‌شود که می‌تواند به صورت یک گزارش و یا سمینار باشد.
مراحل توضیح داده شده فوق در تصویر 2 مشاهده می شود. منابع داده در مرحله اول جمع‌اوری می‌شود، این منابع می‌تواند داده‌های انواع پایگاه داده یا اطلاعات نرم‌افزار‌های موجود را در بر بگیرد.اطلاعات جمع‌اوری شده طی فرآیند ETL در پایگاه داده تحلیلی یا همان انبار داده بار‌گذاری می‌شود.
داده در پایگاه داده تحلیلی در بخش‌های مجزایی به نام داده‌گاه یا انبارک داده2 قرار می‌گیرد.داده‌گاه‌ها برای هر سیستمی به طور منحصر به فرد تعریف می‌شوند، در واقع طراحی آن به عهده مدیر سیستم است به عنوان مثال در یک سازمان، داده‌گاه می‌تواند اینگونه تعریف شود که به هر بخش یک داده‌گاه اختصاص یابد: داده‌گاه واحد حسابداری، مدیریت، اداری، کارگزینی و… .در بعضی مواقع داده‌گاه‌ها، داده‌ها را بر حسب موضوع دسته‌بندی می‌کنند.
در مرحله بعد ابزار هوشمندی کسب‌وکاروارد عمل شده و روی اطلاعات طبقه بندی شده تجزیه و تحلیل انجام می‌دهد.در نهایت اطلاعات جهت انتشار به ابزار‌های سطح بالا تحویل داده می‌شود.

2-4- فرآیند  ETL
فرآیند ETL، یک پروسه محسوب می‌شود، بدین معنی که به صورت پیوسته و مداوم در سیستم باید انجام شود. این فرآیند به ازاء داده‌های عملیاتی که در طول زمان در سازمان به وجود می‌آید نیز انجام می‌شود. آنچه که در استقرار یک سیستم هوشمندی کسب‌وکاردر سازمان مهم است ایجاد معماری و ساختاری مناسب است. ساختار مورد استفاده برای ETLقبل از انجام فرآیند آن ، از اهمیت بالایی برخوردار است. فرآیند ETLبه دلیل اینکه روی حجم بالایی از اطلاعات انجام می‌شود و معمولا همراه با یکپارچه‌کردن داده‌ها همراه است باید در طول دوره‌های مختلف انجام شود. در این دوره‌ها و به هنگام آغاز فرآیند ETLبه دلیل بالا رفتن حجم ترافیک شبکه و پردازش سرورهای پایگاه داده ممکن است در انجام دیگر فرآیندهای تجاری اختلال ایجاد شود که حتما باید در طراحی سیستم هوشمندی کسب‌وکارمورد توجه قرار گیرد.
ETLفرآیند استنتاج و استخراج داده‌ها از محیط‌های عملیاتی، تغییر در ساختار و ماهیت داده‌های استخراج شده و بارگذاری داده‌ها در پیاده سازی انبار داده‌ها می‌باشد. در ادامه به صورت مختصر به توضیح اجزای ETLپرداخته می‌شود.
• مرحله  Extractشامل استنتاج و استخراج داده‌ها از محیط‌های عملیاتی، ایجاد روابط و روند داده‌ای در محیط‌های عملیاتی از جمله بانک اطلاعاتی رابطه‌ای، برنامه‌های کاربردی، فایل‌ها، سیستم‌های مدیریت اطلاعات و مهیا و یکپارچه‌نمودن اطلاعات جهت قرارگیری در انبار داده می‌باشد.
• پردازش اطلاعات استخراج شده از مرحله قبل که شامل پالایش، متراکم سازی، کیفی‌سازی داده‌ها و یکپارچگی داده‌ها از منابع متعدد و متمایز می‌باشد، در مرحله Transformationاجرا می‌شود.از جمله اقداماتی که در فرآیند Transformationبر روی داده‌ها اعمال می‌شود به موارد زیر می‌توان اشاره نمود:
* انتخاب ستون‌های قطعی و صحیح جداول برای بارگذاری3 .
* تبدیل یک فرمت ذخیره‌سازی یکسان برای مقدارهای یکسان.
* خلاصه‌سازی از منابع متفاوت.
* فراهم‌اوری روشی یکسان برای مقدارهای محاسباتی4  یکسان در سطح یک رکورد و یا در چند جدول مختلف.
*     انتخاب واحد اندازه‌گیری و شمارش یکسان برای مقدارهای یکسان و از یک جنس.
* مرحله بارگذاری ، بارگذاری اطلاعات جمع‌آوری شده از منابع مختلف بر روی انبار داده می‌باشد که متناسب با نیازهای سازمان صورت می‌پذیرد. به عنوان نمونه بعضی از سازمان‌ها صرفا اطلاعات جدید را جایگزین اطلاعات قدیمی می‌کند ولی برخی دیگر داده‌ها را به صورت تاریخی نگهداری می‌نمایند.
طی فرآیند ETLداده‌ها از منابع اطلاعاتی مورد نیاز موجود در سازمان یا خارج از آن مانند پایگاه‌های داده، فایل‌های متنی، سیستم‌های قدیمی و صفحات گسترده استخراج‌شده و تبدیل به اطلاعاتی سازگار با فرمت معین می‌شوند و سپس در یک مخزن اطلاعاتی که در اغلب اوقات یک انبار داده است، قرار داده می‌شوند. برای انجام این فرآیند نیاز به تخصص‌های مختلفی چون تجزیه و تحلیل تجاری، طراحی پایگاه داده و برنامه نویسی وجود دارد.
پیش از انجام فرآیند ETLابتدا باید منابع اطلاعاتی که قرار است داده‌های انها به انبار داده منتقل شوند، شناسایی و مقصد آنها در انبار داده مشخص شوند و تبدیلاتی که باید بر انها انجام شود، تعیین شوند. نحوه نگاشت اطلاعات به صورت اولیه، باید در مرحله جمع‌اوری نیازها و مدل‌سازی اطلاعات انجام شود. اطلاعات جزیی‌تر مربوط به نحوه نگاشت داده‌ها از منابع اطلاعاتی اولیه به انبار داده در مرحله طراحی و پیاده سازی ETLمشخص می‌شود:
* شناسایی منابع اطلاعاتی: پایگاه‌های داده مختلف مانند اوراکل،اکسس،اکسل و … نمونه‌هایی از مهمترین انواع منابع اطلاعاتی را تشکیل می‌دهند. دربرخی سیستم‌ها شناسایی منابع اطلاعاتی به سادگی مکان‌یابی سرورهای پایگاه داده سیستم است. دربرخی سیستم‌های پیچیده‌تر ، برای شناسایی این منابع باید اعمالی نظیر تعریف دقیق فیلدهای اطلاعاتی و تعریف ارزش‌های اطلاعاتی مربوط به این فیلدها انجام شود.
* تعیین مقصد داده‌ها: برای تمامی اطلاعات موجود در منابع اطلاعاتی شناسایی شده باید مکانی در انبار داده در نظر گرفته شود. داده‌های اطلاعاتی در قسمت‌های مختلف ان قرار می‌گیرند.
* نگاشت داده‌های اطلاعاتی از مبداء به مقصد: نحوه نگاشت داده‌ها از مبداء به مقصد و تغییراتی که باید بر داده‌های اولیه اعمال شود تا به فرمت مناسب برای انبار داده درآیند ، با استفاده از فراداده5 باید تعیین شوند. این تغییرات موارد زیر را شامل می‌شود:
* خلاصه‌سازی اطلاعات
* تغییر اطلاعات
* کدگشایی اطلاعات کد‌شده
* ایجاد تغییرات لازم برای هماهنگ‌سازی داده‌های اطلاعاتی مشابه که در چند منبع اطلاعاتی مختلف وجود دارند.
اطلاعات مربوط به نحوه نگاشت اطلاعات در نقشه اطلاعات6  نگهداری می‌شود.

3-4- انبارداده7
انبار داده ، داده‌ها را به اطلاعاتی که در ثبات و هوش سازمانی نقش دارد تغییر شکل می‌دهد. انبار داده، به عنوان سرمایه مهم در سرمایه‌گذاری سازمان‌ها محسوب می‌شود.سازمان‌ها از انبار داده برای حل مشکلات و مواجه شدن با نیازهای تجارت استفاده می‌کنند.به عنوان نمونه در صنعت بانکداری ، اطلاعات انبار داده برای ایجاد تصمیمات مالی متنوع استفاده می‌شود.دلیل اصلی که  داده‌ها  در سیستم‌های انبارداده ذخیره می‌شوند این است که این سیستم می‌تواند:
* از داده‌ها گزارش تهیه کند.
* داده‌ها را تصفیه کند.
* داده‌ها را به انبار داده دیگری منتقل کند، جایی که انها می‌توانند گزارش‌شده یا تصفیه شده باشند.

1-3-4- معماری مدل‌سازی داده
معماری مدل‌سازی داده انتخابی از ابزارهایی است که برای تهیه گزارش از آنها استفاده می‌شود. می‌توان از مدل‌های نرمال‌سازی‌شده، شی‌ءگرا و چند‌بعدی استفاده کرد.
معماری انباره داده از سه لایه تشکیل می‌شود:
* در اولین لایه این معماری، سرویس‌دهنده انباره داده‌ای است که در اصل یک سیستم پایگاه داده رابطه‌ای می‌باشد. این لایه داده‌های مورد نیاز خود را از داده‌های عملیاتی و منابع خارجیو فایل‌های متنی  برای ایجاد انباره داده استخراج می‌نماید.
* در لایه میانی ، یک سرویس‌دهنده پردازش تحلیلی برخط8  وجود دارد که به وسیله آن می‌توان مکعب‌های چند‌بعدی ساخت. پردازش تحلیلی برخط یک ابزار قدرتمند، سریع و مناسب برای گزارش‌گیری می‌باشد.
* در آخرین لایه ، ابزارهای گزارش‌گیری و تحلیل و داده‌کاوی وجود دارند.
برای پیاده‌سازی یک انباره داده باید هریک از این لایه‌ها به درستی پیاده‌سازی شوند.

2-3-4- اخذ داده
اخذ داده از منابع مربوطه یا همان پایگاه داده منبع انجام می‌گیرد. این مرحله بخش استخراج اطلاعات از سری عملیاتETL  است. برای انجام عملیات اخذ داده، باید منبع اخذ داده، نحوه اخذ داده، پیکربندی داده‌‌های اخذشده ، مقاطع زمانی اخذ داده‌ها و نحوه دسترسی به این داده‌‌ها معلوم و مشخص باشد.

3-3-4- بررسی و پاکسازی داده‌ها
این مرحله ، بخش تغییر شکل از عملیاتETL است. بررسی و پاکسازی داده‌های استخراج شده جهت ورود به انباره داده در این مرحله انجام می‌گیرد. پس از بررسی جداول موجود، فیلدهای موجوددر جداول و محتویات فیلدهای مذکور و کلیه مشکلات داده‌ای در قالب لیستی ارائه می‌گردند. سپس عملیات پاکسازی برای آنها انجام می‌گیرد. این عملیات غالبا در زمره یکی از موارد زیر هستند:
* حذف مقادیر Null.
* هم مقدار‌سازی فیلدهای مشابه از نظر معنایی.
*     ایجاد فیلدهای کمی جدید قابل استخراج از روی داده‌‌های جدول مورد نیاز.
* یکی‌کردن داده‌ها از منابع مختلف.
* خلاصه‌سازی سطرهای هم‌معنی که ایجاد افزونگی می‌کنند.
* ایجاد کلید جانشین برای جداول.
* تبدیل چند ستون به چند سطر یا بالعکس.
* تقسیم یک ستون جدول به چند ستون.
* طراحی انباره داده موضوعی.
از آنجا که کاربران مختلف با نیازهای متفاوتی وجود دارند که می‌توانند از داده‌های درون انباره‌ داده استفاده کنند، برآورده‌سازی نیازهای تمام کاربران به وسیله یک سیستم مرکزی همیشه امکان پذیر نمی‌باشد. از طرفی یک سیستم مرکزی، متمرکز بر داده و سیستم می‌باشد وکاربر نهایی ممکن است بخواهد کنترل بیشتری روی محیط اطلاعاتی خود داشته باشد.
راه حل برای برطرف نمودن مشکلات فوق، انبار داده‌ای است که به آن انباره داده‌ای سازمانی نیز گفته می‌شود. انبارداده سازمانی ، انباره داده خاصی است که داده‌های مورد نیاز برای یک بخش ازسازمان یا کاربرهای مرتبط به آن را جمع‌آوری می‌نماید.

4-3-4- معماری انبار داده
طراحی انبار داده ، بنا به صلاح‌دید فرد خبره در قالب مدل ستاره‌ای یا دانه ‌برفی و یا طرح منظومه‌ای صورت می‌پذیرد.
طرح ستاره‌ای:9 عمومی‌ترین نمونه برای مدل‌سازی مدلچند‌بعدی، طرح ستاره است. در این طرح انباره داده شامل یک جدول بزرگ مرکزی به نام جدول حقایق10  و یک سری جدول کوچکتر به نام جدول بعد11  که وابسته به جدول حقایق هستند می‌باشد.
طرح دانه‌برفی:12 این طرح، تغییریافته طرح ستاره‌ای است.به صورتی که بعضی از جداول بُعد، نرمال شده‌اند. تفاوت اصلی بین طرح ستاره‌ای و طرح دانه برفی این است که جدول بُعد در طرح دانه‌‌برفی به فرم نرمال نگهداری می‌شود تا میزان افزونگی کاهش پیدا کند. این کار باعث کاهش میزان حافظه مورد نیاز خواهد شد. البته صرفه‌جویی در فضای ذخیره‌سازی جدول بعد در مقایسه با حجم جدول حقایق ناچیز است چون تعداد اتصالاتی که برای پردازش یک گزارش باید قرارداده  شود در این حالت افزایش می‌یابد و مدت زمان پاسخ ‌دادن به گزارش در مدل دانه‌برفی بیشتر از مدت زمان لازم درمدل ستاره‌ای است. بنابراین غالبا طرح دانه برفی در طراحی انباره داده عمومیت طرح ستاره‌ای را ندارد مگر آنکه بنا بر صلاح‌دید فرد خبره ، بر طرح ستاره‌ای ترجیح داده شود.
طرح منظومه‌ای:13 هنگامی که نیاز به چندین جدول حقایق باشد که دارای جداول بُعد‌های مشترک هستند، طرحی ایجاد می‌شود که به آن طرح کهکشان یامنظومه‌ای می‌گویند. در این مدل حقایق به جداول ابعاد اجازه می‌دهد که بین جداول حقایق مشترک باشند.

5-3-4- وارد سازی داده‌های پاکسازی شده به انباره داده
با توجه به فرمت داده‌های اخذ شده، وارد‌سازی داده‌‌های پاکسازی شده به انباره داده با اجرای کد مربوطه یعنی بخش بارگذاری از عملیات ETL انجام می‌شود.
انبار داده در اشکال و اندازه‌های متفاوتی وجود دارد که با هزینه و زمان در ارتباط است. رویکرد آغاز یک پروژه انبار داده، متفاوت است. گام‌هایی که برای شروع یک پروژه انبار کالا داده باید طی شود، عبارتند از:
1-  فراهم‌کردن اطلاعات حرفه‌ای
2-  طرح‌ریزی داده‌ها
3- چه کسی از انبار داده استفاده خواهد کرد؟
4- یکپارچگی درخواست‌های خارجی
5- انتخاب فن آوری مورد استفاده

4-4- سیستم پردازش تحلیلی برخط
جمع‌آوری داده از سطح یک سازمان به منظور استفاده در فرآیند تصمیم‌گیری کاربران ان سازمان از مسائل مهم مطرح در فن‌آوری‌های هوشمندی کسب‌وکاراست. پردازش تحلیلی برخط به عنوان سیستم پشتیبان تصمیم‌گیری، وظیفه شناخت نیاز‌های تحلیلی کاربران وتحلیل مجموعه عظیم و ناسازگار داده را برعهده دارد.پردازش تحلیلی بر‌خط یکی از قابلیت‌های هوشمندی کسب‌وکار است که بررسی و دست‌کاری تعاملی حجم گسترده‌ای از داده ر اا زچشم‌انداز‌های گوناگون پشتیبانی می‌کند.
یکی از چالش‌های مطرح پیشروی سازمان‌ها ارائه سیستم‌هایی است که به کاربران دانش اجازه تصمیم‌گیری‌های استراتژیک و تاکتیکی بر اساس اطلاعات متحد شده بدهند. این سیستم‌های پشتیبان تصمیم‌گیری که سیستم‌های پردازش تحلیلی برخط نامیده می‌شوند به کاربران دانش اجازه دست‌کاری مستقیم ، سریع و قابل انعطاف داده‌های عملیاتی به منظور فراهم کردن دید تحلیلی می‌دهند. انواع سیستم‌های پردازش تحلیلی برخط عبارتند از: چند‌بعدی ،رابطه‌ای و مختلط. به طور کلی سیستم‌های تحلیلی بر‌خط بایداز نیازهای تحلیلی پیچیده تصمیم‌ گیرندگان پشتیبانی کنند، داده را از زوایای گوناگون بُعد‌های تجاری تحلیل نموده وازتحلیل‌های پیچیده مجموعه بزرگی از داده‌های ورودی در سطح اتمیک پشتیبانی کنند. در یک سازمان ، داده‌ها معمولا در منابع داده‌ای مختلف و ناسازگار باهم پراکنده‌اند. بخشی از روندپیاده‌سازی پردازش تحلیلی برخط استخراج داده‌ها از منابع گوناگون و سازگار نمودن  آنها با یکدیگر است. سازگارنمودن بدین ترتیب است که معنای یک داده در یک انبارداده بامعنای ان داده در تمام انبارهای دیگر مطابقت داشته باشد.
فن‌آوری  OLAPنامی است که به طیف گسترده‌ای از تکنیک‌ها اطلاق می‌شود، این تکنیک‌ها شامل روش‌هایی برای مرتب‌کردن، پرس‌و‌جو و تحلیل داده‌ها است همچنین شامل قالب‌های گزارش‌گیری و واسط کاربر نیز هست. این فن‌آوری ابزار‌ها و مفاهیمی را ارئه می‌کند که به وسیله انها امکان انجام یک تحلیل موثر و دلخواه بر روی هر نوع داده‌ای فراهم می‌گردد. برای این فن‌آوری می‌توان چندین ویژگی به شرح زیر بر شمرد:
مدل چند ‌ُبعدی داده‌ها امکان دسترسی کاربر به منابع مختلف داده، عملکرد ثابت هنگامی که حجم‌داده‌ها افزایش می‌یابد، معماری سرویس‌دهنده و سرویس‌گیرنده، امکان سرویس‌دادن به چند کاربر به‌طور همزمان، پشتیبانی از تعداد نامحدود بُعد و سطح تجمیع.

1-4-4- مدل چند بعدی داده‌ها
عنوان گردید که مدل داده‌ای چند‌بعدی14  بر پایه دو ساختار جدولی جدول حقایق و جدول بُعد بنا نهاده ‌شده است. این ساختار امکان داشتن نگرشی مدیریتی و تصمیم‌گیری را به داده‌های موجود در پایگاه داده تسهیل می‌نماید. جدول حقایق قلب حجم داده‌ای را تشکیل می‌دهد و دو نوع فیلد ابعاد و شاخص‌ها15 را مشخص می‌کند. جداول حقایق را می‌توان به عنوان تابعی از ابعاد بر روی شاخص‌ها تصور نمود. شاخص‌ها معیارهایی هستند که بر روی آنها تحلیل انجام می‌گیرد و درون جدول حقایق قرار دارند. شاخص‌ها قبل از شکل‌گیری انبار داده‌ها توسط مدیران و تحلیلگران به دقت مشخص می‌شوند. در مرحله کار با انبار داده، اطلاعات اساسی هر تحلیل بر اساس همین شاخص‌ها شکل می‌گیرد. شاخص‌ها تقریبا همیشه مقادیر عددی را شامل می‌شوند مثلا میزان فروش یا موجودی انبار. هر موجودیت در این مدل می‌تواند با یک بُعد تعریف شود مثلا بُعد زمان، بُعد مکان، بُعد محصول یا بُعد مشتری. اجزاء بُعدها ، عضو نام دارند و تقریبا همه بُعدها، عضوهای خود را در یک یا چند سطح سلسله مراتبی سازماندهی می‌نمایند که این سلسله مراتب نمایانگر مسیر تجمیع و ارتباط بین سطوح پایین‌تر (مثل روز) و سطوح بالاتر (مثل ماه و سال) است.
ساختار سلسله‌مراتبی ابعاد در انبار داده‌های مبتنی بر مدل داده‌ای چند‌ بُعدی، این امکان را فراهم اورده است که فیلدها بر اساس یک سلسله مراتب منطقی سازماندهی شوند. این امر سرعت پرس‌و‌جو را در انبار داده بسیار افزایش می‌دهد. سلسله مراتب فیلدهای یک بُعد همیشه خطی نیست مثلا ممکن است سلسله مراتب بُعد زمان به شکل یک شبکه پیاده‌سازی شود اما لازم به ذکر است که ممکن است همه ابعاد دارای ساختار سلسله مراتبی نباشند بلکه برخی به صورت فهرستی از مقادیر باشند. برای مثال بُعد جنسیت دارای دو نوع داده زن و مرد است که هیچ ساختار سلسله مراتبی برای آنها نمی‌توان در نظر گرفت.

4-4-2 حجم داده‌ای
حجم‌های داده‌ای از ارتباط تعدادی بُعد با تعدادی شاخص تعریف می‌شود. ترکیب عضوهای هر بعد از حجم داده‌ای فضای منطقی را تعریف می‌کند که در ان مقادیر شاخص‌ها ظاهر می‌شوند. هر بخش مجزا که شامل یکی از عضوهای بعد در حجم داده‌ای است، سلول نامیده می‌شود. سلول‌ها شاخص‌های مربوط به تجمیع‌های مختلف را در خود نگهداری می‌نمایند، در واقع مقادیر مربوط به شاخص‌ها که در جدول حقایق تعریف می‌شوند در حجم داده‌ای، در سلول‌ها نمایان می‌گردند. اگر بُعد برابر سه باشد یک مکعب خواهیم داشت.در تصویر 7  شاخص میزان فروش را در سه بعد مشتری ، محصول و زمان مشاهده می‌شود. سلول انتخاب شده نیز میزان فروش محصول را در زمان مورد نظر به مشتری نشان می‌دهد.
البته انبارهای داده واقعی می‌توانند بسیار بیشتر از سه بعد داشته باشند و به جای مکعب به صورت  نموداری به نمایش در می‌آیند.

3-4-4- عملیات بر روی حجم‌های داده‌ای
* Roll Up / Drill-Up : این عمل با بالا رفتن در ساختار سلسله‌مراتبی یک بُعد در حجم داده‌ای یا با کاهش‌دادن بعد، یک مجموعه با جزئیات کمتر ایجاد می‌نماید. بالا رفتن در ساختار سلسله‌مراتبی به معنای حذف قسمتی از جزئیات است برای مثال اگر قبلا بعد زمان بر حسب روز بوده آن را با بالا رفتن در ساختار سلسله‌مراتبی بر حسب هفته و یا ماه در می‌آوریم.
* Drill-Down / Roll Down : بر عکس عمل Roll-Up است و از موقعیتی با جزئیات داده‌ای کم به جزئیات زیاد می‌رود. این کار با پایین آمدن در ساختار سلسله‌مراتبی به سمت جزئیات بیشتر یا با ایجاد ابعاد اضافی انجام می‌گیرد.
* Slice : با انتخاب و اعمال شرط بر روی یکی از ابعاد یک  زیر مکعب16 به شکل یک برش دو بعدی در حالتی که سه بُعد وجود داشته باشد ایجاد می‌کند. این عمل در واقع انتخاب زیر مجموعه‌ای از داده‌های انبار داده در یک شرایط خاص است.
*  Dice: با انتخاب قسمتی از ساختار سلسله مراتبی بر روی دو یا چند بُعد یک  زیر مکعب ایجاد می‌شود.  Sliceو Dice روش‌هایی برای کم کردن بُعد هستند.
*  Pivot/ Rotating: تغییر نحوه نمایش حجم داده‌ای که شامل تعویض جای دو بُعد یا اضافه کردن یک بُعد دیگر به ساختار چند‌بعدی است.
* Ranking: سلول هایی را باز‌می‌گرداند که در بالا یا پایین شرط خاصی واقع هستند مثلا ده محصولی که بهترین فروش را داشته‌اند.

4-4-4- انواع پردازش تحلیلی بر خط
در OLAPداده‌ها به دو صورت چند‌بُعدی MOLAP 17  و رابطه‌ای  ROLAP 18  ذخیره می‌شوند. OLAPترکیبی  HOLAP،19 از ترکیب دو نوع حاصل شده است.
* MOLAP: روشی است که معمولا برای تحلیل‌های OLAPدر کسب و کار مورد استفاده قرار می‌گیرد. در MOLAP، داده‌ها با ساختار یک حجم داده‌ای چند بعدی ذخیره می‌شوند. ذخیره‌سازی در پایگاه داده‌های رابطه‌ای انجام نمی‌گیرد. اغلب محصولات موفق MOLAPاز یک روش چند‌بُعدی استفاده می‌نمایند که در آن یک سری حجم‌های داده‌ای کوچک، انبوه و از پیش محاسبه‌شده، یک ابَر مکعب داده‌ای20  را می‌سازند. برای مثال MOLAPابزاری ایده‌ال برای استفاده در مواقعی است که نیاز به پرس‌‌و‌‌جوی اطلاعاتی است که شامل فاکتورهای مختلف مانند زمان (روز/ هفته/ ماه/ سال)، مناطق جغرافیایی (شهر / استان / کشور)، خطوط تولید یا دسته‌بندی‌ها، کانال‌های مختلف (افراد خریدار/ انبارها) هستند. به بیان دیگر، MOLAPاجازه می‌دهد که داده‌های مربوط به محصولات فروخته‌شده را برحسب افراد خریدار تا هر تعداد مشتری در گروه‌های صنعتی مختلف در مناطق مختلف و در بازه‌های زمانی مختلف دسته‌بندی، ذخیره و پردازش کرد. به‌علاوه از آنجا که داده‌ها به صورت فیزیکی در حجم‌های داده‌ای بزرگ چند‌بعدی ذخیره می‌شوند، سرعت انجام فعالیت‌ها بسیار زیاد خواهد بود. در تصویر 9 مشاهده می شود که بالاترین کارآیی جست‌وجو را MOLApبه خود اختصاص می‌دهد. سرعت انجام این کار به طراحی و درصد تجمیع تقسیم‌بندی‌ها بستگی دارد. حجم‌های داده‌ای MOLAPبرای بازیابی سریع داده‌ها ساخته شده‌اند و در فعالیت‌های Sliceو Diceبه صورت بهینه پاسخ می‌دهند. ترکیب سادگی و سرعت، مزیت اصلی MOLAPاست. در ضمن این روش قابلیت محاسبات پیچیده را فراهم می‌کند.
همه محاسبات وقتی که حجم‌های داده‌ای ساخته می‌شود، ایجاد می‌شوند بنابر این نه تنها محاسبات پیچیده‌شدنی هستند بلکه بسیار سریع هم پاسخ می‌دهند. عیب این روش این است که تنها برای داده‌هایی با مقدار محدود کارکرد خوبی دارد. از انجا که همه محاسبات، زمانی انجام می‌شوند که حجم‌های داده‌ای ساخته می‌شود، امکان این که حجم‌های داده‌ای مقدار زیادی از داده‌ها را در خود جای دهد، وجود ندارد.
* ROLAP: محدودیت MOLAPدر حجم‌داده‌های قابل پرس‌‌و‌‌جو است و نیاز به روشی دارد که از داده‌‌های ذخیره‌شده به روش رابطه‌ای حمایت کند. مبنای این روش کارکردن با داده‌هایی است که در پایگاه داده‌های رابطه‌ای ذخیره شده‌اند. با استفاده از این مدل ذخیره‌سازی می‌توان داده‌ها را بدون ایجاد تجمیع، در پایگاه داده رابطه‌ای به هم مربوط کرد. با این روش می‌توان حجم زیادی از داده‌ها را رسیدگی کرد. محدودیت حجم داده در فن‌آوری ROLAP وابسته به محدودیت حجم داده‌های قابل ذخیره‌سازی در پایگاه داده رابطه‌ای است. به بیان دیگر خود ROLAPهیچ محدودیتی بر روی حجم داده‌‌ای اعمال نمی‌کند. از معایب این مدل این است که ممکن است کارآیی پایین بیاید زیرا هر گزارش ROLAPدر واقع یک یا چند پرس‌‌و‌‌جوی SQLدر پایگاه داده رابطه‌ای است و اگر حجم داده‌ها زیاد باشد ممکن است زمان پاسخ پرس‌‌و‌‌جو طولانی شود. در مجموع نگهداری ROLAPسخت است و سرعت آن نیز کند است به خصوص زمانی که نیاز به آدرس‌دهی جدول‌های ذخیره‌شده در سیستم چند‌بُعدی داریم. این محدودیت ناشی از عملکرد SQL می‌باشد زیرا ROLAPبر پایه عبارت مولد SQLبرای پرس‌و‌جو بر روی پایگاده داده رابطه‌ای است و عبارات SQLبه همه نیازها پاسخ نمی‌دهد.  بنابراین فعالیت‌های ROLAPبه آنچه که SQLقادر به انجام است‌، محدود می‌گردد.
تفاوت اصلی ROLAPو MOLAPدر معماری آنها است. محصولات مبتنی بر MOLAPداده‌های مورد نیاز را در یک حافظه نهان21  می‌گذارد ولی ROLAPتحلیل‌های خود را بدون استفاده از یک حافظه نهان انجام می‌دهد، بدون آنکه از یک مرحله میانی برای گذاشتن داده‌ها در یک سرور خاص استفاده کند. با توجه به کند بودن ROLAPدر مقایسه با  MOLAکاربرد این روش بیشتر در پایگاه داده‌های بسیار بزرگی است که به ندرت پرس‌و‌جویی برای آنها شکل می‌گیرد.
HOLAP: با توجه به نیاز رو به رشدی که برای کارکردن با داده‌های بی‌درنگ22  در بخش‌های مختلف کسب و کار احساس می‌شود، مدیران انتظار دارند بتوانند با دامنه وسیعی از اطلاعات که بدون لحظه‌ای تاخیر در دسترس باشند، کار کنند. در حال حاضر شبکه اینترنت و سایر کاربرد‌هایی که به داده‌هایی از منابع مختلف نیاز دارند و از طرفی نیاز به فعالیت با یک سیستم بی‌درنگ را هم دارند، همگی از سیستم HOLAPبهره می‌گیرند. HOLAPتلاش می‌کند مزایای MOLAPو ROLAPرا با هم ترکیب نمایند.HOLAPیک نرم‌افزار معمول است که تراکنش‌های MOLAPوROLAPرا با سرعت بسیار زیاد سامان می‌دهد.HOLAPمانند MOLAP  ،داده‌ها را در یک مدل چند‌بُعدی ذخیره می‌نماید ولی هیچ نسخه‌ای از داده‌های مبداء ایجاد نمی‌کند. HOLAPتکنیک حجم‌های داده‌ای را برای بالا بردن سرعت به کار می‌گیرد. این روش ابزارهای تحلیل داده‌گرای قدیمی را با اتصالات ابرمتن23  جدید ترکیب نموده تا لیست داده‌ها و خصوصیت آنها و سایر انواع اطلاعات را صرف‌نظر از نوع آنها با هم مرتبط کند تا شکل غنی‌تری از تحلیل را برای کاربر مهیا نماید. برای پرس‌‌و‌‌جو هایی که فقط به داده‌های خلاصه نیاز دارند، این روش مثل MOLAPعمل می‌کند. در آینده به کاربران امکان می‌دهد با دسترسی بی‌درنگ به انبارهای داده و ابزارهای پشتیبان تصمیم از طریق مرورگرهای استاندارد اینترنت، به نوعی تحلیل غنی‌تر که در اختیار کاربر خواهد بود، برسند.

5-4- داده‌کاوی24
در دهه‌های اخیر توانایی‌فنی در تولید و جمع‌آوری داده‌‌ها افزایش چشم‌گیری یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن رایانه در کسب‌و‌کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع‌اوری داده، از اسکن کردن متون و تصاویر تا سیستم‌های سنجش از دور ماهواره‌ای، در این تغییرات نقش مهمی دارند.به طور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را با حجم زیادی از داده و اطلاعات مواجه می‌کند. این رشد انفجاری در داده‌های ذخیره‌شده، نیاز مبرم وجود فن‌آوری‌های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند، داده‌کاوی به عنوان یک راه حل برای این مسائل مطرح می‌باشد. در یک تعریف غیر رسمی داده‌کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می‌کنند که این دانش به صورت ضمنی در پایگاه داده‌های عظیم، انباره داده و دیگر مخازن بزرگ اطلاعات، ذخیره‌شده است. داده کاوی به طور همزمان از چندین رشته علمی بهره می‌برد: فن‌آوری پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه‌های‌ عصبی، امار، شناسایی الگو، سیستم‌های مبتنی بر دانش25 ، حصول دانش26 ، بازیابی اطلاعات27 ، محاسبات سرعت بالا28  و بازنمایی بصری داده29 .
واژه‌های «داده‌کاوی» و «کشف دانش در پایگاه داده30  اغلب به صورت مترادف یکدیگر مورد استفاده قرار می‌گیرند.
کشف دانش در پایگاه داده ، فرآیند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدل‌های قابل فهم در داده‌ها می‌باشد. داده‌کاوی مرحله‌ای از فرآیند کشف دانش می‌باشد و شامل الگوریتم‌های مخصوص داده‌کاوی است، به طوری‌که محدودیت‌های مؤثر محاسباتی قابل قبول، الگوها و یا مدل‌ها را در داده کشف می‌کند. به بیان ساده‌تر، داده‌کاوی به فرآیند استخراج دانش ناشناخته، درست،و بالقوه مفید از داده اطلاق می‌شود.
تعریف دیگر این است که داده‌کاوی گونه‌ای از تکنیک‌ها برای شناسایی اطلاعات و یا دانش تصمیم‌گیری از قطعات داده می‌باشد، به نحوی که با استخراج انها، در حوزه‌های تصمیم‌گیری، پیشبینی، پیش‌گویی و تخمین مورد استفاده قرار گیرند. داده‌ها اغلب حجیم اما بدون ارزش می‌باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده‌ها قابل استفاده می‌باشد. به این دلیل اغلب به داده‌کاوی، تحلیل داده‌ای ثانویه31  گفته می‌شود.

1-5-4- دلایل پیدایش داده‌کاوی
اصلی‌ترین دلیلی که باعث شد داده‌کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مسئله در دسترس بودن حجم وسیعی از داده‌ها و نیاز شدید به اینکه از این داده‌ها، اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش به دست‌‌امده در کاربرد‌های وسیعی از مدیریت کسب‌و‌کار و کنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می‌گیرد.
داده‌کاوی را می‌توان حاصل سیر تکاملی طبیعی فن‌آوری اطلاعات دانست. این سیر تکاملی ناشی از پیشرفت در صنعت پایگاه داده می‌باشد.تکامل فن‌آوری پایگاه داده و استفاده فراوان آن در کاربرد‌های مختلف سبب جمع‌اوری حجم فراوانی داده شده است. ابزارهای داده‌کاوی داده‌ها را آنالیز نموده و الگوهای داده‌ای را کشف می‌کنند که می‌توان از آن در کاربردهایی مانند تعیین استراتژی برای کسب‌و‌کار، پایگاه دانش ، تحقیقات علمی و پزشکی استفاده کرد. شکاف موجود بین داده‌ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده‌کاوی شده‌است تا داده‌‌های بی‌ارزش را به دانشی ارزشمند تبدیل کنیم. به طور ساده داده‌کاوی به معنای استخراج دانش از مقدار زیادی داده خام است.
2-5-4- تاريخچه داده‌کاوي
اخيرا داده‌کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله‌هاي علمي شده است ، اما اين واژه تا اوايل دهه نود میلادی مفهومي نداشت و به‌کار برده نمي شد . در دهه شصت میلادی و پيش از آن ، زمينه‌هايي براي ايجاد سيستم‌ها ي جمع‌آوري و مديريت داده‌ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم‌هاي مديريت پايگاه‌داده‌ها در دهه هفتاد میلادی گرديد .
ايجاد و توسعه مدل‌هاي داده‌اي براي پايگاه سلسله مراتبي ، شبکه‌اي و بخصوص رابطه‌اي در دهه هفتاد میلادی ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده‌ها و در نهايت ايجاد زبان پرس‌وجو SQL در اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرم‌هاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .
توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد میلادی و ايجاد پايگاه‌هاي شيءگرا ، کاربردگرا32  و فعال33  باعث توسعه همه جانبه و کاربردي شدن اين سيستم‌ها در سراسر جهان گرديد . بدين ترتيب DBMS هايي همچون DB2 ، Oracle ، Sybase ، … ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها ( KDD)34 دانست بطوري که در بسياري موارد DM و KDD به‌صورت مترادف مورد استفاده قرار مي گيرند .
همانطور که در تعريف داده کاوي ذکر شد ، هدف از جستجو و کشف الگوهايي در پايگاه داده ها و استفاده از آنها در اخذ تصميمات حياتي است ، بنابراين مي توان گفت که DM بخشي از فرايند KDD است که در نهايت به ايجاد سيستم‌هاي DSS 35 منتهی شد .
براي اولين بار مفهوم داده کاوي در کارگاه IJCAI در زمينه KDD توسط شاپیر36  مطرح گرديد . به دنبال آن در سال‌هاي 1991 تا 1994 ، کارگاه‌هاي KDD مفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط گرديدند.
برخي از کاربردهاي داده‌کاوي در محيط‌هاي واقعي عبارتند از :
1- خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد :
1-1- تعيين الگوهاي خريد مشتريان
2-1- تجزيه و تحليل سبد خريد بازار
3-1- پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي)
2- بانکداري :
1-2- پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري
2-2- تشخيص مشتريان ثابت
3-2- تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي
3- بيمه :
1-3- تجزيه و تحليل دعاوي
2-3- پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان
3-3- پیشگویی میزان رویگردانی مشتریان
4-3- تشخیص تقلبات بیمه‌ای
4- پزشکي :
1-4- تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي
2-4- تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت

3-5-4- مراحل داده‌کاوی عبارتند از :
* پاکسازی داده‌ها:37  از بین بردن نویز و ناسازگاری داده‌ها.
* یکپارچه‌سازی داده‌ها:38 چندین منبع داده ترکیب می‌شوند.
* انتخاب داده‌ها:39  داده‌های مرتبط با انالیز از پایگاه داده بازیابی می‌شوند.
* تبدیل کردن داده‌ها:40  تبدیل داده‌ها به فرمی که مناسب برای داده‌کاوی باشد مثل خلاصه‌سازی41  و همسان‌سازی42 .
* فرآیند داده‌کاوی:  فرآیند اصلی که شامل روال‌های هوشمند برای استخراج الگوها از داده‌ها است.
* ارزیابی الگو: برای مشخص کردن الگوهای صحیح و مورد نظر به وسیله معیارهای اندازه‌گیری.
* ارائه دانش:43  یعنی نمایش بصری، تکنیک‌های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می‌شود.
هر مرحله داده‌کاوی با کاربر یا پایگاه دانش تعامل دارد. الگوهای کشف شده به کاربر ارائه شده و در صورت خواست او به عنوان دانش به پایگاه دانش اضافه می‌شوند.
با توجه به مطالب ارائه شده می‌توان بیان نمود که داده‌کاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده‌های ذخیره‌شده در پایگاه داده، انبار داده ویا دیگر مخازن اطلاعات.
مطابق معماری ارائه شده در تصویر 10 ، یک سیستم داده‌کاوی  دارای اجزاء اصلی زیر است :
* پایگاه داده، انباره داده یا دیگر مخازن اطلاعات که از مجموعه‌ای از پایگاه داده‌ها، انبار داده، صفحه گسترده 44  یا دیگر انواع مخازن اطلاعات تشکیل شده‌است. پاکسازی داده‌ها و تکنیک‌های یکپارچه‌سازی روی این داده‌ها انجام می‌شود.
* سرویس‌دهنده پایگاه داده یا انبار داده که مسئول بازیابی داده‌های مرتبط بر اساس نوع درخواست داده‌کاوی کاربر می‌باشد.
* پایگاه دانش
* موتور داده‌کاوی45  قسمت اصلی از سیستم داده‌کاوی است و به طور ایده‌ال شامل مجموعه‌ای از پیمانه46  نظیر توصیف47 ، تداعی48 ، کلاس‌بندی49 ، آنالیزخوشه‌ها50  و آنالیز تکامل وانحراف51 است.
* پیمانه ارزیابی الگو52  معیارهای جذابیت53  را به کار می‌بندد و با پیمانه داده‌کاوی تعامل می‌کند، بدین‌صورت که تمرکز ان بر جستجو بین الگوهای جذاب می‌باشد و از یک حد آستانه جذابیت استفاده می‌کند تا الگوهای کشف شده را ارزیابی کند.
* واسط کاربرگرافیکی54  بین کاربر و سیستم داده‌کاوی ارتباط برقرار می‌کند، به کاربر اجازه می‌دهد تا با سیستم داده‌کاوی از طریق پرس‌و‌جو ارتباط برقرار کند و شمای پایگاه داده یا انباره داده را مرور کرده، الگوهای یافته‌شده را ارزیابی کرده و الگوها را در فرم‌های بصری گوناگون بازنمایی کند.
با انجام فرآیند داده‌کاوی، دانش، ارتباط یا اطلاعات سطح بالا از پایگاه داده استخراج می‌شود و قابل مرور از دیدگاه‌های مختلف خواهد بود. دانش کشف شده در سیستم‌های تصمیم‌یار، کنترل فرآیند، مدیریت اطلاعات و پردازش پرس وجو قابل استفاده خواهد بود.

4-5-4- توصیف داده‌ها در داده‌کاوی
مراحل توصیف داده‌ها در داده‌کاوی شامل مراحل زیر می باشد :
1-خلاصه‌سازی و به تصویر در‌آوردن داده‌ها
2-خوشه‌بندی : هدف از خوشه‌بندی این است که داده‌های موجود را به چند گروه تقسیم کرده، در این تقسیم‌بندی داده‌های گروه‌های مختلف باید حداکثر تفاوت ممکن را نسبت به هم داشته باشند و داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند.
3-تحلیل لینک55 :  تحلیل داده‌ها یکی از روش‌های توصیف داده‌ها است که به کمک ان داده‌ها را بررسی کرده و روابط بین مقادیر موجود در بانک اطلاعاتی را کشف می‌کنیم. از مهمترین راه‌های تحلیل لینک کشف وابستگی56 و کشف ترتیب57 می‌باشد.
براي قوانين وابستگي دو پارامتر معرفي مي‌شود :
الف) درجه پشتيباني:58 کسري از جمعيت است که در يک قاعده ، هم مقدم و هم تالي را دارند . در واقع درصدي از تراکنشها که شامل همه اقلام ظاهر شده در مقدم و تالي باشند . فرض کنيم که تنها در 0/0001 درصد از تراکنشهاي خريد ، شير و پيچ گوشتي با هم باشند ، بنابراين درجه پشتيباني براي قانون « پيچ گوشتي  →  شير « بسيار پايين است . اين مساله نشان مي دهد که مدرکي براي اثبات رابطه ميان « شير « و « پيچ گوشتي « وجود ندارد .
ب) درجه اطمينان:59 در يک جمعيت مورد بررسي ، کسري از موارد است که وقتي مقدم قاعده در آنها ظاهر شده است ، تالي نيز در آنها وجود دارد . به عنوان مثال در قانون « پنير → نان « اگر درجه اطمينان برابر 80% تراکنشهاي خريد ، اگر نان وجود داشته باشد ، پنير نيز وجود دارد . بايد توجه داشت که مقدار درجه اطمينان با تعويض مقدم و تالي در قاعده ، ممکن است به شدت تغيير کند .

4-5-5- مدل‌های پیش‌بینی داده‌ها
* کلاس‌بندی:60 در مسائل کلاس‌بندی هدف شناسایی ویژگی‌هایی است که به یک گروه خاص تعلق دارد. از این الگو می‌توان هم برای فهم داده‌های موجود و هم پیش‌بینی نحوه رفتار مواد جدید استفاده کرد.داده‌کاوی مدل‌های کلاس‌بندی را با بررسی داده‌های دسته‌بندی‌شده قبلی ایجاد می‌کند و یک الگوی پیش‌بینی‌کننده را به صورت استقرایی می‌یابد. این موارد موجود ممکن است از یک پایگاه داده تاریخی به دست امده باشند.
* رگرسیون:61 رگرسیون از مقادیر موجود برای پیش‌بینی مقادیر دیگر استفاده می‌کند. در ساده ترین فرم از تکنیک‌های اماری استاندارد استفاده می‌کند. متاسفانه بسیاری مسائل دنیای واقع تصویرخطی ساده‌ای از مقادیر قبلی نیستند. بنابراین تکنیک‌های پیچیده‌تری مانند رگرسیون منطقی، درخت‌های تصمیم یا شبکه‌های عصبی ممکن است برای پیش‌بینی مورد نیاز باشند.مدل‌های یکسانی را می‌توان هم برای رگرسیون و هم برای کلاس‌بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم  CARTرا می‌توان هم برای ساخت درخت‌های کلاس‌بندی و هم درخت‌های رگرسیون استفاده کرد. شبکه های عصبی را نیز می‌توان برای هر دو مورد استفاده کرد.
* سری زمانی: 62 پیش‌بینی‌های سری زمانی مقادیر ناشناخته اینده را براساس یک سری از پیش‌بینی‌گرهای متغیر با زمان پیش‌بینی می‌کنند و مانند رگرسیون از نتایج دانسته شده برای راهنمایی پیش بینی خود استفاده می‌کنند. مدل‌ها باید خصوصیات متمایز زمان به ویژه سلسله مراتب دوره‌ها را در نظر گیرند.

6-5-4- مدل‌ها و الگوریتم‌های داده‌کاوی
بسیاری از محصولات تجاری داده‌کاوی از مجموعه‌ای الگوریتم‌ها استفاده می‌کنند و معمولا هر کدام آنها ویژگی فنی خاصی دارند و برای استفاده از یکی از انها باید بررسی‌های لازم در جهت انتخاب مناسب‌ترین محصول توسط گروه متخصص در نظر گرفته شود.نکته مهم دیگر این است که در بین این الگوریتم‌ها و مدل‌ها بهترین وجود ندارد و با توجه به داده‌ها و کارایی مورد نظر باید مدل انتخاب گردد.

1-6-5-4- شبکه‌های عصبی63
شبکه‌های عصبی از عملی‌ترین روش‌های مدل‌سازی مسائل پیچیده و بزرگ است. شبکههای عصبی می‌توانند برای مسائل کلاس‌بندی (که خروجی یک کلاس است) یا مسائل رگرسیون (که خروجی یک مقدار عددی است) استفاده شوند.
هر شبکه عصبی شامل یک لایه ورودی64 می‌باشد که هر گره در این لایه معادل یکی از متغیرهای پیش‌بینی می‌باشد. گره‌های موجود در لایه میانی به تعدادی گره در لایه نهان65 وصل می‌شوند. هر گره ورودی به همه گره‌های لایه نهان وصل می‌شود.
گره‌های موجود در لایه نهان می‌توانند به گره‌های یک لایه نهان دیگر وصل شوند یا می‌توانند به لایه خروجی  وصل شوند. لایه خروجی66 شامل یک یا چند متغیر خروجی می‌باشد.
هر یال که بین نود‌های X, Yمی‌باشد دارای یک وزن است که باWxyنمایش داده می‌شود. این وزن‌ها در محاسبات لایه‌های میانی استفاده می‌شوند و طرز استفاده آنها بدین صورت است که هر نود در لایه‌های میانی (لایه‌های غیر از لایه اول) دارای چند ورودی از چند یال مختلف می‌باشد که همان‌طور که گفته‌شد هر کدام یک وزن خاص دارند.
هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه ان ضرب می‌کند و حاصل این ضرب‌ها را با هم جمع‌می‌کند و سپس یک تابع از پیش تعیین‌شده (تابع فعال سازی) روی این حاصل اعمال می‌کند و نتیجه را به عنوان خروجی به نود‌های لایه بعد می‌دهد.
وزن یال‌ها، پارامترهای ناشناخته‌ای هستند که توسط متود آموزش67  و داده‌های اموزشی که به سیستم داده می‌شود تعیین می‌گردند.
تعداد گره‌ها و تعداد لایه‌های نهان و نحوه وصل‌شدن گره‌ها به یکدیگر معماری (توپولوژی) شبکه عصبی را مشخص می‌کند. کاربر یا نرم‌افزاری که شبکه عصبی را طراحی می‌کند باید تعداد نود‌ها، تعداد لایه‌های نهان، تابع فعال‌سازی و محدودیت‌های مربوط به وزن یال‌ها را مشخص کند.
از مهمترین انواع شبکه‌های عصبی Feed-Forward Back propagationمی‌باشد.
Feed-Forward: به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن‌های اولیه تعیین‌می‌گردد. مقادیر ورودی با هم ترکیب‌شده و در لایه‌های نهان استفاده می‌شوند و مقادیر این لایه‌های نهان نیز برای محاسبه مقادیر خروجی ترکیب می‌شوند.
Back propagation: خطای خروجی با مقایسه خروجی با مقدار مورد انتظار در داده‌های ازمایشی محاسبه می‌گردد و این مقدار برای تصحیح شبکه و تغییر وزن یال‌ها استفاده می‌گردد و از گره خروجی شروع شده و به عقب محاسبات ادامه می‌یابد.این عمل برای هر رکورد موجود در پایگاه داده  تکرار می‌گردد.
به هر بار اجرای این الگوریتم برای تمام داده‌های موجود در پایگاه داده یک دوره68  گفته می‌شود. این دوره‌ها انقدر ادامه می‌یابد که دیگر مقدار خطا تغییر نکند.
از آنجایی که تعداد پارامترها در شبکه‌های عصبی زیاد می‌باشد محاسبات این شبکه‌ها می‌تواند وقت‌گیر باشد ولی اگر این شبکه‌ها به مدت کافی اجرا گردند معمولا موفقیت‌امیز خواهند بود. مشکل دیگری که ممکن است به وجود بیایداین است که شبکه فقط روی داده‌های اموزشی خوب کار می‌کند و برای سایر مجموعه داده‌ها مناسب نمی‌باشد. برای رفع این مشکل باید بدانیم چه زمانی اموزش شبکه را متوقف کنیم. یکی از راه‌ها این است که شبکه را علاوه بر داده‌های ازمایشی روی داده‌های تست نیز مرتبا اجرا کنیم و جریان تغییر خطا را در انها بررسی کنیم. اگر در این داده‌ها به جایی رسیدیم که میزان خطا رو به افزایش بود حتی اگر خطا در داده‌های ازمایشی همچنان رو به کاهش باشد اموزش را متوقف می‌کنیم.
از انجایی که پارامترهای شبکه‌های عصبی زیاد است یک خروجی خاص می‌تواند با مجموعه‌های مختلفی از مقادیر پارامترها ایجاد گردد درنتیجه این پارامترها مثل وزن یال‌ها قابل تفسیر نبوده و معنی خاصی نمی‌دهند.

2-6-5-4- درخت تصمیم69
درخت‌های تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار می‌شوند. برای مثال می‌خواهیم متقاضیان وام را به دارندگان ریسک اعتبار خوب و بد تقسیم کنیم. شکل زیر درخت تصمیم مسئله فوق را نشان می‌دهد. این درخت همه مؤلفه‌های اساسی یک درخت تصمیم را داراست.
درخت‌های تصمیم از طریق جداسازی متوالی داده‌ها به گروه‌های مجزا ساخته می‌شوند و هدف در این فرآیند افزایش فاصله بین گروه‌ها در هر جداسازی است.
یکی از تفاوت‌ها بین متد‌های ساخت درخت تصمیم این است که این فاصله چگونه اندازه‌گیری می‌شود. درخت‌های تصمیمی که برای پیش‌بینی متغیرهای دسته‌ای استفاده می‌شوند، درخت‌های کلاس‌بندی نامیده می‌شوند زیرا نمونه‌ها را در دسته‌ها یا رده‌ها قرار می‌دهند. درخت‌های تصمیمی که برای پیش‌بینی متغیرهای پیوسته استفاده‌می‌شوند درخت‌های رگرسیون نامیده می‌شوند.
درخت‌های تصمیم تعداد دفعات کمی از داده‌ها گذر می‌کنند (برای هر سطح درخت حداکثر یک مرتبه) و با متغیرهای زیاد به خوبی کار می‌کنند. درنتیجه مدل‌ها به سرعت ساخته می‌شوند. اگر به درخت اجازه دهیم بدون محدودیت رشد کند زمان ساخت بیشتری صرف می‌شود که غیر هوشمندانه است اما مسئله مهم‌تر این است که داده‌ها اورفیت می‌شوند. اندازه درخت‌ها را می‌توان از طریق قوانین توقف کنترل کرد. یک قانون معمول توقف، محدود کردن عمق رشد درخت است.
راه دیگر برای توقف، هرس کردن درخت است. درخت می‌تواند تا اندازه نهایی گسترش یابد، سپس با استفاده از روش‌های اکتشافی توکار یا با مداخله کاربر، درخت به کوچکترین اندازه‌ای که دقت در ان از دست نرود کاهش می‌یابد.
یک اشکال معمول درخت‌های تصمیم این است که انها تقسیم‌کردن را براساس یک الگوریتم حریصانه انجام می‌دهند که در ان تصمیم‌گیری در مورد این که بر اساس کدام متغیر تقسیم انجام شود، اثرات این تقسیم در تقسیم‌های اینده را درنظر نمی‌گیرد.
به علاوه الگوریتم‌هایی که برای تقسیم استفاده می‌شوند، معمولا تک متغیری هستند، یعنی تنها یک متغیر را در هر زمان در نظر می‌گیرند. در حالی که این یکی از دلایل ساخت سری مدل است، تشخیص رابطه بین متغیرهای پیش‌بینی کننده را سخت‌تر می‌کند.

3-6-5-4- رگرسیون منطقی70
در گذشته این روش برای پیش‌بینی مقادیر باینری یا متغیرهای دارای چند مقدار گسسته استفاده می‌شد. از آنجایی که مقادیر مورد نظر برای پیش‌بینی مقادیر گسسته قابل استفاده می‌باشد نمی‌توان ان را به روش رگرسیون خطی مدل‌سازی کرد، برای این منظور این متغیرهای گسسته را به روشی تبدیل به متغیر عددی و پیوسته می‌کنیم، سپس مقدار لگاریتم احتمال متغیر مربوطه و بعد احتمال پیشامد را به این صورت در نظر می‌گیریم که احتمال اتفاق افتادن پیشامد را بر احتمال اتفاق نیفتادن پیشامد تقسیم می‌کنیم و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط‌بندی‌ها یا موارد مشابه به کار می‌رود. مثلا وقتی می‌گوییم شانس بردن یک تیم در مسابقه 3 به 1 است در واقع از همین نسبت استفاده کرده و معنی ان این است که احتمال برد ان تیم 75% است.وقتی موفق شدیم لگاریتم احتمال مورد نظر را به دست اوریم با اعمال لگاریتم معکوس می‌توان نسبت مورد نظر و از روی ان کلاس مورد نظر را مشخص نمود.

4-6-5-4- تحلیل تفکیکی71
این روش از قدیمی‌ترین روش‌های ریاضی گروه‌بندی داده‌ها می‌باشد که برای اولین بار در سال 1936 توسط فیشر استفاده گردید. روش کار به این صورت است که داده‌ها را مانند داده‌های چند ‌ُبعدی بررسی کرده و بین داده‌ها ، مرزهایی ایجاد می‌کند (برای داده‌های دو بعدی خط جدا‌کننده، برای داده‌های سه بعدی سطح جداکننده و …) که این مرزها مشخص‌کننده کلاس‌های مختلف می‌باشد و بعد برای مشخص‌کردن کلاس مربوط به داده‌های جدید فقط باید محل قرارگیری آن را مشخص کنیم.این روش از ساده‌ترین و قابل رشدترین روش‌های کلاس‌بندی است که در گذشته بسیار استفاده می‌شد اما به سه دلیل محبوبیت خود را از دست داد:
* این روش فرض می‌کند همه متغیرهای پیش‌بینی به صورت نرمال توزیع شده‌اند که در بسیاری از موارد صحت ندارد.
* داده‌هایی که به صورت عددی نیستند مثل رنگ‌ها در این روش قابل استفاده نمی‌باشند.
* در آن فرض می‌شود که مرزهای جدا کننده داده‌ها به صورت اشکال هندسی خطی مثل خط یا سطح می‌باشند حال اینکه این فرض همیشه صحت ندارد.
نسخه‌های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده‌اند به این طریق اجازه می‌دهند مرزهای جدا‌‌کننده بیشتر از درجه دو نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می‌گردد.

5-6-5-4-  مدل افزودنی کلی ( GAM)72
این روش در واقع بسطی بر روش‌های رگرسیون خطی و رگرسیون منطقی می‌باشد. به این دلیل به این روش افزودنی می‌گویند که فرض می‌کنیم می‌توانیم مدل را به صورت مجموع چند تابع غیر خطی( هر تابع برای یک متغیر پیش‌بینی‌کننده) بنویسیم. GAMمی‌تواند هم به منظور رگرسیون و هم به منظور کلاس‌بندی داده‌ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می‌شود که این روش نسبت به روش‌های رگرسیون خطی بهتر باشد.

6-6-5-4- استنتاج قوانین73
استنتاج قانون روشي براي بدست آوردن يك سري از قوانين براي طبقه بندي موارد مي باشد. اگرچه درختهاي تصميم مي توانند يك سري قوانين توليد كنند روشهاي استنتاج قانون يك مجموعه از قوانين وابسته كه ضرورتا درختي تشكيل نمي دهند را توليد مي نمايد. چون استنتاج كننده قوانين لزوما انشعابي در هر سطح قرار نمي دهد و مي تواند گام بعدي را تشخيص دهد گاهي اوقات مي تواند الگوهاي مختلف و بهتري را براي طبقه بندي بيابد. برخلاف درختان قوانين توليدي ممكن است تمام حالتهاي ممكن را پوشش ندهند.

7-6-5-4- الگوریتم MARS 74
در دهه 80 میلادی جروم فریدمن75 در ميانه های دهه 80 جهت برطرف نمودن اشکالات الگوریتم CART 76 ، الگوریتم MARS  را ارائه نمود.اشکالات اساسی CARTکه او قصد برطرف  کردن آنها را داشت عبارتند از :
* پيش بينی  های غيرپيوسته( تقسيم سخت)
* وابستگی همه تقسيم ها به تقسيم های قبلی
ايده اصلی الگوریتم MARS نسبتا ساده است، درحاليکه خود الگوريتم نسبتا پيچيده است. ايده اصلی الگوریتم عبارت است از :
* جايگزينی انشعاب های غيرپيوسته با گذر های پيوسته که توسط يک جفت از خط های مستقيم مدل می شوند. در انتهای فرآيند ساخت مدل، خطوط مستقيم در هر نود با يک تابع بسيار هموار که spline ناميده می شود جايگزين می شوند.
* عدم نياز به اينکه تقسيم های جديد وابسته به تقسيم های قديمی باشند.
الگوریتم MARS ساختار درختی CART را ندارد و نمی تواند قوانينی را ايجاد کند. از طرف ديگر، MARS به صورت خودکار مهم‌ترين متغيرهای پيش بينی کننده و همچنين تعامل ميان آنها را می يابد.MARS همچنين وابستگی ميان پاسخ و هر پيش بينی کننده را معين می کند. نتيجه ابزار رگرسيون اتوماتيک، خودکار و step-wise است.
الگوریتم MARS مانند بيشتر الگوريتم های شبکه های عصبی و درخت تصميم، تمايل به overfit شدن برای داده های آموزش‌دهنده  دارد که می توان آنرا به دو طريق تصحیح نمود. اول اينکه، cross validation بصورت دستی انجام شود و الگوريتم برای توليد پيش بينی خوب روی مجوعه تست تنظيم شود. دوم اينکه، پارامترهای تنظيم متفاوتی در خود الگوريتم وجود دارد که cross validation درونی را هدايت می کند.

7-5-4-  کاربردهای داده‌کاوی در صنعت بیمه
متدولوژی داده‌کاوی اغلب می‌تواند مدل‌های اکچوثری77 موجود را از طریق پیدا نمودن متغیرهای مهم ، نعیین روابط بین آنها و کشف روابط غیرخطی آنها ارتقاء دهد. داده‌کاوی می‌تواند در تصمیم‌گیری‌های حیاتی کسب‌و‌کار به شرکت‌های بیمه کمک کند و دانش تازه بدست آمده را  به نتایج اقدام در کسب‌و‌کار شامل توسعه محصول ، یازاریابی ، تحلیل توزیع خسارت ، مدیریت دارایی-بدهی و تحلیل توانایی بازپرداخت دیون تبدیل نماید. داده‌کاوی به‌طور خاص می‌تواند موارد ذیل را انجام دهد:
* شناسایی عوامل ریسک که سود ، خسارت ، و زیان را پیش بینی می کند.
* تحلیل در سطح مشتری
* ایجاد رشته‌های محصول جدید
* بیمه‌اتکایی
* تخمین ذخایر برای خسارت‌های معوق
* دسته‌بندی ریسکی گروه‌های مشتریان بدنه اتومبیل
* پیش‌بینی الگوهای رویگردانی مشتری

1-7-5-4- شناسایی عوامل ریسک که سود ، خسارت ، و زیان را پیش بینی می کند
از مهمترین سوالات در اکچوئری این است که کدام عوامل و متغیرهای ریسک در پیش‌بینی توزیع خسارت و اندازه آن مهم هستند؟ هرچند که بسیاری از عوامل ریسک که بر نرخ اثر می‌گذارند بدیهی‌اند اما ممکن است بین متغیرها روابط دقیق و غیرشهودی برقرار باشد که کشف آنها بدون استفاده از تکنیک‌های پیچیده‌تر کار بسیار سختی است.
مدل‌های داده‌کاوی از قبیل درخت تصمیم‌گیری و شبکه‌های عصبی ، ریسک را با دقت بیشتری نسبت به  مدل‌های اکچوئری موجود بیش‌بینی می‌نمایند.
بنابراین با استفاده از داده‌کاوی و شناسایی عوامل ریسک یک شرکت بیمه می‌تواند نرخ‌های دقیق‌تری بدهد که به نوبه خود منجر به قیمت‌گذاری دقیق‌تر و نیز موقعیت رقابتی می‌شود.

2-7-5-4- تحلیل در سطح مشتری
حفظ موفق مشتری نیازمند تحلیل داده‌ها در مناسب‌ترین سطح ممکن یعنی سطح فردی مشتری بجای در نظر گرفتن مجموعه‌ای از مشتریان به صورت کلی است. با استفاده از داده‌کاوی کشف مرتبط78   ، شرکت‌های بیمه می‌توانند دقیق‌تر انتخاب کنند که چه خدمات و قراردادهایی  را به مشتری ارائه نمایند. با این تکنیک شرکت‌های بیمه می‌توانند :
* پایگاه داده خود را برای ایجاد پروفایل مشتری بخش‌بندی79   نمایند.
•    روی بخش خاصی از مشتریان و برای یک محصول ، تحلیل خسارت و نرخ انجام دهند.
* برای چند محصول با استفاده از پردازش گروهی80  و متغیرهای چند هدفی81  تحلیل بخش انجام دهند. به عنوان مثال قراردادهای ترکیبی مانند اتومبیل ، منزل مسکونی و درمان تکمیلی در مورد بخش خاصی از مشتریان به چه میزان سودده بوده است؟
* انجام تحلیل‌های بازار متوالی در طول زمان روی بخش‌های مختلف مشتریان. به عنوان مثال چند درصد از بیمه‌گذاران اتومبیل در طول 5 سال ، بیمه عمر هم خریداری نموده‌اند؟
* شناسایی گروه هدف برای برنامه‌های حفظ مشتری. بخش بندی پایگاه داده و تکنیک‌های پیشرفته مدل سازی ، تحلیل‌گران بیمه‌ای را قادر می‌سازد برای برنامه‌های حفظ مشتری روی کدام بخش هدف‌گذاری نمایند.با استفاده از مدل‌سازی پیشگویانه امکان شناسایی بیمه‌گذاران فعلی که احتمال دارد شرکت بیمه خود را تغییر دهند وجود دارد.

3-7-5-4- ایجاد رشته‌های محصول جدید
شرکت‌های بیمه می‌توانند قابلیت سوددهی خود را با شناسایی سودمندترین بخش از مشتریان . اولویت‌دهی به برنامه‌های بازاریابی افزایش دهند.مشکلات مربوط به سوددهی شرکت بیمه زمانی رخ می‌دهد که شرکت قادر نباشد قرارداد مناسب را با نرخ مناسب و به مشتری مناسب در زمان مناسب ارائه نماید.
به عنوان مثال برای یک بیمه‌گر استفاده از توزیع لگ‌نرمال برای نرخ‌گذاری هنگامی‌که  توزیع پارتو توزیعی صحیح باشد اشتباه بزرگی بوده و منجر به تحمل هزینه‌های زیادی می‌شود. این مسئله لزوم وجود ابزار مناسبی برای شناسایی و تخمین توزیع زیان را روشن می‌سازد.
امروزه شرکت‌های بیمه می‌توانند با استفاده از عملیات داده‌کاوی نظیر بخش‌بندی یا تحلیل وابستگی82  از همه اطلاعات موجود خود استفاده نموده تا محصولات و برنامه‌های بازاریابی بهتری طراحی نمایند.

4-7-5-4- بیمه اتکایی
از داده‌کاوی می‌توان برای ساماندهی موثر بیمه اتکایی نسبت به روش‌های سنتی استفاده نمود. داده‌کاوی معمولا برای وضوح بخش‌بندی استفاده می شود. در مورد بیمه اتکایی ، گروهی از خسارت‌های  پرداختی برای  مدل‌سازی خسارت انتظاری گروه دیگری از بیمه‌نامه استفاده می‌شود.با بخش‌بندی‌های دقیق‌تر ، تحلیل‌گران می‌توانند اطمینان بیشتری نسبت به خروجی مدل داشته باشند. انتخاب قراردادها برای بیمه اتکایی باید برمبنای مدل ریسک تجربه شده باشد و تنها بر پایه تعمیم نباشد. زیرا مجموعه تعمیم یافته ، مجموعه‌ای از کسب‌وکار با توزیع دُم سنگین83  است.

5-7-5-4- تخمین ذخایر برای خسارت‌های معوق
تسویه حساب خسارت‌ها اغلب با تاخیر همراه است. بنابراین تا زمانی‌که میزان واقعی ارزش خسارت مشخص نشده ، از تخمین شدت خسارت استفاده می‌شود. این تخمین به موارد ذیل بستگی دارد:
* شدت خسارت
* مدت زمان تا تسویه حساب
* اثرات متغیرهای مالی نظیر نرخ تورم و بهره
* اثرات تغییر در آداب و رسوم اجتماعی
برای بهبود تخمین خسارت می‌توان از تکنیک‌های داده‌کاوی نظیر تحلیل لینک و کشف انحراف استفاده نمود. تخمین میزان خسارت با استفاده از مدل پیشگویانه بر این فرض استوار است که آینده شبیه به کذشته خواهد بود. اگر مدل در طول زمان بروزرسانی نشود و داده‌های بیشتری در دسترس نباشد ، این فرض تبدیل به این می‌شود که آینده مانند گذشته دور خواهد بود.
مدل داده‌کاوی  پیشگویانه را می‌توان بروز کرد و فرض تبدیل می‌شود به این‌که آینده مانند گذشته نزدیک رفتار می کند. تکنولوپی داده‌کاوی ، تحلیل‌گران را قادر می‌سازد تا مدل‌های جدید و قدیمی را با هم مقایسه نمایند و آنها را بر اساس عملکرد ارزیابی کنند. اگر مدلی که به تازگی بروزرسانی شده از مدل قدیمی بهتر کار کند ، رمان این فرارسیده که مدل جدید جایگریم مدل قدیمی شود.
تفاوت اصلی بین تکنیک‌های اکچوئری موجود و داده‌کاوی در آین است که داده‌کاوی به کاربرد (نه توصیف ماهیت پدیده) تمایل بیشتری دارد. تمرکز داده‌کاوی بر ایجاد راه‌حلی است که بتواند پیش‌بینی‌های حق بیمه آینده را بهبود بخشد. داده‌کاوی در تعیین رابطه بین حق‌بیمه و فاکتورهای چند بُعدی ریسک نظیر سن و اتومبیل راننده بسیار موثر است.
پاورقی
1-Extract, Transform, Load
2-Data Mart
3-Load
4-Calculated Value
5-Meta data
6-Data Map
7-Data Warehouse
8-Online analytical processing
9-Star
10-Fact
11-Dimension
12-Snowflake
13-Galaxy
14-Multi Dimensional
15-Measure
16-Subcube

17-Multi Dimensional OLAP
18-Relational OLAP
19-Hybrid OLAP
20-Hyper Cube
21-Cache
22-Real Time
23-HyperText
24-Data Mining
25-Knowledge-Based System
26-Knowledge-Acquisition
27-Information Retrieval
28-High-Performance Computing
29-Data Visualization
30-Knowledge Discovery in Database
31-Secondary Data Analysis
32-Application Oriented
33-Active DBMS
34-Knowledge Discovery From Database
35-Decision Support System
36-Shapir
37-Data Cleaning
38-Data Integration
39-Data Selection
40-Data Transformation
41-Summary
42-Aggregation
43-Knowledge Presentation
44-Spread sheets
45-Data Mining Engine
46-Module
47-Characterization
48-Association
49-Classification
50-Cluster Analysis
51-Evolution and Deviation Analysis
52-Pattern Evaluation Module
53-Interesting Measures
54-Graphical User Interface (GUI)
55-Link Analysis
56-Discovery
57-Sequence Discovery
58-Support
59-Confidence
60-Classification
61-Regression
62-Time Series
63-Neural Networks
64-Input Layer
65-Hidden Layer
66-Output Layer
67-Training Method
68-Epoch
69-Decision Tree
70-Logistic Regression
71-Discriminant Analysis
72-Generalized Additive Models
73-Rule Induction
74-Multivariate Adaptive Regression Splines
75-Jerome H. Friedman
76-Classification And Regression TreesActurialAssocaited 77-DiscoverySegment
78-Group Processing
79-Multi Target variable
80-Association Analysis
81-Heavy Tailed
منابع
[1]   Turing A.M ,»COMPUTING MACHINERY AND INTELLIGENCE» , 1950 , Mind 49 , p433-460
[2] Columbos , Louis , « Roundup Of Analytics, Big Data & Business Intelligence Forecasts And Market Estimates», 2014 , www.forbes.com
[3]  Turino , James , «Business Intelligence» , 2014 , Redwood Capital
[4]  Russell , Stuart / Norvig , Peter , «Artificial Intelligence:A Modern Approach» , 2010 , Prentice-Hall , ISBN : 0-13-604259-7
[5]  Williams  , Steve / Williams , Nancy  , «The Profit Impact of Business Intelligence» , 2007 , Elsevier / Morgan Kaufmann publications , ISBN : 0-12-372499-6
[6] Yue  , Dianmin /  Wu  , Xiaodan and others   , « A Review of Data Mining-based Financial Fraud Detection Research « ,  2007 ,  IEEE
[7] Sharma,  Anuj /  Panigrahi ,  Prabin Kumar  , « A Review of Financial Accounting Fraud Detection based on Data Mining Techniques» , 2012 , International Journal of Computer Applications , Volume 39– No.1
[8] Ngai  , E.W.T. / Hu  , Yong  and other , « The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature « , 2011,  Decision Support Systems , Elsevier
[9] Han , Jiawei ,/Kamber , Micheline , « Data Mining:Concepts and Techniques « , 2006 , Elsevies / Morgan Kaufman Publocation , ISBN 10: 1-55860-901-6
[10] Wu , Xindong / Kumar , Vipin  , « Top 10 algorithms in data mining « , 2008 , Knowl Inf Syst / Springer
[11] Kirkos  , Efstathios / Spathis  , Charalambos and other , « Data Mining techniques for the detection of fraudulent  financial statements « , 2007 , Expert Systems with Applications , Elsevier
[12] Yamanishi  , Yoshihiro/ Vert  , Jean-Philippe  , « Kernel matrix regression « , 2007 , HAL
[13] Chen , Wei-Sen / Du ,Yin-Kuan ,» Using neural networks and data mining techniques for the financial distress
prediction model « , 2009 , Expert Systems with Applications , Elsevier
[14] Zhou , Wei / Kapoor  , Gaurav  , « Detecting evolutionary financial statement fraud « , 2011 , Decision Support Systems , Elsevier
[15] Lakshmi,  U.Jothi  ,» A Novel Method to Detect False Financial Statement using Negative Selection Algorithm «,2014 ,  International Journal of Applied Information Systems (IJAIS)  ,  Volume 7– No.9,  ISSN : 2249-0868
[16] Jaya  , Beulah Jeba Y. , «Assessment of Fraud Pretentious Business Region Research Articles Using Data Mining Approaches» , 2013 , International Journal on Computer Science and Engineering (IJCSE) , Vol. 5 No. 07 , ISSN : 0975-3397
[17] Cindi, H & , Eckerson, W , «Business intelligence Tools: Comparison and Market Analysis» , 2008 ,
TDWI Technology Market Report.
[18]  McSherry  , Máire Ryan, « The Benefits of Business Intelligence for Insurance Companies» , 2012 ,   Chartered Insurance Practitioner
[19] Kumar , Pawan  / Swarup  , Saurabh  , «Business Intelligence and Insurance» ,2001 , Wipro , India
[20] Saraswathy , Kanya  , «Business Intelligence Strategy for New Age Insurers» , 2013 , Tata Consultancy Services
[21] Kirlidog , Melih / Asuk , Cuneyt  ,»A fraud detection approach with data mining in health insurance» , 2012 , Social and Behavioral Sciences 62 , Elsevire
[22] Sithic  , H.Lookman /  Balasubramanian , T. , « Survey of Insurance Fraud Detection Using Data Mining Techniques « , 2013 , International Journal of Innovative Technology and Exploring Engineering , Volume-2, Issue-3, ISSN: 2278-3075
[23] شکوهیار ، سجاد ، «هوش تجاری» ، 1393 ، دانشگاه شهید بهشتی ، دانشکده مدیریت و حسابداری ، گروه مدیریت فن‌آوری اطلاعات
[24] امیر‌خانی ، امیرحسین / متقی‌ثابت  محمود ، «بررسی موانع توسعه بیمه‌های الکترونیک در شرکت سهامی بیمه آسیا» ، فصلنامه صنعت بیمه ، 1389 ، سال بیست‌و پنجم ، شماره 1
[25] محمودی ، مهدی ، «رویکردی بر ساخت و پیاده‌سازی سیستم هوش تجاری» ، 1387 ، ماهنامه تدبیر ، شماره 201
[26] آمای ، امیر ، «هوشمندی کسب‌و‌کار کلید موفقیت بنگاه اقتصادی» ، 1384 ، ماهنامه مدیریت فردا ، شماره 9 و 10
[27] بابایی ، علی‌اکبر ، «هوش تجاری خالق فرصت‌های جدید» ، 1390 ، ماهنامه تدبیر ، شماره 234
[28] قره‌خانی ، محسن / ابوالقاسمی ، مریم ، «کاربردهای داده‌کاوی در صنعت بیمه» ، ماهنامه بیمه ، شماره 158
[29] مهرداد ، آسیک ، «کاوش داده‌ها برای کشف تقلب» ، 1391 ، ماهنامه حسابرس ، شماره 60
[30] صفدری ، رضا / شاهمرادی ، لیلا ، «استفاده از شبکه‌های عصبی در نرم‌افزارهای کد‌گذاری جهت کشف کلاه‌برداری‌ها» ، 1388 ، فصلنامه علمی آموزشی مدارک پزشکی ، دوره ششم ، شماره سوم
[30] سهرابی ، بابک ، «هوشمندی کسب و کار چیست؟» ، http://www.babaksohrabi.com/show-content.aspx?ID=1&Type=1
[31] سازور ، اعظم ، «ارائه الگویی برای بهبود هوش تجاری در بازاریابی صنعت بیمه الکترونیک» ، 1390 ، ماهنامه بهبود مدیریت ، سال پنجم ، شماره 3
[32] ترکستانی ، محمد صالح ، «ارزیابی شرکت‌های بیمه ایرانی برای پیاده‌سازی انباره داده» ، 1387 ، فصلنامه صنعت بیمه ، سال بیست و سوم ، شماره 1 و 2
[33] رونقی ، محمد‌حسین ، ارزیابی عملکرد هوشمندی کسب و کار  با استفاده از تحلیل فازی ، 1392 ، فصلنامه تخصصی پارک ها و مراکز رشد ، سال نهم ،  شماره 34
[34]صارمی‌نیا ، صبا ، «ابزار‌های هوش کسب و کار و مقایسه آنها» ، 1391 ،  دانشگاه تربیت مدرس
[35] وحیدپور ، فرشاد  ، «سیستم ایمنی مصنوعی « ، 1393 ،  ماهنامه رایانه ، ویژه‌نامه الکامپ ، شماره 252

————————–

فرشاد وحیدپور

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

It is main inner container footer text