داده‌کاوی در هوشمندی کسب‌و‌کار صنعت بیمه

/
/
/

مقدمه
امروزه با گسترش سيستم هاي پايگاهي و حجم بالاي داده ها ي ذخيره شده در اين سيستم ها ، نياز به ابزاري است تا بتوان داده
هاي ذخيره شده را پردازش کردواطلاعات حاصل از اين پردازش را در اختيار کاربران قرار داد .
با استفاده ار پرس‌و‌جوی مبتنی بر SQL و ابزارهاي گوناگون گزارش‌گيري معمولي ، مي‌توان اطلاعاتي را در اختيار کاربران قرار داد تا بتوانند به نتيجه گيري در مورد داده ها و روابط منطقي ميان آنها بپردازند اما وقتي که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمي توانند الگوهاي مفيد را در ميان حجم انبوه داده ها تشخيص دهند و يا اگر قادر به اين کار هم با شند ، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است .
از سوي ديگر کاربران معمولا فرضيه‌اي را مطرح مي کنند و سپس بر اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي پردازند ، در حالي که امروزه نياز به روشهايي است که اصطلاحا به کشف دانش بپردازند يعني با کمترين دخالت کاربر و به صورت خودکار الگوها و رابطه هاي منطقي را بيان نمايند .
داده‌کاوي يکي از مهمترين اين روشها است که به وسيله آن الگوهاي مفيد در داده ها با حداقل دخالت کاربران شناخته مي شوند و اطلاعاتي را در اختيار کاربران و تحليل گران قرار مي دهند تا براساس آنها تصميمات مهم و حياتي در سازمانها اتخاذ شوند .
در داده کاوي از بخشي از علم آمار به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شود . علاوه بر اين داده کاوي با هوش مصنوعي و يادگيري ماشين نيز ارتباط تنگاتنگي دارد ، بنابراين مي توان گفت در داده‌کاوي تئوري‌هاي پايگاه داده‌ها ، هوش مصنوعي ، يادگيري ماشين و علم آمار را در هم مي‌آميزند تا زمينه کاربردي فراهم شود . بنابراین داده‌کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها ، در حد مگا يا ترابايت، مواجه باشيم .
هر چه حجم داده ها بيشتر و روابط ميان آنها پيچيده تر باشد دسترسي به اطلاعات نهفته در ميان داده ها مشکلتر مي شود و نقش داده کاوي به عنوان يکي از روش‌هاي کشف دانش ، روشن‌تر مي گردد .

مفاهيم پايه در داده کاوي
در دادهکاوي معمولا به کشف الگوهاي مفيد از ميان داده‌ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده‌ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .
تعريف داده کاوي
در متون دانشگاهی تعاريف گوناگوني براي داده کاوي ارائه شده است . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيق‌تر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :
* داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.
* اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود
* داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها .
* داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
* داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده‌ها اشاره شده است .
در ادامه با توجه کاربردهای داده‌کاوی در هوشمندی کسب‌و‌کار ، به صورت اجمالی با هوشمندی کسب‌‌و‌کار آشنا می‌شویم.

آشنایی با هوشمندی کسب‌وکار
تعریف هوشمندی کسب‌وکار
در زمینه هوشمندی کسب‌وکارتعاریف متعددی ارائه شده است که در ادامه به برخی از آنها اشاره می‌شود:
* تعریف ۱: هوشمندی کسب‌وکار به فرآیند تبدیل داده‌های خام به اطلاعات تجاری و مدیریتی اطلاق می‌گردد که به تصمیم‌گیرندگان سازمان کمک می‌کند تا تصمیمات خود را سریع‌تر و بهتر گرفته و بر اساس اطلاعات صحیح عمل نمایند.
*  تعریف ۲: هوشمندی کسب‌وکار عبارتست از بعد وسیعی از کاربردها و فناوری برای جمع‌آوری داده و دانش جهت تولید پرس‌و‌جو در راستای آنالیز سازمان‌ها به منظور اتخاذ تصمیمات تجاری دقیق وهوشمند. داده‌ها با ورود به سیستم هوشمندی کسب‌وکار ، مورد پردازش قرار گرفته و تبدیل به دانش می‌شوند. سپس دانش بدست آمده مورد تحلیل قرارگرفته و ازنتایج تحلیلی آن دید کلی نسبت به سازمان پیدامی‌شود که بر این اساس مدیران تصمیمات لازم را اتخاذ می‌کنند و اعمالی برای بهبود عملکرد سازمان انجام می‌دهند. از این دیدگاه ، اطلاعات ابتدایی موجود قادر به پاسخگویی به این سؤال هستند: «در سیستم چه اتفاقی افتاده‌است؟» باپردازش اطلاعات موجودمی‌توان به این سؤال پاسخ داد: «این اتفاق چرا رخ‌ داده ‌است؟»و در نهایت با تصمیمی که مدیران اتخاذمی‌کنند، می‌توان پیش‌بینی کرد: «چه اتفاقی خواهدافتاد؟»
* تعریف ۳: هوشمندی کسب‌وکارعبارت است از مدیریت کسب‌و‌کار که شامل سیستم‌ها و فناوری‌هایی است که به منظور گرداوری، دسترسی و تحلیل داده‌ها و اطلاعات درباره عملیات شرکت می‌باشد. این سیستم به مدیران کمک می‌کند تا دانش گسترده‌تری از عوامل مؤثر در عملیات شرکت -مانند معیارهای اندازه‌گیری فروش، تولید و عملیات داخلی- را در اختیار داشته باشند، همچنین انها می‌توانند به اتخاذ تصمیم‌های تجاری بهتر کمک نمایند.
* تعریف ۴: هوشمندی کسب‌وکار نه به عنوان یک ابزار یا یک محصول و یا حتی سیستم، بلکه به عنوان یک رویکرد جدید در معماری سازمانی مطرح شده‌است، این معماری بر اساس سرعت در تحلیل اطلاعات به مدیران جهت اتخاذ تصمیمات دقیق و هوشمند کسب و کار در حداقل زمان ممکن کمک می‌کند.
*  تعریف ۵: هوشمندی کسب‌وکار، یک سیستم جدید، برنامه نرم‌افزاری یا یک پروژه مستقل نیست بلکه یک چهارچوب کاری شامل فرآیندها، ابزار و فناوری‌های مختلف است که برای تبدیل داده به اطلاعات و اطلاعات به دانش مورد نیاز هستند. با استفاده از دانش به دست‌امده، مدیران سازمان می‌توانند بهتر تصمیم‌گیری کنند و با طرح برنامه‌های عملی برای سازمان، فعالیت‌های تجاری را به صورت مؤثرتری انجام دهند.
* تعریف ۶: هوشمندی کسب‌وکارامروزه ابزار قدرتمندی را در اختیار سازمان‌ها قرار می‌دهد که به آنها در شناخت بهتر مشتریان و تهیه کنندگان کمک شایانی می‌کند. همچنین با کمک آن می‌توان کارآیی عملیات داخلی یک سازمان را تعیین کرد. سیستم‌های هوشمندی کسب‌وکارموجب ایجاد بهبود در کارآیی تجاری سازمان‌ها از طریق استفاده صحیح و پیشرفته از اطلاعات مربوط به مشتریان، تهیه کنندگان و عملیات تجاری داخلی سازمان‌ها می‌شوند.
* تعریف ۷: مفهوم هوشمندی کسب‌وکاردر ابتدا خیلی ترسناک به نظر می‌رسد. بانک‌های اطلاعاتی بسیار حجیم و پراکنده باید با گروه‌های مختلف کارمندان سازمان به صورت سحرامیزی ترکیب شوند! ولی عملا می‌توان ان را در یک جمله تعریف کرد: هوشمندی کسب‌وکارچیزی نیست مگر فرآیند بالابردن سود‌دهی سازمان در بازار رقابتی با استفاده هوشمندانه از داده‌های موجود در سازمان.
در مجموع می‌توان هوشمندی کسب‌وکاررا از منظر‌های مختلف تعریف نمود، البته هر یک دارای ویژگی‌های به خصوصی است.

منظرمدیریتی
•    تصحیح و پیاده‌سازی فرآیند تصمیم‌گیری مدیران که در انها دانشی بر پایه دقیق‌ترین و جامع‌ترین اطلاعات واقعی سازمان، ایجاد می‌شود.
• استفاده از دانش ایجاد شده برای تصمیم‌گیری در سطوح مختلف مسائل ساخت‌یافته، نیمه ساخت‌یافته و غیر ساخت‌یافته
• افزایش توانایی مدیر در اعمال تصمیمات استراتژیک.
منظر معماری و فرآیندهای سازمانی
• هوشمندی کسب‌وکاریک Frameworkاست.
•    بستری برای حرکت از داده به اطلاعات و از اطلاعات به دانش با ایجاد ارزش افزوده برای سازمان.
• تمرکز بر فرآیندهای تصمیم‌گیری در سطوح مختلف مدیریتی در سازمان.
• افزایش کارایی سازمان با توجه به بخش‌هایی مانند پرسنل مجرب، اطلاعات پنهان تجاری، کاهش فرآیندهای اضافی و…
• اتحاد و یکپارچگی فرآیندهای سازمان.

منظرتجاری
• ایجاد برتری رقابتی با استفاده از ابزارهای قدرتمند تحلیل رقبا.
• نظارت هوشمند تعامل با مشتریان و شرکای تجاری.
• نظارت هوشمند بازار و شناسایی تغییرات آتی بازار.
• فرآیند بالابردن سود‌دهی سازمان در بازار رقابتی.

منظرفناوری
• یک سیستم هوشمند.
• ایجاد بستر فنی و معماری مناسب جهت گسترش و استفاده بهینه از منابع.
• استفاده از ابزارهای نرم‌افزاری و سخت‌افزاری در راستای شناسایی، جمع‌اوری، پردازش و نتیجه‌گیری و نمایش داده‌ها و اطلاعات مورد نیاز در سازمان.
• مبتنی بر انبار داده‌ها و پایگاه داده‌های عملیاتی.
• در تعامل با بسیاری از سیستم‌های رایانهی دیگر.
• مبتنی بر پردازش تحلیلی برخط.
به کمک هوشمندی کسب‌وکارمی‌توان کاوش اطلاعات، انالیز و تحلیل انها را ساده نمود و به تصمیم‌گیرندگان در هر رده یک سازمان این اجازه داده می‌شود تا در هر کجا و هر زمان به اسانی به اطلاعات دسترسی داشته و انها را تحلیل نمایند.
در واقع هوش‌تجاری یکی از شاخه‌های فناوری اطلاعات است و  با دامنه وسیعی از تکنیک‌ها ، ابزارها و برنامه‌های کاربردی از قبیل پردازش تراکنش برخط، پردازش تحلیلی برخط ،پایگاه داده تحلیلی، داده‌کاوی ، سیستم‌های تصمیم‌یار هوشمند ، سیستم مدیریت دانش ،مدیریت زنجیره تأمین ، مدیریت ارتباط با مشتری و برنامه‌‌ریزی منابع سازمان درارتباط می‌باشدوهدف آن ارتقاء کیفیت عملیات و تحلیل آن است. علاوه براین هوشمندی کسب‌وکار فرآیند تبدیل داده‌ها به اطلاعات است،به گونه‌ای که سازمان تجاری را قادر به انالیز اطلاعات می‌نماید تا بتواند با کسب بینش ودرک صحیح، نیازمندی‌های همه ذی‌نفعان سیستم را مدنظر داشته باشد.

اهداف زیر ساختی هوشمندی کسب‌وکار
برخی اهداف مهم زیرساختی هوشمندی کسب‌وکار در سازمان ، مربوط به ایجاد یک بستر ،چهارچوب و معماری با ثبات ، قابل گسترش ، تعامل‌پذیر و منعطف است که امکان به‌کارگیری فناوری‌های نوین تجاری را در سازمان فراهم می‌کند. باتوجه بهم وارد مطرح شده می‌توان عنوان نمود که احساس نیاز به وجود یک سیستم هوشمندی کسب‌وکار در سازمان برای اولین بار در سطوح بالای مدیریتی احساس می‌شود و از بالای هرم ساختار سازمانی به بخش‌های زیرین منتقل می‌گردد. مهم‌ترین عملکرد یک مدیر ، تصمیم‌گیری است. فرآیند تصمیم‌گیری می‌تواند به سه بخش کلی تقسیم شود که عبارتنداز:
• دسترسی ، جمع‌آوری و پالایش داده‌ها و اطلاعات موردنیاز.
• پردازش ، تحلیل و نتیجه‌گیری بر اساس دانش.
• اعمال نتیجه و نظارت بر پیامدها یا جریان اطلاعات
در هر یک از موارد فوق ، سازمان‌های قدیمی که از هوشمندی کسب‌وکار استفاده نمی‌کنند ، دارای مشکلاتی هستندکه اغلب به دلیل حجیم ‌بودن داده‌ها ، پیچیدگی تحلیل‌ها و ناتوانی در ردگیری پیامد‌هایی که در مورد آنها تصمیم گرفته شده،به وجودمی‌آیند. هوشمندی کسب‌وکار با کمک به حل مشکلات فوق ، به دلیل ساختاری که درسازمان اعمال می‌کند، فرصت‌های جدیدی برای سازمان به وجودمی‌آورد.
سیستم‌های کاربردی هوشمندی کسب‌وکارسازمان‌ها را قادر می‌سازند تا با اگاهی بیشتری تصمیم‌گیری نموده و مزیت رقابتی را برای شرکت ایجاد می‌نمایند. به عنوان مثال یک شرکت با استفاده از این سیستم‌ها، اطلاعات و شاخص‌های محیط پیرامون را مقایسه نموده و همچنین آینده روند کارها را در زمینه فعالیت خود پیش‌بینی می‌کند.
سیستم‌های کاربردی هوشمندی کسب‌وکاربه شرکت‌ها کمک می‌کنند تا روند تغییرات را در بازار سهام، تغییرات در رفتار مشتریان و الگوهای مصرف، اولویت‌های مشتریان، توانایی‌های شرکت و در نهایت وضعیت شرکت را تجزیه و تحلیل کنند. همچنین به تحلیلگران و مدیران برای تنظیم پاسخ به روند تغییرات نیز کمک می‌نماید و نیز به شرکت‌ها کمک می‌کنند تا ثبات و پایداری بیشتری را ایجاد کنند و فرآیند تصمیم‌گیری مبتنی بر داده‌ها را که نتایج بهتری دارد جایگزین تصمیم‌گیری برمبنای حدس و گمان در فعالیت‌های تجاری نمایند. به علاوه ارتباط بین واحد‌ها را افزایش داده، فعالیت‌ها را هماهنگ می‌کند و شرکت‌ها را برای پاسخ سریع‌تر به تغییرات تجهیز می‌نماید.
زمانی که سیستم‌های هوشمندی کسب‌وکاربه طور مناسب و صحیح طراحی و با فرآیند‌های شرکت منطبق شده باشند و از سوی دیگر اطلاعات آن برای تصمیم‌سازی قابلیت استفاده داشته باشد، قادر خواهد بود تا عملکرد شرکت را بهبود دهد. دسترسی به اطلاعات صحیح و به موقع، سرمایه مهمی برای هر شرکت محسوب می‌شود، این موضوع سرعت تصمیم‌گیری‌ها را افزایش داده و رضایت مشتریان را به همراه خواهد داشت.
ارائه خدمات به مشتریان به عنوان یک موضوع رقابتی، شرکت‌ها را ملزم به داشتن اطلاعات به روز و دقیق در مورد اولویت‌ها و نیاز های مشتریان می‌کند تا بتواند به سرعت، خودشان را با تغییر تقاضاها در بازار وفق دهند.
هوشمندی کسب‌وکارشرکت‌ها را قادر می‌سازد تا اطلاعاتی را در مورد روند فعالیت‌ها در بازارجمع‌اوری کنند و تغییر در تولیدات یا خدمات مورد انتظار مشتریان را پیش بینی نمایند. همچنین این سیستم‌ها به مدیران کمک می‌کند تا از فعالیت‌های شرکت رقیب مطلع شوند.
برای کارکرد موثر سیستم های هوشمندی کسب‌وکار، شرکت‌ها باید سیستم‌های مکانیزه مطمئنی داشته باشند تا بتوانند براساس سطوح مختلف سازمانی دسترسی به انبار داده‌ها را براساس سطح استفاده‌کنندگان یعنی کارمند، مدیر یا مدیر اجرایی تعیین کنند. به علاوه این سیستم‌ها نیاز به ظرفیت کافی برای اطلاعات و برنامه‌ای برای ذخیره و نگهداری داده‌ها دارند.
نرم‌افزار‌هایی که توسط تحلیلگران هوشمندی کسب‌وکارتولید می‌شود امکان جمع‌آوری و تجزیه و تحلیل حجم زیادی از داده‌های بدون ساختار را مانند معیارهای اندازه‌گیری تولید و تهیه گزارش‌هایی مانند امارهای فروش، گزارش از خدمات ارائه شده و تعداد مشتریان انصراف داده، فراهم می‌نمایند. هر کدام از شرکت‌های ارائه کننده خدمات هوشمندی کسب‌وکاربه طورمعمول سیستم‌های متفاوت و خاص خود را تولید می‌کند.
اهداف کاربردی هوشمندی کسب‌وکاردر سازمان‌ها
در این قسمت به بیان مواردی پرداخته می‌شود  که در بسیاری از سیستم‌های پیاده سازی شده هوشمندی کسب‌وکاربه عنوان اهداف سیستم معرفی می‌شوند:
•تعیین گرایش‌های تجاری سازمان.
•تحلیل عمیق سازمان.
•پیشبینی وضعیت بازار و بالا بردن توانایی رقابتی سازمان در بازار.
•بالا بردن میزان سود‌دهی سازمان.
•تنظیم قیمت‌ها به نحو مطلوب.
•بالا بردن میزان فروش.
•کاهش هزینه‌ها.
•تحلیل سبدخرید.
•بالا بردن میزان رضایت مشتری.
•شناسایی مشتری‌های دائمی و حفظ آنها.
•تحلیل‌های مورد نیاز برای تقسیم‌بندی مشتری.
•بالار فتن کارایی سازمان در انجام امور داخلی.
•قابلیت زمانبندی امور در سازمان به صورت دقیق.
•توانایی استفاده مناسب منابع اطلاعاتی موجود در سازمان.
•استاندارد‌سازی و ایجاد سازگازی بین ساختارهای سازمان.
•توانایی فراهم نمودن اطلاعات با کیفیت بالا.
•ایجاد توانایی اتخاد تصمیم‌های سریع در سازمان.
•تشخیص زود هنگام خطرات و فرصت‌ها.
هوشمندی کسب‌وکاربه ردگیری منشا اصلی فاکتور‌های حیاتی کارایی یک سازمان کمک می‌کند.اغلب اهداف ذکر شده فوق، دارای رویکرد کاربردی هستند. همان‌طور که قبلا هم ذکر شد، هوشمندی کسب‌وکارعلاوه بر این اهداف کاربردی برخی اهداف مهم زیرساختی هم دارد. این اهداف در سازمان بیشتر مربوط به ایجاد یک بستر و معماری باثبات، قابل گسترش، تعامل‌پذیر و منعطف است که امکان به کارگیری فناوری‌های نوین تجاری را در سازمان فراهم می‌کند.

انگیزه‌های استفاده از هوشمندی کسب‌وکاردر سازمان‌ها
انگیزه استفاده از یک فناوری جدید برای یک سازمان می تواند دو عامل مهم داشته باشد: اول حل برخی مشکلات که با روش‌های قدیمی قابل حل نبودند و دوم ایجاد فرصت‌های جدید تجاری.
سیستم‌های موجود در سازمان‌ها دارای مشکلات زیادی هستند که برخی از انها با استفاده از هوشمندی کسب‌وکارقابل حل هستند. مشکلاتی از سازمان که با هوشمندی کسب‌وکار قابل برطرف کردن هستند را می‌توان به دو دسته تجاری و تکنیکی تقسیم‌بندی کرد که در ادامه به برخی از انها اشاره می‌شود.

مشکلات تجاری
* وجود دیدهای مختلف نسبت به یک واقعیت موجود
* نداشتن اطلاعات کافی در رابطه با مشتریان مانند:
* مشتریان واقعی چه کسانی هستند؟
* این مشتریان چه کالاهایی و در چه زمانی می‌خرند؟
* چگونه می‌توان الگوهای خرید مشتری رااستخراج کرد؟
* چگونه می‌توان میزان وفاداری مشتری را بالا برد؟
* نداشتن اطلاعات مورد نیاز در رابطه با محصولات مانند:
* آیا طبقه‌بندی محصولات به درستی انجام شده است؟
* گزارش گیری ایستا

مشکلات تکنیکی
* برنامه‌ها و ساختارهای داده‌ای قدیمی
* مدیریت ضعیف داده‌ها
* یکپارچه نبودن داده‌ها
* وجود پایگاه‌های بزرگ و پراکنده
* کارایی پایین و زیاد بودن زمان پاسخ سیستم

با استفاده از هوشمندی کسب‌وکاراطلاعات در حوزه‌های مختلفی مورد بررسی قرار می‌گیرد. برخی از این حوزه‌ها عبارتند از: اطلاعات مشتریان، رقبا، شرکای تجاری، اطلاعات اقتصادی، اطلاعات محیط، عملیات داخلیو…
این بررسی‌ها در جهت مدیریت بهتر و تاثیرگذار، کاهش هزینه‌ها، پشتیبانی بهتر از محصولات و افزایش سوددهی مفید واقع می‌شوند.از سوی دیگر می‌توان مشکلاتی را که هوشمندی کسب‌وکاربا انها درگیر می‌شود، به دو دسته مسائل ساخت‌یافته و غیرساخت‌یافته تقسیم‌بندی نمود.در مورد فرصت‌های جدید تجاری، موارد بسیاری را می‌توان ذکر نمود که در این جا تنها به برخی از انها اشاره می‌شود:

•دلایل اقتصادی
•دنبال نمودن اهداف کارایی سیستم کاربردی
•افزایش رقابت‌ها
•تجارت الکترونیکی
•حمایت از تصمیم‌گیری‌های سیستمک اربردی
•افزایش مشتریان
•آنالیز عملیات سیستم
•صحت و دقت اطلاعات حاصل از سیستم
•دسترسی به داده‌های بهنگام شده
•کاهش هزینه
•رضایت کاربران نهایی در مقایسه باکالاهای مشابه

داده‌کاوی
در دهه‌های اخیر توانایی‌فنی در تولید و جمع‌آوری داده‌‌ها افزایش چشم‌گیری یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن رایانه در کسب‌و‌کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع‌اوری داده، از اسکن کردن متون و تصاویر تا سیستم‌های سنجش از دور ماهواره‌ای، در این تغییرات نقش مهمی دارند.به طور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را با حجم زیادی از داده و اطلاعات مواجه می‌کند. این رشد انفجاری در داده‌های ذخیره‌شده، نیاز مبرم وجود فناوری‌های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند، داده‌کاوی به عنوان یک راه حل برای این مسائل مطرح می‌باشد. در یک تعریف غیر رسمی داده‌کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می‌کنند که این دانش به صورت ضمنی در پایگاه داده‌های عظیم، انباره داده و دیگر مخازن بزرگ اطلاعات، ذخیره‌شده است. داده کاوی به طور همزمان از چندین رشته علمی بهره می‌برد: فناوری پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه‌های‌ عصبی، امار، شناسایی الگو، سیستم‌های مبتنی بر دانش۱، حصول دانش۲، بازیابی اطلاعات۳، محاسبات سرعت بالا۴ و بازنمایی بصری داده۵٫
واژه‌های «داده‌کاوی» و «کشف دانش در پایگاه داده۶ اغلب به صورت مترادف یکدیگر مورد استفاده قرار می‌گیرند.
کشف دانش در پایگاه داده ، فرآیند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدل‌های قابل فهم در داده‌ها می‌باشد. داده‌کاوی مرحله‌ای از فرآیند کشف دانش می‌باشد و شامل الگوریتم‌های مخصوص داده‌کاوی است، به طوری‌که محدودیت‌های مؤثر محاسباتی قابل قبول، الگوها و یا مدل‌ها را در داده کشف می‌کند. به بیان ساده‌تر، داده‌کاوی به فرآیند استخراج دانش ناشناخته، درست،و بالقوه مفید از داده اطلاق می‌شود.
تعریف دیگر این است که داده‌کاوی گونه‌ای از تکنیک‌ها برای شناسایی اطلاعات و یا دانش تصمیم‌گیری از قطعات داده می‌باشد، به نحوی که با استخراج انها، در حوزه‌های تصمیم‌گیری، پیشبینی، پیش‌گویی و تخمین مورد استفاده قرار گیرند. داده‌ها اغلب حجیم اما بدون ارزش می‌باشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده‌ها قابل استفاده می‌باشد. به این دلیل اغلب به داده‌کاوی، تحلیل داده‌ای ثانویه۷ گفته می‌شود.

دلایل پیدایش داده‌کاوی
اصلی‌ترین دلیلی که باعث شد داده‌کاوی کانون توجهات در صنعت اطلاعات قرار بگیرد، مسئله در دسترس بودن حجم وسیعی از داده‌ها و نیاز شدید به اینکه از این داده‌ها، اطلاعات و دانش سودمند استخراج کنیم. اطلاعات و دانش به دست‌‌امده در کاربرد‌های وسیعی از مدیریت کسب‌و‌کار و کنترل تولید و تحلیل بازار تا طراحی مهندسی و تحقیقات علمی مورد استفاده قرار می‌گیرد.
داده‌کاوی را می‌توان حاصل سیر تکاملی طبیعی فناوری اطلاعات دانست. این سیر تکاملی ناشی از پیشرفت در صنعت پایگاه داده می‌باشد.تکامل فناوری پایگاه داده و استفاده فراوان آن در کاربرد‌های مختلف سبب جمع‌اوری حجم فراوانی داده شده است. ابزارهای داده‌کاوی داده‌ها را آنالیز نموده و الگوهای داده‌ای را کشف می‌کنند که می‌توان از آن در کاربردهایی مانند تعیین استراتژی برای کسب‌و‌کار، پایگاه دانش ، تحقیقات علمی و پزشکی استفاده کرد. شکاف موجود بین داده‌ها و اطلاعات سبب ایجاد نیاز برای ابزارهای داده‌کاوی شده‌است تا داده‌‌های بی‌ارزش را به دانشی ارزشمند تبدیل کنیم. به طور ساده داده‌کاوی به معنای استخراج دانش از مقدار زیادی داده خام است.

تاريخچه داده‌کاوي
اخيرا داده‌کاوي موضوع بسياري از مقالات ، کنفرانس ها و رساله‌هاي علمي شده است ، اما اين واژه تا اوايل دهه نود میلادی مفهومي نداشت و به‌کار برده نمي شد . در دهه شصت میلادی و پيش از آن ، زمينه‌هايي براي ايجاد سيستم‌هاي جمع‌آوري و مديريت داده‌ها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت که منجر به معرفي و ايجاد سيستم‌هاي مديريت پايگاه‌داده‌ها در دهه هفتاد میلادی گرديد .
ايجاد و توسعه مدل‌هاي داده‌اي براي پايگاه سلسله مراتبي ، شبکه‌اي و بخصوص رابطه‌اي در دهه هفتاد میلادی ، منجر به معرفي مفاهيمي همچون شاخص گذاري و سازماندهي داده‌ها و در نهايت ايجاد زبان پرس‌وجو SQL در اوايل دهه هشتاد گرديد تا کاربران بتوانند گزارشات و فرم‌هاي اطلاعاتي مورد نظر خود را ، از اين طريق ايجاد نمايند .
توسعه سيستم هاي پايگاهي پيشرفته در دهه هشتاد میلادی و ايجاد پايگاه‌هاي شيءگرا ، کاربردگرا۸ و فعال۹ باعث توسعه همه جانبه و کاربردي شدن اين سيستم‌ها در سراسر جهان گرديد . بدين ترتيب DBMS هايي همچون DB2 ، Oracle ، Sybase ، … ايجاد شدند و حجم زيادي از اطلاعات با استفاده از اين سيستم ها مورد پردازش قرار گرفتند . شايد بتوان مهمترين جنبه در معرفي داده کاوي را مبحث کشف دانش از پايگاه داده ها (KDD)10 دانست بطوري که در بسياري موارد DM و KDD به‌صورت مترادف مورد استفاده قرار مي گيرند .
همانطور که در تعريف داده کاوي ذکر شد ، هدف از جستجو و کشف الگوهايي در پايگاه داده ها و استفاده از آنها در اخذ تصميمات حياتي است ، بنابراين مي توان گفت که DM بخشي از فرايند KDD است که در نهايت به ايجاد سيستم‌هاي DSS 11 منتهی شد .
براي اولين بار مفهوم داده کاوي در کارگاه IJCAI در زمينه KDD توسط شاپیر۱۲ مطرح گرديد . به دنبال آن در سالهاي ۱۹۹۱ تا ۱۹۹۴ ، کارگاه‌هاي KDD مفاهيم جديدي را در اين شاخه از علم ارائه کردند بطوري که بسياري از علوم و مفاهيم با آن مرتبط گرديدند.
برخي از کاربردهاي داده‌کاوي در محيطهاي واقعي عبارتند از :
۱٫ خرده فروشي : از کاربردهاي کلاسيک داده کاوي است که مي توان به موارد زير اشاره کرد :
* تعيين الگوهاي خريد مشتريان
* تجزيه و تحليل سبد خريد بازار
* پيشگويي ميزان خريد مشتريان از طريق پست(فروش الکترونيکي)

۲٫ بانکداري :
* پيش بيني الگوهاي کلاهبرداري از طريق کارتهاي اعتباري
* تشخيص مشتريان ثابت
*     تعيين ميزان استفاده از کارتهاي اعتباري بر اساس گروههاي اجتماعي

۳٫ بيمه :
* تجزيه و تحليل دعاوي
* پيشگويي ميزان خريد بيمه نامه هاي جديد توسط مشتريان
* پیشگویی میزان رویگردانی مشتریان
* تشخیص تقلبات بیمه‌ای

۴٫ پزشکي :
* تعيين نوع رفتار با بيماران و پيشگويي ميزان موفقيت اعمال جراحي
*     تعيين ميزان موفقيت روشهاي درماني در برخورد با بيماريهاي سخت
مراحل داده‌کاوی

مراحل داده‌کاوی عبارتند از :
* پاکسازی داده‌ها۱۳ :  از بین بردن نویز و ناسازگاری داده‌ها.
* یکپارچه‌سازی داده‌ها۱۴ : چندین منبع داده ترکیب می‌شوند.
* انتخاب داده‌ها۱۵ :  داده‌های مرتبط با انالیز از پایگاه داده بازیابی می‌شوند.
* تبدیل کردن داده‌ها۱۶ :  تبدیل داده‌ها به فرمی که مناسب برای داده‌کاوی باشد مثل خلاصه‌سازی۱۷ و همسان‌سازی۱۸
* فرآیند داده‌کاوی :  فرآیند اصلی که شامل روال‌های هوشمند برای استخراج الگوها از داده‌ها است.
* ارزیابی الگو : برای مشخص کردن الگوهای صحیح و مورد نظر به وسیله معیارهای اندازه‌گیری.
* ارائه دانش۱۹:  یعنی نمایش بصری، تکنیک‌های بازنمایی دانش برای ارائه دانش کشف شده به کاربر استفاده می‌شود.
هر مرحله داده‌کاوی با کاربر یا پایگاه دانش تعامل دارد. الگوهای کشف شده به کاربر ارائه شده و در صورت خواست او به عنوان دانش به پایگاه دانش اضافه می‌شوند.
با توجه به مطالب ارائه شده می‌توان بیان نمود که داده‌کاوی عبارتست از فرآیند یافتن دانش از مقادیر عظیم داده‌های ذخیره‌شده در پایگاه داده، انبار داده ویا دیگر مخازن اطلاعات.
مطابق معماری ارائه شده در تصویر ۱ ، یک سیستم داده‌کاوی  دارای اجزاء اصلی زیر است :
* پایگاه داده، انباره داده یا دیگر مخازن اطلاعات که از مجموعه‌ای از پایگاه داده‌ها، انبار داده، صفحه گسترده۲۰ یا دیگر انواع مخازن اطلاعات تشکیل شده‌است. پاکسازی داده‌ها و تکنیک‌های یکپارچه‌سازی روی این داده‌ها انجام می‌شود.
* سرویس‌دهنده پایگاه داده یا انبار داده که مسئول بازیابی داده‌های مرتبط بر اساس نوع درخواست داده‌کاوی کاربر می‌باشد.
* پایگاه دانش
* موتور داده‌کاوی۲۱ قسمت اصلی از سیستم داده‌کاوی است و به طور ایده‌ال شامل مجموعه‌ای از پیمانه۲۲ نظیر توصیف۲۳، تداعی۲۴، کلاس‌بندی۲۵، آنالیزخوشه‌ها۲۶ و آنالیز تکامل وانحراف۲۷ است.
* پیمانه ارزیابی الگو۲۸ معیارهای جذابیت۲۹ را به کار می‌بندد و با پیمانه داده‌کاوی تعامل می‌کند، بدین‌صورت که تمرکز ان بر جستجو بین الگوهای جذاب می‌باشد و از یک حد آستانه جذابیت استفاده می‌کند تا الگوهای کشف شده را ارزیابی کند.
* واسط کاربرگرافیکی۳۰ بین کاربر و سیستم داده‌کاوی ارتباط برقرار می‌کند، به کاربر اجازه می‌دهد تا با سیستم داده‌کاوی از طریق پرس‌و‌جو ارتباط برقرار کند و شمای پایگاه داده یا انباره داده را مرور کرده، الگوهای یافته‌شده را ارزیابی کرده و الگوها را در فرم‌های بصری گوناگون بازنمایی کند.
با انجام فرآیند داده‌کاوی، دانش، ارتباط یا اطلاعات سطح بالا از پایگاه داده استخراج می‌شود و قابل مرور از دیدگاه‌های مختلف خواهد بود. دانش کشف شده در سیستم‌های تصمیم‌یار، کنترل فرآیند، مدیریت اطلاعات و پردازش پرس وجو قابل استفاده خواهد بود.
توصیف داده‌ها در داده‌کاوی
مراحل توصیف داده‌ها در داده‌کاوی شامل مراحل زیر می باشد :
۱-خلاصه‌سازی و به تصویر در‌آوردن داده‌ها
۲-خوشه‌بندی : هدف از خوشه‌بندی این است که داده‌های موجود را به چند گروه تقسیم کرده، در این تقسیم‌بندی داده‌های گروه‌های مختلف باید حداکثر تفاوت ممکن را نسبت به هم داشته باشند و داده‌های موجود در یک گروه باید بسیار به هم شبیه باشند.
۳-تحلیل لینک۳۱ :  تحلیل داده‌ها یکی از روش‌های توصیف داده‌ها است که به کمک ان داده‌ها را بررسی کرده و روابط بین مقادیر موجود در بانک اطلاعاتی را کشف می‌کنیم. از مهمترین راه‌های تحلیل لینک کشف وابستگی۳۲ و کشف ترتیب۳۳ می‌باشد.
براي قوانين وابستگي دو پارامتر معرفي مي‌شود :
الف) درجه پشتيباني۳۴ : کسري از جمعيت است که در يک قاعده ، هم مقدم و هم تالي را دارند . در واقع درصدي از تراکنشها که شامل همه اقلام ظاهر شده در مقدم و تالي باشند . فرض کنيم که تنها در ۰۰۰۱/ . *  از تراکنشهاي خريد ، شير و پيچ گوشتي با هم باشند ، بنابراين درجه پشتيباني براي قانون « پيچ گوشتي  →  شير « بسيار پايين است . اين مساله نشان مي دهد که مدرکي براي اثبات رابطه ميان « شير « و « پيچ گوشتي « وجود ندارد.
ب) درجه اطمينان۳۵ : در يک جمعيت مورد بررسي ، کسري از موارد است که وقتي مقدم قاعده در آنها ظاهر شده است ، تالي نيز در آنها وجود دارد . به عنوان مثال در قانون « پنير → نان « اگر درجه اطمينان برابر ۸۰% تراکنشهاي خريد ، اگر نان وجود داشته باشد ، پنير نيز وجود دارد . بايد توجه داشت که مقدار درجه اطمينان با تعويض مقدم و تالي در قاعده ، ممکن است به شدت تغيير کند .

مدل‌های پیش‌بینی داده‌ها
* کلاس‌بندی۳۶ : در مسائل کلاس‌بندی هدف شناسایی ویژگی‌هایی است که به یک گروه خاص تعلق دارد. از این الگو می‌توان هم برای فهم داده‌های موجود و هم پیش‌بینی نحوه رفتار مواد جدید استفاده کرد.داده‌کاوی مدل‌های کلاس‌بندی را با بررسی داده‌های دسته‌بندی‌شده قبلی ایجاد می‌کند و یک الگوی پیش‌بینی‌کننده را به صورت استقرایی می‌یابد. این موارد موجود ممکن است از یک پایگاه داده تاریخی به دست امده باشند.
* رگرسیون۳۷ : رگرسیون از مقادیر موجود برای پیش‌بینی مقادیر دیگر استفاده می‌کند. در ساده ترین فرم از تکنیک‌های اماری استاندارد استفاده می‌کند. متاسفانه بسیاری مسائل دنیای واقع تصویرخطی ساده‌ای از مقادیر قبلی نیستند. بنابراین تکنیک‌های پیچیده‌تری مانند رگرسیون منطقی، درخت‌های تصمیم یا شبکه‌های عصبی ممکن است برای پیش‌بینی مورد نیاز باشند.مدل‌های یکسانی را می‌توان هم برای رگرسیون و هم برای کلاس‌بندی استفاده کرد. برای مثال الگوریتم درخت تصمیم CARTرا می‌توان هم برای ساخت درخت‌های کلاس‌بندی و هم درخت‌های رگرسیون استفاده کرد. شبکه های عصبی را نیز می‌توان برای هر دو مورد استفاده کرد.
* سری زمانی۳۸ : پیش‌بینی‌های سری زمانی مقادیر ناشناخته اینده را براساس یک سری از پیش‌بینی‌گرهای متغیر با زمان پیش‌بینی می‌کنند و مانند رگرسیون از نتایج دانسته شده برای راهنمایی پیش بینی خود استفاده می‌کنند. مدل‌ها باید خصوصیات متمایز زمان به ویژه سلسله مراتب دوره‌ها را در نظر گیرند.

مدل‌ها و الگوریتم‌های داده‌کاوی
بسیاری از محصولات تجاری داده‌کاوی از مجموعه‌ای الگوریتم‌ها استفاده می‌کنند و معمولا هر کدام آنها ویژگی فنی خاصی دارند و برای استفاده از یکی از انها باید بررسی‌های لازم در جهت انتخاب مناسب‌ترین محصول توسط گروه متخصص در نظر گرفته شود.نکته مهم دیگر این است که در بین این الگوریتم‌ها و مدل‌ها بهترین وجود ندارد و با توجه به داده‌ها و کارایی مورد نظر باید مدل انتخاب گردد.
شبکه‌های عصبی۳۹
شبکه‌های عصبی از عملی‌ترین روش‌های مدل‌سازی مسائل پیچیده و بزرگ است. شبکههای عصبی می‌توانند برای مسائل کلاس‌بندی (که خروجی یک کلاس است) یا مسائل رگرسیون (که خروجی یک مقدار عددی است) استفاده شوند.
هر شبکه عصبی شامل یک لایه ورودی۴۰ می‌باشد که هر گره در این لایه معادل یکی از متغیرهای پیش‌بینی می‌باشد. گره‌های موجود در لایه میانی به تعدادی گره در لایه نهان۴۱ وصل می‌شوند. هر گره ورودی به همه گره‌های لایه نهان وصل می‌شود.
گره‌های موجود در لایه نهان می‌توانند به گره‌های یک لایه نهان دیگر وصل شوند یا می‌توانند به لایه خروجی۴۲ وصل شوند. لایه خروجی شامل یک یا چند متغیر خروجی می‌باشد.
هر یال که بین نود‌های X, Y می‌باشد دارای یک وزن است که باWxyنمایش داده می‌شود. این وزن‌ها در محاسبات لایه‌های میانی استفاده می‌شوند و طرز استفاده آنها بدین صورت است که هر نود در لایه‌های میانی (لایه‌های غیر از لایه اول) دارای چند ورودی از چند یال مختلف می‌باشد که همان‌طور که گفته‌شد هر کدام یک وزن خاص دارند.
هر نود لایه میانی میزان هر ورودی را در وزن یال مربوطه ان ضرب می‌کند و حاصل این ضرب‌ها را با هم جمع‌می‌کند و سپس یک تابع از پیش تعیین‌شده (تابع فعال سازی) روی این حاصل اعمال می‌کند و نتیجه را به عنوان خروجی به نود‌های لایه بعد می‌دهد.
وزن یال‌ها، پارامترهای ناشناخته‌ای هستند که توسط متود آموزش۴۳ و داده‌های آموزشی که به سیستم داده می‌شود تعیین می‌گردند.
تعداد گره‌ها و تعداد لایه‌های نهان و نحوه وصل‌شدن گره‌ها به یکدیگر معماری (توپولوژی) شبکه عصبی را مشخص می‌کند. کاربر یا نرم‌افزاری که شبکه عصبی را طراحی می‌کند باید تعداد نود‌ها، تعداد لایه‌های نهان، تابع فعال‌سازی و محدودیت‌های مربوط به وزن یال‌ها را مشخص کند.
از مهمترین انواع شبکه‌های عصبی Feed-Forward Back propagation می‌باشد.
Feed-Forward: به معنی این است که مقدار پارامتر خروجی براساس پارامترهای ورودی و یک سری وزن‌های اولیه تعیین‌می‌گردد. مقادیر ورودی با هم ترکیب‌شده و در لایه‌های نهان استفاده می‌شوند و مقادیر این لایه‌های نهان نیز برای محاسبه مقادیر خروجی ترکیب می‌شوند.
Back propagation: خطای خروجی با مقایسه خروجی با مقدار مورد انتظار در داده‌های ازمایشی محاسبه می‌گردد و این مقدار برای تصحیح شبکه و تغییر وزن یال‌ها استفاده می‌گردد و از گره خروجی شروع شده و به عقب محاسبات ادامه می‌یابد.این عمل برای هر رکورد موجود در پایگاه داده  تکرار می‌گردد.
به هر بار اجرای این الگوریتم برای تمام داده‌های موجود در پایگاه داده یک دوره۴۴ گفته می‌شود. این دوره‌ها انقدر ادامه می‌یابد که دیگر مقدار خطا تغییر نکند.
از آنجایی که تعداد پارامترها در شبکه‌های عصبی زیاد می‌باشد محاسبات این شبکه‌ها می‌تواند وقت‌گیر باشد ولی اگر این شبکه‌ها به مدت کافی اجرا گردند معمولا موفقیت‌امیز خواهند بود. مشکل دیگری که ممکن است به وجود بیایداین است که شبکه فقط روی داده‌های اموزشی خوب کار می‌کند و برای سایر مجموعه داده‌ها مناسب نمی‌باشد. برای رفع این مشکل باید بدانیم چه زمانی اموزش شبکه را متوقف کنیم. یکی از راه‌ها این است که شبکه را علاوه بر داده‌های ازمایشی روی داده‌های تست نیز مرتبا اجرا کنیم و جریان تغییر خطا را در انها بررسی کنیم. اگر در این داده‌ها به جایی رسیدیم که میزان خطا رو به افزایش بود حتی اگر خطا در داده‌های آزمایشی همچنان رو به کاهش باشد آموزش را متوقف می‌کنیم.
از آنجایی که پارامترهای شبکه‌های عصبی زیاد است یک خروجی خاص می‌تواند با مجموعه‌های مختلفی از مقادیر پارامترها ایجاد گردد درنتیجه این پارامترها مثل وزن یال‌ها قابل تفسیر نبوده و معنی خاصی نمی‌دهند.

درخت تصمیم۴۵
درخت‌های تصمیم روشی برای نمایش یک سری از قوانین هستند که منتهی به یک رده یا مقدار می‌شوند. برای مثال می‌خواهیم متقاضیان وام را به دارندگان ریسک اعتبار خوب و بد تقسیم کنیم. تصویر ۳ درخت تصمیم مسئله را نشان می‌دهد. این درخت همه مؤلفه‌های اساسی یک درخت تصمیم را داراست.
درخت‌های تصمیم از طریق جداسازی متوالی داده‌ها به گروه‌های مجزا ساخته می‌شوند و هدف در این فرآیند افزایش فاصله بین گروه‌ها در هر جداسازی است.
یکی از تفاوت‌ها بین متد‌های ساخت درخت تصمیم این است که این فاصله چگونه اندازه‌گیری می‌شود. درخت‌های تصمیمی که برای پیش‌بینی متغیرهای دسته‌ای استفاده می‌شوند، درخت‌های کلاس‌بندی نامیده می‌شوند زیرا نمونه‌ها را در دسته‌ها یا رده‌ها قرار می‌دهند. درخت‌های تصمیمی که برای پیش‌بینی متغیرهای پیوسته استفاده‌می‌شوند درخت‌های رگرسیون نامیده می‌شوند.
درخت‌های تصمیم تعداد دفعات کمی از داده‌ها گذر می‌کنند (برای هر سطح درخت حداکثر یک مرتبه) و با متغیرهای زیاد به خوبی کار می‌کنند. درنتیجه مدل‌ها به سرعت ساخته می‌شوند. اگر به درخت اجازه دهیم بدون محدودیت رشد کند زمان ساخت بیشتری صرف می‌شود که غیر هوشمندانه است اما مسئله مهم‌تر این است که داده‌ها اورفیت می‌شوند. اندازه درخت‌ها را می‌توان از طریق قوانین توقف کنترل کرد. یک قانون معمول توقف، محدود کردن عمق رشد درخت است.
راه دیگر برای توقف، هرس کردن درخت است. درخت می‌تواند تا اندازه نهایی گسترش یابد، سپس با استفاده از روش‌های اکتشافی توکار یا با مداخله کاربر، درخت به کوچکترین اندازه‌ای که دقت در ان از دست نرود کاهش می‌یابد.
یک اشکال معمول درخت‌های تصمیم این است که انها تقسیم‌کردن را براساس یک الگوریتم حریصانه انجام می‌دهند که در ان تصمیم‌گیری در مورد این که بر اساس کدام متغیر تقسیم انجام شود، اثرات این تقسیم در تقسیم‌های اینده را درنظر نمی‌گیرد.
به علاوه الگوریتم‌هایی که برای تقسیم استفاده می‌شوند، معمولا تک متغیری هستند، یعنی تنها یک متغیر را در هر زمان در نظر می‌گیرند. در حالی که این یکی از دلایل ساخت سری مدل است، تشخیص رابطه بین متغیرهای پیش‌بینی کننده را سخت‌تر می‌کند.

رگرسیون منطقی۴۶
در گذشته این روش برای پیش‌بینی مقادیر باینری یا متغیرهای دارای چند مقدار گسسته استفاده می‌شد. از آنجایی که مقادیر مورد نظر برای پیش‌بینی مقادیر گسسته قابل استفاده می‌باشد نمی‌توان ان را به روش رگرسیون خطی مدل‌سازی کرد، برای این منظور این متغیرهای گسسته را به روشی تبدیل به متغیر عددی و پیوسته می‌کنیم، سپس مقدار لگاریتم احتمال متغیر مربوطه و بعد احتمال پیشامد را به این صورت در نظر می‌گیریم که احتمال اتفاق افتادن پیشامد را بر احتمال اتفاق نیفتادن پیشامد تقسیم می‌کنیم و تفسیر این نسبت مانند تفسیری است که در بسیاری از مکالمات روزمره در مورد مسابقات یا شرط‌بندی‌ها یا موارد مشابه به کار می‌رود. مثلا وقتی می‌گوییم شانس بردن یک تیم در مسابقه ۳ به ۱ است در واقع از همین نسبت استفاده کرده و معنی ان این است که احتمال برد ان تیم ۷۵% است.وقتی موفق شدیم لگاریتم احتمال مورد نظر را به دست اوریم با اعمال لگاریتم معکوس می‌توان نسبت مورد نظر و از روی ان کلاس مورد نظر را مشخص نمود.

تحلیل تفکیکی۴۷
این روش از قدیمی‌ترین روش‌های ریاضی گروه‌بندی داده‌ها می‌باشد که برای اولین بار در سال ۱۹۳۶ توسط فیشر استفاده گردید. روش کار به این صورت است که داده‌ها را مانند داده‌های چند‌بعدی بررسی کرده و بین داده‌ها مرزهایی ایجاد می‌کند (برای داده‌های دو بعدی خط جدا‌کننده، برای داده‌های سه بعدی سطح جداکننده و …) که این مرزها مشخص‌کننده کلاس‌های مختلف می‌باشد و بعد برای مشخص‌کردن کلاس مربوط به داده‌های جدید فقط باید محل قرارگیری آن را مشخص کنیم.این روش از ساده‌ترین و قابل رشدترین روش‌های کلاس‌بندی است که در گذشته بسیار استفاده می‌شد اما به سه دلیل محبوبیت خود را از دست داد:
* این روش فرض می‌کند همه متغیرهای پیش‌بینی به صورت نرمال توزیع شده‌اند که در بسیاری از موارد صحت ندارد.
* داده‌هایی که به صورت عددی نیستند مثل رنگ‌ها در این روش قابل استفاده نمی‌باشند.
* در ان فرض می‌شود که مرزهای جدا کننده داده‌ها به صورت اشکال هندسی خطی مثل خط یا سطح می‌باشند حال اینکه این فرض همیشه صحت ندارد.
نسخه‌های اخیر تحلیل تفکیکی بعضی از این مشکلات را رفع کرده‌اند به این طریق اجازه می‌دهند مرزهای جدا‌‌کننده بیشتر از درجه دو نیز باشند که باعث بهبود کارایی و حساسیت در بسیاری از موارد می‌گردد.

مدل افزودنی کلی (GAM)48
این روش در واقع بسطی بر روش‌های رگرسیون خطی و رگرسیون منطقی می‌باشد. به این دلیل به این روش افزودنی می‌گویند که فرض می‌کنیم می‌توانیم مدل را به صورت مجموع چند تابع غیر خطی( هر تابع برای یک متغیر پیش‌بینی‌کننده) بنویسیم. GAMمی‌تواند هم به منظور رگرسیون و هم به منظور کلاس‌بندی داده‌ها استفاده گردد. این ویژگی غیر خطی بودن توابع باعث می‌شود که این روش نسبت به روش‌های رگرسیون خطی بهتر باشد.

استنتاج قوانین۴۹
استنتاج قانون روشي براي بدست آوردن يك سري از قوانين براي طبقه بندي موارد مي باشد. اگرچه درختهاي تصميم مي توانند يك سري قوانين توليد كنند روشهاي استنتاج قانون يك مجموعه از قوانين وابسته كه ضرورتا درختي تشكيل نمي دهند را توليد مي نمايد. چون استنتاج كننده قوانين لزوما انشعابي در هر سطح قرار نمي دهد و مي تواند گام بعدي را تشخيص دهد گاهي اوقات مي تواند الگوهاي مختلف و بهتري را براي طبقه بندي بيابد. برخلاف درختان قوانين توليدي ممكن است تمام حالتهاي ممكن را پوشش ندهند.

الگوریتم MARS 50
در دهه ۸۰ میلادی جروم فریدمن۵۱ در ميانه های دهه ۸۰ جهت برطرف نمودن اشکالات الگوریتم CART 52 ، الگوریتم MARS  را ارائه نمود.اشکالات اساسی CARTکه او قصد برطرف  کردن آنها را داشت عبارتند از :
* پيش بينی های غيرپيوسته( تقسيم سخت)
* وابستگی همه تقسيم ها به تقسي های قبلی
ايده اصلی الگوریتم MARS نسبتا ساده است، درحاليکه خود الگوريتم نسبتا پيچيده است. ايده اصلی الگوریتم عبارت است از :
* جايگزينی انشعاب های غيرپيوسته با گذر های پيوسته که توسط يک جفت از خط های مستقيم مدل می شوند. در انتهای فرآيند ساخت مدل، خطوط مستقيم در هر نود با يک تابع بسيار هموار که spline ناميده می شود جايگزين می شوند.
* عدم نياز به اينکه تقسيم های جديد وابسته به تقسيم های قديمی باشند.
الگوریتم MARS ساختار درختی CART را ندارد و نمی تواند قوانينی را ايجاد کند. از طرف ديگر، MARS به صورت خودکار مهم‌ترين متغيرهای پيش بينی کننده و همچنين تعامل ميان آنها را می يابد.MARS همچنين وابستگی ميان پاسخ و هر پيش بينی کننده را معين می کند. نتيجه ابزار رگرسيون اتوماتيک، خودکار و step-wise است.
الگوریتم MARS مانند بيشتر الگوريتم های شبکه های عصبی و درخت تصميم، تمايل به overfit شدن برای داده های آموزش‌دهنده  دارد که می توان آنرا به دو طريق تصحیح نمود. اول اينکه، cross validation بصورت دستی انجام شود و الگوريتم برای توليد پيش بينی خوب روی مجوعه تست تنظيم شود. دوم اينکه، پارامترهای تنظيم متفاوتی در خود الگوريتم وجود دارد که cross validation درونی را هدايت می کند.

الگوریتم Apriori
این الگوریتم یک الگوریتم جستجوی سطحی از رده جستجوی ناآگاهانه می باشد. هدف این الگوریتم ، پیدا كردن بزرگ‌ترین عضو  مجموعه است كه حداقل Support و Confidence را رعایت كند . دو فرض زیر در این الگوریتم در نظر گرفته می شود :
فرض ۱ : هر زیر مجموعه از یك مجموعه اقلام  تكرار شونده ، تكرار شونده است . یعنی اگر فرضاً مجموعه {c،b،a} تكرار شونده باشد ، آنگاه مجموعه {b ،a } نیز تكرار شونده است.
فرض ۲ :   هر فوق مجموعه از یك مجموعه اقلام  تكرار نشونده است. یعنی اگر به فرض  مجموعه {  b ، a   } تكرار شونده نباشد ، آنگاه مجموعه  {  c ، b ، a   } نیز تكرار شونده  نیست.
عملکرد الگوریتم Apriori  :  روش عملکرد الگوریتم Apriori بدین صورت است كه در هر بار ، یك سری مجموعه اقلام بزرگ با طول ۱ K+ را از روی مجموعه اقلام‌های كاندید با طول K ساخته و این كار را تا رسیدن به یك مجموعه اقلام با بیشترین طول انجام می دهد . مجموعه اقلام‌های كاندید در هر دفعه با ضرب مجموعه كاندید در خودش به دست می آید.
مشکلات الگوریتم Apriori  : از مشكلات این الگوریتم می توان به حجم بسیار بالای تراكنش های موجود در پایگاه داده ، طولانی بودن زمان جستجوی آنها در هر بار و تعداد زیاد كاندیدها در هر مرحله اشاره كرد.
بهینه‌سازی الگوریتم Apriori  : ایده های مطرح شده برای بهینه سازی الگوریتم Apriori عبارتند از :
۱. كاهش تعداد دفعات جستجو در پایگاه داده تراكنشی.
۲. كاهش تعداد كاندیدها.
۳.  ساده كردن شمارش برای Support .

مثال از الگوريتم Apriori
فرض کنيد مجموعه تراکنش‌ها  مطابق با مقادير جدول (۱) باشد.
این پايگاه حاوي ۴ تراکنش به نام های T001 تا T004 است و الگوريتم Appriori را براي پيدا کردن قوانين بر روي آن اجرا مي‌‌شود.
در اولين تکرار از حلقه هر يک از اقلام (A,B,C,..) عضوي از مجموعه کانديد يک قلمي ۱C هستند و الگوريتم به سادگي کليه تراکنش‌ها را بررسي کرده تا تکرار هر يک را بدست آورد . اگر حداقل Support برابر با ۵۰%  يعني دو تراکنش باشد به سادگي مجموعه اقلام مهم يک قلمي يعني L1 از روي C1 بدست مي آيند که شامل A,B,C و E است .(جدول ۲)
براي بدست آوردن L2  ، الگوريتم از   L1*L2 طبق تعريف ارائه شده استفاده مي کند تا ابتدا  C2 را توليد کند که شامل مجموعه اقلام دو تايي است. چون مسلماً تمام زير مجموعه هاي هر عضو ۲C اقلام مهمي هستند در اين مرحله بايد Support تمام اعضاء ۲C محاسبه شده و آنهايي که داراي حداقل Support هستند در مجموعه ۲L قرار داده مي شوند(جدول ۳)
جزئيات محاسبه ۳C بدین صورت است که ابتدا با استفاده از L1*L2، مجموعه ۳C شامل مجموعه اقلام {A,B,C},{A,B,D} و{B,C,D} قرار داده مي شود. اما با استفاده از خاصيت Appriori که بيان مي‌کند تمام زير مجموعه هاي يک مجموعه مهم بايد مهم باشند مي‌توان تشخيص داد که مجموعه اقلام {A,B,C} و {A,B,D} نمي توانند مهم باشند.  براي مجموعه {A,B,C} مي‌توان مشاهده نمود که يکي از زير مجموعه هاي آن يعني {A,C} عضوي از L2 نيست و به همين ترتيب در مورد مجموعه {A,B,D} زير مجموعه دو عضوي آن {A,D} عضوي از ۲L نيست. بنابراین  اين دو مجموعه نمي‌توانند مجموعه هاي مهمي باشند و احتياجي به محاسبه Support آنها نمی‌باشد. در مقابل تمام زير مجموعه هاي دو عضوي {B,C,D} مهم هستند و پس از محاسبه Support اين مجموعه اقلام در ۳L  قرار مي‌گيرند(جدول ۴).
چون ۳L تنها يک عضو دارد کار پيدا کردن مجموعه اقلام مهم تمام شده و در مرحله بعد استخراج قوانين انجام می‌شود.
روش پيدا کردن قوانين از روي مجموعه اقلام مهم توضيح داده شد ودر اينجا تنها مثالي آورده می‌شود. فرض کنيد بدنبال قوانين ممکن از روي {B,C,D} هستيم . اين مجموعه شامل ۵ زير مجموعه غير تهي است و قوانين زير از روي آن قابل استخراج می‌باشند:
قابل ذکر است که اطلاعات لازم براي محاسبه Confidence همه قوانين ، در مراحل قبل (جداول ۲ تا ۴ ) بدست آمده اند.
در خاتمه  با داشتن حداقل Confidence به عنوان مثال ۷۰% ،  قوانين قوي را می‌توان استخراج نمود که در این حالت ، دو قانون (۱) و (۲)  استخراج می‌شوند.

شبه‌کد الگوريتم Apriori
* Pseudo-code:
Ck: Candidate itemset of size k
Lk : frequent itemset of size k
L1 = {frequent items};
for (k = 1; Lk !=Æ; k++) do begin
Ck+1 = candidates generated from Lk;
for each transaction t in database do
increment the count of all candidates in Ck+1 that
are contained in t
Lk+1  = candidates in Ck+1 with min_support
end
return Èk Lk;

الگوریتم AprioriTID
الگوریتم Apriori دارای معایب ذیل می‌باشد :
۱ ) در این الگوریتم محاسبه پشتیبان اقلام کاندید نیازمند زمان زیادی می‌باشد.
۲) در این الگوریتم برای محاسبه پشتیبان اقلام کاندید ، تمامی تراکنش‌ها بررسی شده که این بررسی نیازمند زمان زیادی می‌باشد.
الگوریتم Aprori در تمامی مراحل برای محاسبه پشتیبان‌ها تمامی تراکنش‌ها را بررسی می نماید. برای کاهش زمان الگوریتم AprioriTID  ابداع شده است. این الگوریتم روش مشابهی را برای محاسبه پشتیبان Kام (Ck)  استفاده می‌نماید با این تفاوت که کل اقلام را برای پشتیبان بعد از مرحله اول مرور نمی نماید و از مجموعه   برای محاسبه پشتیبان استفاده می‌کند.
بدین صورت که در این الگوریتم اقلام به صورت <TID,Xk> ذخیره می‌شود که اعضاء Xk به فرم   هستند. اعضاء   نیز به فرم <TID,C> می‌باشند که C Ck . بنابراین اندازه Ck بسیار کوچکتر از اندازه اقلام موجود می‌باشد.
تفاوت اصلی الگوریتم Apriori با AprioriTID در مرحله اول الگوریتم می‌باشد که کلیه اقلام پیمایش شده و سپس از روی کاندیدهایی که از مرحله اول بدست آمده است اقلام    که دربردارنده اقلامی با اندازه k می باشد تولید شده و پیمایش بعدی روی    انجام می‌شود. سایر مراحل الگوریتم Apriori TID مشابه الگوریتم Apriori می‌باشد.

شبه‌کد الگوريتم AprioriTID

در شبه‌کد فوق در مراحل آخر ، اندازه C^k بسیار کوچکتر از اندازه اقلام اولیه شده که باعث صرفه‌جویی بیشتر در زمان می‌شود.

معایب  الگوريتم AprioriTID
۱)در مراحل اولیه ،  های تولید شده اندازه بزرگی دارند و طبیعتا الگوریتم به زمانی معادل الگوریتم Aprori نیاز دارد.
۲)اگر کد الگوریتم AprioriTID نتواند خود را با اندازه حافظه وفق دهد (Fit شود( ، هزینه اضافی در برخواهد داشت.

الگوریتم FP-Growth
در بخش‌های قبلی مشاهده شد که کاندیدهای تولید شده در الگوریتم Apriori باعث کاهش چشمگیر مجموعه اقلام می‌شوند که به کارآیی خوبی منجر می شود.اما  این الگوریتم دو هزینه به سیستم تحمیل می کند. اولی، تولید حجم عظیمی از مجموعه کاندیدها. به عنوان مثال اگر ۱۰۴ مجموعه قلم پرتکرار یک عضوی داشته باشیم، اپریوری ۱۰۷ مجموعه قلم کاندید دو عضوی تولید می کند. به علاوه برای کشف یک الگوی پرتکرار با اندازه ۱۰۰ باید حداقل به میزان   ۱۰۳۰=۱- ۲۱۰۰   کاندید درمجموع تولید شود. هزینة دوم، اسکن‌ها و پویش‌های متوالی پایگاه داده به منظور محاسبة پشتیبانی اقلام کاندید است که به سیستم تحمیل می شود.
روش جالبی که مجموعه اقلام پرتکرار را بدون تولید مجموعه اقلام کاندید به دست می آورد، FP-growth  است که از یک استراتژی تقسیم وحل استفاده می کند. این روش پایگاه داده را به مجموعه ای از پایگاه داده ها که هرکدام یک قلم پرتکرار دارند، تقسیم می کند و هر پایگاه داده را جداگانه کاوش می کند.
در اولین اسکن پایگاه داده همانند اپریوری مجموعه آیتم های یک عضوی و پشتیبانی آنها مشخص می شود. مجموعه اقلام پرتکرار به ترتیب نزولی پشتیبانی شان مرتب می شوند.
سپس یک درخت بدین صورت ساخته می شود که در ابتدا ریشة درخت با برچسب null ساخته می شود. بعد از آن پایگاه‌داده برای بار دوم اسکن می شود. اقلام هر تراکنش به ترتیب L پردازش می شوند و یک شاخه برای هر تراکنش ایجاد می‌شود. به-منظور تسهیل پیمایش درخت، یک جدول ساخته می شود که هر قلم درآن به محل خودش دردرخت اشاره می کند. درخت پس از اسکن همة تراکنش‌ها کامل می شود

کاربردهای داده‌کاوی در صنعت بیمه
متدولوژی داده‌کاوی اغلب می‌تواند مدل‌های اکچوثری۵۳  موجود را از طریق پیدا نمودن متغیرهای مهم ، نعیین روابط بین آنها و کشف روابط غیرخطی آنها ارتقاء دهد. داده‌کاوی می‌تواند در تصمیم‌گیری‌های حیاتی کسب‌و‌کار به شرکت‌های بیمه کمک کند و دانش تازه بدست آمده را  به نتایج اقدام در کسب‌و‌کار شامل توسعه محصول، یازاریابی، تحلیل توزیع خسارت، مدیریت دارایی-بدهی و تحلیل توانایی بازپرداخت دیون تبدیل نماید. داده‌کاوی به‌طور خاص می‌تواند موارد ذیل را انجام دهد:
* شناسایی عوامل ریسک که سود، خسارت، و زیان را پیش بینی می کند.
* تحلیل در سطح مشتری
* ایجاد رشته‌های محصول جدید
* بیمه‌اتکایی
* تخمین ذخایر برای خسارت‌های معوق
* دسته‌بندی ریسکی گروه‌های مشتریان بدنه اتومبیل
* پیش‌بینی الگوهای رویگردانی مشتری
شناسایی عوامل ریسک که سود ، خسارت ، و زیان را پیش بینی می کند
از مهمترین سوالات در اکچوئری این است که کدام عوامل و متغیرهای ریسک در پیش‌بینی توزیع خسارت و اندازه آن مهم هستند؟ هرچند که بسیاری از عوامل ریسک که بر نرخ اثر می‌گذارند بدیهی‌اند اما ممکن است بین متغیرها روابط دقیق و غیرشهودی برقرار باشد که کشف آنها بدون استفاده از تکنیک‌های پیچیده‌تر کار بسیار سختی است.
مدل‌های داده‌کاوی از قبیل درخت تصمیم‌گیری و شبکه‌های عصبی، ریسک را با دقت بیشتری نسبت به  مدل‌های اکچوئری موجود بیش‌بینی می‌نمایند.
بنابراین با استفاده از داده‌کاوی و شناسایی عوامل ریسک یک شرکت بیمه می‌تواند نرخ‌های دقیق‌تری بدهد که به نوبه خود منجر به قیمت‌گذاری دقیق‌تر و نیز موقعیت رقابتی می‌شود.
تحلیل در سطح مشتری
حفظ موفق مشتری نیازمند تحلیل داده‌ها در مناسب‌ترین سطح ممکن یعنی سطح فردی مشتری بجای در نظر گرفتن مجموعه‌ای از مشتریان به صورت کلی است. با استفاده از داده‌کاوی کشف مرتبط۵۴ ، شرکت‌های بیمه می‌توانند دقیق‌تر انتخاب کنند که چه خدمات و قراردادهایی  را به مشتری ارائه نمایند. با این تکنیک شرکت‌های بیمه می‌توانند :
•    پایگاه داده خود را برای ایجاد پروفایل مشتری بخش‌بندی۵۵  نمایند.
•    روی بخش خاصی از مشتریان و برای یک محصول ، تحلیل خسارت و نرخ انجام دهند.
* برای چند محصول با استفاده از پردازش گروهی۵۶ و متغیرهای چند هدفی۵۷ تحلیل بخش انجام دهند. به عنوان مثال قراردادهای ترکیبی مانند اتومبیل ، منزل مسکونی و درمان تکمیلی در مورد بخش خاصی از مشتریان به چه میزان سودده بوده است؟
* انجام تحلیل‌های بازار متوالی در طول زمان روی بخش‌های مختلف مشتریان. به عنوان مثال چند درصد از بیمه‌گذاران اتومبیل در طول ۵ سال ، بیمه عمر هم خریداری نموده‌اند؟
* شناسایی گروه هدف برای برنامه‌های حفظ مشتری. بخش بندی پایگاه داده و تکنیک‌های پیشرفته مدل سازی ، تحلیل‌گران بیمه‌ای را قادر می‌سازد برای برنامه‌های حفظ مشتری روی کدام بخش هدف‌گذاری نمایند.با استفاده از مدل‌سازی پیشگویانه امکان شناسایی بیمه‌گذاران فعلی که احتمال دارد شرکت بیمه خود را تغییر دهند وجود دارد.

ایجاد رشته‌های محصول جدید
شرکت‌های بیمه می‌توانند قابلیت سوددهی خود را با شناسایی سودمندترین بخش از مشتریان . اولویت‌دهی به برنامه‌های بازاریابی افزایش دهند.مشکلات مربوط به سوددهی شرکت بیمه زمانی رخ می‌دهد که شرکت قادر نباشد قرارداد مناسب را با نرخ مناسب و به مشتری مناسب در زمان مناسب ارائه نماید.
به عنوان مثال برای یک بیمه‌گر استفاده از توزیع لگ‌نرمال برای نرخ‌گذاری هنگامی‌که  توزیع پارتو توزیعی صحیح باشد اشتباه بزرگی بوده و منجر به تحمل هزینه‌های زیادی می‌شود. این مسئله لزوم وجود ابزار مناسبی برای شناسایی و تخمین توزیع زیان را روشن می‌سازد.
امروزه شرکت‌های بیمه می‌توانند با استفاده از عملیات داده‌کاوی نظیر بخش‌بندی یا تحلیل وابستگی۵۸ از همه اطلاعات موجود خود استفاده نموده تا محصولات و برنامه‌های بازاریابی بهتری طراحی نمایند.

بیمه اتکایی
از داده‌کاوی می‌توان برای ساماندهی موثر بیمه اتکایی نسبت به روش‌های سنتی استفاده نمود. داده‌کاوی معمولا برای وضوح بخش‌بندی استفاده می شود. در مورد بیمه اتکایی ، گروهی از خسارت‌های  پرداختی برای  مدل‌سازی خسارت انتظاری گروه دیگری از بیمه‌نامه استفاده می‌شود.با بخش‌بندی‌های دقیق‌تر ، تحلیل‌گران می‌توانند اطمینان بیشتری نسبت به خروجی مدل داشته باشند. انتخاب قراردادها برای بیمه اتکایی باید برمبنای مدل ریسک تجربه شده باشد و تنها بر پایه تعمیم نباشد. زیرا مجموعه تعمیم یافته ، مجموعه‌ای از کسب‌وکار با توزیع دُم سنگین۵۹ است.

تخمین ذخایر برای خسارت‌های معوق
تسویه حساب خسارت‌ها اغلب با تاخیر همراه است. بنابراین تا زمانی‌که میزان واقعی ارزش خسارت مشخص نشده ، از تخمین شدت خسارت استفاده می‌شود. این تخمین به موارد ذیل بستگی دارد:
* شدت خسارت
* مدت زمان تا تسویه حساب
* اثرات متغیرهای مالی نظیر نرخ تورم و بهره
* اثرات تغییر در آداب و رسوم اجتماعی
برای بهبود تخمین خسارت می‌توان از تکنیک‌های داده‌کاوی نظیر تحلیل لینک و کشف انحراف استفاده نمود. تخمین میزان خسارت با استفاده از مدل پیشگویانه بر این فرض استوار است که آینده شبیه به کذشته خواهد بود. اگر مدل در طول زمان بروزرسانی نشود و داده‌های بیشتری در دسترس نباشد ، این فرض تبدیل به این می‌شود که آینده مانند گذشته دور خواهد بود.
مدل داده‌کاوی  پیشگویانه را می‌توان بروز کرد و فرض تبدیل می‌شود به این‌که آینده مانند گذشته نزدیک رفتار می کند. تکنولوپی داده‌کاوی ، تحلیل‌گران را قادر می‌سازد تا مدل‌های جدید و قدیمی را با هم مقایسه نمایند و آنها را بر اساس عملکرد ارزیابی کنند. اگر مدلی که به تازگی بروزرسانی شده از مدل قدیمی بهتر کار کند ، رمان این فرارسیده که مدل جدید جایگریم مدل قدیمی شود.
تفاوت اصلی بین تکنیک‌های اکچوئری موجود و داده‌کاوی در آین است که داده‌کاوی به کاربرد (نه توصیف ماهیت پدیده) تمایل بیشتری دارد. تمرکز داده‌کاوی بر ایجاد راه‌حلی است که بتواند پیش‌بینی‌های حق بیمه آینده را بهبود بخشد. داده‌کاوی در تعیین رابطه بین حق‌بیمه و فاکتورهای چند بُعدی ریسک نظیر سن و اتومبیل راننده بسیار موثر است.

داده‌کاوی و کشف تقلب
تقلبدر  صورت‌های مالی به شکل چشمگیری توجه عموم جامعه ، رسانه‌ها ، سرمایه گذاران ، جامعه مالی و قانونگذاران را به خود جلب کرده و این به خاطر چندین تقلب مشهوری است که در شرکت‌های بزرگی از قبیل انرون، لوسنت و ورلدکام در طول سالیان گذشته روی داده است.
گزارشگری متقلبانه در صورت‌های مالی بیشتر از طریق بیش‌اظهاری دارایی‌ها ، فروش‌ها و سود و کم‌اظهاری بدهی‌ها، هزینه‌ها و زیان‌ها ، انجام می‌شود.
تقلب، یک دلیل بااهمیت برای شکست بسیاری از شرکت‌ها است و به‌ویژه، به بازارهای سرمایه آسیب می‌رساند؛ چرا که سرمایه گذاران، اعتباردهندگان و تحلیلگران مالی در تصمیم‌گیری‌ها بر صورت‌های مالی در دسترس عموم، متکی هستند و به آنها اعتماد می‌کنند.
استانداردهای حسابرسی، شرکت‌های حسابرسی را ملزم به کشف تقلب‌های مدیریت می‌کند. این الزام، نیاز به کشف اثربخش تقلب‌های مدیریت را افزایش می دهد. اما، کشف تقلب‌های مدیریت با استفاده از رویه‌های حسابرسی معمول، کاری بس دشوار است. نخست به این دلیل که آگاهی اندکی در رابطه با ویژگی‌های تقلب مدیریت وجود دارد؛ دوم اینکه با توجه به فراوانی اندک آن، اغلب حسابرسان تجربه لازم برای کشف آن را ندارند. سرانجام اینکه مدیران عامل، مدیران مالی و حسابداران به عمد تلاش می‌کنند تا حسابرسان را فریب دهند. برای آن دسته از مدیرانی که محدودیت‌های یک حسابرسی را می‌شناسند، رویه‌های حسابرسی استاندارد ممکن است نابسنده باشد.  این محدودیت‌ها نیاز به رویه‌های تحلیلی اضافی برای کشف اثربخش صورت‌های مالی متقلبانه را گوشزد می‌کند. آمار و روش‌های داده‌کاوی به طور موفقیت آمیزی برای کشف فعالیت‌هایی مانند پولشویی، تقلب‌های کارت اعتباری تجارت الکترونیک، تقلب‌های ارتباطات از راه‌دور، تقلب‌های بیمه ای و نفوذهای رایانه ای به‌کار رفته‌اند. البته، کشف تقلب در صورت‌های مالی موضوعی پیچیده و کشف آن نیز مشکل است.

تقلب و متقلبان
هیچ تعریف پذیرفته شده جهانی از تقلب مالی وجود ندارد. در سالهای اخیر، انواع گوناگون تقلب‌های مالی، مانند تقلب کارت اعتباری، تقلب شرکتی و پولشویی، نگرانی های بسیاری را سبب شده و نظرها را به سوی خود جلب کرده است.
نگای و همکاران۶۰ در سال ۲۰۱۱ میلادی در یک طبقه بندی کلی، انواع تقلب مالی را در چهار دسته تقسیم کرده‌اند: تقلب‌های بانکی، تقلب‌های بیمه‌ای، تقلب اوراق بهادار و کالاها، سایر تقلب‌های مالی (جدول ۱) [۵]

طبقه‌بندی تقلب‌های مالی
در عمل، در شرکتها دو نوع تقلب را می‌توان تشخیص داد:
نوع اول تقلب عبارت است از سوءاستفاده از دارایی‌ها؛ برای مثال به صورت سرقت، اختلاس، جعل حسابهای هزینه‌ای، استفاده شخصی از دارایی‌های شرکت و غیره.
نوع دوم تقلب  ، گزارشگری مالی متقلبانه است. گزارشگری مالی متقلبانه مستلزم مخدوش کردن عمدی صورت‌های مالی است. برای مثال از طریق گزارش فروش‌هایی که هنوز اتفاق نیفتاده است، گزارش سودی در سال جاری که در حقیقت متعلق به سال بعد است، سرمایه‌ای کردن نادرست هزینه ها، یا گزارش هزینه ای در سال بعد که باید در سال جاری گزارش می شده است. تقلب صورت‌های مالی به طور معمول از سوی مدیریت یا با رضایت و آگاهی آنها انجام می شود.
بنابراین، تقلب صورت‌های مالی را می توان نوعی از تقلب مدیریت دانست که چنین تعریف شده است: «تقلب هدفمندی که مدیریت مرتکب می شود و از طریق صورت‌های مالیِ دارای اطلاعات گمراه کننده بااهمیت ، به سرمایه‌گذاران و اعتباردهندگان آسیب می رساند.»
این مسئولیت حسابرسان است که تعیین کنند گزارش‌های مالی تا چه‌اندازه‌ای مطابق با استانداردهای حسابداری هستند؛ ریسک تقلب در گزارشهای مالی را ارزیابی و وجود تقلب در صورت‌های مالی را شناسایی نمایند. از سوی دیگر، کشف تقلب در صورت‌های مالی کاری دشوار است که مستلزم اقداماتی بیش از اجرای رویه های استاندارد حسابرسی است. بنابراین، حسابرسان برای تسهیل کار حسابرسی و کمک به کشف این گونه صورت‌های مالی متقلبانه به ابزار و فنون جدیدی نیاز دارند. در این رابطه، ابزار مبتنی بر رایانه می توانند کمک کننده های مفیدی باشند.

داده‌کاوی و تقلب
با ظهور فناوری اطلاعات که گرداوری، نگهداری و پردازش مقدارهای انبوه داده را ممکن و تسهیل می‌کند، سازمان‌ها اکنون برای استفاده از داده‌هایی که از فرآیندها، مشتریان و محیط جمع آوری می کنند، در وضعیت بهتری هستند. اما استخراج معنایی از میان انبوه داده ها و استفاده از آن برای هدف‌های سودمند سازمانی، مستلزم استفاده از روش‌های پیشرفته، مانند داده‌کاوی در هوشمندی کسب‌و کار است. کشف تقلب به یکی از جا افتاده‌ترین کاربردهای داده‌کاوی چه در صنعت و چه در دولت تبدیل شده است. هر چند بسته‌های نرم افزاری تجاری مختلفی با محیط تعاملی آسان برای کاربران،در حال حاضر در دسترس هستند که انجام کارهای پیچیده داده‌کاوی را به ظاهر آسان می کنند؛ اما باید در نظر داشت که داده‌کاوی فرآیندی چندگامی است که طی آن دخالت‌ها و تفسیرهای دقیق انسانی لازم است. به بیان دیگر ، داده‌کاوی شامل پیمودن گام‌های بنیادینی است که باید با دقت برداشته شوند تا نتایج معنی‌داری از تحلیل‌های انجام شده به دست آید. گام نخست در کار داده‌کاوی، تعریف واضح مسئله است. سپس داده‌ها گرداوری و برای مدل‌سازی آماده می شوند. این گام بسیار زمان بر است و اساساً شامل تصفیه و دستکاری داده‌هاست. سپس، یک مدل داده‌کاوی که برای مسئله مورد بررسی، مناسب‌تر از بقیه به نظر می‌رسد، انتخاب شده و مورد استفاده قرار می‌گیرد. در این مرحله، عموماً داده‌ها به دو مجموعه آموزش و آزمون تقسیم می شوند. داده‌های آموزش برای استخراج قواعد و روابط و برازش مدل، استفاده می شوند، در حالی که داده‌های آزمون برای این استفاده می شوند که تعیین شود قواعد ایجادشده در یک مجموعه متفاوت از داده‌ها، به چه کیفیتی عمل می‌کنند. بر مبنای نتایج اجرای مدل، عملکرد مدل ارزیابی می‌شود؛ در نتیجه یا اصلاح می گردد یا برای حل مسئله به کار گرفته می شود.

وظایف داده‌کاوی در کشف تقلب
نگای و همکاران کاربرد روش‌های داده‌کاوی برای کشف تقلب‌های مالی را مورد بررسی قرار دادند. آنان ۴۹ مقاله چاپ شده در مجلات معتبر را بررسی کردند و مشخص شد که در مجموعه تحقیق‌های مورد بررسی، از شش طبقه از وظایف/کاربردهای داده‌کاوی برای کشف تقلب‌های مالی استفاده شده است. این  موارد عبارتند از طبقه بندی، رگرسیون ، خوشه بندی ، پیش بینی ، کشف داده‌های پرت و تصویرسازی. هر یک از این شش طبقه، با مجموعه‌ای از رویکردهای الگوریتمی حمایت می شود که به دنبال استخراج ارتباط‌هایی مربوط از داده‌ها هستند.[۵]

طبقه بندی۶۱
طبقه‌بندی مدلی را می‌سازد و از آن برای پیشبینی عنوان طبقات اشیاء ناشناخته استفاده میکند تا بین اشیاء متعلق به طبقات مختلف، تمایز ایجاد کند. این عنوان‌های طبقاتی از قبل تعریف شده‌اند ولی متمایز و مرتب نشده‌اند.
طبقه‌بندی و پیش‌بینی عبارت است از فرآیند شناسایی مجموع های از ویژگی‌ها و مدل‌های مشترک که طبقات یا مفاهیم داده‌ها را توصیف و متمایز می‌کنند. روش‌های معمول طبقه بندی عبارتند از شبکههای عصبی ، شبکه‌های بیزساده۶۲ ، درختان تصمیم  و ماشین‌های بُردار پشتیبان۶۳٫
این‌گونه وظایف طبقه‌بندی در کشف تقلب‌های کارت اعتباری، بیمه سلامت و بیمه خودرو و تقلب‌های شرکتی و دیگر انواع تقلب، استفاده می‌شوند. طبقه‌بندی یکی از رایج‌ترین مدل‌های یادگیری در کاربرد داده‌کاوی برای کشف تقلب‌های مالی است. طبقه بندی یک فرآیند دو مرحله‌ای است.
در گام اول، با استفاده از یک نمونه آموزشی، یک مدل آموزش داده می شود. این نمونه در تعدادی ردیف گروهک‌ها۶۴ و ستون (صفات) سازمان‌دهی می‌شود. یکی از صفات، یعنی صفت عنوان طبقه، حاوی مقادیری است که نشان‌دهنده طبقه از پیش تعریف شده‌ای است که هر ردیف به آن تعلق دارد. این گام به عنوان یادگیری نظارت‌شده نیز معروف است.
در گام  دوم ، در مدل تلاش می‌شود اشیایی که به نمونه آموزشی تعلق ندارند، طبقه بندی شوند و یک نمونه آزمون (تایید) تشکیل دهند .

خوشه‌بندی
از خوشه‌بندی برای تقسیم اشیا به گروه‌ها/خوشه‌هایی که از نظر مفهومی معنی‌دار هستند، استفاده می شود؛ به طوری‌که اشیاء یک گروه با یکدیگر مشابه، و در عین حال، بسیار متفاوت از اشیای دیگر گروه‌ها باشند. خوشه بندی با عنوان بخش‌بندی و تقطیع داده‌ها نیز شناخته می‌شود و به عنوان یک گونه از طبقه‌بندی نظارت نشده به حساب می‌آید.
بنابر نظر یوئه و همکاران۶۵ [۳]، تحلیل خوشه‌بندی مرتبط است با مسئله تجزیه یا تقطیع یک مجموعه داده )معمولاً چندمتغیره ( به چندین گروه، به طوری که نقاط در داخل یک گروه مشابه با یکدیگر و تا حد ممکن متفاوت از نقاط در دیگر گروه‌ها هستند. همچنین هر خوشه مجموع‌هایی از اشیاء داده است که در همان خوشه مشابه یکدیگرند، اما متفاوت از اشیاء در دیگر خوشه‌ها هستند. رایجترین روش‌های خوشه‌بندی عبارتند از نزدیک ترین همسایه کا۶۶ ، روش بیز ساده و روش‌های نقشه خودانتظام۶۷٫

پیش‌بینی۶۸
پیش بینی، مقدارهای عددی و پیوسته آینده را بر مبنای الگوهایی از یک مجموعه داده براورد می‌کند. هان و کَمبر۶۹ در کتاب داده‌کاوی : مفاهیم و تکنیک‌ها[۶]  تاکید کرده‌اند که برای پیش بینی، صفتی که پیش بینی آن انجام می‌شود باید پیوسته باشد و نه کیفی (طبقه‌ای).  این صفت را می‌توان صفت مورد پیش‌بینی نامید. شبکه های عصبی و مدل لجستیک۷۰، رایج‌ترین روش‌های مورد استفاده برای پیش‌بینی هستند.

کشف نقاط پرت۷۱
از کشف نقاط پرت برای اندازه گیری فاصله بین اشیاء داده به منظور کشف اشیایی که به شکلی متفاوت از ناهمگون با بقیه مجموعه داده‌ها هستند، استفاده می شود. داده‌هایی که به نظر می‌رسد ویژگی‌هایی متفاوت از بقیه جمعیت دارند، داده‌های پرت۷۲ نامیده می شوند. مسئله کشف داده پرت/متناقض، یکی از بنیادی‌ترین مباحث در داده‌کاوی است. یک روش رایج مورد استفاده در کشف داده پرت، الگوریتم یادگیری تنزیل شونده۷۳  است. [۹]

رگرسیون
رگرسیون یک روش آماری است که برای کشف رابطه بین یک یا چند متغیر مستقل و یک متغیر وابسته که یک مقدار پیوسته است استفاده می شود[۶]. در بسیاری از مطالعات تجربی، از رگرسیون لجستیک به عنوان یک معیار سنجش، استفاده می‌شود. رگرسیون به طور معمول عبارت است از استفاده از روش‌هایی ریاضی مانند رگرسیون لجستیک و رگرسیون خطی و از آن برای کشف تقلب‌های کارت اعتباری، تقلب‌های بیمه‌ای و تقلب‌های گزارشگری شرکت‌ها استفاده می شود.

تصویرسازی۷۴
تصویرسازی اشاره دارد به ارائه داده‌ها به شکلی که به سادگی درک‌پذیر باشد و اشاره دارد به روشی که ویژگی‌های داده‌های پیچیده را به الگوهای واضحی تبدیل می‌کند و به کاربران اجازه می‌دهد که الگوها یا روابط پیچیده کشف شده در فرآیند داده‌کاوی را ببینند. محققان، از توانایی‌های کشف الگو در سیستم بینایی انسان استفاده کرده و مجموعه ای از ابزار و برنامه ها را ساخته‌اند که به شکل انعطاف‌پذیری، داده‌ها را با استفاده از رنگ، موقعیت، اندازه و دیگر ویژگی‌های بصری، کدبندی می‌کنند. بهترین کاربرد تصویرسازی برای آشکار کردن الگوهای پیچیده از طریق ارائه واضح داده‌ها یا توابع بوده است.
روش‌های داده‌کاوی مورد استفاده در تحقیقات کشف تقلب‌های مالی
برای طبقات/وظایف مختلف داده‌کاوی یادشده در بالا، روش‌های بسیاری ایجاد شده‌اند که از علوم مختلفی مانند هوش مصنوعی، الگوشناسی۷۵ ، یادگیری ماشینی۷۶ و آمار برگرفته شده‌اند. با بررسی‌های نگای و همکاران مشخص شده که در تحقیقات مختلف، ۲۶ روش داده‌کاوی در کشف تقلب‌های مالی به کار رفته‌ است.  تصویر ۴، در یک تقسیم‌بندی کلی، طبقات تقلب مالی و ۶ گروه کاربرد داده‌کاوی مورد استفاده برای کشف این تقلب‌ها را نشان می دهد.
پرکاربردترین روش‌های مورد استفاده برای کشف تقلب‌های مالی عبارتند از مدل‌های رگرسیون لجستیک ، شبکه‌های عصبی، شبکه استنباط بیزین و درختان تصمیم که همه آنها راه‌حل‌های با اهمیتی برای مشکلات ذاتی در کشف و طبقه بندی داده‌های متقلبانه ارائه می‌کنند.

مدل رگرسیون
در پروژه‌های داده‌کاوی برای کشف تقلب، رگرسیون رایجترین روش مورد استفاده است. مدلهای رگرسیون استفاده شده عبارتند از لوجیت۷۷، لجستیک- گام به گام، روش کمک تصمیم چندمتغیره و بتا ۲ تعمیم یافته نمایی (EGB2).
مدل رگرسیون لجستیک، رایج‌ترین مدل مورد استفاده است. مدل لجستیک، یک مدل خطی تعمیم‌یافته۷۸ است که برای رگرسیون دوگانه‌ای استفاده می‌شود که در آن متغیرهای پیش‌بینی‌کننده می‌توانند کمی یا کیفی باشند. این مدل اساساً برای حل مسائل مطرح در تقلب بیمه خودرو و تقلب‌های شرکتی استفاده می شود.
ایده پشتوانه رگرسیون این است که با استفاده از نسبت‌های مالی شرکت‌ها، مدلی به دست آید تا مشخص شود کدام نسبت‌ها با صورت‌های مالی متقلبانه مرتبط می‌باشند.  با شمول مجموعه داده صورت‌های متقلبانه و صورت‌های مالی غیرمتقلبانه، می‌توان فهمید که کدام عوامل به شکل معنی‌داری بر شرکت‌های دارای صورت‌های مالی متقلبانه اثر می‌گذارند و سپس می‌توان بر این اساس معادله را صورت بندی کرد.
مدل، بر مبنای نسبت‌های صورت‌های مالی که در مرحله آموزش به عنوان نشانگرهای تقلب مستند شده‌اند، شرکت‌ها را به گروه‌های متقلبانه و غیرمتقلبانه طبقه‌بندی خواهد کرد. [۳]

شبکه های عصبی مصنوعی
شبکه عصبی روشی است که با استفاده از مجموعه‌ای از گره‌های به‌هم مرتبط، از کارکرد مغز انسان تقلید می‌کند. این روش مبتنی بر مدل‌های رایانه‌ای از نورون‌های زیستی می‌باشد. یک شبکه عصبی چندلایه دربرگیرنده تعداد زیادی واحد(نورون) به هم مرتبط در الگویی از ارتباطات است. این روش به شکل گسترده‌ای در طبقه‌بندی و خوشه‌بندی استفاده شده است و پس از رگرسیون، پرکاربردترین روش داده‌کاوی مورد استفاده در کشف تقلب‌های مالی است [۳]
نخست، شبکه با استفاده از مجموعه‌ای از داده‌های زوجی برای ترسیم ورودی‌ها و خروجی‌ها آموزش داده می شود. سپس وزن ارتباطات بین نورون‌ها تثبیت می‌شود و شبکه برای تعیین طبقه بندی‌های مجموعه‌ای جدید از داده‌ها مورد استفاده قرار می‌گیرد.
مزایای این روش عبارتنداز :
الف)  این روش انطباق پذیر است.
ب)  این روش، مدل‌های دارای پایایی۷۹ ایجاد می‌کند.
ج) اگر وزن‌های آموزشی تغییر کنند، فرآیند طبقه‌بندی را نیز می‌توان اصلاح نمود.
شبکه‌های عصبی بیشتر برای تقلب‌های کارت اعتباری، بیمه خودرو و تقلب‌های شرکتی به کار می روند.
چن و دو۸۰ با استفاده از شبکه‌های عصبی مصنوعی، ۶۸ شرکت فعال در بورس تایوان را مورد مطالعه قرار دادند. آنان با استفاده از داده‌های مالی و غیرمالی، یک مدل بحران مالی تدوین کردند. نتایج مطالعه آنان نشان می دهد که شبکه‌های عصبی مصنوعی بهتر از روش‌های سنتی آماری، بحران مالی را پیش بینی می‌کنند. [۱۰]

شبکه استنباط بیزین
شبکه استنباط بیزین نشان‌دهنده مجموعه‌ای از متغیرهای تصادفی و استقلال مشروط آنها با استفاده از یک نمودار غیرچرخی هدایت شده۸۱ است که در آن گره ها نشان‌دهنده متغیرهای تصادفی می‌باشند  و استقلال مشروط بین متغیرها را تعیین می‌کنند. [۸]
شبکه استنباط بیزین، اغلب در کشف تقلب کارت اعتباری، بیمه خودرو، و تقلب‌های شرکتی  مورد استفاده قرار می‌گیرد.[۵]

درخت تصمیم
درخت تصمیم، ابزار پشتیبان تصمیمِ پیش‌بینی کننده‌ای هستند که تصویری از مشاهدات برای پیامدهای ممکن را ایجاد می‌کنند.[۶]
درخت تصمیم، درختی است که موضوعات را بر اساس مقادیر صفت‌ها طبقه‌بندی می‌نماید. برگ‌ها نماد پیش‌بینی‌ها هستند. هر گره در یک درخت تصمیم نماینده یک صفت در یک موضوع مورد طبقه بندی است و هر شاخه نماینده مقداری است که یک گره می تواند اختیار کند و در واقع اشتراک ویژگی‌ها را نشان می دهد.
می‌توان از طریق الگوریتم‌های مبتنی بر یادگیری ماشینی از قبیل کارت۸۲،آی دی تری۸۳ و الگوریتم سی ۴٫۵ ، این درختان را ایجاد نمود. درخت تصمیم به طور معمول در تقلب کارت اعتباری ، بیمه خودرو و تقلب‌های شرکتی استفاده می شوند[۵].
کرکاس و همکاران۸۴ [۸] ، در مطالعه خود هم‌زمان سه روش را به کار بردند که عبارت بودند از شبکه عصبی ، درخت تصمیم و بیزین.  مطالعه آنان سودمندی این مدل‌ها را در شناسایی صورت‌های مالی متقلبانه بررسی و مقایسه می کند. بُردار ورودی۸۵، از نسبت‌های مالیِ استخراج شده از صورت‌های مالی تشکیل شده است. این سه مدل از جهت عملکرد مقایسه شده‌اند. نمونه آنان از ۷۶ شرکت تولیدی یونانی تشکیل شده بود که ۳۸ شرکت به عنوان متقلب و ۳۸ شرکت به عنوان غیرمتقلب طبقه‌بندی شدند. معیار طبقه بندی به عنوان متقلب، به طور عمده گزارشات حسابرسان و مقامات مالیاتی بوده است. ابراز تردیدهای جدی از سوی حسابرسان نسبت به درستی حساب‌ها، گزارش مقامات مالیاتی نسبت به تلاش شرکت برای فرار مالیاتی با انجام دستکاری های بااهمیت در صورت‌های مالی، قرار گرفتن در فهرست شرکت‌های تحت نظارت در بورس آتن، تعلیق معاملات سهام شرکت به دلایل مرتبط با دستکاری داده‌های مالی شرکت و وجود پرونده‌هایی در دادگاه مرتبط با موضوع صورت‌های مالی متقلبانه، از مواردی هستند که به عنوان نشانه های تقلب یک شرکت در نظر گرفته شده‌اند. کرکاس و همکاران گزارش کرده‌اند که پس از آموزش مدل‌ها، در مرحله آزمون تقسیم نمونه، مدل درخت تصمیم با ۹۶٫۲%  دقت، مدل شبکه عصبی با ۱۰۰% دقت و مدل شبکه استنباط بیزین با ۹۴٫۷% دقت توانسته‌اند شرکت‌های متقلب را از شرکت‌های غیر متقلب بازشناسی کنند. [۸]

یک چهارچوب کلی برای الگوریتم‌های داده‌کاوی کشف تقلب
هر چند الگوریتم‌های داده‌کاوی بسیاری برای کشف تقلب مورد استفاده قرار گرفته‌اند، اما کاربرد آنها، همچنان از الگوی سنتی داده‌کاوی- انتخاب ویژگی، نمایندگی۸۶، گردآوری و مدیریت داده‌ها، پیش پردازش، داده‌کاوی، پس پردازش و ارزیابی عملکرد- پیروی می کند.[۳]
ویژگی‌های فنون داده‌کاوی مورد استفاده برای هدفِ خاصِ کشف تقلب‌های مالی را در یک چهارچوب کلی توسطه یوئه و همکاران در مقاله A Review of Data Mining-based Financial Fraud Detection Research  ارائه شده است. [۳]
برمبنای توزیع دادهها، الگوریتمهای کشف تقلبهای مالی را نخست می توان به دو گروه عمده تقسیم کرد؛ دادههای گردآوری شده از شرکتهای متقلب و غیرمتقلب و همچنین، دادههای حسابرسی. در پژوهشهای گذشته، تمرکز بیشتر بر تلاش برای کشف تقلب در مجموعهای از دادههای متقلبانه و غیرمتقلبانه بوده است. [۳]

راه آینده و چالش‌های پیشرو
نگای و همکاران  اظهار می دارند که یک دلیل برای محدود بودن تعداد مقاله‌های مرتبط با موضوع کشف تقلب‌های مالی سختی  به دست آوردن داده‌های تحقیق مناسب است. مشکل آن است که پیش از هر کاری، و برای شروع آموزش مدل، باید مجموعه‌ای از صورت‌های مالی را به دو گروه متقلب و غیرمتقلب تقسیم کرد.[۵]
چالش شناسایی صورت‌های مالی متقلبانه، موانع بسیاری در سر راه تحقیقات کشف تقلب مالی قرار می دهد. هر چند روش‌های داده‌کاوی ذکرشده در بالا عموماً نشان داده‌اند که در کشف تقلب صورت‌های مالی اثربخش بوده‌اند، اما کاربرد آنها برای کشف تقلب در صورت‌های مالی، معایب و محدودیت‌های کاربردی بسیاری داشته است. در پس عمده روش‌های داده‌کاوی موجود برای کشف تقلب در صورت‌های مالی، دامنه کاربرد خاص و محدودیت‌های ویژهای وجود دارند. [۱۱]
برای مثال، هر چند که این روشها به خوبی برای مدل سازیِ پیشبینی کننده توسعه یافتهاند، اما آنها برای ارزیابی اثر به خوبی توسعه پیدا نکردهاند. به طور مشخص، هنوز برای برخی از روش‌های داده‌کاوی آماره های آزمونی ساخته نشده است که با آن بتوان به ارزیابی اثرهای متغیرهای مستقل بر متغیرهای وابسته پرداخت. [۱۱]
یک نکته دیگر که باید به آن توجه شود، این است که اغلب  روش‌های داده‌کاوی نقاط پرت را به عنوان استثناء یا اختلال۸۷ کنار می‌گذارند؛ در حالی که در کشف تقلب، رویدادهای نادر می‌توانند جالبتر از رویدادهای معمول و مکرر باشند. بنابراین، تحلیل نقاط پرت برای کشف الگوهای متقلبانه باید بیش از پیش مورد توجه قرار گیرد. البته نبود تحقیقاتی در مورد کاربرد روش‌های کشف داده‌های پرت برای کشف تقلب‌های مالی ممکن است به خاطر سختی کشف داده‌های پرت باشد. در واقع، کشف داده‌های پرت وظیفه پیچیده‌ای است که بی شباهت به جستجوی سوزن در انبار کاه نیست. برخلاف دیگر روش‌های داده‌کاوی، روش‌های کشف داده پرت متمرکز بر یافتن الگوهای نادر مرتبط با اشیاء داده، بسیار اندکند. [۵]
همچنین، روش‌های تصویرسازی نیز توانی درخور توجه در شناسایی و ارائه بی‌قاعدگی‌ها در داده‌ها دارند. این ویژگی می تواند شناسایی و کمی سازی طرح‌های تقلب را بسیار آسان‌تر کند.[۵]
سخن آخر اینکه در زمان کنونی، تقلب‌های مالی همواره در حال تغییر شکل و تکامل هستند؛ پس سازوکارهای ماشینی کشف تقلب نیز باید با استفاده از آگاهی‌های تخصصی در دسترس، اثربخشی و کارایی خود را به طور مستمر افزایش دهند.
لاکشمی[۱۲] و جایا  [۱۳]در مقالات خود بیان می‌نمایند که کشف تقلب مالی با استفاده از روش‌های کشف فعلی، به طور روزافزون مشکل می شود. یک مدیرعامل آگاه به همه مسائل که اراده کرده است جرمی مرتکب شود، منابع کافی برای دور زدن سیستم را به راحتی در اختیار دارد و قادر است که هر نوع سازوکار کشفی را خنثی کند.لاکشمی و جایا  با طبقه‌بندی ، روش‌های کشف تقلب مالی مبتنی برداده‌کاوی مانند رگرسیون،درخت تصمیم، شبکه های عصبی و  شبکه های بیزین را مورد بررسی قرار داده‌اند. آنان به ویژه، اثربخشی و محدودیت‌های این روش‌های داده‌کاوی را در هنگام پدید آمدن شگردهای جدید تقلب صورت‌های مالی که خود را با این روش‌های کشف انطباق داده‌اند، به نقد کشیده‌اند. نویسندگان سپس یک روش نوین را پیشنهاد می‌کنند؛ یک برنامه کشف فعال که پیش از متقلبان بالقوه تکامل می یابد. توانمند کردن یک سیستم کشف هوشمند برای پیش‌بینی، پیش از اینکه هر گونه تقلب ناشناخته‌ای در آینده اتفاق افتد، این توان را به وجود می آورد که انواع جدید تقلب‌های صورت‌های مالی به طور اثربخش کشف گردند. البته چنانکه این دو نویسنده خود اذعان می دارند، تحقیق‌های بیشتری در آینده نیاز است تا برنامه کشف فعالی طراحی شود که هم اثربخش و هم کارا باشد.

نتیجه‌گیری
در سال‌های اخیر، انواع گوناگون تقلب‌های مالی مانند تقلب کارت اعتباری، تقلب شرکتی و پولشویی، نگران یهای بسیاری را سبب شده و توجه زیادی را به سوی خود جلب کرده است. البته حوزه کشف تقلب مالی نیز تحول‌های چشمگیری را شاهد بوده است.
به طور مشخص، داده‌کاوی نظرها را به شکل گسترده‌ای به خود جلب کرده و محبوبیت فزاینده‌ای در جهان مالی به دست آورده است. کاربردهای موفقیت آمیزی از داده‌کاوی گزارش شده است و تحقیقات نشان داده‌اند که داده‌کاوی در میزان کاربرد و اثربخشی گسترش یافته است. سازمان‌های حرفه ای حسابداری نیز داده‌کاوی را به عنوان یک فناوری مهم برای سده جدید شناخته‌اند. روش‌های اصلی مورد استفاده برای کشف تقلب‌های مالی عبارتند از مدل‌های رگرسیون لجستیک، شبکه‌های عصبی، شبکه استنباط بیزین و درختان تصمیم که همه آنها راه‌حل‌های با اهمیتی را برای مشکلات ذاتی در کشف و طبقه‌بندی داده‌های متقلبانه ارائه می‌کنند.
یکی از انواع تقلب مالی، تقلب‌های مدیریت است. تقلب هدفمند انجام شده از سوی مدیریت از طریق ارائه صورت‌های مالی گمرا ه کننده، به سرمایه‌گذاران و اعتباردهندگان آسیب می رساند.در طول فرآیند حسابرسی، حسابرسان باید امکان تقلب مدیریت را برآورد کنند. حرفه حسابرسی، با چالشِ شمار فزاینده موارد تقلب مدیریت روبه‌رو است. روش‌های داده‌کاوی که ادعا می شود توانایی‌های پیشرفته‌ای در طبقه بندی و پیش بینی دارند، می‌توانند کار حسابرسان را در انجام وظیفه کشف تقلب مدیریت آسان سازند.[۸]
کاربرد روش‌های داده‌کاوی بر رویِ نسبت‌های مالی استخراج شده از صورت‌های مالی شرکت‌ها و نیز دیگر اطلاعات در دسترس،می‌تواند به حسابرسان در کشف تقلب کمک کند؛ به طوری که آنان م یتوانند از نتایج این تحلیلها به عنوان یک علامت اولیه هشداردهنده نسبت به وقوع احتمالی تقلب صورت‌های مالی استفاده کنند. کشف نشانگرهای تقلب در صورت‌های مالی، اثری بااهمیت بر تعیین تقلب صورت‌های مالی دارد.
به رغم موفقیت‌های اولیه این سیستم‌ها و الگوریتم‌های کشف ماشینیِ پیشگام در کشف صورت‌های مالی متقلبانه، نرخ کشف موفقیت آمیز به‌ شکل مستمری در طول سال‌های اخیر کاهش یافته است. به علاوه، در دورانی که مرتکبان تقلب صورت‌های مالی، راه‌هایی برای دور زدن برنامه های کشف ماشینی یافته‌اند، نیازی فوری برای سازوکاری وجود دارد که قادر به یادگیری و استفاده از آگاهی های عمومی هر صنعت برای تسهیل روش‌های داده‌کاوی باشد. همچنین، انواع تقلب و الگوهای تقلب در صنایع مختلف در طول زمان تغییر کرده است. درک اینکه طرح‌های تقلب چگونه متحول شده‌اند، مهم است. همچنین، پیش بینی جهت تغییر این تقلب‌ها با هر وسیله ممکن و به روز نگاه داشتن روش‌های ماشینی کشف تقلب، اهمیت دارد. پژوهش در این راستا، ممکن است نتایج بااهمیتی داشته باشد که برای تدوین فرآیندهای تجاری قویتر و نیز سازوکارهای کشف تقلب انطباق پذیر برای مدیریت/ پیشگیری/کشف خطر تقلب، سودمند باشند.

منابع
[۱]  Turino , James , «Business Intelligence» , ۲۰۱۴ , Redwood Capital
[۲]  Williams  , Steve / Williams , Nancy  , «The Profit Impact of Business Intelligence» , ۲۰۰۷ , Elsevier / Morgan Kaufmann publications , ISBN : 0-12-372499-6

[۳] Yue  , Dianmin /  Wu  , Xiaodan and others   , « A Review of Data Mining-based Financial Fraud Detection Research « ,  ۲۰۰۷ ,  IEEE

[۴] Sharma,  Anuj /  Panigrahi ,  Prabin Kumar  , « A Review of Financial Accounting Fraud Detection based on Data Mining Techniques» , ۲۰۱۲ , International Journal of Computer Applications , Volume 39– No.1

[۵] Ngai  , E.W.T. / Hu  , Yong  and other , « The application of data mining techniques in financial fraud detection: A classification framework and an academic review of literature « , ۲۰۱۱,  Decision Support Systems , Elsevier

[۶] Han , Jiawei ,/Kamber , Micheline , « Data Mining:Concepts and Techniques « , ۲۰۰۶ , Elsevies / Morgan Kaufman Publocation , ISBN 10: 1-55860-901-6

[۷] Wu , Xindong / Kumar , Vipin  , « Top 10 algorithms in data mining « , ۲۰۰۸ , Knowl Inf Syst / Springer

[۸] Kirkos  , Efstathios / Spathis  , Charalambos and other , « Data Mining techniques for the detection of fraudulent  financial statements « , ۲۰۰۷ , Expert Systems with Applications , Elsevier

[۹] Yamanishi  , Yoshihiro/ Vert  , Jean-Philippe  , « Kernel matrix regression « , ۲۰۰۷ , HAL

[۱۰] Chen , Wei-Sen / Du ,Yin-Kuan ,» Using neural networks and data mining techniques for the financial distress
prediction model « , ۲۰۰۹ , Expert Systems with Applications , Elsevier

[۱۱] Zhou , Wei / Kapoor  , Gaurav  , « Detecting evolutionary financial statement fraud « , ۲۰۱۱ , Decision Support Systems , Elsevier

[۱۲] Lakshmi,  U.Jothi  ,» A Novel Method to Detect False Financial Statement using Negative Selection Algorithm «,۲۰۱۴ ,  International Journal of Applied Information Systems (IJAIS)  ,  Volume 7– No.9,  ISSN : 2249-0868

[۱۳] Jaya  , Beulah Jeba Y. , «Assessment of Fraud Pretentious Business Region Research Articles Using Data Mining Approaches» , ۲۰۱۳ , International Journal on Computer Science and Engineering (IJCSE) , Vol. 5 No. 07 , ISSN : 0975-3397

[۱۴] Cindi, H & , Eckerson, W , «Business intelligence Tools: Comparison and Market Analysis» , ۲۰۰۸ ,
TDWI Technology Market Report.

[۱۵] Kirlidog , Melih / Asuk , Cuneyt  ,»A fraud detection approach with data mining in health insurance» , ۲۰۱۲ , Social and Behavioral Sciences 62 , Elsevire

[۱۶] Sithic  , H.Lookman /  Balasubramanian , T. , « Survey of Insurance Fraud Detection Using Data Mining Techniques « , ۲۰۱۳ , International Journal of Innovative Technology and Exploring Engineering , Volume-2, Issue-3, ISSN: 2278-3075

]۱۷[ شکوهیار ، سجاد ، «داده‌کاوی» ، ۱۳۹۳ ، دانشگاه شهید بهشتی ، دانشکده مدیریت و حسابداری ، گروه مدیریت فناوری اطلاعات

]۱۸[ محمودی ، مهدی ، «رویکردی بر ساخت و پیاده‌سازی سیستم هوش تجاری» ، ۱۳۸۷ ، ماهنامه تدبیر ، شماره ۲۰۱

]۱۹[ قره‌خانی ، محسن / ابوالقاسمی ، مریم ، «کاربردهای داده‌کاوی در صنعت بیمه» ، ماهنامه بیمه ، شماره ۱۵۸

]۲۰[ مهرداد ، آسیک ، «کاوش داده‌ها برای کشف تقلب» ، ۱۳۹۱ ، ماهنامه حسابرس ، شماره ۶۰

]۲۱[ صفدری ، رضا / شاهمرادی ، لیلا ، «استفاده از شبکه‌های عصبی در نرم‌افزارهای کد‌گذاری جهت کشف کلاه‌برداری‌ها» ، ۱۳۸۸ ، فصلنامه علمی آموزشی مدارک پزشکی ، دوره ششم ، شماره سوم

پاورقی
۱-Knowledge-Based System
۲-Knowledge-Acquisition
۳-Information Retrieval
۴-High-Performance Computing
۵-Data Visualization
۶-Knowledge Discovery in Database
۷-Secondary Data Analysis
۸-Application Oriented
۹-Active DBMS
۱۰-Knowledge Discovery From Database
۱۱-Decision Support System
۱۲-Shapir
۱۳-Data Cleaning
۱۴-Data Integration
۱۵-Data Selection
۱۶-Data Transformation
۱۷-Summary
۱۸-Aggregation
۱۹-Knowledge Presentation
۲۰-Spread sheets
۲۱-Data Mining Engine
۲۲-Module
۲۳Characterization
۲۴-Association
۲۵-Classification
۲۶-Cluster Analysis
۲۷-Evolution and Deviation Analysis
۲۸-Pattern Evaluation Module
۲۹-Interesting Measures
۳۰-Graphical User Interface (GUI)
۳۱-Link Analysis
۳۲-Association Discovery
۳۳-Sequence Discovery
۳۴-Support
۳۵-Confidence
۳۶-Classification
۳۷-Regression
۳۸-Time Series
۳۹-Neural Networks
۴۰-Input Layer
۴۱-Hidden Layer
۴۲-Output Layer
۴۳-Training Method
۴۴-Epoch
۴۵-Decision Tree
۴۶-Logistic Regression
۴۷-Discriminant Analysis
۴۸-Generalized Additive Models
۴۹-Rule Induction
۵۰-Multivariate Adaptive Regression Splines
۵۱-Jerome H. Friedman
۵۲-Classification And Regression Trees
۵۳-Acturial
۵۴-Assocaited Discovery
۵۵-Segment
۵۶-Group Processing
۵۷-Multi Target variable
۵۸-Association Analysis
۵۹-Heavy Tailed
۶۰-E.W.T. Ngai , Yong Hu , Y.H. Wong , Yijun Chen , Xin Sun
۶۱-Classification
۶۲-The Naïve Bayes Networks
۶۳-Support Vector Machine
۶۴-Tuples
۶۵-Dianmin Yue, Xiaodan Wu, Yunfeng Wang, Yue Li
۶۶-The K-nearest Neighbor
۶۷-Self-organizing Map Techniques
۶۸-Prediction
۶۹-Jiawei Han , Micheline Kamber
۷۰-Logistic Models
۷۱-Outlier Detection
۷۲-Outliers
۷۳-Discounting Learning Algorithm
۷۴-Visualization
۷۵-Pattern Recognition
۷۶-Machine Learning
۷۷-Logit
۷۸-Generalized Linear Model
۷۹-Robust Models
۸۰-Wei-Sen Chen , Yin-Kuan Du
۸۱-Directed Acyclic Graph (DAG)
۸۲-Classification and Regression Trees (CART)
۸۳-Iterative Dichotomizer3 (ID3)
۸۴-Efstathios Kirkos , Charalambos Spathis , Yannis Manolopoulos
۸۵-Input Vector
۸۶-Data Representation
۸۷-Noise

————————

فرشاد وحیدپور

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

It is main inner container footer text