img

مباحث داده کاوی در وب

/
/
/

چکیده
در عصر حاضر Web Mining محیط اینترنت جهانی را تبدیل به محیطی کاربردی‌تر کرده است.که کاربران می توانند سریعتر و راحتتر اطلاعات مورد نیازشان را پیدا کنند که شامل: کشف و تحلیل داده، مستندات وmulti media از محیط اینترنت جهانی می‌باشد، Web Mining از جزئیات سند و محتویات سند و ساختار Hyper Link برای کمک به کاربر جهت مشاهده اطلاعات مورد نیازش استفاده می‌کند. وب و موتورهای جستجو خودشان شامل اطلاعات ارتباطی درباره ی مستندات هستند و Web Mining این ارتباطات را کشف می‌کند و به سه بخش تقسیم بندی می‌نماید.
– در اولین بخش Web Content Mining، موتورهای جستجو محتویات را با کلمات کلیدی تعریف می‌کنند و می‌شناسند. پیدا کردن کلمات کلیدی محتوا و پیدا کردن یک ارتباط بین محتوای صفحه‌ی وب و محتوای سوال کاربر، Content Mining گفته می‌شود.
– Hyper Links اطلاعاتی را درباره سایر مستندات روی وب که در سند دیگری مهم هستند تهیه می‌کند. این لینک‌ها عمقی را به سند اضافه می‌کنند و حالت چند بعدی که از خصوصیات وب است ایجاد می‌کنند. کاوش این ساختار لینک دومین بخش یعنی Web Structure Mining است.
– در نهایت ارتباطی با سایر مستندات روی وب که بوسیله ی جستجوی قبلی شناخته شده‌اند، وجود دارد. این ارتباط در صفحه‌های جستجو (log) و دستیابی ذخیره می‌شود. کاوش این Log‌ها سومین بخش یعنی Web Usage Mining را تشکیل میدهد.
درک کاربر اغلب یک بخش مهم از Web Mining است. تحلیل جستجوهای قبلی کاربر، شکلی که کاربر ترجیح میدهد اطلاعات پیدا شده را ببیند و سرعت در پاسخ ممکن است در پاسخ دادن به پرس و جوی کاربر موثر باشد.
Web Mining در ماهیت نظم خاصی دارد.پل زدن بین فیلدهایی مثل اطلاعات بازگشتی، پردازش زبانهای طبیعی، استخراج اطلاعات، Machine Learning، پایگاه داده، داده کاوی، ذخیره ی داده، طراحی رابط کاربر و Visual کردن. تکنیکهای Web Mining کاربردهای عملی در
E-Government, E-commerce,  M-commerce,E-learning,
آموزش از راه دور، آموزش سازمانی، تشکیلات مجازی، مدیریت دانش و کتابخانه ی دیجیتال دارد.
در این تحقیق ما به بررسی جنبه‌های مختلف Web Data Mining می‌پردازیم.

کلمات کلیدی: داده کاوی، داده‌های تحت وب، وب‌کاوی

مقدمه
در این مقاله یک دید کلی از داده‌کاوی فراهم می‌سازیم و به توضیح کاربردها و ابزارهای آن می‌پردازیم. توسط اطلاعات روی وب، امکان استخراج داده و دستیابی به اطلاعات برای کاربران بسیار آسان و مطلوب شده است و عمل جستجو روی اینترنت را برای کاربران خیلی آسانتر خواهد ساخت.
بنابراین بهره‌های زیادی در Webminnig وجود دارد، از جمله کاوش پایگاه داده‌ها روی وب یا کاوش الگوهای مورد استفاده را میتوان نام برد تا اطلاعات مفید برای کاربران تامین شوند.
داده‌کاوی و وب به عنوان تکنولوژی مستقل در اواسط ۱۹۹۰ توسعه یافت.زمان زیادی از هنگامی که پژوهشگران به صورت جدی شروع به فکر کردن در مورد Webminnig کردند نگذشته است. کارگاه Webminnig در جریان کنفرانس کشف دانش پایگاه داده در ۱۹۹۹یکی از اولین تجربه‌ها بود.
Stivastava و cooley یک طبقه بندی برای Webminnig تعیین کرده‌اند آنها در ابتدا Webminnig را به دو قسمت تقسیم کردند:
* بدست آوردن الگوها از داده‌های وب
* بدست آوردن ثبت وقایع وب سپس طبقه‌بندی به سه قسمت گسترش یافت که شامل Web usage mining ، Web content mining و
Web structure mining می‌باشد. Web content mining استخراج داده‌ای است که شامل متن، ویدئو و… روی وب می‌باشد. اساساWeb content mining زیر مجموعه داده کاوی می‌باشد.
Web usage mining کاوش اطلاعات درباره دسترسی به صفحات وب و شامل تحلیل click stream می‌شود.
Web structure mining در مورد کاوش URL‌ها و دیگر لینک‌های وب برای دستیابی به ساختار آنهاست.

 

طبقه بندی Web mining
Web usage mining برای پشتیبانی E-commerce استفاده می‌شود، اینجا دو جنبه وجود دارد: یکی استخراج اطلاعات درباره رقبا و دیگری کاوش اطلاعات مشتریان.

 

کاوش داده روی وب:
کاوش داده روی وب یک چالش اصلی در مواجه با مدیریت داده و همچنین مدیریت اطلاعات وب و Machine learning می‌باشد.
داده‌ها و اطلاعات زیادی در وب وجود دارد، که استخراج داده مفید و مناسب برای کاربران یک چالش واقعی است.
هنگامی که کاربران در حال جستجو در وب هستند وب میتواند کاملا رام باشد و کاربران داده مورد نیاز خود را خیلی زود به دست آورند.سوال اینجاست که چگونه این داده به اطلاعات تبدیل می‌شود؟
و آیا اطلاعاتی که کاربران بدست می‌آورند همان چیزی است که آنها می‌خواهند؟ به علاوه راه استخراج اطلاعات ناشناخته گذشته از داده در وب چیست؟ در این قسمت ما به توضیح انواع مختلف web mining می‌پردازیم.
یکی از راه‌حل‌های ساده کامل کردن ابزار داده‌کاوی با خود داده است. این راه حل خوبی است مخصوصا اگر داده درون یک پایگاه داده رابطه‌ای باشد. بنابراین یکی از احتیاجات استخراج داده از پایگاه داده‌های رابطه‌ای، ابزارهای داده کاوی می‌باشد.
این ابزارها باید واسط وب را توسعه دهند. برای مثال اگر یک interface رابطه‌ای آماده شود، ابزارهای کاوش SQL-based میتوانند به پایگاه داده‌های رابطه ای متصل شوند.

 

داده کاوی در وب روی پایگاه داده رابطه ای Web
متاسفانه جهان وب خیلی صادق نیست.بیشتر داده‌ها ساخت نیافته و نیمه مصنوعی هستند. داده‌های ویدیویی و تصویری زیادی وجود دارد در صورتی که یک interface رابطه‌ای برای همه این پایگاه داده‌ها ممکن است پیچیده باشد. سوال اینجاست که این چنین داده‌هایی چگونه ذخیره می‌شوند؟
در اصل ما توجه خود را روی استخراج داده‌های متنی، عکس، صوت و تصویر متمرکز میکنیم. یکی از نیازهای توسعه ابزار، اول کاوش داده‌های چند رسانه‌ای و سپس متمرکز شدن بر توسعه ابزارهای استخراج از قبیل داده روی وب هست. جایی که پایگاه داده‌های چند رسانه‌ای ابتدا یکی شده و سپس کاوش شده‌اند.

 

داده کاوی چند رسانه ای
در بیشتر توضیحات قبلی بر روی یکی کردن ابزارهای داده کاوی با پایگاه داده‌ها روی وب صحبت شد. در اغلب اوقات داده‌های روی وب درون پایگاه داده‌ها قرار ندارند و بر روی server‌های متفاوتی موجودند.
بنابراین تلاش بر سر سازمان دهی داده‌ها روی این server‌ها انجام میگیرد. تکنولوژی انبار داده ممکن است به سازمان دهی داده‌ها برای کاوش نیاز داشته باشد.برای آسان شدن کاوش، کار اندکی در مرتب کردن تکنولوژی انبار داده روی وب وجود دارد.

 

مباحث داده کاوی در وب

انبار داده و کاوش در اینترنت
مورد دیگری که باید توجه شود تجسمی از داده روی وب است. بیشتر داده‌ها سازماندهی نشده‌اند و درک آنها مشکل است.
به علاوه درک عمل استخراج با تجسم کردن آسانتر می‌شود. بنابراین توسعه ابزار تجسمی مناسب برای وب، داده‌کاوی را خیلی آسانتر خواهد کرد. این ابزار تجسمی میتواند به فرایند کاوش کمک کند

 

داده کاوی و visualization در اینترنت
اخیرا استانداردهای گوناگون به وسیله سازمان‌های مانند ISO سازمان استاندارد جهانی W3C و OMG برای دستیابی داده‌های اینترنتی ایجاد شده‌اند.
این استانداردها شامل مدلها، زبان‌های خاص و معماری‌هاست. یکی از آنها  XML (Extensible markup language) برای نوشتن نوع Document. که اجازه میدهد Document به وسیله اشخاصی که آن را دریافت می‌کنند ترجمه شود. ارتباط بین Data minig و استانداردها مثل XML غیر قابل کشف هست.
هر چند در نهایت تکنولوژی‌های متعددی باید با هم کار کنند تا به صورت موثری باعث داده کاوی روی وب شوند. این شامل کاوش روی داده چند رسانه‌ای، استخراج ابزارها برای پیش بینی تمایلات و فعالیتها روی وب همانند تکنولوژی‌های برای مدیریت داده، انبار داده و تجسم آنهاست.

 

الگوهای USAGE MINING
جنبه‌هایى دیگر کاوش روی وب، جمع‌آوری آمارهای گوناگون برپایه الگوهای مرسوم برای تعیین اینکه کدام صفحه وب احتمالا دستیابی شده است. جستجو دراین قسمت به وسیله گروه‌های گوناگون هدایت می‌شود.
براساس الگوهای مرسوم کاربران مختلف، پیشگویی و تمایلات مربوط به صفحات وب احتمالی که کاربران خواستار جستجو در آن می باشند ساخته می‌شوند، براساس این اطلاعات راهنمایی‌هایی به کاربر راجع به صفحات وبی که درحال جستجو است داده شود.

 

تحلیل الگوهای بکار رفته و پیش بینی رفتارها
همچنین استخراج فقط برای دادن اطلاعات انتخابی به کاربر میتواند استفاده شود. برای مثال اکثر ما روزانه با پیام‌های ایمیل مواجه میشویم. بعضی از این پیامها مناسب کار ما نیست. ابزارهایی میتوانند برای دورانداختن این پیام‌های نامناسب به وجود آیند. این ابزارها میتواند، ابزارهای ساده filtering یا ابزارهای پیشرفته data mining باشد.
به طور مشابهی، ابزارهای data mining همچنین برای نمایش آن صفحاتی از وب که برای کاربران جالب است میتوانند استفاده شوند.
Web Structure Mining Web Structure mining اساسا در مورد استخراج لینکها روی وب است و وابستگی نزدیکی به Web usage mining دارد. برای مثال آگاهی دادن به کاربران در مورد browsing شامل هر دو (Web struct/usage mining) می‌شود.
استخراج لینکها برای تعیین جایی که کاربر در آن است و صفحه‌ای که کاربر میتواند به آن دسترسی داشته باشد نیاز است. Web Structure mining در موتورهای جستجوگر مثل گوگل استفاده می‌شود، برای مثال لینکها استخراج می‌شوند و سپس یکی از آنها میتواند تعیین کننده صفحۀ وبی باشد که به آن اشاره شده است. هنگامی که شما یک رشته کلمه را جستجو می‌کنید در ابتدا صفحات وبی با بیشترین مقدار لینک اشاره شده به آن رشته لیست می‌شود.
Web Structure mining اساسا در مورد استخراج گرافها و کشف الگوهاست. و میتواند از تکنیک تجزیۀ لینکها برای کشف الگوها در گرافها استفاده کند.

 

کاوش الگو
در جهان واقعی گرافها ممکن است کاملا پیچیده باشند، بنابراین به استخراج الگوهای خلاصه نیاز داریم.

 

در خواستها و جهت ها
یکی از کاربردهای عمده Web mining در تجارت الکترونیک است. شرکتها خواستار داشتن تحریکات رقابتی و راه‌های جستجوی زیادی برای داد و ستدهای موثر هستند.
مشتریان میتوانند محصولاتی از قبیل: کتاب، لباس، اسباببازی را از طریق این سایتها سفارش دهند. هدف فراهم کردن بازاریابی است. برای مثال گروه A ممکن است رمان‌های ادبی را برگزینند در حالی که گروه B رمان‌های پلیسی را می پسندد. بنابراین رمان‌های ادبی جدید باید برای گروه A در معرض فروش قرار بگیرند و رمان‌های پلیسی جدید برای گروه B. چگونه سایت‌های تجاری این سلیقه‌ها و مزیتها را میدانند؟ جواب این سوال data mining است، الگوهای کاربردی باید استخراج شوند. بعلاوه سازمانها ممکن است پایگاه داده‌های عمومی یا خصوصی را برای بدست آوردن اطلاعات اضافی در مورد این کاربران کاوش کنند. اساسا چیزی که از کاوش الگوهای کاربردی به دست می‌آید گرد هم آمدن هوشمند و بهبود سایتها تجاری است.
وب کاوی در E-Commerce Web mining و همچنین برای تولید سرگرمی روی وب میتواند استفاده شود.

 

خلاصه
در این مقاله ابتدا قسمت‌های مختلف Web Mining را توضیح دادیم. بعد به برخی از چالش‌ها در کاوش پایگاه داده‌ها در وب پرداختیم و بعد از آن نتیجه را روی Web usage mining توضیح دادیم. سپس به تشریح کاربردهای مهم در تجارت الکترونیک پرداختیم Web mining هنوز یک محیط جدید وابسته است و هنوز پژوهش‌های فعالی در این زمینه وجود دارد.به عنوان تکنولوژی وب و تکنولوژیdata mining ما میتوانیم از ابزارهای خوبی برای توسعه استفاده کنیم. با یک اشاره سریع، در حال حاضر بسیاری از ابزار و data mining روی پایگاه داده‌های رابطه ای کار می‌کنند. اگر چه بسیاری از داده‌ها روی وب نیمه ترکیبی و غیرساخت یافته هستند. بنابراین ما به توجه و تمرکز روی استخراج متن و دیگر انواع پایگاه داده‌های غیر رابطه‌های احتیاج داریم. موفقیت در زمینه Web mining مشکل خواهد بود مگر اینکه پیشرفت‌هایی در این زمینه به وجود آید. همانطور که اشاره شد برای کاوش موثر ما به داده‌های خوب نیازمندیم. بنابراین برای رسیدن به نتیجه معنی داری از Web mining احتیاج به داشتن داده‌های خوب روی وب داریم، یعنی مدیریت موثر داده‌های وب برای Web mining حیاتی است. خیلی موارد برای این مدیریت وجود دارد. اخیرا راه‌های متفاوتی برای آن پیشنهاد شده برای مثال مراجعه شود به (IEEE98). با مدیریت داده در وب و تکنولوژی در حال رشد data mining، میتوانیم انتظار پدید آمدن ابزارهای Web mining را داشته باشیم.

مراجع

۱٫Web Data Mining and Applications in Business Intelligence and CounterTerrorism , Bhavani Thuraisingham , CRC Press, Boca Raton,2003. . [MITC97] Mitchell, T., Machine Learning, McGraw-Hill, New York, 1997.

۲٫[BERR97] Berry, M. and Linoff, G., Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley, New York, 1997.. [ADRI96] Adriaans, P. and Zantinge, D., Data Mining, Addison-Wesley, Reading, MA, 1996.

۳٫ [THUR01] Thuraisingham, B., Managing and Mining Multimedia Databases for the Electronic Enterprise, CRC Press, Boca Raton, FL, 2001.. [CLIF98] Clifton, C., Image mining, private communication, Bedford, MA, July 1998.

۴٫ [TSUR98] Tsur, D. et al., Queryflocks: A generalization of association rule mining, Proceedings of the 1998 ACM SIGMOD Conference, Seattle, WA, June 1998.

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

It is main inner container footer text