داده کاوی نوین و کاربردی

داده کاوی چیست؟

داده کاوی یک فن‌آوری امیدبخش و نسبتا جدید است. داده کاوی به عنوان فرآیندی برای کشف دانش ارزشمند پنهان از طریق تجزیه و تحلیل مقادیر زیاد داده‌ها تعریف می‌شود، که در پایگاه‌های داده یا انبار داده، با استفاده از تکنیک‌های داده کاوی مختلف مانند یادگیری ماشین، هوش مصنوعی (AI)و اماری مورد استفاده قرار می‌گیرد. بسیاری از سازمان‌ها در صنایع مختلف از مزایای استخراج داده از قبیل تولید، بازاریابی، شیمیایی، هوافضا و غیره استفاده می‌کنند تا بهره‌وری کسب‌وکار خود را افزایش دهند. بنابراین، نیاز به فرآیند استخراج داده استاندارد به طور چشمگیری افزایش یافت. یک فرآیند داده کاوی باید قابل‌اطمینان باشد و باید توسط افراد تجاری با دانش کم و یا بدون دانش پیش‌زمینه معدن‌کاری داده‌ها تکرار شود. در نتیجه، در سال ۱۹۹۰، یک فرآیند استاندارد برای استخراج داده (crisp – DM)اولین بار پس از عبور از چندین کارگاه علمی و مشارکت بیش از ۳۰۰ سازمان منتشر شد.

جزئیات یک فرآیند داده کاوی CRISP

فرآیند استاندارد صنعتی برای داده کاوی (crisp – DM)متشکل از شش فاز است که به عنوان یک فرآیند چرخه‌ای به عنوان شکل زیر در نظر گرفته می‌شود:

درک کسب‌وکار

اول، لازم است اهداف تجاری را به روشنی درک کرده و نیازها و نیازهای کسب‌وکار را مشخص کنید.

سپس، ما باید وضعیت فعلی را با یافتن منابع، فرضیات، محدودیت‌ها و عوامل مهم دیگر ارزیابی کنیم که باید در نظر گرفته شوند.

سپس، از اهداف تجاری و شرایط فعلی، ما باید اهداف داده کاوی را برای رسیدن به اهداف کسب‌وکار در موقعیت فعلی ایجاد کنیم. در نهایت، یک برنامه داده کاوی خوب باید برای رسیدن به اهداف تجاری و هم داده کاوی ایجاد شود. برنامه باید تا آنجا که ممکن است دقیق باشد.

درک داده‌ها

 اول، مرحله درک داده‌ها با مجموعه داده‌های اولیه شروع می‌شود، که ما از منابع داده‌های موجود جمع‌آوری می‌کنیم تا به ما کمک کند با داده‌ها آشنا شویم. برخی فعالیت‌های مهم باید شامل بار داده و یکپارچه‌سازی داده‌ها باشد تا جمع‌آوری داده‌ها با موفقیت انجام شود.

سپس، ویژگی‌های “ناخالص” یا “سطح” داده‌های بدست‌آمده باید به دقت مورد بررسی قرار گیرد و گزارش شود.

سپس، داده‌ها باید با پرداختن به سوالات استخراج داده مورد بررسی قرار گیرند، که می توان آن‌ها را با استفاده از پرس و جو، گزارش دهی و تجسم سازی مورد بررسی قرار داد. در نهایت، کیفیت داده‌ها باید با پاسخ دادن به برخی سوالات مهم مانند ” آیا داده‌های بدست‌آمده کامل هستند؟ آیا هیچ مقدار از داده‌های بدست‌آمده موجود در داده‌های بدست‌آمده وجود ندارد؟ ”

آماده‌سازی داده

آماده‌سازی داده‌ها معمولا حدود ۹۰ % زمان پروژه را مصرف می‌کند. نتیجه فاز آماده‌سازی داده‌ها، مجموعه داده نهایی است. هنگامی که منابع داده موجود شناسایی شدند، باید انتخاب، تمیز، ساخته و فرمت شده در فرم مورد نظر انتخاب شوند. عملیات اکتشاف داده‌ها در یک عمق بزرگ‌تر ممکن است در طول این مرحله انجام شود تا به الگوها براساس درک کسب‌وکار توجه شود.

مدلسازی

اول، تکنیک‌های مدل‌سازی باید برای استفاده برای مجموعه داده آماده انتخاب شوند.

سپس، سناریوی تست باید برای اعتبار سنجی کیفیت و اعتبار مدل تولید شود.

سپس یک یا چند مدل با اجرای ابزار مدل‌سازی بر روی مجموعه داده آماده ایجاد می‌شوند. در نهایت، مدل‌ها باید با دقت مورد ارزیابی قرار گیرند تا مطمین شوند که مدل‌های ایجاد شده، ابتکارات کسب‌وکار را برآورده می‌کنند.

ارزیابی

در مرحله ارزیابی، نتایج مدل باید در مرحله اهداف کسب‌وکار در مرحله اول ارزیابی شوند. در این مرحله، الزامات کسب‌وکار جدید ممکن است به دلیل الگوهای جدیدی که در نتایج مدل یا از عوامل دیگر کشف شده‌اند، افزایش یابد. کسب درک کسب‌وکار یک فرآیند تکرارشونده در داده کاوی است. تصمیم نهایی یا نرفتن باید در این مرحله برای حرکت به مرحله آماده‌سازی اتخاذ شود.

استقرار

دانش یا اطلاعات، که ما از طریق فرآیند داده کاوی به دست می‌آوریم، باید به گونه‌ای ارائه شود که سهامداران بتوانند آن را زمانی که می‌خواهند از آن استفاده کنند. براساس الزامات کسب‌وکار، مرحله آماده‌سازی می‌تواند به سادگی ایجاد یک گزارش یا پیچیدگی به عنوان فرآیند استخراج داده تکراری در سراسر سازمان باشد. در مرحله آماده‌سازی، برنامه‌های استقرار، نگهداری و نظارت باید برای اجرا و نیز پشتیبانی آینده ایجاد شوند. از نقطه‌نظر پروژه، گزارش نهایی پروژه باید تجربیات پروژه را خلاصه کرده و پروژه را بازبینی کند تا ببیند نیاز به بهبود درس‌های آموخته‌شده را دارد. CRISP-DM یک چارچوب یکپارچه برای مستندسازی و دستورالعمل‌های تجربه ارائه می‌دهد. علاوه بر این، DM ها می‌توانند در صنایع مختلف با انواع مختلف داده اعمال شود.

0 پاسخ

دیدگاه خود را ثبت کنید

Want to join the discussion?
Feel free to contribute!

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *