داده کاوی نوین و کاربردی
داده کاوی چیست؟
داده کاوی یک فنآوری امیدبخش و نسبتا جدید است. داده کاوی به عنوان فرآیندی برای کشف دانش ارزشمند پنهان از طریق تجزیه و تحلیل مقادیر زیاد دادهها تعریف میشود، که در پایگاههای داده یا انبار داده، با استفاده از تکنیکهای داده کاوی مختلف مانند یادگیری ماشین، هوش مصنوعی (AI)و اماری مورد استفاده قرار میگیرد. بسیاری از سازمانها در صنایع مختلف از مزایای استخراج داده از قبیل تولید، بازاریابی، شیمیایی، هوافضا و غیره استفاده میکنند تا بهرهوری کسبوکار خود را افزایش دهند. بنابراین، نیاز به فرآیند استخراج داده استاندارد به طور چشمگیری افزایش یافت. یک فرآیند داده کاوی باید قابلاطمینان باشد و باید توسط افراد تجاری با دانش کم و یا بدون دانش پیشزمینه معدنکاری دادهها تکرار شود. در نتیجه، در سال ۱۹۹۰، یک فرآیند استاندارد برای استخراج داده (crisp – DM)اولین بار پس از عبور از چندین کارگاه علمی و مشارکت بیش از ۳۰۰ سازمان منتشر شد.
جزئیات یک فرآیند داده کاوی CRISP
فرآیند استاندارد صنعتی برای داده کاوی (crisp – DM)متشکل از شش فاز است که به عنوان یک فرآیند چرخهای به عنوان شکل زیر در نظر گرفته میشود:
درک کسبوکار
اول، لازم است اهداف تجاری را به روشنی درک کرده و نیازها و نیازهای کسبوکار را مشخص کنید.
سپس، ما باید وضعیت فعلی را با یافتن منابع، فرضیات، محدودیتها و عوامل مهم دیگر ارزیابی کنیم که باید در نظر گرفته شوند.
سپس، از اهداف تجاری و شرایط فعلی، ما باید اهداف داده کاوی را برای رسیدن به اهداف کسبوکار در موقعیت فعلی ایجاد کنیم. در نهایت، یک برنامه داده کاوی خوب باید برای رسیدن به اهداف تجاری و هم داده کاوی ایجاد شود. برنامه باید تا آنجا که ممکن است دقیق باشد.
درک دادهها
اول، مرحله درک دادهها با مجموعه دادههای اولیه شروع میشود، که ما از منابع دادههای موجود جمعآوری میکنیم تا به ما کمک کند با دادهها آشنا شویم. برخی فعالیتهای مهم باید شامل بار داده و یکپارچهسازی دادهها باشد تا جمعآوری دادهها با موفقیت انجام شود.
سپس، ویژگیهای “ناخالص” یا “سطح” دادههای بدستآمده باید به دقت مورد بررسی قرار گیرد و گزارش شود.
سپس، دادهها باید با پرداختن به سوالات استخراج داده مورد بررسی قرار گیرند، که می توان آنها را با استفاده از پرس و جو، گزارش دهی و تجسم سازی مورد بررسی قرار داد. در نهایت، کیفیت دادهها باید با پاسخ دادن به برخی سوالات مهم مانند ” آیا دادههای بدستآمده کامل هستند؟ آیا هیچ مقدار از دادههای بدستآمده موجود در دادههای بدستآمده وجود ندارد؟ ”
آمادهسازی داده
آمادهسازی دادهها معمولا حدود ۹۰ % زمان پروژه را مصرف میکند. نتیجه فاز آمادهسازی دادهها، مجموعه داده نهایی است. هنگامی که منابع داده موجود شناسایی شدند، باید انتخاب، تمیز، ساخته و فرمت شده در فرم مورد نظر انتخاب شوند. عملیات اکتشاف دادهها در یک عمق بزرگتر ممکن است در طول این مرحله انجام شود تا به الگوها براساس درک کسبوکار توجه شود.
مدلسازی
اول، تکنیکهای مدلسازی باید برای استفاده برای مجموعه داده آماده انتخاب شوند.
سپس، سناریوی تست باید برای اعتبار سنجی کیفیت و اعتبار مدل تولید شود.
سپس یک یا چند مدل با اجرای ابزار مدلسازی بر روی مجموعه داده آماده ایجاد میشوند. در نهایت، مدلها باید با دقت مورد ارزیابی قرار گیرند تا مطمین شوند که مدلهای ایجاد شده، ابتکارات کسبوکار را برآورده میکنند.
ارزیابی
در مرحله ارزیابی، نتایج مدل باید در مرحله اهداف کسبوکار در مرحله اول ارزیابی شوند. در این مرحله، الزامات کسبوکار جدید ممکن است به دلیل الگوهای جدیدی که در نتایج مدل یا از عوامل دیگر کشف شدهاند، افزایش یابد. کسب درک کسبوکار یک فرآیند تکرارشونده در داده کاوی است. تصمیم نهایی یا نرفتن باید در این مرحله برای حرکت به مرحله آمادهسازی اتخاذ شود.
استقرار
دانش یا اطلاعات، که ما از طریق فرآیند داده کاوی به دست میآوریم، باید به گونهای ارائه شود که سهامداران بتوانند آن را زمانی که میخواهند از آن استفاده کنند. براساس الزامات کسبوکار، مرحله آمادهسازی میتواند به سادگی ایجاد یک گزارش یا پیچیدگی به عنوان فرآیند استخراج داده تکراری در سراسر سازمان باشد. در مرحله آمادهسازی، برنامههای استقرار، نگهداری و نظارت باید برای اجرا و نیز پشتیبانی آینده ایجاد شوند. از نقطهنظر پروژه، گزارش نهایی پروژه باید تجربیات پروژه را خلاصه کرده و پروژه را بازبینی کند تا ببیند نیاز به بهبود درسهای آموختهشده را دارد. CRISP-DM یک چارچوب یکپارچه برای مستندسازی و دستورالعملهای تجربه ارائه میدهد. علاوه بر این، DM ها میتوانند در صنایع مختلف با انواع مختلف داده اعمال شود.
برای سفارش دوره آموزشی با ما تماس بگیرید.http://infoedu.ir/%d8%aa%d9%85%d8%a7%d8%b3-%d8%a8%d8%a7-%d9%85%d8%a7/