داده کاوی نوین و کاربردی

داده کاوی چیست؟

داده کاوی یک فن‌آوری امیدبخش و نسبتا جدید است. داده کاوی به عنوان فرآیندی برای کشف دانش ارزشمند پنهان از طریق تجزیه و تحلیل مقادیر زیاد داده‌ها تعریف می‌شود، که در پایگاه‌های داده یا انبار داده، با استفاده از تکنیک‌های داده کاوی مختلف مانند یادگیری ماشین، هوش مصنوعی (AI)و اماری مورد استفاده قرار می‌گیرد. بسیاری از سازمان‌ها در صنایع مختلف از مزایای استخراج داده از قبیل تولید، بازاریابی، شیمیایی، هوافضا و غیره استفاده می‌کنند تا بهره‌وری کسب‌وکار خود را افزایش دهند. بنابراین، نیاز به فرآیند استخراج داده استاندارد به طور چشمگیری افزایش یافت. یک فرآیند داده کاوی باید قابل‌اطمینان باشد و باید توسط افراد تجاری با دانش کم و یا بدون دانش پیش‌زمینه معدن‌کاری داده‌ها تکرار شود. در نتیجه، در سال ۱۹۹۰، یک فرآیند استاندارد برای استخراج داده (crisp – DM)اولین بار پس از عبور از چندین کارگاه علمی و مشارکت بیش از ۳۰۰ سازمان منتشر شد.

جزئیات یک فرآیند داده کاوی CRISP

فرآیند استاندارد صنعتی برای داده کاوی (crisp – DM)متشکل از شش فاز است که به عنوان یک فرآیند چرخه‌ای به عنوان شکل زیر در نظر گرفته می‌شود:

درک کسب‌وکار

اول، لازم است اهداف تجاری را به روشنی درک کرده و نیازها و نیازهای کسب‌وکار را مشخص کنید.

سپس، ما باید وضعیت فعلی را با یافتن منابع، فرضیات، محدودیت‌ها و عوامل مهم دیگر ارزیابی کنیم که باید در نظر گرفته شوند.

سپس، از اهداف تجاری و شرایط فعلی، ما باید اهداف داده کاوی را برای رسیدن به اهداف کسب‌وکار در موقعیت فعلی ایجاد کنیم. در نهایت، یک برنامه داده کاوی خوب باید برای رسیدن به اهداف تجاری و هم داده کاوی ایجاد شود. برنامه باید تا آنجا که ممکن است دقیق باشد.

درک داده‌ها

 اول، مرحله درک داده‌ها با مجموعه داده‌های اولیه شروع می‌شود، که ما از منابع داده‌های موجود جمع‌آوری می‌کنیم تا به ما کمک کند با داده‌ها آشنا شویم. برخی فعالیت‌های مهم باید شامل بار داده و یکپارچه‌سازی داده‌ها باشد تا جمع‌آوری داده‌ها با موفقیت انجام شود.

سپس، ویژگی‌های “ناخالص” یا “سطح” داده‌های بدست‌آمده باید به دقت مورد بررسی قرار گیرد و گزارش شود.

سپس، داده‌ها باید با پرداختن به سوالات استخراج داده مورد بررسی قرار گیرند، که می توان آن‌ها را با استفاده از پرس و جو، گزارش دهی و تجسم سازی مورد بررسی قرار داد. در نهایت، کیفیت داده‌ها باید با پاسخ دادن به برخی سوالات مهم مانند ” آیا داده‌های بدست‌آمده کامل هستند؟ آیا هیچ مقدار از داده‌های بدست‌آمده موجود در داده‌های بدست‌آمده وجود ندارد؟ ”

آماده‌سازی داده

آماده‌سازی داده‌ها معمولا حدود ۹۰ % زمان پروژه را مصرف می‌کند. نتیجه فاز آماده‌سازی داده‌ها، مجموعه داده نهایی است. هنگامی که منابع داده موجود شناسایی شدند، باید انتخاب، تمیز، ساخته و فرمت شده در فرم مورد نظر انتخاب شوند. عملیات اکتشاف داده‌ها در یک عمق بزرگ‌تر ممکن است در طول این مرحله انجام شود تا به الگوها براساس درک کسب‌وکار توجه شود.

مدلسازی

اول، تکنیک‌های مدل‌سازی باید برای استفاده برای مجموعه داده آماده انتخاب شوند.

سپس، سناریوی تست باید برای اعتبار سنجی کیفیت و اعتبار مدل تولید شود.

سپس یک یا چند مدل با اجرای ابزار مدل‌سازی بر روی مجموعه داده آماده ایجاد می‌شوند. در نهایت، مدل‌ها باید با دقت مورد ارزیابی قرار گیرند تا مطمین شوند که مدل‌های ایجاد شده، ابتکارات کسب‌وکار را برآورده می‌کنند.

ارزیابی

در مرحله ارزیابی، نتایج مدل باید در مرحله اهداف کسب‌وکار در مرحله اول ارزیابی شوند. در این مرحله، الزامات کسب‌وکار جدید ممکن است به دلیل الگوهای جدیدی که در نتایج مدل یا از عوامل دیگر کشف شده‌اند، افزایش یابد. کسب درک کسب‌وکار یک فرآیند تکرارشونده در داده کاوی است. تصمیم نهایی یا نرفتن باید در این مرحله برای حرکت به مرحله آماده‌سازی اتخاذ شود.

استقرار

دانش یا اطلاعات، که ما از طریق فرآیند داده کاوی به دست می‌آوریم، باید به گونه‌ای ارائه شود که سهامداران بتوانند آن را زمانی که می‌خواهند از آن استفاده کنند. براساس الزامات کسب‌وکار، مرحله آماده‌سازی می‌تواند به سادگی ایجاد یک گزارش یا پیچیدگی به عنوان فرآیند استخراج داده تکراری در سراسر سازمان باشد. در مرحله آماده‌سازی، برنامه‌های استقرار، نگهداری و نظارت باید برای اجرا و نیز پشتیبانی آینده ایجاد شوند. از نقطه‌نظر پروژه، گزارش نهایی پروژه باید تجربیات پروژه را خلاصه کرده و پروژه را بازبینی کند تا ببیند نیاز به بهبود درس‌های آموخته‌شده را دارد. CRISP-DM یک چارچوب یکپارچه برای مستندسازی و دستورالعمل‌های تجربه ارائه می‌دهد. علاوه بر این، DM ها می‌توانند در صنایع مختلف با انواع مختلف داده اعمال شود.

برای سفارش دوره آموزشی با ما تماس بگیرید.http://infoedu.ir/%d8%aa%d9%85%d8%a7%d8%b3-%d8%a8%d8%a7-%d9%85%d8%a7/

رگرسیون ساده چیست؟

رگرسیون ساده برای آزمون رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل به کار می رود.

بعد از تعیین و تبیین یک رابطه، مدل رگرسیون به دست آمده می تواند، بعد از مشخص شدن مقادیر متغیرهای مستقل به پیش بینی متغیرهای مستقل بپردازد.

همه ما رگرسیون را در زندگی روزمره بکار می بریم. یک مادر می داند که رژیم شیرین باعث افزایش سطح کالری و انرژی کودکانش خواهد شد. هوشیاری و سرجالی به هنگام بیدار شدن صبحگاهی به ساعت خواب افراد بستگی دارد. این رابطه سنجی ها می تواند از طریق توسعه یک مدل ریاضی به دقت و پیش بینی دقیقتر کمک کند.

به طور مثال فرض کنید که داروسازی می خواهد بداند برای وزن های مختلف بدن انسان(متغیر مستقل) چه میزان دارو متغیر(متغیر وابسته) تجویز کند. هدف از اجرای رگرسیون در اینجا پیدا کردن فرمولی است که رابطه این متغیر را تعیین کند. بعد از پیدا کردن این فرمول ها می توانیم برای وزن های مختلف دوز دارو را تجویز کنیم.

داده های شرکتهای بورس اوراق بهادار تهران طی سالهای ۸۸-۹۶

داده های بورس اوراق بهادار

توجه فرمایید:

اکثر ارائه کنندگان داده برای کسب سود بیشتر، متغیرها را به صورت جداگانه و برای شرکتهای بهم ریخته، بفروش می رسانند. که این کار ضرر مالی و هزینه زمانی زیادی بر عهده پژوهشگر خواهد گذاشت. مزیت داده های ما، یکدست بودن تمام متغیرها برای کل شرکت ها در سالهای متوالی می باشد و شما نیازی به صرف زمان زیاد برای مرتب سازی داده در متغیرهای متعدد و شرکتهای بهم ریخته ندارید.

داده های آماری متغیرهای حسابداری و مالی شرکتهای پذیرفته شده در بورس اوراق بهادار تهران از سال ۸۸ الی ٬۹۶ در قالب فایل اکسل٬ مناسب برای انجام پروژه ها و پایان نامه های دانشجویی رشته های حسابداری٬ مدیریت مالی و اقتصاد. فعالیت مالی شرکتهای عضو بورس اوراق بهادار و ثبت صورتهای مالی انتهای دوره آنها باعث ایجاد داده می شود. داده ها بعد از خلاصه سازی و پردازش قابلیت تبدیل به اطلاعات را دارند. ولی این فرآیندی زمان بر و مشمول هزینه می باشد.

پژوهشگران، دانشجویان و اساتید محترم میتوانند با استفاده از داده های بورس، پژوهش و تحقیق خود را با صرف انرژی و هزینه کمتر انجام دهند. داده های شرکت های بورس اوراق بهادار تهران به صورت خام از سایتهای مرتبط با سازمان بورس قابل واکشی می باشد. اما جمع بندی این داده ها در یک فایل پروژه ای زمان بر می باشد. داده های داخل فایل ارائه شده به نسبت و شاخص های تیپ مالی تبدیل شده و به راحتی در دسترس شما می باشد و بعد از انتخاب متغیرهای تحقیق میتوانید آنها را مستقیما وارد نرم افزار های تحلیلی و آماری کرده و نتایج را به دست بیاورید.

داده های شرکتهای بورس اوراق بهادار از ۱۳۸۹ تا ۱۳۹۷ را از اینجا دانلود کنید.

نمونه فایل داده های شرکت های بورس اوراق بهادار را به صورت رایگان می توانید جهت حصول اطمینان از این لینک دریافت نمایید.

برای تهیه داده های بورس با متغیرهای خاص پروژه خود می توانید با ما تماس بگیرید.

لیست متغیرهای موجود در فایل

لیست موجود به صورت ذیل می باشد:

دانلود داده های مالی حسابها و اسناد پرداختنی تجاری سال گذشته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع دارایی‌های جاری در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی هزینه استهلاک  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع کل دارایی‌ها سالا گذشته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی وجه نقد عملیاتی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی موجودی مواد و کالا در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی خالص دارایی‌های ثابت در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع بدهی‌های جاری در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی فروش سال گذشته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی سود تقسیمی سال گذشته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی ارزش بازار به میلیون در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی سود (زیان) ویژه قبل از کسر مالیات سال گذشته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی هزینه عملیاتی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی سود (زیان) ویژه قبل از کسر مالیات در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع کل دارایی‌ها در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع حقوق صاحبان سهام در پایان سال مالی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی سود (زیان) ویژه پس از کسر مالیات در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی مالیات بر درآمد پرداختی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع کل بدهی‌ها در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی سود تقسیمی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی حسابها و اسناد پرداختنی تجاری در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی % بازدهی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی تعداد کارکنان در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی وجوه نقد و موجودی‌های نزد بانک‌ها در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی ارزش روز در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی موجودی مواد و کالا سال گذشته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی تعداد سهام در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی تاریخ تاسیس فقط سال  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی قیمت پایانی در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی موجودی مواد و کالا سال قبل در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع کل دارایی‌ها سال قبل در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی بدهی‌های غیر جاری در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی فروش در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی فروش سال قبل در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی بهای تمام شده کالای فروش رفته در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی هزینه‌های عمومی و اداری در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی مالیات در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی جمع جریان خالص فعالیتهای سرمایه گذاری در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام نزد تامین اجتماعی  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام نزد صندوق بازنشستگی  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام نزد صندوقها (بجز صندوق بازنشستگی کشوری) در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام نزد دولت  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام نزد شرکتهای سرمایه گذاری ۱۳۹۳ در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام نزد بیمه ایران و مرکزی  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی درصد سهام شرکتهای بیمه و بانکها (بجز بیمه ایران و مرکزی)  در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی نرخ قانونی مالیات در سالهای ۱۳۸۸ تا ۱۳۹۶

دانلود داده های مالی نرخ واقعی مالیات در سالهای ۱۳۸۸ تا ۱۳۹۶

متغیرهایی که در این فایل داده های آماده آماری آنها جمع آوری شده است و دریافت داده های بورس اوراق را در اختیار میگذارد، برای ۱۳۳ شرکت و هر سال ارائه شده است که  عبارتند از:

برای شرکت – سال – صنعت متغیرهای

سال هزینه عملیاتی تعداد سهام درصد سهام نزد صندوقها (بجز صندوق بازنشستگی کشوری)
شرکت سود (زیان) ویژه قبل از کسر مالیات تاریخ تاسیس فقط سال درصد سهام نزد دولت
حسابها و اسناد پرداختنی تجاری سال گذشته جمع کل دارایی‌ها قیمت پایانی درصد سهام نزد شرکتهای سرمایه گذاری ۱۳۹۳
جمع دارایی‌های جاری جمع حقوق صاحبان سهام در پایان سال مالی موجودی مواد و کالا سال قبل درصد سهام نزد بیمه ایران و مرکزی
هزینه استهلاک سود (زیان) ویژه پس از کسر مالیات جمع کل دارایی‌ها سال قبل درصد سهام شرکتهای بیمه و بانکها (بجز بیمه ایران و مرکزی)
جمع کل دارایی‌ها سالا گذشته مالیات بر درآمد پرداختی بدهی‌های غیر جاری نرخ قانونی مالیات
وجه نقد عملیاتی جمع کل بدهی‌ها فروش نرخ واقعی مالیات
موجودی مواد و کالا سود تقسیمی فروش سال قبل
خالص دارایی‌های ثابت حسابها و اسناد پرداختنی تجاری بهای تمام شده کالای فروش رفته
جمع بدهی‌های جاری درصد بازدهی هزینه‌های عمومی و اداری
فروش سال گذشته تعداد کارکنان مالیات
سود تقسیمی سال گذشته وجوه نقد و موجودی‌های نزد بانک‌ها جمع جریان خالص فعالیتهای سرمایه گذاری
ارزش بازار
به میلیون
ارزش روز درصد سهام نزد تامین اجتماعی
سود (زیان) ویژه قبل از کسر مالیات سال گذشته موجودی مواد و کالا سال گذشته درصد سهام نزد صندوق بازنشستگی