دانشگاه قم
دانشکده فنی و مهندسی
پایان‌نامه دوره کارشناسی ارشد مهندسی فناوری اطلاعات
گرایش تجارت الکترونیک
عنوان:
تدوین شاخص‌ها و داشبورد ارزیابی و پیش‌بینی پیشرفت تحصیلی دانشجویان با شبکه‌عصبی و درخت‌تصمیمC5
استاد راهنما:
دکترامیرافسر

نگارنده:
مرضیه حبیب‌زاده
زمستان 1393
تقدیم به
خانواده‌ام که همواره مشوق تفکر خلاق برایم هستند
و
در مراحل این پایان نامه یاریگرم بوده اند.
تشکرو قدردانی
سپاس بی‌کران پروردگار یکتا را که هستی‌مان بخشید و به طریق علم و دانش رهنمونمان شد و به هم‌نشینی رهروان علم و دانش مفتخرمان نمود و خوشه چینی از علم و معرفت را روزیمان ساخت.
از کمک اساتید محترم جناب آقای دکتر دیانت و جناب آقای دکتر ملکی و سایر اساتید خصوصا جناب آقای دکتر افسر که در طول مراحل تحصیل و پژوهش از راهنمایی ایشان استفاده نموده ام سپاسگزاری می نمایم.
چکیده
درک عواملی که منجر به موفقیت یا شکست در امتحانات مسئله ای جالب و چالش برانگیز است.مفاهیم مرتبط، تجزیه و تحلیل عوامل موفقیت در امتحانات، ممکن است به درک و به طور بالقوه به بهبود پیشرفت تحصیلی کمک کند.بنابراین در این پژوهش ضمن مروری کلی بر داده کاوی و ویژگی های اصلی یک داشبورد مدیریتی کارا، سعی بر این است تا یک مطالعه موردی بر روی پایگاه داده های دانشگاه های سراسری و آزاد استان قم صورت گیرد تا پیشرفت تحصیلی دانشجویان پیش بینی گردد.
در این پژوهش ابتدا توسط الگوریتم k-means خوشه بندی صورت گرفته است و با استفاده از شاخص ارزیابی SSE ، تعداد خوشه بهینه تعیین گردیده است. بنابراین تعداد خوشه بهینه برای دانشجویان چهار خوشه می باشد و سپس خوشه ها با روش های پیش بینی داده کاوی از جمله شبکه عصبی و درخت تصمیم C5 که از پرکاربردترین و دقیق ترین روش های پیش بینی می باشند، پیش بینی شده اند و درنهایت با استفاده از نتایج این روش ها، شاخص های مناسب یافت شدند و به صورتی روشن در یک داشبورد نمایش داده شدند.

واژه‌های کلیدی:داده کاوی آموزشی، شبکه عصبی، خوشه بندی، درخت تصمیمC5، داشبورد.
فهرست مطالب
فصل اول:1
1-1-مقدمه2
1-2-تعریف مساله و بیان سوال های اصلی تحقیق3
1-3-ضرورت انجام تحقیق6
1-4-هدف‌ها و کاربردهای مورد انتظار از انجام تحقیق7
1-5-جنبه جدید بودن و نوآوری طرح7
1-6-قلمرو مکانی و زمانی تحقیق8
1-7-روش تجزیه و تحلیل داده‌ها8
1-8-ساختار تحقیق8
1-9-تعاریف و اصطلاحات9
1-10-نتیجه گیری12
فصل دوم:122
2-1- مقدمه133
2-2-انگیزه‌های کاوش داده13
2-3-نیاز به داده‌کاوی15
2-4- چالش‌های داده‌کاوی16
2-4-1- چالش‌های اولیه17
2-4-2- چالش‌های ثانویه18
2-5-معرفی داده‌کاوی19
2-5-1-منشاُ علمی21
2-5-2- معماری سیستم داده‌کاوی21
2-5-3- مراحل عملیات داده‌کاوی23
2-5-3-1-آماده‌سازی داده23
2-5-3-2-یادگیری مدل24
2-5-3-3-ارزیابی و تفسیر مدل25
2-6- محدودیت‌های داده‌کاوی25
2-7- قابلیت‌های داده‌کاوی26
2-8- روش‌های یادگیری مدل در داده‌کاوی26
2-8-1- روش‌های پیش‌بینی26
2-8-1-1- دسته‌بندی27
2-8-1-2- رگرسیون27
2-8-1-3-تشخیص انحراف28
2-8-2- روش‌های توصیفی29
2-8-2-1- خوشه‌بندی30
2-8-2-2- کشف قوانین انجمنی32
2-8-2-3- کشف الگوهای ترتیبی32
2-9- فنون داده‌کاوی32
2-9-1- یافتن خودکارخوشه‌ها34
2-9-1-1-نقاط قدرت این روش34
2-9-1-2-نقاط ضعف34
2-9-1-3- کاربرد34
2-9-2- درخت‌های تصمیم‌گیری و استقرا قاعده‌ای35
2-9-2-1-نقاط قوت35
2-9-2-2-نقاط ضعف روش درخت‌تصمیم‌گیری35
2-9-2-3-کاربرد36
2-9-3- شبکه‌های عصبی36
2-9-3-1- نقاط قوت شبکه‌های عصبی مصنوعی36
2-9-3-2- نقاط ضعف شبکه‌عصبی37
2-9-3-3-کاربرد37
2-10- درجه‌بندی فنون مختلف داده‌کاوی از جهت سختی و آسانی37
2-11-تعریف داشبورد38
2-12- سابقه تحقیق43
2-12-1- سابقه داده‌کاوی43
2-12-2- سابقه داشبورد47
2-13 بررسی مراحل داشبورد در چند نمونه49
2-14-نتیجه گیری50
فصل سوم:51
3-1- مقدمه52
3-2- چارچوب تحقیق53
3-3- روش تحقیق54
3-3-1- طبقه‌بندی تحقیق برمبنای هدف54
3-3-2- طبقه بندی تحقیق بر مبنای روش54
3-3-3- طبقه‌بندی تحقیق بر مبنای نوع داده‌ها55
3-4- جامعه آماری55
3-5- نمونه‌گیری56
3-5-1- روش نمونه‌گیری56
3-6- روش ها و ابزار گردآوری و تحلیل داده‌ها56
3-7- ساختار اجرایی تحقیق57
3-7-1- ساختار اجرایی بخش اول تحقیق58
3-7-1-1- درک مساله59
3-7-1-2- شناخت داده‌ها60
3-7-1-3- آماده سازی داده‌ها61
3-7-1-4- مدل‌سازی61
3-7-1-5- ارزیابی نتایج62
3-7-1-6- بکارگیری مدل62
3-8- تحلیل خوشه‌ای63
3-9- الگوریتم k-means64
3-10-شبکه‌عصبی65
3-10-1- معماری شبکه66
3-11-درخت‌تصمیم67
3-12- شاخص مقایسه نتایج خوشه‌بندی با رویکردهای مختلف69
3-12-1- شاخص مجموع خطای مربعی69
3-13- ابزار‌های داده‌کاوی69
3-14- بخش دوم ساختار اجرایی تحقیق70
3-14-1- شناسایی شاخص70
3-14-2- پیاده‌سازی داشبورد70
3-15- ابزار پیاده‌سازی داشبورد71
3-16- نتیجه‌گیری71
فصل چهارم:73
4-1-مقدمه74
4-2-فرآیند داده‌کاوی74
4-2-1-درک مساله74
4-2-2-شناخت داده‌ها75
4-2-2-1- داده‌ها75
4-2-2-2- انتخاب داده‌ها75
4-2-3- آماده سازی و پیش پردازش داده‌ها76
4-2-3-1- آماده سازی داده‌ها76
4-2-3-2-پیش پردازش داده‌ها77
4-2-4-مدل‌سازی82
4-2-4-1-خوشه‌بندی83
4-2-4-2- خوشه‌بندی k-means83
4-2-4-3- پیش‌بینی خوشه‌ها84
4-2-4-4- پیش‌بینی با شبکه‌عصبی85
4-2-4-5- پیش‌بینی با درخت‌تصمیم C585
4-2-5- ارزیابی88
4-2-6- به‌کارگیری مدل89
4-3- فرآیند طراحی و پیاده‌سازی داشبورد89
4-3-1- شناسایی شاخص89
4-4- نتیجه‌گیری93
فصل پنجم:94
5-1- مقدمه95
5-2- مروری برفصل‌های گذشته95
5-3- دستاوردها و نوآوری‌های تحقیق96
5-4- پیشنهادات برای تحقیق‌های آتی97
5-5- محدودیت‌های تحقیق98
فهرست منابع99
فهرست جداول

جدول2-1 درجه‌بندی فنون مختلف داده‌کاوی38
جدول 2-2 تعاریف داشبورد در مرور ادبیات38
جدول 2-3 مراحل طراحی داشبورد49
جدول3-1 الگوریتم خوشه‌بندی65
جدول 4-1 اقلام اطلاعات فردی دانشجویان78
جدول 4-2 اقلام اطلاعاتی معدل دانشجویان79
جدول 4-3 اقلام اطلاعاتی دانشگاهی دانشجویان79
جدول 4-4 نرخ پارامتر SSE به ازای تعداد خوشه‌ها در k-means84
جدول 4-5 پیش بینی با استفاده از روش شبکه‌عصبی85
جدول 4-6 دسته‌بندی معدل‌‌ها86
جدول 4-7 پیش بینی با استفاده از روش درخت تصمیمC587
جدول 5-1 دقت پیش‌بینی‌های انجام شده97
فهرست شکل‌ها و نمودارها
شکل 1-1-ساختار تحقیق9
شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیل‌گران داده15
شکل 2-2 سلسله مراتب داده تا خرد20
شکل 2-3 معماری یک سیستم داده‌کاوی22
شکل 2-4 ساختار داده‌کاوی آموزشی44
شکل 3-1 مراحل اصلی پیشنهادی برای اجرای تحقیق53
شکل 3-2 استاندارد جهانی CRISP59
شکل 4-1 بخشی از ارتباط داده‌ای جداول77
نمودار 4-1 میزان استفاده تکنیک‌های پیش‌پردازش داده81
شکل 4-2بخشی از داده‌ها در نرم‌افزار Excel82
شکل 4-3 تعداد رکوردها در هر خوشه84
شکل 4-5 اهمیت فیلدها در پیش‌بینی معدل ترم شش دانشجویان88
شکل4-6 پیشرفت تحصیلی دانشجویان ورودی سال 137191
شکل4-7 پیشرفت تحصیلی دانشجویان ورودی سال 138191
شکل 4-8 پیش بینی پیشرفت تحصیلی دانشجویان فاقد شغل ورودی سال 138192
شکل 4-9 پیش‌بینی پیشرفت تحصیلی دانشجویان شاغل در سازمان‌های دولتی ورودی سال 138193

1-1-مقدمه
پیش‌‌‌‌بینی آینده در زمینه‌های مختلف همواره برای انسان جالب و جذاب بوده است. با اطمینان می‌توان گفت که پیش‌‌‌‌بینی آینده و روند تغییرات در همه‌ی حوزه‌ها از دغدغه‌های اصلی و همیشگی مدیران سطح بالا و میانی می‌باشد. اما همواره مشکلات فراوانی در برابر آن وجود داشته است که انجام پیش‌‌‌‌بینی‌های دقیق و قابل اعتماد را تقریباً غیرممکن نموده است (توحیدی- مقدم و فرهادی، 1391). در سالهای اخیر با توجه به جذابیت‌هایی که در زمینه داده‌کاوی و همچنین پیش‌‌‌‌بینی که یکی از اهداف داده‌کاوی می‌باشد وجود دارد،تحقیقات زیادی در این حوزه انجام شده است.
در حال حاضر در اکثر دانشگاه‌ها بانک‌های اطلاعاتی وسیعی از ویژگی‌های دانشجویان موجود است که حجم بالایی از اطلاعات مربوط به سوابق آموزشی و تحصیلی را شامل می‌شود و از آن‌جایی که امروزه فضای رقابتی شدیدی در دانشگاه‌های مختلف حاکم شده است. مدیران باید سریع‌تر و درست‌تر از قبل تصمیم بگیرند. لازمه چنین امری، دستیابی سریع و دقیق به دانش است و برای دستیابی به دانش، وجود ابزارهای کارا و موثری نظیر داشبوردهای مدیریتی ضرورت دارد. ارزش داشبورد در اتصال ویژگی‌ها و کاربرد مناسب آن در سازمان است. گرچه تا به امروز توافق خاصی در اینکه داشبورد باید دقیقا چگونه باشد و چه کارهایی را انجام دهد، وجود ندارد اما به طور کلی انتظار می‌رود داشبورد، امکان جمع‌آوری، خلاصه‌سازی و ارائه اطلاعات مناسب از منابع مختلفی را داشته باشد تا بدین وسیله کاربر بتواند وضعیت شاخص‌ها را به طور یک‌جا ملاحظه نماید
هدف از انجام این تحقیق، داده‌کاوی‌آموزشی جهت مقاصد پیش‌‌‌‌بینی پیشرفت تحصیلی دانشجویان به همراه داشبورد آن می‌باشد، داده‌کاوی‌آموزشی یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیط‌های آموزشی می‌پردازد. پیشرفت‌ تحصیلی دانشجویان یکی از اموری است که در امر آموزش مطرح است و از مسائل مورد توجه مدیران آموزشی دانشگاه‌هاست. در این تحقیق سعی شده از داده‌کاوی و فنون آن استفاده شود و با استفاده از داده‌هایی که در دانشگاه‌ها موجود است پیشرفت تحصیلی را پیش‌‌‌‌بینی نمود. پس از آشنایی با ادبیات مسئله و مرورکلی بر ویژگی‌های اصلی یک داشبورد مدیریتی کارا، روشهای داده‌کاوی و پیش‌‌‌‌بینی به عنوان مطالعه موردی کار پیش‌‌‌‌بینی در امور آموزش را انجام داده‌ایم. معدل دانشجویان به‌صورت تصادفی تغییر نمی‌کند، بلکه تغییرات بر اساس یک روند تکرار پذیر و قابل تشخیص صورت می‌گیرد، پس قابل پیش‌‌‌‌بینی است. برای این منظور پس از گردآوری داده‌ها جهت داده‌کاوی، با استفاده از روشهای شبکه‌عصبی و درخت‌تصمیم C5، کار پیش‌‌‌‌بینی را انجام داده ایم و بعد از پیش‌‌‌‌بینی، طراحی و پیاده‌سازی داشبورد آن صورت گرفت.

1-2-تعریف مساله و بیان سوال های اصلی تحقیق
از هنگامی که رایانه در تحلیل و ذخیره‌سازی داده‌ها به‌کار رفت (1950) پس از حدود 20 سال، حجم داده‌ها در پایگاه‌داده‌ها دو برابر شد ولی پس از گذشت دو دهه و همزمان با پیشرفت فن‌آوری اطلاعات(IT) هر دو سال یکبار حجم داده‌ها، دو برابر شد. همچنین تعداد پایگاه‌داده‌ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده‌ها و آمارشناسان با این سرعت رشد نكرد. حتی اگر چنین امری اتفاق می‌افتاد، بسیاری از پایگاه‌داده‌ها چنان گسترش یافته‌اند که شامل چندصدمیلیون یا چندصدمیلیارد رکورد ثبت شده هستند و امکان تحلیل و استخراج اطلاعات با روش‌های معمول آماری از دل انبوه داده‌ها مستلزم چند روز کار با رایانه‌های موجود است. حال با وجود سیستم‌های یکپارچه اطلاعاتی، سیستم‌های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده‌ها در پایگاه‌داده‌های مربوط اضافه شده و باعث به‌وجود آمدن انبارهای ( توده‌های ) عظیمی از داده‌ها شده است به‌طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه‌داده‌ها بیش از پیش نمایان شده است. داده‌کاوی یا استخراج و کشف سریع و دقیق اطلاعات باارزش و پنهان از این پایگاه‌داده‌ها از جمله اموری است که هر کشور، سازمان و شرکتی به منظور توسعه علمی، فنی و اقتصادی خود به آن نیاز دارد. با توجه به فصول دهم و یازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهای الکترونیکی و همچنین تأکید بر برخورداری کشور از فن‌آوری‌های جدید اطلاعات برای دستیابی آسان به اطلاعات داخلی و خارجی، دولت مکلف شده است امکانات لازم برای دستیابی آسان به اطلاعات، زمینه‌سازی برای اتصال کشور به شبکه‌های جهانی و ایجاد زیرساخت‌های ارتباطی و شاهراه‌های اطلاعاتی فراهم کند. واضح است این امر باعث ایجاد پایگاه‌های عظیم داده‌ها شده و ضرورت استفاده از داده‌کاوی را بیش از پیش نمایان می سازد.
داده‌کاوی فرآیندی تحلیلی است که برای کاوش داده‌ها(معمولا حجم عظیمی از داده‌ها) صورت می‌گیرد و یافته‌ها با به‌کارگیری الگوهایی، احراز اعتبار می‌شوند. این تکنولوژی امروزه دارای کاربرد بسیاروسیعی در حوزه‌های مختلف است به‌گونه‌ای که حدومرزی برای کاربرد این دانش درنظر نگرفته و زمینه‌های کاری این دانش را از ذرات کف اقیانوس‌ها تا اعماق فضا می‌دانند. امروزه، بیش‌ترین کاربرد داده‌کاوی در بانک‌ها، مراکز‌‌ درمانی، بیمارستآن‌ها، بازاریابی هوشمند، مراکز تحقیقاتی و زمینه‌هایی که در آن مقدار زیادی از داده‌ها در حال جمع‌آوری و ذخیره می‌باشد. هدف اصلی داده‌کاوی پیش‌‌‌‌بینی است. یکی از عناصر کلیدی در مدیریت و تصمیم‌گیری، پیش‌‌‌‌بینی پارامترها و متغیرهای لازم در یک محدوده سیستمی می‌باشد.
پیش‌‌‌‌بینی به عنوان یکی از مهم‌ترین شاخه‌های علمی مطرح شده است و روز به روز توسعه و پیشرفت می نماید و در بخش های مختلف به کار گرفته می‌شود. پیشرفت‌های اخیر در تکنولوژی‌های جمع‌آوری و ذخیره‌سازی داده، موجب شده که سازمان‌ها، حجم زیادی از داده‌های مربوط به فعالیت‌های روزانه‌ی خود را انباشته کنند. داده‌هایی که توسط سازمان‌ها جمع‌آوری شده است بسیار ارزشمند است و برای اهداف مختلف می‌تواند مورد استفاده قرار گیرد. یکی از این اهداف پیش‌‌‌‌بینی‌هایی می‌باشد که جهت بهبود عملکرد و برنامه‌ریزی‌هایشان از آن‌ها استفاده می‌نمایند.
مدیران سازمان‌های مختلف به دلیل عدم قطعیت و پیچیدگی محیط سعی بر آن دارند تا مکانیزمی را در اختیار داشته باشند که بتوانند آن‌ها را در امر تصمیم‌گیری‌شان یاری و مشاوره دهد و به همین دلیل سعی در استفاده از روش‌های پیش‌‌‌‌بینی دارند که به واسطه‌ی آن‌ها تخمین‌هایشان به واقعیت نزدیک و خطاهایشان بسیار‌کم باشد. این امر باعث توجه بسیاری به روش‌های نوین پیش‌‌‌‌بینی شده است.
داده‌کاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش‌مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می‌باشد. داده‌کاوی فرایندی پیچیده جهت شناسایی الگوها، مدل‌های صحیح و بالقوه مفید در حجم وسیعی از داده است، به طوریکه این الگوها ومدل‌ها برای انسآن‌ها قابل درک باشند(Han et al,2006). داده‌کاوی به‌صورت یک محصول قابل خریداری نیست، بلکه یک رشته علمی و فرآیندی است که باید به‌صورت یک پروژه پیاده‌سازی شود. در گذشته موسسات آموزشی از مزیت داده‌کاوی به خوبی بعضی حوزه‌های دیگر توجه نداشته‌اند اما در سال‌هاي اخير تحقيقات زيادي در زمينه بكارگيري فرآيند داده‌كاوي در امر آموزش صورت مي‌گيرد. اين زمينه تحقيقاتي جديد، داده‌كاوي‌آموزشي ناميده مي‌شود كه به امر توسعه روش‌هاي كشف دانش از داده‌هاي محيط‌هاي آموزشي خصوصاً دانشجويان مي‌پردازد(Romero et al,2007). داده‌هاي جمع‌آوري شده در مورد دانشجويان مي‌تواند شخصي يا آموزشي باشد كه از طريق دفاتر و پايگاه داده‌هاي موجود در مدارس يا دانشكده‌ها جمع‌‌آوري مي‌شوند. اين نوع داده‌ها همچنين از طريق سيستم‌هاي آموزش الكترونيكي قابل دستيابي هستند. با به‌كارگيري تكنيک‌های شبکه‌عصبی و درخت‌تصمیم روي داده‌هاي آموزشي مي توان اطلاعات و دانش مفيدي را از آن‌ها استخراج كرد كه اين دانش نيز به نوبه خود می‌تواند براي درك و فهم رفتار دانشجويان، كمك در امر آموزش و تدريس، ارزيابي و بهبود برنامه‌آموزشی، افزايش بازدهي و كارايي دانشجويان و اهداف ديگري بكار گرفته شود.
امروزه فضای رقابتی شدیدی در دانشگاه‌های مختلف حاکم شده است. دانشگاه‌ها برای رسیدن به اهداف خود و سبقت گرفتن از یکدیگر در تلاشند. دانشگاه‌ها نیاز به داشبورد دارند تا اطلاعات جزیی را در یک لحظه داشته باشند و این چیزی فراتر از یک نگاه کلی است. داشبوردها جهت نمایش حجم بزرگی از داده‌ها در یک نمایش گرافیکی قابل فهم هستند که کاربران با استفاده از آن‌ها قادر به تحلیل اطلاعات از طریق داده‌ها باشند (LogiXML,2011).
داشبوردهای مدیریتی سیستم‌های نرم‌افزاری نوینی هستند که به سازمان‌ها در جهت غنی‌سازی اهداف با استفاده از اطلاعات و تجزیه و تحلیل آن‌ها کمک می‌کند. داشبورد به مدیران این امکان را می‌دهد تا با تعریف، نظارت و تحلیل شاخص‌ها در ایجاد تراز بین اهداف و فعالیت‌ها و ایجاد یک محیط نمایش مشترک بین اهداف و فعالیت‌ها برای تصمیم‌گیری درست و کارامد اقدام نمایند. یک نکته که معمولا به اشتباه گرفته می‌شود این است که داشبورد تنها برای مدیران ارشد به منظور ارائه اطلاعات جامع از عملکرد سازمان به آن‌ها مورد استفاده قرار می گیرد. امروزه تکنولوژی داشبورد سازمانی به‌گونه‌ای است که می‌تواند در سطوح مختلف سازمان استقرار یابد(زرین،1388).
در این تحقیق سعی شده است تا با استفاده از اطلاعات مربوط به دانشجویان از جمله سال و ترم ورود به دانشگاه، نوع تاهل، معدل‌های دریافتی در هر ترم، نوع تحصیل، نوع شغل و دیگر اطلاعات دانشجویان دانشگاه‌های سراسری و آزاد اسلامی استان قم و امکانات موجود در محیط نرم‌افزار‌های Sql server، Matlab ، Qlick view ، Clementine ، Excelو همچنین با خوشه‌بندی داده‌ها و بکار بردن تکنیک‌های داده‌کاوی به پیش‌بینی پیشرفت‌ تحصیلی دانشجویان بپردازیم و با استفاده از نتایج پیش‌بینی و نظر خبرگان، شاخص‌ها را تعیین کرده و طراحی و پیاده‌سازی داشبورد مربوطه را انجام دهیم.
در راستای موضوع ارائه شده ما به دنبال آن هستیم تا به سوالات زیر پاسخ دهیم:
چه تکنیک داده‌کاوی برای داده‌هایمان پیش‌بینی بهتری دارد؟
متغیرهای تاثیرگذار در تعیین شاخص‌ها کدام‌اند؟
مشخص کردن اینکه کدام روش نتایج بهینه و دقیق‌تری ارائه می‌کند و پاسخ به این پرسش‌ها،‌ پیش‌بینی‌ها به طور مناسب انجام شده و این کار فواید زیادی را برای دانشگاه به همراه خواهد داشت.

1-3-ضرورت انجام تحقیق
یکی از چالش‌های جدي در مديريت امور آموزشي دانشگاه‌ها، پيش‌بيني وضعيت تحصيلي دانشجويان در نيم‌سال‌هاي آينده به منظور شناسايي دانشجوياني است كه دچار پیشرفت یا افت تحصيلي شده و ادامه تحصيل آن‌ها با مشكل روبرو خواهد شد. در اين تحقيق با استفاده از تكنيك‌هاي داده كاوي وضعيت تحصيلي آتي دانشجويان پيش‌بيني شده است. با بكارگيري اين تکنیک‌ها و تجزیه و تحلیل و تفسیر داده‌ها مديران آموزشي مي‌توانند مشاوره‌هاي لازم را براي پيشگيري از رسيدن دانشجويان به وضعيت بحراني بكار گيرند و همچنین مدیران به استفاده از ابزارهای کارا و موثر مصورسازی داشبورد مدیریتی نیاز دارند تا با نمودارها و اشکال مختلف تفسیر داده‌ها را بهتر درک کنند و بتوانند تصمیم‌گیری صحیح‌تری داشته باشند بنابراین می‌توان این ابزارهای پشتيبان تصميم‌گيري در سيستم‌هاي آموزشي را مورد بهره‌برداري قرار داد و نقش مهمي را در ارتقاء سطح علمي دانشگاه‌ها داشت.

1-4-هدف‌ها و کاربردهای مورد انتظار از انجام تحقیق
هدف اصلی این تحقیق، بررسی کاربرد روش‌های شبکه‌عصبی و درخت‌تصمیمC5 درجهت شناخت بهتر وضعیت تحصیلی دانشجویان و پیش‌‌‌‌بینی پیشرفت تحصیلی آن‌ها می‌باشد. عمده ترین هدف‌ها در موارد زیر به آن اشاره شده است:
خوشه‌بندی دانشجویان برای انجام پیش‌بینی بهینه
به‌کارگیری روش‌های مختلف داده‌کاوی جهت پیش‌‌‌‌بینی
مقایسه روش‌های مورد استفاده و انتخاب بهترین روش برای داده‌های مورد بحث
طراحی و پیاده‌سازی داشبورد مربوطه
1-5-جنبه جدید بودن و نوآوری طرح
این تحقیق از حیث هدف جزء تحقیق‌های کاربردی است، زیرا فنون و نظریه‌های تدوین شده در تحقیق‌های بنیادی پیشین در مورد داده‌کاوی‌آموزشی را به منظور حل مسائل اجرایی و واقعی به کار می برد. این تحقیق روش‌های مختلف پیش‌بینی را بررسی و مقایسه می‌کند که استفاده از خوشه‌بندی قبل از به‌کارگیری این روش‌ها نوآوری تکنیک خواهد بود. همچنین طراحی داشبوردی برای پیش‌بینی پیشرفت تحصیلی دانشجویان می‌تواند به عنوان ابزاری برای نمایش و گزارش گیری استفاده شود.
1-6-قلمرو مکانی و زمانی تحقیق
این تحقیق در دانشگاه‌های سراسری و آزاد اسلامی استان قم انجام شده است. قلمرو زمانی تحقیق سال 1371 تا 1391 می‌باشد که در مجموع اطلاعات 10668 دانشجوی کارشناسی از دانشگاه‌های مذکور جمع‌آوری شد. جزییات بیشتر در فصل چهارم شرح داده خواهد شد.

1-7-روش تجزیه و تحلیل داده‌ها
برای اجرای این تحقیق نیازمند استفاده از تمامی داده‌های مربوط به دانشجویان از جمله ویژگی‌های فردی و آموزشی آن‌ها می‌باشد اما فقط بخشی از این داده‌ها در اختیار این تحقیق قرار گرفت. پس از پالایش و آماده‌سازی داده‌ها، برای آن‌که بتوان پیشرفت تحصیلی دانشجویان را به‌صورت دقیق‌تری پیش‌بینی کرد نیازمند آن هستیم که دانشجویان را در گروه‌های مجزا از هم قرار دهیم ما برای این کار از الگوریتم خوشه‌بندی k-means استفاده می‌کنیم و بعد از انجام خوشه‌بندی برای پیش بینی از روش‌های شبکه‌عصبی و درخت‌تصمیمC5 که از روش‌های دقیق برای پیش بینی می‌باشند استفاده می‌کنیم و در انتها با استفاده از نتایج بدست آمده از پیش‌بینی‌ها و نظر خبرگان، شاخص‌ها را تدوین کرده تا بتوان براساس شاخص‌ها داشبورد ارزیابی و پیشرفت تحصیلی دانشجویان را طراحی و پیاده‌سازی کنیم.

1-8-ساختار تحقیق
در این پایان‌نامه در فصل اول پس از تشخیص، توصیف مسائل و کلیات تحقیق در دومین فصل که حاوی مرور ادبیات موضوع می‌باشد به پیش‌زمینه‌های مطالعاتی مرتبط با موضوع تحقیق و مرور داده‌کاوی و داشبورد ارائه شده در مقالات، کاربرد و ویژگی‌های بررسی شده در آن‌ها پرداخته می‌شود. در فصل سوم روش تحقیق شرح داده می‌شود و در فصل چهارم چگونگی آماده‌سازی و پیش‌پردازش داده‌ها به منظور ارتقا کیفیت داده برای مدل‌سازی شرح داده می‌شود و با مدل‌سازی، گام‌هایی در خصوص پیش‌بینی برداشته می‌شود و در انتهای این فصل با تعیین شاخص مناسب، طراحی و پیاده‌سازی داشبورد انجام می‌گیرد. درنهایت در فصل پنجم به بررسی
تفسیر مراحل تحقیق پرداخته و نتایج حاصل را بیان می کنیم. در شکل 1-1 مراحل تحقیق نشان داده شده است.
شکل 1-1-ساختار تحقیق
1-9-تعاریف و اصطلاحات
در این قسمت به تعریف برخی از مهم‌ترین اصطلاحات به کار گرفته شده درتحقیق،
پرداخته شده است:
داده‌کاوی‌آموزشی1: یک حوزه علمی نوظهور است که به توسعه روش‌هایی برای کاوش و اکتشاف دانش در محیط‌های آموزشی می‌پردازد(Baker&Yacef,2010).
شبکه‌های‌عصبی‌مصنوعی2: به زبان ساده‌تر شبکه‌های عصبی، سیستم‌ها و روش‌های محاسباتی نوینی هستند برای یادگیری ماشینی، نمایش دانش، و در انتها اعمال دانش به‌دست آمده در جهت بیش‌بینی پاسخ‌های خروجی از سامانه‌های پیچیده.
درخت‌تصمیمC5: درخت‌تصمیم یک ابزار برای پشتیبانی از تصمیم است، شيوه منحصر بفردي از ارائه يك سيستم است، كه تصميم‌گيري‌هاي آتي را تسهيل و سيستم را به نحو مناسبی تعريف مي كند. الگوریتم درخت‌تصمیم C5 نسخه‌ی بهبود یافته از C4.5 است .
خوشه‌بندی: خوشه‌بندي را مي‌توان به عنوان مهمترين مسئله در يادگيري بدون نظارت در نظر گرفت. خوشه‌بندي با يافتن يک ساختار درون يک مجموعه از داده‌هاي بدون برچسب درگير است. خوشه‌ به مجموعه‌اي از داده‌ها گفته مي‌شود که به هم شباهت داشته باشند. در خوشه‌بندي سعي مي‌شود تا داده‌ها به خوشه‌هايي تقسيم شوند که شباهت بين داده‌هاي درون هر خوشه حداکثر و شباهت بين داده‌هاي درون خوشه‌هاي متفاوت حداقل شود.
داشبورد: کاربر می‌تواند آیتم‌های گزارشی مانند گرید اطلاعاتی پویا، نمودار، گیج و گزارش چاپی را در یک صفحه کنار هم قرار دهد و به‌صورت داشبوردهای اطلاعاتی مختلف نام‌گذاری و به کاربران خاص دسترسی نمایش دهد.
شاخص: شاخص‌ها به منزله معیارهایی هستند که به‌وسیله آن‌ها می‌توان کمیت، کیفیت و یا پیشرفت یک موضوع را اندازه‌گیری کرد. از آنجایی که بررسی و تجزیه و تحلیل موضوعات نیازمند اطلاعات مناسب است، شاخص‌ها اولین پل ارتباطی کارشناس با موضوع مورد‌‌ نظر است. وجود معیارها و شاخص‌های معین به منظور بررسی عملکرد گذشته و هدف‌گذاری برای آینده، از جمله مواردی است که ممکن است فرآیند تخصیص بهینه منابع و بازنگری در برنامه‌ها، اهداف و سازوکارهای حصول به آن‌ها را تسهیل کند.
پیش‌بینی3: پيش بيني عبارت است از تجسم يك موقعيت در آينده براساس اطلاعات گذشته در واقع در پيش بيني براساس معيارهاي کمی از داده‌هاي به وقوع پيوسته در زمآن‌های گذشته براي تخمين آينده استفاده می‌شود. هر تصمیمی به یک پیش‌بینی استوار است. تصمیمات دولتی بر پیش‌بنی‌های اقتصاد‌کلان، سیاسی و غیره، تصمیمات مهندسی بر پیش‌بینی میزان تحمل فشار توسط دستگاه و غیره، تصمیمات سرمایه‌گذاری بر پیش‌بینی ریسک‌ها و غیره.

1-10-نتیجه‌گیری
در فصل حاضر تلاش شد تا به منظور ترسیم فضای کلی داده‌کاوی‌آموزشی و ضرورت اجرای این تحقیق و سوالاتی که در تحقیق حاضر در پی پاسخ به آن‌ها هستیم تبیین شود.

2-1- مقدمه
در اواسط نیمه‌ی دوم قرن بیستم گروهی از پژوهشگران آمریکایی دست به اقدام جالبی زدند. آن‌ها کلیه اطلاعلاتی را که انسآن‌ها تا قرن دوم میلادی از خورشید، گردش زمین، ماه، شب و روز و … داشتند به‌صورتی قابل پردازش درآوردند و به شکل مجموعه‌ای از داده‌های عددی و سیمبلیک جهت کاوش آماده نمودند. با استفاده از روش‌های داده‌کاوی پس از حدود یک ماه خروجی الگوریتم به‌صورت مجموعه‌ای از روابط آماده شد. این روابط پس از تفسیر مجموعه قوانین حیرت‌انگیزی به شکل ذیل به‌دست آورد:
شی‌ء‌ای که زمین نامیده شده گرد است.
شیء زمین به دور شیءای که خورشید نامیده شده می‌گردد.
شیءای که ماه نامیده شده به دور زمین می‌گردد.
این اقدام باعث شد که این پژوهشگران به نتیجه مهمی دست یابند: با استفاده از داده‌کاوی می‌توان به دانشی دست یافت که خود انسان قرن‌ها بعد این دانش را کسب خواهد کرد.
در این فصل با مقدمات علم داده‌کاوی آشنا شده و سپس به تعاریف و دسته‌بندی داشبورد خواهیم پرداخت و در ادامه تحقیقات انجام شده تاکنون در زمینه داده‌کاوی آموزشی و داشبورد و چند نمونه از مراحل طراحی داشبورد را مورد بررسی قرار خواهیم داد.

2-2-انگیزه‌های کاوش داده
به شکل 2-1 توجه کنید. دراین شکل دو نمودار وجود دارد. نمودار اول (نمودار پایین شکل) نشان‌دهنده تعداد تحلیل‌گرها است، با توجه به نمودار مشخص است با گذشت زمان تعداد تحلیل‌گرها در مقایسه با رشد داده تقریبا ثابت است. نمودار دوم نشان‌دهنده‌ی رشد داده در طی زمان می‌باشد، از روی نمودار می‌توان مشاهده نمود که حجم داده با گذشت زمان در حال رشد انفجارگونه است. به تفاوت بین این دو نمودار (فضای خالی بین دو نمودار) شکاف داده‌ای4 بین دو نمودار گفته می‌شود. فاصله‌ای که بین این دو نمودار است نشان می‌دهد که به مرور زمان تعداد داده‌ها نسبت به تعداد افرادی که بتوانند این داده‌ها را تحلیل کنند مرتبا در حال افزایش است، پس نیاز به ابزار مکانیزه‌ای برای تحلیل داده، روز‌به‌روز در حال افزایش است. برای تبیین سرعت رشد داده‌ها، می‌توان به نمونه‌های ذیل اشاره نمود:
مرکز ستاره‌شناسی VLBI دارای 16 تلسکوپ بزرگ است که هر یک با سرعت 1 گیگابیت بر ثانیه داده ستاره‌شناسی را برمبنای مشاهدات یک ماه 25 روز تولید می‌کنند.
شرکت مخابراتی AT&T با میلیاردها تماس در روز سروکار دارد. چنین داده‌ی عظیمی را نمی‌توان ذخیره نمود – تجزیه و تحلیل آن می‌بایست به‌صورت برخط5 بر روی جریان داده باشد.
تیم جمع‌آوری وب کتابخانه‌ی ملی آمریکا در ماه می 2008 اعلام نموده که کتابخانه بیش از82.6 ترابایت داده گردآوری نموده است.
موسسه‌ی Ancestry.com ادعا می‌کند که در حدود600 ترابایت اطلاعات شجره‌نامه‌ای از داده‌های سرشماری آمریکا طی سال‌های 1790 الی 1930 جمع‌آوری نموده است.
در سال 1993 تمامی ترافیک اینترنت 100 ترابایت برآورد نموده است (معادل با 5 زتابایت درسال)
با توجه به مطالب مطرح شده، شاید بتوان اولین انگیزه کاوش داده را رشد روزافزون آن
دانست. در واقع رشد داده به حدی است که تنها در صورت وجود ابزار مکانیزه برای بررسی آن می‌توان امیدوار به استفاده از آن بود. زیرا در غیر این صورت هم‌زمان با تحلیل حجم کوچکی داده، حجم بسیار زیادی از همان داده در حال تولید شدن است که هرگز فرصتی برای کاوش آن وجود نخواهد داشت. به علاوه مشکلاتی دیگر که در ادامه اشاره شده‌اند نیز وجود دارند:
معمولا دانشی که در داده‌ها وجود دارد خیلی بدیهی، روشن و واضح نیست.
تحلیل گران انسانی ممکن است هفته‌ها برای کشف اطلاعات باارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوما موفق هم نشوند.
گاهی اوقات با وجود امکان جمع‌آوری داده، این کار انجام نمی‌شود. دلیل عدم جمع‌آوری داده معمولا عدم وجود دانش برای جمع‌آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و باارزش است که همیشه وجود ندارد.

شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیل‌گران داده
2-3-نیاز به داده‌کاوی
روش سنتی تبدیل داده‌ها به دانش، متکی به تجزیه، تحلیل و تفسیر دستی است. این تجزیه و تحلیل‌های دستی مجموعه‌های داده‌ای، کند، گران و بسیار موضوعی است. در حقیقت با رشد نمایی حجم داده‌ها، این نوع تجزیه و تحلیل‌ها در بسیاری از حوزه‌ها غیر عملی است. هنگامی که مقیاس به‌کارگیری داده‌ها و استدلال بر مبنای آن‌ها فراتر از ظرفیت‌های انسانی می‌رود، امید به کمک فناوری کامپیوتر می‌رود. مساله استخراج دانش از پایگاه‌های داده‌ای بزرگ شامل مراحل بسیاری از دستکاری، بازیابی و پیش‌پردازش داده‌ها تا استدلالات ریاضی، آماری، جستجو و استنتاج می‌باشد(Wai-Ki Ching&Michael Kwok,2005).

2-4- چالش‌های داده‌کاوی
شاید بتوان مهم‌ترین نقاط ضعف روش‌های داده‌کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگی‌ها. منظور از وجود داده‌این است که اصولا داده‌ای برای کاوش وجود داشته باشد و این‌گونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متاسفانه این مشکل در بسیاری از محیط‌های واقعی وجود دارد. صحت داده مبین آن است که داده جمع‌آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام «محسن» زن وارد شده باشد و یا اشتباه های دیگری که دلیل وجودی آن‌ها خطا در ورود داده است، رخ دهد. کافی بودن ویژگی‌ها بدین معنا است که ویژگی‌های اخذ شده برای هر رکورد یا شیء برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل در دسته‌بندی کننده برای تشخیص بیماری دیابت در یک کلینیک است، ثبت ویژگی قندخون بسیار مهم است در حالی که وجود ویژگی میزان تحصیلات اهمیتی ندارد. توجه کنید چنان چه هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشند هیچ یک از الگوریتم‌های داده‌کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده‌کاوی چالش‌های متفاوتی وجود دارد که در اینجا به بررسی آن‌ها می پردازیم.
توجه کنید، منظور از چالش در اینجا مشکلاتی است که فرآیند داده‌کاوی و الگوریتم‌های مربوط به این فرآیند قادر به مواجهه با آن‌ها می‌باشند. بنابراین سه مورد اشاره شده، نقاط ضعف و نه چالش‌های موجود در داده‌کاوی هستند. در داده‌کاوی می‌توان چالش‌ها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو دسته می‌پردازیم.

2-4-1- چالش‌های اولیه
چالش‌های اولیه که انگیزه مهم به کارگیری فرآیند داده‌کاوی به جای روش‌های سنتی تحلیل داده‌ها هستند عبارتند از: حجیم بودن داده‌ها، ابعاد بالای داده‌ها، طبیعت توزیع شده و ناهمگن داده‌ها. در ادامه به بررسی هر کدام از این چالش‌ها می‌پردازیم
حجم بالای داده: الگوریتم‌های داده‌کاوی با تعداد زیادی از رکوردها کار می‌کنند و حجم زیادی از داده‌ها را پردازش می‌کنند. به طور کلی هر چه تعداد رکوردهای موجود زیادتر باشد باعث می‌شود روش‌های سنتی نتوانند این رکوردها را پردازش کنند. اگر تعداد رکوردها کم باشد فرآیند تحلیل آن‌ها بسیار ساده است و معمولا احتیاج به روش‌های داده‌کاوی نیست چرا که روش‌های ساده‌تر از داده‌کاوی نیز می‌توانند جوابگو باشند. هرچه تعداد رکوردها بیشتر باشد باعث می‌شود علم داده‌کاوی بتواند کارکرد درخشان‌تری داشته باشد. دراین موارد روش‌های ساده، سنتی و روش‌هایی که ممکن است حتی مکانیزه هم نباشند و شاید از کامپیوتر در آن‌ها استفاده نشود، نمی‌توانند خیلی کارگشا باشند.
ابعاد بالای داده‌ها: منظور از بعد همان فیلد یا ویژگی (خصیصه) می‌باشد. به طور کلی هر چه تعداد ویژگی‌ها بیشتر باشد، باعث خواهد شد که تحلیل داده‌ها مشکل‌تر شود. هرچه تعداد ویژگی‌های موجود در داده‌ها بیشتر باشد، نمی‌توان با استفاده از روش‌های سنتی بین آن‌ها نظمی پیدا کرد. این درحالی است که در این‌گونه مواقع الگوریتم‌های داده‌کاوی می‌توانند اثربخشی و توان بالقوه‌ای که دارا هستند را نشان دهند. در غیر این صورت از روش‌های ساده‌تر هم می‌توان برای پردازش داده‌ها استفاده نمود.
طبیعت توزیع شده داده‌ها: به طور کلی طبیعت توزیع شده داده‌ها وجود داده‌ها در منابع پراکنده باعث می‌شود نتوانیم از روش‌های سنتی برای پردازش داده‌ها استفاده کنیم. دراین مواقع به روش‌های داده‌کاوی نیاز داریم. این روش‌ها باید قادر باشند داده‌هایی را که در مکآن‌های مختلف ذخیره شده‌اند به گونه‌ای مدیریت کند که دانش نهفته را از نهان این داده‌های پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن داده‌ها: در انباره داده‌ای که به‌عنوان مخزن فرآیند داده‌کاوی عمل می‌کند، انواع مختلفی از ویژگی‌ها وجود دارند. هر ویژگی محدوده مقادیر مشخص و ویژه ای اختیار می‌کند. کمینه و بیشینه مقادیر مربوط به بعضی از ویژگی‌ها باهم تفاوت زیادی دارند. بعضی از ویژگی‌ها، حوزه مقداری بسار وسیع بعضی دیگر حوزه محدودی دارند. دراین مواقع می‌توان از مباحث نرمال‌سازی برای برخورد با این مشکل استفاده کرد. اما مسائل دیگری نیز در ارتباط با ویژگی‌ها وجود دارند. به‌عنوان مثال بعضی از ویژگی‌های عددی (صحیح یا حقیقی) هستند، بعضی دودویی هستند، بعضی دیگر از ویژگی‌ها اسمی هستند (مثل رنگ چشم). بعضی از ویژگی‌ها نیز به گونه‌ای هستند که در مورد آن‌ها تنها می‌توان گفت آیا باهم مساوی هستند یا خیر (مثل رنگ چشم)، گونه‌ای دیگر از ویژگی‌ها به این شکل اند که در مورد آن‌ها علاوه بر مساوی یا نامساوی بودن می‌توان بزرگ‌تر و کوچک‌تر بودن را نیز تعیین نمود (مثل سطح تحصیلات)، در مورد برخی دیگر از ویژگی‌ها علاوه برمساوی یا نامساوی بودن و تعیین کوچک‌تر و یا بزرگ‌تری، می‌توان از عملگرهای جمع و تفریق نیز استفاده نمود (مثل تاریخ‌های تقویم) و در نهایت در مورد گروهی دیگر از ویژگی‌ها علاوه بر مساوی یا نامساوی، کوچک‌تر و یا بزرگ‌تر بودن، همچنین جمع و تفریق آن‌ها، می‌توان عملگرهای ضرب و تقسیم را نیز به کار برد (مثل قد و وزن). درنتیجه به دلیل تنوع بالای ماهیت ویژگی‌ها نمی‌توان از روش‌های سنتی برای پردازش داده‌ها استفاده نمود.
2-4-2- چالش‌های ثانویه
چالش‌های ثانویه به آن دسته از چالش‌هایی گفته می‌شود که در قیاس با چالش‌های اولیه از اهمیت کمتری برخوردارند. البته می‌بایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالش‌ها پایین است و یا حل مشکلات مربوط به آن‌ها کار ساده و یا کم‌تاثیری است. در ادامه به بررسی این چالش‌ها خواهیم پرداخت.
کیفیت داده6 : مربوط به زمانی است که کیفیت داده‌ها پایین است. به عنوان نمونه هنگامی که داده‌های ما شامل نویز، داده پرت7، داده گمشده8 و داده تکرارشده9 باشد، شاهد پایین آمدن کیفیت داده‌ها خواهیم بود.
عدم مالکیت داده10: به دلایل گوناگون مانند توزیع‌شدگی ممکن است نتوانیم کل داده‌ها را یک‌جا در مالکیت داشته باشیم و فرآیند کاوش را روی آن‌ها انجام دهیم.
حفظ حریم شخصی داده‌ها11: مربوط به زمانی است که باید با رعایت حریم شخصی، داده‌ها را کاوش نماییم. فرآیند کاوش می‌بایست به‌گونه‌ای انجام شود که بتوان بدون دسترسی به همه داده‌ها و با دیدن تنها بخش محدودی از آن فرآیند داده‌کاوی را پیش‌برد. تفاوت حفظ حریم شخصی داده‌ها با توزیع‌شدگی و عدم مالکیت داده دراین است که در توزیع‌شدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه داده‌ها استفاده شود ولی در اینجا ممکن است به بخشی از داده‌ها اصلا دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان داده‌های در دسترس بسازیم.
داده‌های جریانی12: به داده‌هایی گفته می‌شود که سرعت تولید آن‌ها بالا است به گونه‌ای که فرصت تحلیل آن‌ها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتبا داده‌های جدیدی تولید می‌شوند. بنابراین سیستم باید به صورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل به‌روزی را در اختیار قرار دهد.
2-5-معرفی داده‌کاوی
برای درک کامل معنای داده‌کاوی می‌بایست ابتدا تعریف درستی از معانی کلمات داده،
اطلاعات و دانش داشته باشیم. این تعاریف در ذیل ارائه شده اند.
داده: به هر گونه سیمبل، عدد، رقم، کاراکتر، رشته و یا سیگنال که معنای خاصی را به ذهن القاء نکند داده گفته می‌شود. داده پایه‌ای‌ترین مفهوم در داده‌کاوی است که مبرا از هر‌گونه پردازشی می‌باشد.
اطلاعات: چنان‌چه در کنار عدد، کاراکتر و یا هر عنصر داده‌ای رشته‌ای به عنوان توصیف‌کننده‌ی معنای آن داده وجود داشته باشد، داده ابتدایی به اطلاعات تبدیل خواهد شد.
دانش: وجود یک رابطه میان دو عنصر اطلاعاتی مبین دانشی در آن زمینه است.
خرد: عالی‌ترین سطح بینش است که توسط علائم و نمادهای قراردادی تبیین می‌شود.
می‌توان شکل 2-2 را جهت نشان دادن سلسله مراتب ارزشی برای معانی داده، اطلاعات، دانش و خرد در نظر گرفت. همان‌گونه که در این شکل دیده می‌شود هم‌زمان با افزایش ارزش معنایی برای مفاهیم مذکور حجم آن‌ها کاهش می‌یابد که کاملا طبیعی است. به عبارت دیگر این بسیار بدیهی است که بتوان حجم بالایی داده را با تنها چند قانون توصیف و تبیین نمود. کاری که اصلی‌ترین هدف در فرآیند داده‌کاوی است(صنیعی‌آباده،1391).
شکل 2-2 سلسله مراتب داده تا خرد
تعارف مختلفی برای داده‌کاوی وجود دارد، شاید بتوان تعریف ذیل را به عنوان یک تعریف کامل و جامع برای داده‌کاوی ارائه نمود:
استخراج خودکار دانش جدید و مفید از منابع داده‌ای حجیم موجود طی یک فرآیند غیر بدیهی مشخص داده‌کاوی نامیده می‌شود.
2-5-1-منشاُ علمی
علم داده‌کاوی از علوم مختلفی از جمله علم آمار، هوش مصنوعی، یادگیری ماشین، شناسایی الگو و پایگاه‌داده نشات گرفته است. در واقع این علوم ریشه‌های علم داده‌کاوی هستند. ما می‌توانیم از همه تکنیک‌هایی که در این علوم هستند بهره بگیریم به‌گونه‌ای که بتوانیم بفهمیم الگوریتم‌ها و روش‌هایی که در داده‌کاوی هستند چگونه عمل می‌کنند. الگوریتم‌های موجود در هوش مصنوعی و علم آمار کمک شایانی به داده‌کاوی می‌کنند. مباحث موجود در یادگیری ماشین و شناسایی الگو نیز با مباحثی که در داده‌کاوی هستند همپوشانی قابل ملاحظه‌ای دارند. به عنوان مثال الگوریتم‌هایی که یک مدل را یاد می‌گیرند یا الگویی را شناسایی می‌کنند، به‌خصوص اگر داده‌های مورد پردازش عددی یا متنی باشند (سیمبلیک نباشند) معمولا وجه مشترک یادگیری ماشین و شناسایی الگو با داده‌کاوی هستند. به‌علاوه، در علم پایگاه‌داده ‌یک پایگاه‌داده بزرگ داریم و همین پایگاه‌داده را در داده‌کاوی به عنوان انبار داده می‌شناسیم. این انبار داده باید حتما وجود داشته باشد تا یک الگوریتم داده‌کاوی بتواند روی آن انبار داده کار کند. حال از تکنیک‌هایی که در پایگاه‌داده برای جمع‌آوری داده‌ها وجود دارد می‌توانیم برای ایجاد این انبار داده جهت استفاده در فرآیند داده‌کاوی استفاده نماییم.

2-5-2- معماری سیستم داده‌کاوی
داده‌کاوی فرایند اکتشاف اطلاعات و روندهای جالب نهفته از درون حجم بسیار زیاد داده‌هایی است که در قالب پایگاه‌داده‌ای، انبارهای داده‌ای، یا هرنوع انباره اطلاعاتی، ذخیره می‌شود. براساس این دیدگاه معماری یک سیستم داده‌کاوی می‌تواند به‌صورتی‌که درشکل 2-3 نمایش داده شده است، درنظرگرفته شود.
شکل 2-3 معماری یک سیستم داده‌کاوی
پايگاه داده، پايگاه داده تحليلی، يا مخزن اطلاعاتی ديگری
اين قسمت شامل يك يا چند پايگاه داده، پايگاه داده‌ی تحليلي يا مخازن اطلاعاتي ديگری است كه دراین‌جا فنون یکپارچه‌سازی وپاک‌سازی داده‌ای ممکن است برروی داده‌ها به کار گرفته شود.
سرويس دهنده‌ی پايگاه‌داده
اين سرويس دهنده مسئوليت واكشي داده را براساس درخواست داده‌كاوی كاربر بر عهده دارد.
پایگاه دانش
دامنه دانشی است که برای هدایت جستجوها ویاارزیابی جالب بودن نتایج الگوها به کار می‌رود. چنین دانشی می‌تواند دربرگیرنده سلسله مراتب مفهومی، باشد که برای سازماندهی صفات یا مقادیر صفات به سطوح مختلف انتزاع به‌کارگرفته می‌شود (دانشی ازجمله غیرمترقبه بودن آن‌ها)
موتور داده‌کاوی
این قسمت برای یک سیستم داده‌کاوی بسیار ضروری است و درواقع دربرگیرنده مجموعه‌ای
از پیمانه‌های کارکردی برای وظایفی همچون طبقه‌بندی، خوشه‌بندی، انجمنی، وتحلیل‌های تکاملی است.
پیمانه ارزیابی الگو
این قسمت نیز به‌طور‌کلی دربرگیرنده مقیاس‌های جالب بودن است و درتعامل با پیمانه‌های داده‌کاوی قرار دارد و تمرکز اصلی آن، جستجو به دنبال الگوهای جالب است. ممکن است از حدود آستانه جالب بودن برای فیلتر کردن الگوهای استخراج شده استفاده نماید. به‌صورت متناوب براساس روش به‌کار گرفته شده در داده‌کاوی می‌توان پیمانه ارزیابی الگو را با پیمانه کاوش یکی درنظر گرفت. برای داشتن داده‌کاوی کارآمدتر توصیه می‌شود ارزیابی الگوهای جالب تا حدامکان درفرآیند کاوش قرار گیرد تا دامنه جستجو محدود به الگوهای جالب شود.
واسط گرافیکی کاربر
این پیمانه ارتباط بین کاربر و سیستم داده‌کاوی را برقرار می‌سازد و به کاربر اجازه می‌دهد تا با سیستم داده‌کاوی در تعامل باشد. علاوه‌براین، این قسمت برای کاربر قابلیت مرور بر پایگاه‌داده، انبار داده ‌یا ساختارهای داده، الگوهای کشف شده و بصری‌سازی این الگوها را به صور مختلف، فراهم می‌کند.
2-5-3- مراحل عملیات داده‌کاوی
فرآیند داده‌کاوی شامل سه مرحله است:
آماده‌سازی داده
یادگیری مدل
ارزیابی و تفسیر مدل
در ادامه به توصیف هر کدام از این مراحل خواهیم پرداخت.
2-5-3-1-آماده‌سازی داده



قیمت: تومان

دسته بندی : پایان نامه

پاسخ دهید