دانشگاه قم
دانشکده فنیومهندسی
پایاننامه دوره کارشناسیارشد مهندسیفناوریاطلاعات (IT)
عنوان:
استفاده از دادهکاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص، تصمیم و تجویز، مطالعه موردی: بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س)
استاد راهنما:
دکتر بهروز مینایی بیدگلی
نگارنده:
محدثه حائری یزدی
زمستان/1393
تقدیم به:
ساحت مقدس امام زمان روحیفداه
و همچنین

تقدیم به پدر بزرگوارم
کوهی استوار و حامی من در طول تمام زندگی
و مادر مهربانم
سنگ صبوری که الفبای زندگی به من آموخت

و تقدیم به همسرم
اسطوره زندگی، پناه خستگی و امید بودنم که در
سایه همیاری و همدلی او به این منظور نائل شدم
و فرزند دلبندم
امیدبخش جانم که آسایش او آرامش من است.
تشکروقدردانی
حمد و سپاس مخصوص خداست که پروردگار جهانیان است. اکنون که در سایه الطاف و عنایت خداوند موفق به نگارش این پایاننامه شدم، برخود لازم میدانم از تمامی اساتید بزرگوار، بهویژه اساتید دورهی کارشناسیارشد که در طول سالیان گذشته مرا در تحصیل علم و معرفت و فضائل اخلاقی یاری نمودهاند، تقدیر و تشکر نمایم.
هرچند واژهها یارای آن نیست که لطف و محبت کسانی را که در دوران این تحقیق، جرعه نوش دریای بیکران مهرومحبتشان بودهام به تصویر بکشند، به رسم ادب و احترام، برخود واجب میدانم که از استاد گرامی و بزرگوار جناب آقای دکتر بهروز مینایی بیدگلی که راهنمایی اینجانب را در انجام تحقیق، پژوهش و نگارش این پایاننامه تقبل نمودهاند، نهایت تشکر و سپاسگزاری را دارم.

چکیده
بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمتهایی از دستگاه تنفس باعث اختلال در عملکرد ریهها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا میکنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماریهای ریوی یکی از عوامل مهم مرگومیر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماریها در همان ابتدای روزهای بستری است. تکنیکهای دادهکاوی میتوانند دانش نهفته در پایگاههای داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماریها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسهی سیستمهای ردهبندی متفاوت و مقایسهی روشهای یادگیری دادههای نامتوازن با الگوریتم پایه، در نهایت، سیستم ردهبندی ارائه شده که میتواند در تشخیص انواع بیماریهای تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماریهای تنفسی پرداخته شده است.

کلمات کلیدی: دادهکاوی پزشکی، ردهبندی، تشخیص بیماریهای تنفسی، مجموعه دادههای نامتوازن.

فهرست مطالب
عنوان صفحه
فصل1: مقدمه…………………………………………………………………………………………………………….1
1-1. موضوع تحقیق…………………………………………………………………………………………..2
1-2. اهمیت و ضرورت تحقیق…………………………………………………………………………….3
1-3. قلمرو تحقیق……………………………………………………………………………………………..4
1-4. فرضیههای تحقیق………………………………………………………………………………………4
1-5. سوالات تحقیق………………………………………………………………………………………….5
1-6. اهداف و کاربردهای تحقیق…………………………………………………………………………5
1-7. نوآوری در تحقیق……………………………………………………………………………………..6
1-7-1. موضوع و دادههای استفاده شده در تحقیق……………………………………………..6
1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب……………………………………………..6
1-8.. محدودیتهای تحقیق………………………………………………………………………………..6
1-9. ساختار پایاننامه…………………………………………………………………………………………7
فصل2: ادبیات تحقیق…………………………………………………………………………………………………..8
2-1. مقدمه………………………………………………………………………………………………………9
2-2. دادهکاوی…………………………………………………………………………………………………9
2-2-1. مفهوم دادهکاوی……………………………………………………………………………….9
2-2-2. مراحل دادهکاوی…………………………………………………………………………….10
2-2-3. پیشپردازش…………………………………………………………………………………..10
2-2-3-1. پاکسازی داده………………………………………………………………………11
2-2-3-2. یکپارچهسازی داده………………………………………………………………….11
2-2-3-3. تبدیل داده……………………………………………………………………………..11
2-2-3-4. کاهش داده……………………………………………………………………………12
2-2-3-5. تصویرکردن برای کاهش بعد……………………………………………………12
2-2-4. دادهکاوی………………………………………………………………………………………13
2-2-5. پسپردازش……………………………………………………………………………………14
2-2-6. کاربردهای دادهکاوی………………………………………………………………………14
2-3. دادهکاوی در پزشکی……………………………………………………………………………….14
2-4. بیماری تنفسی………………………………………………………………………………………….16
2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17
2-4-2. پنومونی…………………………………………………………………………………………17
2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18
2-5. الگوریتمهای ردهبندی………………………………………………………………………………18
2-5-1. درخت تصمیم………………………………………………………………………………..19
2-5-1-1. CHAID…………………………………………………………………………….20
2-5-1-2. ID3……………………………………………………………………………………20
2-5-1-3. C5.0…………………………………………………………………………………..21
2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21
2-5-3. شبکهی عصبی………………………………………………………………………………..24
2-5-4. Bagging…………………………………………………………………………………….25
2-5-5. AdaBoost…………………………………………………………………………………27
2-6. پیشینهی تحقیقات در بیماریهای تنفسی……………………………………………………….30
فصل3: دادههای نامتوازن……………………………………………………………………………………………32
3-1. مقدمه…………………………………………………………………………………………………….33
3-2. روشهای یادگیری در دادههای نامتوازن………………………………………………………33
3-2-1. نمونهبرداری……………………………………………………………………………………33
3-2-1-1. بیشنمونهبرداری تصادفی…………………………………………………………34
3-2-1-2. زیرنمونهبرداری تصادفی…………………………………………………………..34
3-2-1-3. نمونهبرداری آگاهانه……………………………………………………………….34
3-2-1-3-1. EasyEnsemble……………………………………………………….35
3-2-1-3-2. ModifiedBagging………………………………………………….36
3-2-1-4. ترکیب نمونهبرداری و تولید داده……………………………………………….37
3-2-2. روشهای حساس به هزینه…………………………………………………………………39
3-3. معیارهای ارزیابی ردهبند در دادههای نامتوازن……………………………………………….41
3-4. معیارهای ارزیابی ردهبند در دادههای نامتوازن و چند ردهای…………………………….44
3-4-1. میانگینگیری میکرو………………………………………………………………………..46
3-4-2. میانگینگیری ماکرو…………………………………………………………………………46
فصل4: پیشپردازش دادهها………………………………………………………………………………………..47
4-1. مقدمه…………………………………………………………………………………………………….48
4-2. جمعآوری دادهها…………………………………………………………………………………….48
4-3. ویژگیهای دادهها……………………………………………………………………………………48
4-4. نحوه توزیع دادهها براساس ویژگیها…………………………………………………………..51
4-4-1. نوع بیماری تنفسی……………………………………………………………………………51
4-4-2. سن……………………………………………………………………………………………….52
4-5. پیشپردازشهای انجام شده……………………………………………………………………….53
4-5-1. حذف ویژگیهای اضافی………………………………………………………………….53
4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53
4-5-3. یکپارچهسازی داده………………………………………………………………………….54
4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55
4-5-4-1. تفسیر آزمایشهای انجام شده روی بیماران………………………………….55
4-5-4-2. WBC (White Blood Cell)……………………………………………56
4-5-4-3. چه چیزهایی باعث کاهش WBC میشود؟………………………………..56
4-5-4-4. چه چیزهایی باعث افزایش WBC میشود؟………………………………..56
4-5-4-5. جدول گسستهسازی WBC……………………………………………………..57
4-5-4-6. RBC(Red Blood Cell)…………………………………………………57
4-5-4-7. چه چیزهایی باعث کاهش RBC میشود؟…………………………………57
4-5-4-8. چه چیزهایی باعث افزایش RBC میشود؟…………………………………58
4-5-4-9. جدول گسستهسازی RBC………………………………………………………58
4-5-4-10. Hb (Hemoglobin)………………………………………………………..58
4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین میشود؟………………………….59
4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین میشود؟…………………………59
4-5-4-13. جدول گسستهسازی هموگلوبین………………………………………………59
4-5-4-14. HCT (Hematocrit)……………………………………………………….59
4-5-4-15. چه چیزهایی باعث کاهش HCT میشود؟……………………………….60
4-5-4-16. چه چیزهایی باعث افزایش HCT میشود؟……………………………….60
4-5-4-17. جدول گسستهسازی HCT…………………………………………………….60
4-5-4-18. Plt یا پلاکتها……………………………………………………………………60
4-5-4-19. چه چیزهایی پلاکت را کاهش میدهد؟……………………………………61
4-5-4-20. چه چیزهایی پلاکت را افزایش میدهد؟……………………………………61
4-5-4-21. جدول گسستهسازی پلاکت……………………………………………………61
4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61
4-5-4-23. جدول گسستهسازی MCV، MCH و MCHC……………………..62
4-5-4-24. CRP (C-Reactive Protein)…………………………………………63
4-5-4-25. در چه شرایطی CRP افزایش پیدا میکند؟……………………………….63
4-5-4-26. در چه شرایطی CRP کاهش پیدا میکند؟……………………………….63
4-5-4-27. جدول گسستهسازی CRP…………………………………………………….63
4-5-4-28. ESR (Erythrocyte Sedimentation Rate)…………………64
4-5-4-29. جدول گسستهسازی ESR……………………………………………………..64
4-5-4-30. جدول گسستهسازی BS (Blood Suger)…………………………….64
4-5-5. ویژگی دادهها پس از پیشپردازش نهایی……………………………………………..64
4-6 نمونهبرداری…………………………………………………………………………………………….67
فصل5: نتایج و یافتههای تحقیق……………………………………………………………………………………69
5-1. مقدمه…………………………………………………………………………………………………….70
5-2. ردهبندی…………………………………………………………………………………………………70
5-2-1. مقایسهی الگوریتمهای پایه………………………………………………………………..70
5-2-2. مقایسهی روشهای یادگیری در دادههای نامتوازن…………………………………74
فصل6: نتیجهگیری و پیشنهادات…………………………………………………………………………………..79
6-1. مقدمه…………………………………………………………………………………………………….80
6-2. نتیجهگیری……………………………………………………………………………………………..80
6-3. پیشنهادها………………………………………………………………………………………………..82
6-3-1. مجموعهی داده……………………………………………………………………………….82
6-3-2. دادهکاوی………………………………………………………………………………………82
مراجع…………………………………………………………………………………………………………………….83
پیوست الف: واژهنامه انگلیسی به فارسی………………………………………………………………………. 92
فهرست جدولها
عنوان صفحه
جدول3-1: ماتریس اغتشاش برای مسائل دودویی…………………………………………………………..41
جدول3-2: ماتریس اغتشاش برای مسائل چند ردهای………………………………………………………44
جدول4-1: ویژگیهای موجود در مجموعه داده اولیه……………………………………………………..49
جدول4-2: اسامی ویژگیها پس از برخی از مراحل پیشپردازش………………………………………54
جدول4-3: ردهبندی فیلد سن به گروه سنی……………………………………………………………………55
جدول 4-4: ردهبندی فیلد آزمایش WBC…………………………………………………………………..57
جدول 4-5: ردهبندی فیلد آزمایش RBC…………………………………………………………………….58
جدول 4-6: ردهبندی فیلد آزمایش Hb………………………………………………………………………..59
جدول 4-7: ردهبندی فیلد آزمایش HCT…………………………………………………………………….60
جدول 4-8: ردهبندی فیلد آزمایش PLT……………………………………………………………………..61
جدول 4-9: ردهبندی فیلد آزمایش MCV…………………………………………………………………..62
جدول 4-10: ردهبندی فیلد آزمایش MCH…………………………………………………………………62
جدول 4-11: ردهبندی فیلد آزمایش MCHC……………………………………………………………..62
جدول 4-12: ردهبندی فیلد آزمایش CRP…………………………………………………………………..63
جدول 4-13: ردهبندی فیلد آزمایش ESR…………………………………………………………………..64
جدول 4-14: ردهبندی فیلد آزمایش BS……………………………………………………………………..64
جدول4-15: ویژگیهای مجموعه داده ثانویه پس از پیشپردازش نهایی……………………………..65
فهرست شکلها
عنوان صفحه
شکل2-1: نمونهای از یک درخت تصمیم……………………………………………………………………..19
شکل2-2: یک مجموعهی آموزش دوبعدی که دادههای آن به صورت خطی قابل جداسازی است………………………………………………………………………………………………………………………22
شکل2-3: دو خط جداساز با حاشیههای مختلف…………………………………………………………….23
شکل2-4: افزایش صحت مدل با استفاده از Bagging…………………………………………………..25
شکل2-5: شبهکد الگوریتم Bagging………………………………………………………………………..26
شکل2-6: شبهکد الگوریتم AdaBoost……………………………………………………………………..28
شکل3-1: شبهکد الگوریتم EasyEnsemble…………………………………………………………….36
شکل3-2: شبهکد الگوریتم ModifiedBagging………………………………………………………37
شکل3-3: (a) kتا از نزدیکترین همسایههای xi با فرض k=6
(b) تولید داده براساس فاصلهی اقلیدسی…………………………………………………………38
شکل3-4: ماتریس هزینهی چندردهای………………………………………………………………………….40
شکل4-1: توزیع دادهها براساس نوع بیماری تنفسی…………………………………………………………52
شکل4-2: توزیع دادهها براساس سن…………………………………………………………………………….52
شکل4-3: نمونهبرداری طبقهبندی شده…………………………………………………………………………68
شکل5-1: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آزمون)………………71
شکل5-2: مقایسهی کارایی الگوریتمها در تشخیص ردههای مختلف…………………………………72
شکل5-3: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آموزش)…………….73
شکل5-4: مقایسهی نتایج حاصل از روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون…………………………………………………………………………………………………………………….75
شکل5-5: مقایسهی حساسیت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها……………………………………………………………………………………………………….76
شکل5-6: مقایسهی دقت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها…………………………………………………………………………………………………………76
شکل5-7: مقایسهی معیارF روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها………………………………………………………………………………………………………….78
فهرست نشانهها و اختصارها (Abreviations)
World Health Organization (WHO)
Magnetic Resonance Imaging (MRI)
Customer Relationship Management (CRM)
Chi-squared Automatic Interaction Detector (CHAID)
Iterative Dichotomiser3 (ID3)
Traditional Chinese Medicine (TCM)
Synthetic Minority Oversampling Technique (SMOTE)
White Blood Cell (WBC)
Red Blood Cell (RBC)
Hemoglobin (Hb)
Mean Corpuscular Volume (MCV)
Mean Corpuscular Hemoglobin (MCH)
Mean Corpuscular Hemoglobin Concentration (MCHC)
C-Reactive Protein (CRP)
Erytherocyte Sedimentation Rate (ESR)
فصل1: مقدمه

1-1. موضوع تحقیق
بیماری تنفسی1 که عموما در ارتباط با بیماری ریوی2 است، شامل گروهی از بیماریها هستند که از طریق درگیر کردن بخش یا قسمتهایی از دستگاه تنفس3 باعث اختلال در عملکرد ریه4ها میگردند. ریهها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافتهای مختلف بدن و دفع دیاکسیدکربن نقش دارند. بیماریهای ریوی در هر سال بسیاری از افراد جامعه را مبتلا میکنند که باعث کاهش سطح عملکرد فرد در فعالیتهای روزمره میگردند. بیماریهای دستگاه تنفسی در انگلستان شایعترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماریهای ریوی میتوانند عفونت دستگاه تنفسی فوقانی5، پنومونی6 و یا بیماری مزمن انسدادی ریه7 باشند.
بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند8. مطابق آمار سازمان بهداشت جهانی9، صدها میلیون نفر از جمعیت جهان از بیماریهای مزمن تنفسی رنج میبرند. پیشبینی میشود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.
تکنیکهای دادهکاوی10 علاوه بر اینکه میتوانند در تشخیص سریع این بیماریها موثر باشند، میتوانند از طریق شناسایی عوامل موثر در بروز انواع بیماریهای تنفسی، به پیشگیری از این بیماریها کمک کنند و به این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینههای سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.

1-2. اهمیت و ضرورت تحقیق
بیماریهای مزمن تنفسی از 10 مورد بیماریهای تهدید کننده حیات در جهان هستند و پیشبینی میشود تا سال 2030 میلادی به سومین عامل مرگومیر در جهان بعد از بیماریهای قلبیوعروقی و سرطانها تبدیل گردد. گرچه، گسترش تکنولوژیهای پزشکی در دهه گذشته، موجب کاهش میزان مرگومیر ناشی از این بیماری شده است و بهدلیل تشخیص زودهنگام و درمان بهینه، میزان بهبودی افزایش یافته است. اما میزان بهبودی بیماران در این نوع بیماریها بستگی به نوع بیماری و وسعت آسیب وارده به دستگاه تنفسی دارد11. تشخیص زودهنگام نیز به یک روش تشخیص صحیح و قابل اعتماد نیاز دارد که به پزشکان اجازه میدهد که عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه را از هم شناسایی کنند. بنابراین یافتن یک متد تشخیص صحیح و موثر و همچنین عوامل خطر در بروز این بیماری، بسیار بااهمیت است.
مشکلی که در این بیماری وجود دارد این است که در ابتدا ممکن است یک سرماخوردگی یا آنفولانزای ساده بهنظر آید. گاهی حتی به مدت زمان طولانی بیمار از این بیماری رنج میبرد. بدیهی است که در این مدت بیماری پیشرفت کرده و این تاخیر در تشخیص نوع بیماری، روند درمان را با مشکل مواجه خواهد کرد تا جایی که حتی ممکن است به مرگ بیمار منجر شود. بنابراین نیاز است تا از روشهای پیشرفتهتری برای تشخیص زودهنگام این نوع بیماریهای تنفسی استفاده شود. روشهای رایج برای تشخیص زودهنگام بیماریهای تنفسی عبارتند از: تستهای آزمایشگاهی، رادیوگرافی12 قفسه سینه، اسکن هستهای ریه، امآرآی13، آسپیراسیون سوزنی14 از طریق دیواره قفسه سینه. این روشها علاوه بر هزینهی بالایی که بر بیمار تحمیل میکنند، ممکن است مضراتی را برای بیمار در پی داشته باشند. به عنوان مثال: امآرآی پرهزینه و کار با آن مشکل است. موجب مشکلات برای بیماران که دارای اجسام فلزی در بدن خود میباشند، میشود. در ضمن بیمار در حین انجام امآرآی باید بیحرکت بوده و حرکات غیرقابل پیشگیری، مانند تنفس ضربان قلب اغلب تصویر را مخدوش میسازد. همچنین برای بیمارانی که مشکلات تنفسی و کسانی که از محیطهای بسته میترسند، عبور از تونل تنگ دستگاه امآیآر توصیه نمیشود.
این در حالی است که امروزه استفاده از سیستمهای ردهبندی15، میتوانند به کاهش خطایی که ممکن است توسط کارشناسان کمتجربه اتفاق بیفتد، کمک کنند و همچنین امکان بررسی دادههای پزشکی را در زمان کوتاهتر و با جزئیات بیشتر فراهم میکنند. تکنیکهای دادهکاوی میتوانند دانش نهفته در پایگاه های داده را استخراج و در پیشگیری، تشخیص و معالجهی این بیماری به پزشک و بیمار کمک کنند.

1-3. قلمرو تحقیق
قلمرو مکانی: این دادهها مربوط به بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) استان قم میباشد.
قلمرو زمانی: دادهها بین سالهای 90 و 92 میباشد؛ یعنی قلمرو زمانی تحقیق به مدت 3 سال میباشد.

1-4. فرضیههای تحقیق
فرضیههای تحقیق، شامل موارد زیر هستند:
جنس بیمار در بروز نوع بیماری تنفسی موثر است.
سن بیمار در بروز نوع بیماری تنفسی موثر است.
عفونت بیمار در بروز نوع بیماری تنفسی موثر است.
التهابات حاد بیمار در بروز نوع بیماری تنفسی موثر است.
کمخونی بیمار در بروز نوع بیماری تنفسی موثر است.
دیابت بیمار در بروز نوع بیماری تنفسی موثر است.
بخش بستری بیمار در بروز نوع بیماری تنفسی موثر است.
1-5. سوالات تحقیق
سوالی که در این تحقیق قصد داریم به آن پاسخ دهیم، این است که آیا دادهکاوی میتواند به کشف الگوهای پنهان در بیماریهای تنفسی کودکان بپردازد؟
اگر پاسخ این سوال مثبت است، چه اطلاعاتی در تشخیص این بیماری به پزشکان خواهد داد؟
آیا میتوان با استفاده از روشهای دادهکاوی، عوامل موثر در بروز نوع بیماری تنفسی را شناسایی کرد؟ اگر این کار ممکن است، عوامل موثر در بروز نوع بیماری تنفسی کدامند؟
آیا میتوان بر اساس این دادهها، یک سیستم ردهبندی برای تشخیص بیماری تنفسی ارائه داد؟ آیا سیستم ردهبندی ارائه شده، از صحت کافی برخوردار است؟

1-6. اهداف و کاربردهای تحقیق
مجموعهی دادهی مورد استفاده در این تحقیق، شامل اطلاعات افرادی است، که دارای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه میباشند. در این تحقیق، مدلی برای تشخیص نوع بیماری ارائه شده است که برمبنای آن میتوان تشخیص داد که فرد بیمار به کدامیک از دستههای عفونت دستگاه تنفسی فوقانی، پنومونی و بیماری مزمن انسدادی ریه تعلق دارد. به این ترتیب، سیستم ارائه شده میتواند در تشخیص بیماری به پزشک و بیمار کمک کند.
همچنین در این تحقیق به بررسی ارتباطات موجود در مجموعه داده پرداخته شده و برخی از عوامل موثر در بروز این بیماریها شناسایی شده است. با شناسایی عوامل موثر در بروز بیماریهای تنفسی، میتوان با اطلاعرسانی صحیح به افراد جامعه، تا حدود زیادی از ابتلا به این بیماریها پیشگیری کرد.
1-7. نوآوری در تحقیق
1-7-1. موضوع و دادههای استفادهشده در تحقیق
تاکنون هیچگونه مطالعه و تحقیقی در زمینه دادهکاوی و بیماریهای تنفسی کودکان در ایران صورت نگرفته است. به عبارتی دیگر میتوان گفت یک تحقیق منحصربهفرد در زمینهی بیماریهای تنفسی است که در نوع خود کمنظیر است.

1-7-2. بر اساس مطالعه ادبیات و نحوه ارائه مطالب
پیش از انجام دادهکاوی در این زمینه با برگزاری جلسات مشترک با متخصصین پزشکی مقرر گردید متغیرهایی انتخاب شوند که مقادیر آنها تا حد امکان دقیق باشد، بهعبارت دیگر حاصل آزمایش باشند نه بیان شده توسط خود بیمار و متغیرهایی که دارای مقادیر غیر آزمایشگاهی بودند با نظر آنها از مجموعه متغیرهای مورد بررسی خارج گردید. بهعبارتی تمامی مطالب درج شده در این تحقیق به صورت یکپارچه در هیچ منبعی یافت نشده و آنچه در این تحقیق گردآوری شده بهصورت مجزا از دو بخش آزمایشگاهی و دادهکاوی بهدست آمده است.

1-8. محدودیتهای تحقیق
همانند هر تحقیق دیگری، این تحقیق نیز با محدودیتهایی رو به رو بود که مهمترین آن نتایج آزمایشهای انجام گرفته شده روی بیماران از بیمارستان بود. که با مشکلات زیاد، موفق به دریافت این دادهها شدم و دلیل آن فقط بهدست آوردن الگویی دقیق و مفید بود.
محدودیت های دیگر در این پایان نامه باتوجه به دادههای جمعآوری شده از بیمارستان کودکان حضرت فاطمه معصومه (س) استان قم در طول سه سال، این بود که هیچگونه بیماری نادر و فوت در بیماریهای تنفسی نامبرده شده وجود نداشت.

1-9. ساختار پایاننامه
در این فصل، کلیات تحقیق شامل موضوع تحقیق، اهمیت و ضرورت تحقیق، اهداف و کاربردهای تحقیق، نوآوری در تحقیق و محدودیتهای تحقیق، بیان گردید. بهطور کلی در این تحقیق، پس از مرور کلی بر بیماری تنفسی و انواع آن، به معرفی پیشینهی تحقیق در بیماری تنفسی پرداختهایم. سپس مفهوم دادههای نامتوازن و روشهای یادگیری در دادههای نامتوازن را معرفی کرده و سرانجام به مقایسهی نتایج حاصل از الگوریتمها خواهیم پرداخت. مطالب ارائه شده در پایان نامه به تفکیک هر فصل، در ادامه آمده است.
در فصل دوم، ابتدا یک مرور کلی بر مراحل و روشهای دادهکاوی خواهیم داشت. سپس به معرفی بیماری تنفسی و انواع آن خواهیم پرداخت. سرانجام در بخش آخر این فصل، بعد از معرفی الگوریتمهای مورد استفاده در این تحقیق، برخی از تحقیقاتی که در مورد بیماری تنفسی انجام شده و مرتبط با موضوع تحقیق بوده است، بیان شده است.
فصل سوم، شامل مطالبی در ارتباط با دادههای نامتوازن میباشد. در این فصل، انواع روشهای یادگیری در دادههای نامتوازن، معرفی شدهاند. در نهایت نیز معیارهای ارزیابی ردهبند مورد بررسی قرار گرفته و معیارهای مناسب برای مسائل نامتوازن معرفی شده است.
فصل چهارم، به معرفی مجموعهی دادهی مورد استفاده در تحقیق میپردازد. در این فصل پس از بیان روش جمعآوری دادهها، به معرفی ویژگیهای موجود در مجموعهی داده پرداخته و سپس عملیاتی که بهعنوان پیشپردازش بر روی مجموعهی داده انجام شده است، بیان خواهد شد.
فصل پنجم نیز شامل نتایج و یافتههای تحقیق میباشد. در این فصل نتایج حاصل از الگوریتمهای ردهبندی را مقایسه کرده و در انتها به مقایسهی روشهای یادگیری با الگوریتم پایهی CHAID پرداختهایم.
در فصل ششم، نتیجهگیری نهایی انجام شده و پیشنهاداتی برای تحقیقات آینده ارائه شده است.

فصل2: ادبیات تحقیق
2-1. مقدمه
در این تحقیق، دادههای مربوط به بیماریهای تنفسی با استفاده از روشهای دادهکاوی مورد بررسی قرار گرفتهاند. به همین جهت در این بخش پس از مرور مختصری بر روشها و مراحل دادهکاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتمهای دادهکاوی مورد استفاده در این تحقیق و همچنین پیشینهی تحقیقات انجام شده در بیماریهای تنفسی پرداختهایم.

2-2. دادهکاوی
تکنولوژی مدیریت پایگاه دادههای پیشرفته انواع مختلفی از دادهها را میتواند در خود جای دهد، در نتیجه تکنیکهای آماری و ابزار مدیریت سنتی برای آنالیز این دادهها کافی نیست و استخراج دانش16 از این مقدار حجیم یک چالش بزرگ تلقی میشود. دادهکاوی کوششی برای بهدست آوردن اطلاعات مفید از میان این دادههاست و رشد بیرویهی دادهها در سطح جهان اهمیت دادهکاوی را دو چندان کرده است.
پایگاه دادههای پزشکی، شامل انبوهی از اطلاعات بیماران و وضعیت پزشکی آنهاست. ارتباطات و الگوهای نهفته در این دادهها میتواند دانش جدیدی در حوزه علوم پزشکی تولید کند. بهطوریکه امروزه استخراج دانش مفید و فراهم کردن ابزارهای تصمیمگیری برای تشخیص و معالجهی بیماریها، به یک موضوع ضروری تبدیل شده است.

2-2-1. مفهوم دادهکاوی
در يک تعريف غير رسمی دادهکاوی فرآيندی است، خودکار برای استخراج الگوهايی که دانش را بازنمايی ميکنند، که اين دانش به صورت ضمنی در پايگاه دادههای عظيم، انبارداده17و ديگر مخازن بزرگ اطلاعات، ذخيره شده است. دادهکاوی بهطور همزمان از چندين رشته علمی بهره ميبرد نظير: تکنولوژی پايگاه داده، هوش مصنوعی، يادگيری ماشين، شبکههای عصبی، آمار، شناسايی الگو، سيستمهای مبتنی بردانش18، حصول دانش19، بازيابی اطلاعات20، محاسبات سرعت بالا21 و بازنمايی بصری داده22 .
2-2-2. مراحل دادهکاوی
دادهکاوی اغلب بهعنوان بخشی از فرآیند «کشف دانش از پایگاهداده»، تلقی میشود. کشف دانش از پایگاه داده، فرآیندی است که دادههای خام را به دانش مفید تبدیل میکند که علاوه بر دادهکاوی، شامل دو مرحلهی پیشپردازش و پسپردازش نیز میباشد.

2-2-3. پیشپردازش
هدف پیشپردازش، تبدیل دادههای خام به قالبی است که برای تحلیلهای بعدی مناسب باشد. همچنین این مرحله به شناسایی ویژگیها و قطعات مختلف داده، کمک میکند. از آنجائیکه دادهها ممکن است با قالبهای مختلف و در پایگاه دادههای متفاوتی ذخیره شده باشند، اغلب زمان زیادی برای پیشپردازش داده لازم است[5].
پیشپردازش داده، یک محدودهی وسیع شامل استراتژیها و تکنیکهای مختلفی است که بهصورت بسیار پیچیدهای با یکدیگر در رابطهاند و این ارتباطات پیچیده، معرفی رهیافتها و ایدههای اصلی پیشپردازش را بهصورت منظم و ساختیافته بسیار مشکل میکند.
وظایف پیشپردازش عبارتند از: پاکسازی دادهها23، یکپارچهسازی دادهها24، تبدیل داده25، کاهش داده26، تصویر کردن و کاهش بعد[2].

2-2-3-1. پاکسازی داده
خطاهای عملیاتی اغلب باعث میشوند که دادههای بهدست آمده از منابع دنیای واقعی، پرغلط، ناقص و ناسازگار باشند. ابتدا لازم است، چنین دادههای بیکیفیتی، تمیز شوند. وظایف اصلی پاکسازی دادهها عبارتند از:
پرکردن ویژگیهایی با مقدار گمشده27 : رویکردهای مختلفی در برخورد با مقادیر گمشده وجود دارد که عبارتند از: حذف رکورد، پرکردن بهصورت دستی، جایگزینی با یک مقدار ثابت سراسری، جایگزینی با مقدار میانگین، جایگزینی با مقادیری با احتمال بالاتر (با استفاده از رابطههای بیزی، درخت تصمیمگیری یا پسانمایی28 ).
شناخت دادههای پرت29 و هموار کردن دادههای نویزدار30.
اصلاح دادههای ناسازگار.
رفع مشکل افزونگی که بر اثر یکپارچهسازی دادهها ایجاد شده است.
2-2-3-2. یکپارچهسازی داده
دادهکاوی اغلب به یکپارچهسازی داده (ادغام دادهها از چندین منبع داده) نیاز دارد. همچنین ممکن است لازم باشد که دادهها به شکل مناسب دادهکاوی تبدیل شوند. در این مرحله، دادههای چندین منبع را در یک مخزن منسجم ترکیب میکنیم.

2-2-3-3. تبدیل داده
در این مرحله، دادهها به شکل مناسب برای دادهکاوی تبدیل میشوند. این مرحله، شامل بخشهای زیر میباشد:
هموارسازی: این بخش از تبدیل داده، با حذف نویز سروکار دارد.
تجمیع: شامل عملیات تلخیص و تجمیع روی دادههاست. مثل تبدیل فروش روزانه به فروش هفتگی یا ماهانه.
تعمیم: جایگزینی دادهی سطح پائین با مفاهیم سطح بالاتر. مثل تبدیل متغیر پیوستهی سن به یک مفهوم سطح بالاتر مثل جوان، میانسال یا مسن.
ایجاد ویژگی31 : گاهی برای کمک به فرآیند دادهکاوی لازم است که ویژگی جدیدی از روی ویژگیهای موجود ساخته شود.
نرمالسازی: نرمالسازی شامل تغییر مقیاس دادهها به گونهایست که آنها را به یک دامنهی کوچک و معین مثل ] 1،1-[ نگاشت کند. مهمترین روشهای نرمالسازی عبارتند از: Min-Max، Z-Score و نرمالسازی با استفاده از مقیاسبندی اعشاری32.
2-2-3-4. کاهش داده
روشهای کاهش داده، میتواند برای بهدست آوردن یک بازنمایی کوچکتر و کاهشیافته از داده، که بسیار کمحجمتر از دادههای اصلی بوده و البته یکپارچگی دادههای اصلی را حفظ میکند، بهکار میرود. استراتژیهای کاهش داده، عبارتند از: تجمیع مکعبی داده33، انتخاب زیرمجموعهای از ویژگیها34، کاهش تعداد نقاط، گسستهسازی و تولید سلسله مراتب مفهومی.

2-2-3-5. تصویر کردن برای کاهش بعد
در کاهش بعد از طریق تصویر کردن، تبدیلات و کدگذاریهایی روی داده انجام میشود که در نهایت بازنمایی کاهشیافته یا فشردهای از دادههای اصلی بهدست میآید.

2-2-4. دادهکاوی
وظایف دادهکاوی را میتوان به دو بخش کلی تقسیم کرد: توصیفی و پیشبینانه.
وظایف توصیفی، خواص عمومی دادهها را مشخص میکنند. هدف از توصیف، یافتن الگوهایی در مورد دادههاست که برای انسان قابل تفسیر باشد.
وظایف پیشبینانه به منظور پیشبینی رفتارهای آینده، مورد استفاده قرار میگیرند. منظور از پیشبینی، بهکارگیری چند متغیر یا ویژگی در پایگاه داده برای پیشبینی مقادیر آینده یا مقادیر ناشناختهی دیگر متغیرهاست[2].
وظایف پیشبینانه را میتوان به دو دسته تقسیم کرد: ردهبندی و پسانمایی. ردهبندی برای پیشبینی مقدار یک متغیر گسسته بهکار میرود. درحالیکه پسانمایی برای پیشبینی مقدار یک متغیر پیوسته، مورد استفاده قرار میگیرد. در انتهای این فصل، به معرفی برخی از تکنیکهای موجود برای حل مسائل ردهبندی که در این تحقیق مورد استفاده قرار گرفته است، خواهیم پرداخت.
وظایف توصیفی را نیز میتوان به سه دسته تقسیم کرد: تحلیل انجمنی35، خوشهبندی36 و تشخیص انحراف37. هدف فرآیند تحلیل انجمنی، ایجاد مجموعهای از قوانین است که ارتباطات بین مجموعهای از ویژگیها را که بهشدت به یکدیگر وابسته هستند، بیان میکند. هدف خوشهبندی، معرفی گروههایی از داده است بهطوریکه دادههایی که در یک خوشه حضور دارند، نسبت به دادههایی که در یک خوشهی دیگر قرار دارند، شباهت بسیار بیشتری به یکدیگر دارند. در فرآیند تشخیص انحراف نیز هدف، کشف موارد غیرطبیعی یا خارج از محدوده است که شامل دادههایی هستند که با بقیهی دادههای حاضر در مجموعه، بسیار متفاوتاند[5].

2-2-5. پسپردازش
پسپردازش شامل تمام عملیاتی است که باید انجام شود تا درک نتایج دادهکاوی، برای تحلیلگران آسانتر شود. تکنیکهای مصورسازی38، ممکن است در درک نتایج دادهکاوی، به تحلیلگران کمک کنند[5].

2-2-6. کاربردهای دادهکاوی
بعضی از کاربردهای دادهکاوی به شرح زیر است:
کاربردهای معمول تجاری: از قبیل تحلیل و مدیریت بازار، تحلیل سبد بازار، بازاریابی هدف، فهم رفتار مشتری، تحلیل و مدیریت ریسک.
مدیریت و کشف فریب: کشف فریب تلفنی، کشف فریبهای بیمهای و اتومبیل، کشف حقههای کارت اعتباری، کشف تراکنشهای مشکوک مالی (پولشویی).
متن کاوی39 : پالایش متن (نامههای الکترونیکی، گروههای خبری و غیره).
پزشکی: کشف ارتباط علامت و بیماری، تحلیل آرایههای DNA، تصاویر پزشکی.
ورزش: آمارهای ورزشی.
وب کاوی40 : پیشنهاد صفحات مرتبط، بهبود ماشینهای جستجوگر یا شخصیسازی حرکت در وب سایت.
2-3. دادهکاوی در پزشکی
دادهکاوی و کاربرد آن در دادههای پزشکی و سلامتی، یکی از حوزههای تحقیقاتی نوظهور است. برخی، دادهکاوی را فرآیند آمادهسازی اطلاعات میدانند و برخی آن را بهعنوان ابزاری جهت بهبود تکنیکهای آماری معرفی میکنند. این تصورات غلط در مورد دادهکاوی هنوز در جامعهی پزشکی وجود دارد. بههر حال امروزه حوزهی پزشکی و سلامتی، بیشتر به استفاده از تکنیکهای دادهکاوی نیازمند است.
حوزهی پزشکی و سلامتی، شامل حجم زیادی از اطلاعات است که هنوز به دانش تبدیل نشدهاند. سیستمهای پزشکی، دادههای بسیار زیادی دارند ولی بهدلیل کمبود ابزارهای تحلیل کارا، الگوها و ارتباطات موجود در این دادهها هنوز کشف نشده است. دادهکاوی و کشف دانش، کاربردهای زیادی در حوزهی تجارت و کاربردهای علمی پیدا کرده است. در حوزهی پزشکی و سلامتی نیز دادهکاوی میتواند دانش بسیار ارزشمندی را از دادههای پزشکی کشف کند. دانش استخراج شده میتواند توسط مدیران بهداشت و درمان، جهت بهبود خدمات مورد استفاده قرار بگیرد. همچنین دانش استخراج شده میتواند در مشاغل دارویی جهت کاهش تعداد داروهای مضر و پیشنهاد داروهای درمانی جایگزین، استفاده شود [7, 8, 9].
برخی از حوزههایی که در آنها دادهکاوی میتواند کاربرد زیادی در مدیریت سلامت داشته باشد عبارتند از: ارزیابی میزان موفقیت روشهای درمانی، مدیریت ارتباط با مشتری41 (در سیستمهای پزشکی، مشتریها همان بیماران هستند). سیستمهای اطلاعات اجرایی برای مراقبتهای بهداشتی، پیشبینی هزینهی معالجات و تقاضای منابع، پیشبینی رفتار آیندهی بیمار براساس سابقهی وی، ساختارهای دولت الکترونیک در مراقبتهای بهداشتی، بیمهی سلامت [10, 11, 12, 13, 14]
همچنین دادهکاوی میتواند برای شناسایی عوامل موثر در بروز بیماریهای مختلف مورد استفاده قرار بگیرد و به این ترتیب میتوان به پیشگیری از بیماری کمک کرد16]، [15. کاربرد دیگر دادهکاوی در تشخیص بیماریها باتوجه به علائم و مشخصات یا آزمایشهای بیمار (مانند تصاویر در قالب اشعهی X) است که باعث تشخیص صحیح و سریع بیماری میشود [17, 18, 19, 20, 21]
2-4. بیماری تنفسی
بیماری تنفسی که عموما در ارتباط با بیماری ریوی است شامل گروهی از بیماری‌ها هستند که از طریق درگیر کردن بخش یا قسمت‌هایی از دستگاه تنفس باعث اختلال در عملکرد ریه‌ها می‌گردند. ریه‌ها مهمترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت‌های مختلف بدن و دفع دی اکسید کربن نقش دارند. نایژه‌ها، نایژک‌ها و آلوئول‌ها از اجزای مهم هر کدام از ریه‌ها به‌شمار می‌آیند که در یک بیماری تنفسی ممکن است درگیر شوند. گاهی ضایعه در بافت ریه یا عروق خونی آن ایجاد می‌گردد. بیماری‌های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می‌کنند که باعث کاهش سطح عملکرد فرد در فعالیت‌های روزمره می‌گردند. بیماری‌های دستگاه تنفسی در انگلستان شایع ترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری‌های ریوی یکی از عوامل مهم مرگ و میر افراد در سراسر جهان است.
علائم و نشانه‌ها در بیماران تنفسی بر اساس نوع بیماری و میزان پیشرفت آن متفاوت است. در حالت‌های مزمن، علائم اغلب به تدریج آشکار می‌گردند و به صورت پیشرونده‌ای بدتر می‌شوند و در شرایط حاد، علائم ممکن است خفیف تا شدید باشند42. اگرچه هر بیماری ریوی مشخصه‌های خاص خودش را دارد، ولی علائم و نشانه‌های مشترک در بسیاری از اختلالات ریه مشاهده می‌شوند (همانند سرفه مزمن و تنگی نفس). کمبود اکسیژن با گذشت زمان ممکن است در برخی از افراد منجر به چماقی (Clubbing) گردد که این حالت عبارت است از بزرگ شدن نوک انگشتان و رشد ناهنجار ناخن43. چماقی (کلابینگ)، بزرگ شدن نوک انگشتان بدون تغییرات استخوانی است[22].
بنابراین علائم و نشانه‌ها در بیماران تنفسی از یک بیمار به بیماری دیگر متفاوت است. گاهی علائم شدید بوده و ممکن است درصورت عدم توجه فوری پزشکی، تهدید کننده حیات باشد.
همچنین درمان بیماری‌های تنفسی بر اساس تشخیص نوع بیماری توسط پزشک معالج، حاد و مزمن بودن، شدت علائم و عوارض برجای مانده بر دستگاه تنفسی متفاوت است.

2-4-1. عفونت دستگاه تنفسی فوقانی
سیستم تنفسی دارای دو قسمت تحتانی و فوقانی است. سیستم تنفسی فوقانی شامل: حلق، بینی، سینوسها، حنجره و نای است، به کل این مجموعه سیستم تنفسی فوقانی میگویند. هر نوع التهاب و عفونتی که در هر قسمت از این سیستم ایجاد شود به آن عفونتهای سیستم تنفسی فوقانی میگوییم. گاهی ممکن است برخی از عفونتها چندین قسمت را همزمان درگیر کند. شایعترین عفونت سیستم تنفسی فوقانی، عفونتهای ویروسی حلق، حنجره و بینی است.

2-4-2. پنومونی
التهاب بافت ريه كه يك يا دو طرف قفسه‌سينه را درگير مي‌كند و معمولا در اثر عفونت ايجاد مي‌شود، پنوموني يا عفونت ريه گفته مي‌شود. ممكن است، منبع عفونت ريه در نقطه ديگري از بدن باشد و از طريق جريان خون منجر به عفونت ريه‌ها شود. سینه پهلو اغلب به‌صورت عفونت دستگاه تنفسی فوقانی شروع شده و به دستگاه تنفسی تحتانی حرکت می‌کند[23].
سینه پهلو سالانه حدود ۴۵۰ میلیون نفر معادل هفت درصد از کل جمعیت جهان را مبتلا می‌کند و منجر به حدود ۴ میلیون مرگ می‌شود. اگرچه ظهور آنتی‌بیوتیک‌درمانی و واکسن در قرن بیستم موجب افزایش میزان زنده ماندن در بین این بیماران شد[24]. با این حال، سینه پهلو همچنان در کشورهای در حال توسعه، و در میان افراد بسیار پیر، بسیار کم‌سنوسال و افراد مبتلا به بیماری مزمن به‌عنوان یک علت اصلی مرگ محسوب می‌شود[25].

2-4-3. بیماری مزمن انسدادی ریه
بیماری مزمن انسدادی ریه (Chronic obstructive pulmonary disease یا COPD) یک بیماری مزمن ریوی است که مشخصه آن انسداد پیشرونده مجاری تنفسی به صورت برگشت‌ناپذیر است. انسداد راه‌هوایی یا تنگی منتشر در تمامی راههای هوایی است که مقاومت در برابر عبور هوا را بالا می‌برد. این بیماری با کاهش مداوم عملکرد تنفسی در طی زمان و دوره‌های از تشدید علایم همراه است. این بیماری چهارمین علت مرگ در آمریکا است44. بيماري‌ انسداد ريوي‌ مزمن‌ اصطلاحي‌ است‌ كه‌ براي‌ انسداد مزمن‌ مجاري‌ هوايي‌ ناشي‌ از آمفيزم‌، برونشيت‌ مزمن‌، آسم‌، يا تركيبي‌ از اين‌ اختلالات‌ به‌ كار



قیمت: تومان

دسته بندی : پایان نامه

دیدگاهتان را بنویسید