دانشگاه قم
دانشکده مهندسی فناوری اطلاعات
عنوان:
طراحی سیستم پیشنهاددهنده موسیقی ایرانی با استفاده از داده‌کاوی
استاد راهنما:
دکتر بهروز مینایی
استاد مشاور:
دکتر یعقوب فرجامی
نگارنده:
اختر سبزی قاسم خیلی
اسفند90
پیشکش به شور و مهربانی پدر و مادر
که همواره حامی من بوده‌اند
چکیده:
به دلیل رشد بی‌رویه فایل‌های موسیقی و ایجاد کتابخانه‌های عظیم دیجیتال، بازیابی اطلاعات موسیقی و سازمان‌دهی آن بر اساس نوع ژانر یا خواننده و یا حالت و … تبدیل به چالشی مهم شده است. علاوه بر آن افراد ذائقه‌های مختلفی در انتخاب موسیقی دارند و یا در شرایط مختلف نیازهای متفاوتی به نوع و حالت موسیقی دارند که با توجه به حجم زیاد موسیقی یافتن فایل‌هایی که مرتبط با ذائقه و یا نیاز افراد باشد کاری دشوار به نظر می‌رسد از همین روست که در سال‌های اخیر توجه خاصی به بازیابی اطلاعات موسیقی شده است. هم اکنونفراداده‌یی نظیر نام فایل، خواننده، اندازه فایل، تاریخ وژانر به صورت معمول در رده‌بندی و بازیابی این رکوردها مورد استفاده قرار می‌گیرد. اما این دسته‌بندی‌ها پاسخ‌گوی نیاز دنیای امروز نیست.
هدف اصلی این پایاننامه بهبود روش‌های پیشنهاددهی موسیقی با استفاده ازویژگی‌هایمحتواییو همچنین مدیریت پروفایل‌های مشتری می‌باشد. در راستای دست یافتن به این هدفرده‌بندی فایل‌های موسیقی در کلاس‌هایی مانند خواننده و ژانر و یافتن موسیقی‌هایی که از نظر موسیقیای به هم شباهت دارند و همچنین پیشنهاد بر اساس مشتری‌هایی که ذائقه‌های مشترک دارند را می‌توان به خدمت گرفت. در این پایان‌نامه در جهت رسیدن به اهداف ذکر شده، یکی ازکارهای انجام گرفته یافتن یک ویژگی ردهبندی جدید به نام Area Method of Moment میباشد. این ویژگی بالاترین درصد کارایی را در رده‌بندی ژآنر به دست داده است. علاوهبراین، با استفاده از همین ویژگی‌هایی که نشان‌دهنده یک ویژگی موسیقیای خاص است میزان شباهت فایل‌های موسیقی به هم اندازه‌گیری شده و به کاربران پیشنهاد شده که با توجه به بازخورد کاربران به ارزیابی میزان صحت می‌پردازد. در ادامه برای به خدمت گرفتن روش Collaborative flittering به ارائه معیاری جدید در یافتن شباهت میان پروفایل‌هامی‌پردازیم. به دلیل این که هدف اصلی این پایان‌نامه کار کردن بر روی موسیقی ایرانی است، بنابراین به علت عدم وجود مجموعه داده مناسب، برای شروع مناسب، ایجاد مجموعه داده مناسب در اولویت تحقیق قرار گرفته است. شایان ذکر است که برای ارزیابی و دریافت بازخورد مشتریان، برنامه کاربردی با ویژگی‌های مذکور پیاده سازی شده است.
از آنجایی که در دنیای رقابتی امروز یافتن موسیقی مورد پسند افراد در صنعت فروش موسیقی از اهمیت بالایی برخوردار استروش‌های پیشنهاد شده در این تحقیق می‌تواند بسیار کاربردی باشد. با توجه به نتایج به دست آمده دراین تحقیق، امید آن میرود که کمپانی‌های فروش موسیقی آن‌ها را در سطح تجاری مورد استفاده قرار دهند. همچنین روش‌های ارائه شده در این سیستم پیشنهاددهنده می‌تواند برای سایر سیستم‌های پیشنهاددهنده نیز مورد استفاده قرار گیرد.
فهرست مطالب
عنوان صفحه
فصلاول:مقدمه
1-1 مقدمه…………………………………………………………………………………………………………………………………..2
1-2تعریفمساله………………………………………………………………………………………………………………………..2
1-3اهدافودستاوردها……………………………………………………………………………………………………………..4
1-4ساختارپایان نامه………………………………………………………………………………………………………………..5
فصل دوم: بر متون گذشته مرور
2-1 مقدمه………………………………………………………………………………………………………………………………….8
2-2موسیقی و ویژگی‌های آن…………………………………………………………………………………………………….8
2-2-1موسیقی چیست………………………………………………………………………………………………….8
2-2-2ویژگی‌های صوتی موسیقی………………………………………………………………………………9
2-2-3تولید موسیقی………………………………………………………………………………………………..10
2-3استخراج ویژگی‌های محتوایی از فایل صوتی………………………………………………………………….13
2-3-1انواع ویژگی‌ها…………………………………………………………………………………………………13
2-3-2 تقسیم بندی ویژگی‌ها از نظر طول فریم…………………………………………………….27
2-4 مجموعه داده‌ها…………………………………………………………………………………………………………………28
2-5رده‌بندی موسیقی…………………………………………………………………………………………………………….28
2-5-1رده‌بندی………………………………………………………………………………………………………..28
2-5-2رده‌بندی در متون گذشته……………………………………………………………………………..31
2-6سیستم‌هایپیشنهاددهنده……………………………………………………………………………………………….35
2-6-1انواع سیستم‌های پیشنهاددهنده………………………………………………………………….35
2-6-2سیستم‌های پیشنهاد دهنده موسیقی……………………………………………………………37
2-7 نتیجه…………………………………………………………………………………………………………………………………38
فصلسوم:روش پیشنهادی
3-1مقدمه………………………………………………………………………………………………………………………………….40
3-2 تولید مجموعه داده از موسیقی ایرانی………………………………………………………………………………41
3-2-1جمع‌آوری داده‌ها و فرا داده‌ها و پیش پردازش…………………………………………….41
3-2-2استخراج ویژگی‌ها………………………………………………………………………………………….42
3-2-3ویژگی‌های مجموعه داده‌ها……………………………………………………………………………43
3-3 ویژگی Area Method Of Moment of MFCC……….………………………………..46
3-3-1عملگر …………………………………..Area Method Of Moment47
3-3-2روش محاسبه Area Method Of Moment of MFCC………………..49
3-4معرفیمعیار شباهت پروفایل جدید………………………………………………………………………………….49
3-4-1معیار شباهت پروفایل…………………………………………………………………………………….50
3-5برنامه کاربردی پیشنهاددهنده موسیقی…………………………………………………………………………..52
3-5-1پیشنهاد دهی بر اساس شباهت موسیقی……………………………………………………..55
3-5-2پیشنهاد دهی بر اساس شباهت پروفایل……………………………………………………….56
3-6نتیجه…………………………………………………………………………………………………………………………………57
فصلچهارم: ارزیابی
4-1مقدمه…………………………………………………………………………………………………………………………………59
4-2ارزیابی برتریمجموعه داده تولید شده……………………………………………………………………………59
4-3ارزیابیویژگیArea Method Of Moment of MFCC…………………………………….61
4-3-1رده‌بندی سبک………………………………………………………………………………………………61
4-3-2رده‌بندی دستگاه‌های موسیقی سنتی…………………………………………………………..66
4-3-3پیشنهاددهی با استفاده از ویژگی Area Method Of Moment of MFCC68
4-4ارزیابی معیارشباهتپروفایل…………………………………………………………………………………………..69
4-5نتیجه………………………………………………………………………………………………………………………………..69
فصلپنجم:نتیجه گیری و کارهای آینده
5-1مقدمه………………………………………………………………………………………………………………………………….71
5-2دستاوردهایتحقیق…………………………………………………………………………………………………………..72
5-3محدودیتهایتحقیق………………………………………………………………………………………………………73
5-4کارهایآینده…………………………………………………………………………………………………………………….73
فهرست شکل ها
عنوان صفحه
شکل2-1-فلوچارتمحاسبههیستوگرامضرب……………………………………………………………………….17
شکل 2-2- نمونههیستوگرامضرب…………………………………………………………………………………………17
شکل2-2-معیارspectral fluxبرایspeechتقریبابالاترازاینمقداربرایmusicاست.25
شکل2-4-درصدفریم‌هایباانرژیپایین………………………………………………………………………………26
شکل2-5-یکنمونهدرختتصمیمگیری…………………………………………………………………………….29
شکل3-1- پراکندگیتعدادویژگی‌هادردسته‌های مختلف…………………………………………………..44
شکل3-2- پراکندگیتعدادآهنگ‌هابرایسبک‌هایمختلف………………………………………………..45
شکل3-3- پراکندگیتعدادآهنگ‌هابرایدستگاه‌های مختلف……………………………………………..46
شکل3-4-روشمحاسبهArea Method of Moments of MFCC……………………………………49
شکل3-5- شمایکلیازبرنامهکاربردی………………………………………………………………………………..54
شکل3-6- لیستموسیقی‌هایدراختیارکاربر………………………………………………………………………54
شکل3-7- مراحلانتخابموسیقیبراساسشباهتفایل‌هایموسیقی………………………………55
شکل3-8- پیشنهاددهیبراساسشباهتموسیقی‌ها…………………………………………………………..56
شکل3-9- پیشنهادبراساسشباهتپروفایل‌هایمشتریان………………………………………………….57
شکل4-1- درصدصحتبرایهرژانردردوآزمایش……………………………………………………………..60
شکل4-2- معیارRecall- precision وF-measureبرایسبک‌هایمختلف………………64
شکل4-3- معیارRecall- precision وF-measureبرایسبک‌هایمختلف………………66
شکل4-4- معیارRecall- precision وF-measureبرایدستگاه‌های مختلف……………68
فهرست جداول
عنوان صفحه
جدول2-1طبقه بندی ویژگی‌ها……………………………………………………………………………..14
جدول2-2 تقسیم بندی بر اساس طول فریم استخراج…………………………………………..27
جدول2-3مرور متون گذشته در ارتباط با رده‌بندی موسیقی……………………………….31
جدول2-4مرور متون گذشته سیستم پیشنهاددهنده……………………………………………37
جدول3-1اطلاعات کلی از مجموعه داده……………………………………………………………….43
جدول3-2پراکندگی تعداد ویژگی‌ها در دسته‌های مختلف…………………………………..44
جدول4-1 درصد صحت برای هر ژانر در دو آزمایش……………………………………………..60
جدول4-2مجموعه آزمایش های انجام شده و ویژگی های آن……………………………..37
جدول4-3مجموعه‌ها ویژگی‌های به کار رفتهدر آموزش درخت تصمیمی…………..63
جدول4-4معیار Recall- precision وF-measure برای سبک مختلف……63
جدول4-5مجموعه‌ها ویژگی‌های به کار رفته در آموزش درخت تصمیمی…………..65
جدول4-6 معیار Recall- precision وF-measure برای موسیقی غربی……65
جدول4-7 مجموعه‌ها ویژگی‌های به کار رفته در آموزش درخت تصمیمی………….67
جدول4-8معیار Recall- precision وF-measure برای دستگاه‌های مختلف67
جدول4-9 بازخورد به دست آمده از افراد…………………………………………………………………69
جدول4-10 کارایی معیار پیشنهاد شده…………………………………………………………………..69
فصل اول
مقدمه
مقدمه:
موسيقي فراتر از تعريف در الفاظ است و شگفتي آن نيز در همين است. موسيقي جبران ناكامي‌هاي زبان است و شيوه‌اي براي بيان احساسات ناملموس. احساساتي كه نمي‌دانيم چه هستند.آن جا كه زبان از گفتن باز مي‌ماند، موسيقي مأمني مي‌شود براي روح، و زباني مي‌شود براي بيان احساسات و ناگفته‌هاي ناشناخته. موسيقي، سرچشمه‌اي از درون انسان دارد.
در طول تاریخ موسیقی همواره به عنوان قسمتی از زندگی انسان نقش خود را ایفا کرده است. امروزه نیز با در دسترسبودن ابزار قابل حمل پخش موسیقی و سایر ابزار ذخیره فایل‌های موسیقی این نقش پررنگ‌تر شده است. همچنین رشد بی سابقه موسیقی در سال‌های اخیر لزوم ایجاد روشی برای مدیریت این فایل‌هارا ضروری می‌نماید. در این تحقیق به ارائه روش‌هایی برای مدیریت اتوماتیک موسیقی با استفاده از تکنیک‌های داده کاوی می‌پردازیم.
تعریف مسئله
هر ساله به تعداد فایل‌های موسیقی که در فرمت دیجیتال تهیه می‌شود افزوده می‌شود که به موجب آن امروزه افراد با حجم عظیمی از فایل‌های موسیقی روبه رو هستند. هر شخص مجموعه کامل و بزرگی از موسیقی برای خود ایجاد می‌کند و حتی در ابزارهای قابل حمل پخش موسیقی به همراه خود دارد.بنابراین نیاز زیادی به تعامل – یافتن موسیقی مورد نظر، ایجاد مجموعه لیست‌ها با ویژگی‌هایی خاص، یافتن موسیقی‌هایی که شبیه به هم هستند- با مجموعه‌های ایجاد شده احساس می‌شود. کتابخانه‌های دیجیتال موسیقی باید توانایی ارتباط دو سویه و تعامل با کاربران خود را داشته باشند. بنا بر این تعامل کاربر با مجموعه‌های موسیقی و یا کتابخانه دیجیتال تبدیل به چالش در دنیای دیجیتال شده است. در مجموعه‌های بزرگ موسیقی مدیریت فهرست‌های متنی بسیار زمان‌بر است. این مهم خود محرکی برای سازماندهی مجموعه‌های بزرگ موسیقی می‌باشد.
از نقطه نظر دیگر هر کاربر طبع مخصوص به خود در انتخاب موسیقی دارد. دسته‌بندی‌های از پیش تعریف شده مانند ژانر و یا خواننده می‌تواند گره‌گشا باشد اما ترجیحات شخصی فرد را به حساب نمی‌آورد کما این که ممکن است این دسته‌بندی‌ها برای تمامی فایل‌ها به صورت پیش فرض وجود نداشته باشد و رده‌بندی فایل‌های موسیقی در ژانرهای مختلف خود چالشی دیگر است. شنونده موسیقی باید بتواند دسته‌بندی‌های شخصی خود را داشته باشد.به طور مثال در مقاله]1[به منظور برآورده نمودن این هدف سیستمی ارائه شده است که با گرفتن یک نمونه با استفاده از رده‌بندی هوشمند کل پایگاه داده را بر اساس ترجیح کاربر رده‌بندی می‌نماید.
به موازات رشد حجم فایل‌ها علاقه رو به رشدی در زمینه توسعه و ارزیابی سیستم‌های بازیابی اطلاعات موسیقی به وجود آمده است. رده‌بندی کامپیوتری فایل‌های موسیقی یکی از فعالیت‌های مهم در زمینه بازیابی اطلاعات موسیقی1 است. رده‌بندی یک فعالیت استاندارد یادگیری ماشین است که معمولا شامل پیش‌بینی یک خروجی بر اساس یک ورودی است. رده‌بندی امکان تعامل با مجموعه موسیقی در مسیرهای جدید را ایجاد می‌کند. پروژه‌های مختلفی در زمینه رده‌بندی شامل تشخیص ژانر، خواننده، حالت، ابزار موسیقی، تولید لیست پخش و… انجام شده است.
یکی از مهم‌ترین سرویس‌ها برای رهایی کاربران از این حجم عظیم اطلاعات سیستم‌های پیشنهاددهنده موسیقی است. این سیستم‌ها، امکان انتخاب موسیقی‌های مورد علاقه را برای کاربران ایجاد می‌کند. سرویس پیشنهاددهنده مواردی را که ممکن است مورد پسند کاربر قرار بگیرد را بر اساس پیش تعریف‌های کاربر و یا با دسترسی به پیشینه کاربر، پیشنهاد می‌دهد.
هدف از انجام این پروژه ارائهراهکاريباکاراييبالادر رده‌بندی فایل‌های موسیقی در زمینه‌های مختلف با استفاده از ویژگی‌های سطح بالا (ویژگی‌های موسیقیایی) و سطح پایین (ویژگی‌های آماری سیگنال‌های صوتی) و در نهایت استفاده از آن در ارائه یک سیستم پیشنهاددهنده کارا است،که برای پیشنهاددهی از ویژگی‌های محتوایی (همان نتایج به دست آمده از رده‌بندی موسیقی) و محیطی( شباهت ذائقه موسیقی افراد مختلف)مورد استفاده قرار می‌گیرد. هدف مورد انتظار بهبود روش‌های ارائه شده رده‌بندی فایل‌های موسیقی با توجه به زمینه مورد نظر در رده‌بندی و استفاده از آن در ارائه یک سیستم پیشنهاددهنده است. نتایج به دست آمده از این تحقیق می‌تواند به طور کلی توسط فروشندگان، کتابخانه‌ها، موسیقی‌دانان و شنوندگان مورد استفاده قرار گیرد. می‌توان از این سیستم در صدا و سیما به منظور انتخاب موسیقی برای مناسبت‌های مختلف و یا شرایط جوی مختلف استفاده نمود.می‌توان این سیستم در فروشگاه‌ها و آرشیوهای موسیقی به منظور سازمان‌دهی و پیشنهاد بهترین موسیقی به خریدار مورد استفاده قرار گیرد.از این سیستم می‌توان برای استفاده شخصی به منظور سازمان دهی و ایجاد آرشیوهای شخصی بهره برد.استفاده خاص در محیط‌های عمومی مانند کافی‌شاپ‌ها و رستوران‌ها در انتخاب موسیقی مناسب برای پخش در پس زمینه. استفاده از سیستم در انتخاب موسیقی‌های مورد نظر پزشکان در درمان بیماری‌ها با استفاده از موسیقی (موسیقی درمانی).استفاده خاص برای سازمان‌هایی همانند ایرانسل که به ارائه آهنگ برای جلب مشتری می‌پردازند.
اهداف و دستاوردها
اهداف اصلی این تحقیق از قرار زیر هستند:
ارائه روشی برای بهبود رده‌بندی سبک موسیقی
ارائه روشی برای بهبود سیستم پیشنهاد دهنده موجود موسیقی
پیاده سازی برنامه کاربردی سیستم پیشنهاد دهنده موسیقی
دستاوردهایی که در این زمینه بدست میآید شامل موارد زیر است:
تولید یک مجموعه داده موسیقی بر اساسویژگی‌های محتوایی سیگنال صوتی با فرا داده‌های سبک، خواننده و حالت موسیقی
معرفی یک ویژگی جدید در رده‌بندی موسیقی با کارایی بسیار بالا
ارائه یک مدل پیشنهاد دهنده بر اساس میزان شباهت موسیقی‌ها با استفاده از ویژگی معرفی شده
ارائه یک معیار جدید شباهت پروفایل‌های مشتری
ارائه یک روش جدید برای انتخاب موسیقی از پروفایل‌های مشابه
پیاده سازی برنامه کاربردی پیشنهاد موسیقی
ساختار پایان نامه
در ابتدای فصل دوم این نوشتار به معرفی مفاهیم اصلی مربوط به موسیقی پرداخته و در بخش دوم آن به معرفی ویژگی‌های محتوایی سیگنال صوتی می‌پردازیم در بخش سوم مجموعه داده‌های موجود و مورد استفاده در جامعه علمی مورد بررسی قرار می‌گیرد. در بخش چهارم این فصل به بحث رده‌بندی موسیقی پرداختهمی‌شود و در پایان این فصل سیستم پیشنهاددهنده موسیقی مورد کنکاش قرار می‌گیرد. در ابتدای فصل سوم به توضیح چگونگی تولید مجموعه داده‌های موسیقی ایرانی پرداخته و مراحل مختلف آن را بررسی میکنیم و بعد از به معرفی ویژگی Area method of moments of MFCC که کارایی بالایی در رده‌بندی موسیقی دارد ولی تا به حال مورد استفاده قرار نگرفته است، خواهیم پرداخت. در ادامه فصل سوم معیار شباهت پروفایل جدید خود را معرفی خواهیم کرد. و در پایان این فصل برنامه کاربردی توسعه یافته به منظور پیشنهاد دهی موسیقی معرفی خواهد شد. در فصل چهارم به تحلیل نتایج به دست آمده پرداخته و در نهایت در فصل پنجم به جمعبندی، نتیجهگیری و ارایه چشماندازی برای کارهای آینده میپردازیم.
فصل دوم
مروری بر متون گذشته
2-1 مقدمه:
در این فصل به معرفی موسیقی و ویژگی‌های آن می‌پردازیم. در ادامه موسیقی را به دید سیگنال صوتی دیده و ویژگی‌های قابل استخراج از این سیگنال صوتی که مفید و قابل استفاده است معرفی می‌شود. سپس توضیحی در باره سیستم‌هایرده‌بندی از جمله درخت تصمیم داده می‌شود و در انتها به معرفی انواع سیستم‌های پیشنهاد دهنده و به طور خاص سیستم‌های پیشنهاد دهنده موسیقی می‌پردازیم. به زبانی دیگر مروری کلی بر آنچه تا به حال در زمینه بازیابی اطلاعات و پیشنهاد دهی موسیقی انجام شده است،ارائه خواهد شد.
2-2موسیقی و ویژگی‌های آن:
2-2-1 موسیقی چیست:
موسيقى تراوش احساسات و انديشه‌هاى آدمى و مبين حالات درونى وى مى‌باشد. شنيدن يک آهنگ آرام‌بخش و جذاب مى‌تواند پايان‌پذير خستگى‌ روزانه آدمی باشد. موسيقى به معنى پيوند آهنگ‌هاست. تعريف ساده‌ی موسيقى يا صداهاى موسيقايي، صداهاى خوشايندى مى‌شود که انسان از شنيدن آن‌ها احساس لذت مى‌کند.
صداهاى خوشايند، صداهايى هستند که از نظمى خاص پيروى مى‌کنند و بين آن‌ها نسبت‌هاى معينى وجود دارد. براى همين عدد در موسيقى داراى اهميت بسيارى است. تا جایی که فيثاغورث معتقد است که عدد اصل وجود در آفرينش است. پيروان او اجسام را هر يک عدد مى‌داشتند و معتقد بودند که چون کرات آسمانى و افلاک از يکديگر فاصله‌هاى معينى دارند، از نسبت آن‌ها نغمه‌ها ساخته مى‌شود و آوازها در اصل ناشى از حرکت افلاک هستند.
موسيقى سنتى ايران شامل قطعاتى است که در مجموع به عنوان رديف موسيقى ايرانى گفته مى‌شود. امتياز موسيقى ايرانى در امکانات وسيع مقامى و ملودى‌هاى غنى آن است. اين موسيقى هنرى است بسيار ظريف و عميق.
موسيقي فقط غذاي روح و زبان احساسات نيست، بلكه درماني براي جسم نيز هست. تحقيقات نشان داده است موسيقي كه تركيبي از صداهاي گوناگون است، بر روي عملكرد و متابوليسم بدن تأثير مي‌گذارد و اثري مستقيم بر روي بخش‌های اصلي بدن از جمله غدد گوناگون، قلب، دستگاه تنفسي، مغز و … دارد و موسيقي به عنوان تركيبي منظم و زيبا از اصوات، تأثيري مثبت بر روي جسم نيز مي‌گذارد.ولي شناخت تأثيرات مستقيم آن بر روي بدن نياز به ورود به دنياي علم موسيقي درماني دارد. البته ارتباط روح و جسم انسان باز هم به ما مي‌گويد كه در هر لحظه، لذت بردن روح از يك موسيقي مترادف است با تأثير مثبت آن بر روي جسم انسان. روح انسان است كه زيبايي موسيقي را مي‌فهمد و اين روح است كه مانند يك استاد خبره‌ي زيباشناسي در مورد موسيقي قضاوت مي‌كند.
زيبايي‌شناسي در موسيقي داراي دو جنبه‌ي تحليلي و تركيبي است. زيبايي‌شناسي تحليلي مربوط به زيبايي اصوات و نواي سازهاست و موج برخاسته از پيانو و ناله و فغان ويولن و كمانچه و … همه واژه‌هاي زيبايي هستند براي گفتن سخني زيبا.در مقابل بعد تركيبي موسيقي برمي‌گردد به نظم و آهنگي كه هنرمند با كنار هم چيدن نت‌ها و آواها مي‌آفريند.در جنبه‌ي تركيبي است كه هنرمند معنا پيدا مي‌كند و موسيقي سخن مي‌گويد و جمله‌اي زيبا مي‌شود از واژه‌هاي زيبا.
2-2-2 ویژگی‌های صوتی موسیقی
نواک1: نواک که به زیرایی نیز معروف است تحت عنوان زیری و بمی صدا تعریف می‌شود. روشن است که صداهای موسیقایی می‌توانند در سطوح مختلف زیر و بمی حاصل شوند، مثلا می‌دانیم صدای اصلی مردان از صدای زنان یا کودکان کلفت‌تر و بم‌تر است و صدای کودان نسبت به مردان نازک‌تر و زیرتر است.در سازهای سیمی سیم‌هایکوتاه‌تر (و سبک‌تر) زیرتر و سیم‌های بلندتر بم‌تر صدا می‌دهند.در ساز‌های بادی (لوله‌های صوتی) هر قدر لوله درازتر باشد صوت حاصل از آن بم‌تر است و بالعکس.
دیرند2:دیرند به کشش و امتداد نیز معروف است وبه مدت زمانی که یک صدا طول می‌کشد گویند.دیرند یعنی “زمانی” که هر صدای موسیقایی ادامه می‌یابد.روشن است که یک آهنگ موسیقایی از صداهایی تشکیل شده که اکثرا ارزش‌های متفاوت زمانی دارند.
شدت3:شدت یا دینامیک،میزان قوی (بلند) و یا ضعیف (کم) بودن صدا است. صداهای موسیقی ممکن است نسبت به یکدیگر ضعیف‌تر و یا قوی‌تر باشند.
رنگ4:رنگ یا طنین یا شیوشتفاوت صدای ایجاد شده توسط پیانو و ویولون و یا دو انسان که دارای نواک و دیرند و شدت یکسان باشد، می‌باشد.صداها از نظر طنین و رنگ (شخصیت صوتی) هم می‌توانند با یکدیگر متفاوت باشند.در واقع به علت رنگ صدای هر ساز است که ما صدای ساز‌های مختلف را از هم تمیز می‌دهیم.
2-2-3 تولید موسیقی
تن پایه‌ای‌ترین عنصر در صدای موسیقی است. دو نوع ساختار تن وجود دارد: یک تن ساده فرم گرفته از شکل موج سینوسی واحد و یک تن پیچیده شکل یافته از بیش از یک هارمونیک]2[ است. کیفیت تن به عناصر فرکانسی غیرهارمونیک بستگی دارد. همه تن‌های موزیکال کلاسیک از یک فرکانس رزونانساز بخش‌های مالشی یا در حال حرکت ابزار آلات موسیقی ایجاد می‌شوند و برخی از تن‌ها از رزونانس‌های لوله می‌آیند. به جز موزیک الکترونیک که تن اش را بسته به نیروی الکترومغناطیسی تولید می‌کند. تولید موسیقی عمیقا به نوع ابزار موسیقی بستگی دارد. انواع متداول ابزار موسیقی به صورت زیر خلاصه می‌شوند]2[:
آلات رشته‌ای5:تن‌هایش از لرزش ریسمان‌ها ایجاد می‌شود. این لرزش از طریق نوسان مستقیم ایجاد می‌شود مثل گیتار و یا از طریق کشیدن بین تارها، مثل ویولون، هر تار یک فرکانس پایه‌ای معین دارد به طوری که یک ابزار موسیقی به تنهایی همه باندهای صوتی را پوشش می‌دهد. این نوع تن‌های پیچیده را تولید می‌کند.
آلات دمیدنی6: اساسا این ابزار شامل یک لوله استوانه ای باز در دو انتها مثل فلوت می‌باشد. دریچه‌ها در جدار این ابزار طول موج رزونانس ایستا را تعریف می‌کند و باعث منعکس شدن صدا می‌شود. برخی از ابزار دمیدنی از یک قطعه مسsmall-vibrated برای تولید تن‌های موسیقی مثل آکوردئون استفاده می‌کنند. این نوع ابزار تن‌های هارمونیک تولید می‌کند.
آلات Brass: این نوع مثل woodwind وابسته به دمیدن می‌باشد اما دو تفاوت اساسی آن‌ها را از هم تمیز می‌دهد. تفاوت اول این است که نوع brass یک شکلی از بوق مثل شیپور دارد. تفاوت دوم این است که نوع woodwind وابسته به فشار هوا برای تولید تن‌های مختلف است. در حالی که نوع brass وابسته به سرپوش دستی برای کنترل اندازه حفره می‌باشد مثل ترومپت. نوع brass یک تعداد زیادی از موجودیت‌هایغیر هارمونیک در طیفش دارد.
آلات خانواده پیانو7: این نوع از رشته‌های لرزنده به عنوان منبع تن استفاده می‌کند ( از طریق ضربه زدن به آن که به وسیله صفحه کلید کنترل می‌شود) هر دکمه از صفحه کلید برای تولید یک تن واحد طراحی شده است. دامنه تن وابسته به فشار ضربه از طریق انگشتان پیانیست است. برخی تولیدکننده‌ها میله‌های لرزاننده مسی را به جای رشته‌ها قرار می‌دهند. هارمونیک‌های خالص اکثریت توان تن تولیدشده را دارند.
آلات ضربی مثل طبل8: مثل طبل، طبل هندی، میله‌های لرزان یا سنتور زنگی که از طریق ضرباتی از طریق baton انجام می‌شود. Baton یک چوب یا پلاستیک مخصوص می‌باشد. خصوصیات تن‌های تولید شده به ابعاد فیزیکی و مقاومت و موقعیت ضربه baton بستگی دارد. بیشتر توان تن اجزای غیر هارمونیک را تولید می‌کند.
تولید الکترونیک موسیقی:ارگ از این دسته است. یک ابزار موسیقی دقیق و قوی که دکمه‌های زیادی را در یک صفحه کلید بزرگ دارد. هم چنین حافظه ای دارد که می‌تواند هر نت را ذخیره کند و از آن بارها به عنوان یک آهنگ یا تن پایه استفاده کند و نیز می‌تواند دائما یک ملودی را در پس زمینه اجرا کند که به نوازنده اجازه می‌دهد که فقط برخی از touch‌های موزیکال را برای کامل شدن ملودی اصلی اضافه کند. راک و پاپ و دیسکو و جاز بدون کمک ارگ نمی‌توانند اجرا شوند. اگرچه همه آهنگ‌های مخصوص ارگ بعد از محاسبات دقیق با استفاده از کامپیوترها ساخته شده‌اند، هر صدا از هر جا می‌تواند ضبط و سپس به عنوان یک آهنگ پایه مورد استفاده قرار گیرد. اگرچه ارگ بزرگ‌ترین و گران‌ترین ابزار موسیقی است تنها تولیدکننده موزیک الکترونیک نیست. ابزار زیادی از این نوع با نام‌هاو سایزهای مختلف وجود دارند بنابراین هر شخص به تنهایی می‌تواند مارک دلخواه خود را بخرد و موزیک الکترونیک اجرا کند. نهایتا توجه به این نکته مهم است که اگر ابزار موسیقی الکترونیک برای تولید موسیقی مورد استفاده هستند، نیازی به فکر کردن در مورد هارمونیک‌ها یا فرکانس پایه برای اندازه گیری کیفیت تن نیست.
2-3استخراج ویژگی‌های محتوایی از فایل صوتی
2-3-1انواع ویژگی‌ها
در این بخش ویژگی‌های صوتی مورد استفاده در کاربردهای رده‌بندی صوت با جزئیات توضیح داده می‌شود.ویژگی‌ها مطابق با جدول 2-1 به شش دسته، ریتم، تمپو، تون، نواک، رنگ و ویژگی‌های آماریسیگنال صوتی شده است. و ویژگی‌های صوتی مربوط به هر دسته در جدول دسته بندی شده است.دسته بندی انجام شده بر اساس مستندات نرم افزار استخراج ویژگی مورد استفاده،jaudio میباشد.تعاریف هر دسته عبارتند از:
ریتم: ریتم تناسب زمانی است که با نظم ترتیب و تکرار و توالی همراه است.ریتم میواند با استخراج تغییرات تکرار شونده در هیستگرام ضرب به دست آید.
تمپو:به معنای تعداد ضرب در دقیقه است و نمایانگر تندی و کندی آهنگ است. هر چه تمپوی یک آهنگ بالاتر باشد یعنی تعداد ضرب هایش در دقیقه بیشتر استو در نتیجه آهنگ تند تر است.
نواک:همانطور که در بخش 2-2-2 نیز بیان شده نواک نمایانگر زیری و بمی صدا است.
رنگ:همانطور که در بخش 2-2-2 نیز بیان شده عامل تمایز صدای دو ساز مختلف است وقتی یک ملودی با دینامیکی یکسان توسط دو یاز اجرا میشود.
آماری: ویژگی هایی که نمایانگر هیچ کدام از ویژگی های صوتی موسیقی نیستند اما در میتوانند بحث رده بندی موثر افتد. این ویژگی ها شامل مجموعه ای از صفات آماری سیگنال صوتی است.
جدول2-1 – طبقه بندی ویژگی‌ها
دستهویژگی نمایندهزیر ویژگی هاریتم Beat Histogram
Strength of Strongest Beat
Compactness
Strongest Beat Derivative
Running mean
Standard deviation
Derivative of running mean
Derivative of Standard deviationتمپو Beat Sumنواک Zero Crossingsرنگ[3] MFCC
Spectral Rolloff Point
Spectral Flux
Spectral Centroidآماری Fraction of Low Energy frames
LPC
Area Method of Moments در ادامه به تشریح ویژگی های معرفی شده در جدول 2-1 و چگونگی استخراج آنها و روابط ریاضی مربوط به هر ویژگی میپردازیم:
هیستوگرام ضرب9:
مجموعه ویژگی‌ای براي نمايش ساختار ريتم بر مبناي تشخيص برجسته‌ترین دوره تناوب سیگنال است. شکل2-1نمودارجریانالگوریتمتجزیهوتحلیلضرب را نشان می‌دهد]3[ . سیگنال ابتدابا استفاده ازDWTبهتعدادي باند فرکانسهشتگانهتجزیهشده است. پسازاینتجزیه،بستهدامنهزمانیهر گروه(باند)به صورت جداگانه با استفاده از همسو سازیکل موج، فیلتر پایین گذر و downsampling به هر یک از فرکانس نت‌های هشتگانه،به دست می‌آید. پس از حذف میانگین، بستهي هر یک از گروهها با هم جمع شده و سپس خودهمبستگیبسته مجموع، محاسبه می‌شود.قلههای غالب، تابع همبستگی متناظر با دوره تناوب‌های مختلف بسته سیگنال است.بلوک‌هایساختمان‌های زیر برای استخراج ویژگی تجزیه و تحلیل ضرب استفاده می‌شوند:
يكسو سازي تمام موج10:
به منظوراستخراجپوششزمانیسیگنال به جاي خودحوزه زماني سيگنالاعمال می‌شود
Y[n] = |x[n]|
.فيلتر پايينگذر11:
به عنوان مثال، یک فیلتریک قطب با ارزش آلفاي 0.99 که برای صاف کردن بسته استفاده می‌شود. اصلاح موج کامل به دنبال فیلتر پایین گذر روش استاندارد استخراج بسته است.
Y[n] = (1- α)x[n] + αy[n-1]
Downsampling:
. به خاطر دوره تناوب‌هایزیاد تجزیه و تحلیل ضرب، downsamplingسیگنالزمانمحاسباتبرایمحاسبههمبستگی را بدونتأثير بر عملکردالگوریتم کاهش ميدهد.
Y[n] = x[kn]
حذف میانگین12:
منظور ایجاد تمركز سیگنالبهصفربراي مرحله همبستگی اعمال می‌شود
Y[n] = x[n] – E[x[n]]
همبستگي پيشرفته13:
قلههاي تابع خود همبستگی مربوط به تأخيرهاي زماني هستند؛جايي که در آن سیگنال بیشتر شبیه به خود است. تأخيرهاي زماني قلهها در محدودهي زماني مناسب برای تجزیه و تحلیل ریتم مربوط به دوره تناوب ضرب است. تابع خود همبستگی اصلی خلاصهي پاکتها، به ارزش‌های مثبت و پس از آن به مقياس زمان با ضريب دو كوتاه شده و از تابع اصلی كوتاه شده، كم شده است. همین روند با عوامل دیگر از جمله قله‌های تکراری كه در آن مضارب عدد صحیح حذف می‌شوند، تکرار می‌شود.
Y[k] = 1/N ∑_n▒〖x[n]x[n-k]〗
تشخیص قلهومحاسبههیستوگرام:
سهقلهاولتابعخودهمبستگیافزایش یافته که درمحدودهمناسببرای تشخیصضربهستندانتخاب می‌شوندوبههیستوگرام ضرب‌اضافه ميشوند.Binهاي هیستوگراممربوط بهضرباندر هردقیقه(BPM) از40 تا200ضربه در دقیقهاست.برای هر قله تابعخودهمبستگیافزایش يافته، دامنهقلهبههیستوگراماضافه شده است.این قلهکه دارایدامنهبالابهشدتنسبتبهقله‌های ضعیف‌تردر محاسبههیستوگراموزن دار شده‌اند.
شکل2-1-فلوچارت محاسبه هیستوگرام ضرب]3[
شکل2-2یک هیستوگرامضرببراي 30ثانيه از این آهنگ “Come Together” بیتلز را نشان می‌دهد.دو قله اصلیBH مربوط به ضرب اصلی در حدود 80 ضرب در دقیقه و هارموني اول آن (دو برابر سرعت) در 160 ضرب در دقيقه است.
شکل2-2 نمونه هیستوگرام ضرب
قدرت قوی‌ترین ضرب14:
معیاری است از این که چقدر قوی‌ترین ضرب در مقابل سایر ضرب‌های ممکن قوی است. این معیار با یافتن انرژی متناظر قوی‌ترینضرب در هیستوگرام ضرب و تقسیم ان به مجموع کل انرژی در هیستوگرام ضرب محاسبه می‌شود.
قوی‌ترین ضرب15:
ویژگی است که قوی‌ترینضرب در سیگنال را استخراج می‌کند. که از طریق پیدا کردن بلندترین bin در هیستوگرام ضرب تولید می‌شود.
مجموع ضرب‌ها16:
ویژگی خوبی که نشان می‌دهد چقدر یک ضرب معمولی در ین قطعه موسیقی نقش مهمی را بازی می‌کند. و از حاصل جمع تمام مقادیر درهیستوگرام ضرب به دست می‌آید.
نرخ گذار از صفر17:
نرخ گذار از صفر شکل موج حوزه زمان یکی از قوی‌ترین معیارها برای تشخیص گفتار است و به طور گسترده ای به عنوان معیاری قوی برای تشخیص گفتار صدادار از سایشی استفاده می‌شود. نرخ گذار از صفر به طور ساده تعداد نقاط تلاقی با صفر در یک پنجره سایز ثابت است. یعنی تعداد دفعاتی که شکل موج صوتی علامتش در طول فریم تغییر می‌کند. نرخ گذار از صفر زمانی اتفاق می‌افتد که نمونه‌های متوالی علامت‌های جبری مختلفی داشته باشند. معادله زیر نرخ گذار از صفر را نشان می‌دهد:
ZCR=1/2 ∑_(n=1)^(N-1)▒|sgn(x[n])-sgn(x[n-1])|
اگر x[n]>0 باشد sgn([x])=1 و اگر x[n]<0، sgn([x])=-1 و N تعداد نمونه‌ها در یک پنجره می‌باشد.
نرخ گذار از صفر مربوط به صامت‌های انرژی پایین، نسبت به نرخ گذار از صفر مربوط به مصوت‌های انرژی بالا کمتر است. بدیهی است که نرخ گذار از صفر یک الگوریتم حوزه زمان است و به مقدار زیادی به فرکانس سیگنال ورودی x(n) وابستگی دارد. به علاوه نرخ نمونه برداری باید به اندازه کافی بالا باشد تا هر عبور از صفری را نشان دهد. به علاوه چیز مهمی که باید قبل از شروع به شمارش گذرها مورد توجه قرار گیرد نرمال سازی سیگنال است. چون متوسط دامنه در سرتاسر پنجره باید برابر با صفر باشد و این کار با استفاده از شیفت ثابت به هر نمونه در محور دامنه انجام میشود. این ثابت باید معادل با میانگین دامنه واقعی باشد. این به معنی دوباره تنظیم کردن بالانس نرخ گذار از صفر است. این مسئله تضمین می‌کند که هر پنجره فقط یک نرخ گذار از صفر خاص دارد. از معادله مشخص می‌شود کهنرخ گذار از صفر با فرکانس dominant،x(n) متناسب است
در اینجا مفهوم نسبت نرخ گذار از صفر بالا(HZCRR) نیز مطرح می‌شود]4[. کاملا مشخص است که نرخ گذار از صفر برای مشخص کردن سیگنال‌های صوتی مختلف بسیار مفید است و در بسیاری از الگوریتم‌های کلاس بندی گفتار/موسیقی مورد استفاده بود. از طریق آزمایش فهمیده شد که نوسان(تغییرات) نرخ گذار از صفر نسبت به مقدار دقیق نرخ گذار از صفر متمایز کننده تر است. بنابراین HZCRR را می‌توان به عنوان یک ویژگی در نظر گرفت.
HZCRR به صورت نسبت تعداد فریم‌هایی که ZCR شان بالاتر از نرخ گذار از صفر متوسط یک بخش در پنجره یک ثانیه ای است تعریف می‌شود و به صورت زیر بیان می‌شود:
HZCRR=1/2N ∑_(n=0)^(N-1)▒〖[sgn(ZCR(n)-〖ZCR〗_av 〗)+1]
〖ZCR〗_av=∑_(n=0)^(N-1)▒ZCR(n)
n ایندکس فریم و N تعداد کل فریم‌ها در یک پنجره یک ثانیه ای است و sgn[.] یک تابع علامت و ZCR(n)نرخ گذار از صفر در فریم n ام است.
در]5،6،7،8،9،10،11،12،13،14،15،16[ از این دسته ویژگی‌ها استفاده شده است.
انرژی زمان کوتاه18:
دامنه سیگنال به گونه ای محسوس با زمان تغییر می‌کند. دامنه قطعات بی صدا عموما خیلی پایین‌تر از قطعات صدادار است. انرژی زمان کوتاه سیگنال صوت یک نمایش مناسبی را ارائه می‌دهد که این واریانس‌های دامنه را منعکس می‌کند. از آنجاییکه سیگنال موسیقی شامل قطعات بی صدا نیست STE آن معمولا بزرگ‌تر از گفتار است.
انرژی زمان کوتاه یک فریم به صورت مجموع مربعات نمونه‌های سیگنال به صورت زیر تعریف می‌شود:
E=10 log⁡〖(1/N ∑_(n=0)^(N-1)▒〖x^2 [n])〗〗
در اینجا مفهوم دیگری به نام انرژی زمان کوتاه پایین ( LSTER) نیز مطرح می‌شود که با استفاده از این ویژگی به جای مقدار دقیق انرژی زمان کوتاه واریانس و تغییرات را به عنوان یک جز از بردار ویژگی‌مان انتخاب می‌کنیم. در اینجا ما از LSTER برای نمایش تغییرات STE استفاده می‌کنیم. LSTER به صورت نسبت تعداد فریم‌هایی که در آن‌هاSTE کمتر از 0.5برابر STE میانگین در یک پنجره یک ثانیه ای است تعریفمی‌شود. به صورت زیر:
LSTER=1/2N ∑_(n=0)^(N-1)▒〖[sgn(0.5 〖STE〗_av 〗-STE(n)+1]
〖STE〗_av=∑_(n=0)^(N-1)▒STE(n)
که N تعداد کل فریم‌ها و STE(n) مقدار STE در n امین فریم و STEav،STE میانگین در یک پنجره یک ثانیه ای است. در]5،6،7،8،9،10،11،12،13،14،16،17،18[ از این دسته ویژگی‌ها استفاده شده است.
ضرایب کپسترال فرکانسی مل (MFCC):
هدف اصلی MFCC تقلید رفتار گوش انسان است. تحقیقات فیزیولوژیکی نشان می‌دهند که ادراک بشر از محتوای فرکانسی صداها برای سیگنال‌هایصوتی از یک مقیاس خطی پیروی نمی‌کند بنابراین برای هر تن با فرکانس واقعی f یک pitch روی مقیاس مل محاسبه می‌شود. مقیاس فرکانسی مل در فضای زیر 1kHz به صورت خطی و در بالای 1kHz به صورت لگاریتمی می‌باشد. بنابراین فیلترها در فرکانس‌های پایین به صورت خطی و در فرکانس‌های بالا به صورت لگاریتمی برای پیگیری ویژگی‌های مهم آواشناسی (صدادار و بدون صدا) استفاده می‌شوند. فرمولی که معمولا برای انعکاس ارتباط بین فرکانس مل و فرکانس فیزیکی استفاده می‌شود به صورت زیر است:
M(f)=1125*log⁡〖(1+f/700)〗
محاسبه ضرایب فرکانسی کپسترال مل با گرفتن DFT از فریم X(k) شروع می‌شود و سپس ضرب آن با یک سری از فیلترهای بالاگذر ایده‌ال مثلثیv_i (k) که فرکانس مرکزی و پهنای فیلتر بر اساس مقیاس مل تنظیم شده‌اند. سپس انرژی طیفی کل در هر فیلتر به صورت زیر محاسبه می‌شود:
E(i)=1/s_i ∑_(k=L_i)^(U_i)▒(|X(k)|.v_i (k))^2
LiوUiباند‌های بالا و پایین فیلتر و siیک ضریب نرمال سازی و i شماره فیلتر بانک است.( برای جبران پهنای باندهای مختلف فیلترها)
S_i=∑_(k=L_i)^(U_i)▒〖(v_i 〗 〖(k))〗^2
نهایتا دنباله MFCC با محاسبه تبدیل کسینوسی گسسته(DCT) از لگاریتم دنباله انرژی E(i) محاسبه می‌شود:
MFCC(l)=1/N ∑_(i=0)^(N-1)▒log⁡〖(E(i)).cos⁡〖(2π/N (i+1/2).l)〗 〗
L شماره ویژگی MFCC و N تعداد نمونه‌ها در یک فریم است. معمولا 12 ضریب به عنوان ویژگی برای نمایش گفتار محاسبه می‌شود. هم چنین می‌توان بردار تفاضل MFCC را بین فریم‌های مختلف محاسبه کرد و نرم اقلیدسی آن بردار به عنوان یک ویژگی اضافی در نظر گرفت.
∆MFCC(i,i-1)=√(∑_(i=1)^10▒|〖MFCC〗_i (l)-〖MFCC〗_(i-1) (l)|^2 )
i ایندکس فریم است. در ]6،7،11،12،13،14،15،16،19،20،21،22[از این دسته ویژگی‌ها استفاده شده است.
:Roll-off point
این ویژگی مقداری را در فرکانس نشان می‌دهد که 95% انرژی سیگنال در زیر آن قرار می‌گیرد. همان طور که قبلا ذکر شد انرژی(توان) درموسیقی در فرکانس‌های بالاتر متمرکز شده است. هرچند گفتار یک رنجی از توان فرکانسی پایین را دارد.گفتار صدادار نسبت بالایی از انرژی را در رنج فرکانسی پایین طیف دارد در حالیکه بیشتر انرژی در گفتار بی صدا و موسیقی در باندهای بالاتر است. در نتیجه نقطه roll-off طیفی برای گفتار بی صدا و موسیقی مقدار بالاتری دارد و برای گفتار صدادار مقدار پایین‌تری دارد. عبارت ریاضی برای پیدا کردن این مقدار از فرکانس به صورت زیر است:
∑_(f<K)▒〖X[f]=0.95∑_f▒〖X[f]〗〗
در ]6،7،12،13،14،15،19[از این دسته ویژگی‌ها استفاده شده است.
مرکزیت طیف19:
این ویژگی نقطه تعادل توزیع توان طیفی را در یک فریم ارائه می‌دهد.این ویژگی مرکز فرکانسی را توصیف می‌کند. سیگنال‌هایموسیقی نویز فرکانس بالا و صداهای تصادمی(زدنی) دارند که یک میانگین طیفی بالا را نتیجه می‌دهد.به عبارت دیگر در سیگنال‌هایگفتار،pitch سیگنال صوتی در یک رنج بسیار باریک از مقادیر پایین می‌ماند.به عنوان نتیجه موسیقی مرکزیت طیف بالاتری نسبت به گفتار دارد. مرکزیت طیف برای یک فریم که در زمان t رخ می‌دهد به صورت زیر محاسبه می‌شود:
SpectralCentroid=SC=(∑_(k=1)^(N-1)▒kX(k) )/(∑_(k=1)^(N-1)▒X(k) )
K ایندکسی متناظر با فرکانس، X(k) توان سیگنال در باند فرکانسی متناظراست.
در ]6،7،10،11،12،13،14،15،18،23،24[از این دسته ویژگی‌ها استفاده شده است.
Spectral Flux:
این ویژگی اختلاف طیف را فریم به فریم اندازه گیری می‌کند بنابراین تغییر در شکل طیف را مشخص می‌کند. گفتار مقدار رنج بالاتری دارد و تغییرات فریم به فریم شدیدتری نسبت به موسیقی دارد. باید به این نکته توجه کرد که گفتار مرتبا بین پریودهایی از گذار( مرزهای مصوت-صامت) و پریودهایی از حالت سکون نسبی(مصوت‌ها ) جابجا می‌شود در حالیکهموسیقی معمولا یک نرخ ثابت‌تری از تغییر را داراست. به عنوان نتیجه مقدار شار طیف(spectral flux) برای گفتار بالاتر است مخصوصا سیگنال‌های بدون صدا. اما مقدار spectral flux برای سیگنال گفتار نسبت به مقدار spectral fluxسیگنال‌های محیطی خیلی کوچک‌تر است زیرا در سیگنال‌های محیطی که تغییرات فریم به فریم نسبت به سیگنال‌هایگفتار بیشتر است.spectral flux به صورت زیر تعریف می‌شود”دومین نرم بردار تفاضل دامنه طیف فریم به فریم” یعنی مجموع مربعات اختلاف‌های فریم به فریم از اندازه DFT. که m وm-1 ایندکس فریم هستند.
Spectralflux=|| |X_i |-|X_(i+1) | ||=∑_(k=0)^(K-1)▒(|X_m (k)|-|X_(m-1) (k)|)^2
شکل2-3 نشان می‌دهد که معیار spectral flux برای speech تقریبا بالا تر از این مقدار برای موسیقی است]24[.
شکل2-3- معیار spectral flux برای گفتار تقریبا بالاتر از این مقدار برای موسیقی است
در ]10،11،13،14،15،21،25،26،27،28،29،30،31[از این دسته ویژگی‌ها استفاده شده است.
درصد فریم‌هایlow energy :
این مقدار نسبت فریم‌هایی با توان RMS20 کمتر از 50% توان RMS میانگین در یک پریود معین از زمان را اندازه گیری می‌کند. توزیع انرژی برای گفتار نسبت به موسیقی چولگی چپ بیشتری دارد. دلیل این مسئله آن است که فریم‌های سکوت بیشتری در گفتار وجود دارد بنابراین انرژی فریم‌هایی که شامل سکوت هستند نسبت به فریم‌هایی که سکوت ندارند بیشتر است.شکل2-4 نشان می‌دهد که این معیار برای گفتار بالا تر از این مقدار برای موسیقی است]24[.
در]6،7،12،13،14،15،18،24،31[ از این ویژگی استفاده شده است.
شکل2-4- درصد فریم‌های با انرژی پایین
ضرایب پیشگویی خطی(LPC):
ایده پشت پیشگویی خطی این است که نمونه بعدی سیگنال از مجموع وزن دار p نمونه قبلی پیشگویی می‌شود.
s^’ (n)=∑_(i=1)^p▒a_i s(n-i)
a_iضرایب پیشگویی هستند و p مرتبه پیشگو است. و s(n-i) یک نمونه در زمان n-i است. به عبارت دیگر هر نمونه از یک سیگنال به صورت یک ترکیب خطی از نمونه‌های قبلی مدل می‌شود. ضرایب پیشگویی به وسیله مینیمم کردن خطای بین نمونه‌های واقعی و پیشگویی شده تعیین می‌شوند. خطای پیشگویی به صورت زیر محاسبه می‌شود:
e(n)=s(n)-s^’ (n)=s(n)-∑_(i=1)^p▒a_i s(n-i)
در]10،13،30،32،33[از این ویژگی استفاده شده است.
2-3-2 تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های صوتی را می‌توان بر اساس طول فریم استخراجی به سه دسته کوتاه متوسط و بلند تقسیم کرد. مجموعه ویژگی‌هایکه از فریم‌هایی با طول 30 میلی ثانیه-ویژگی‌هایی نظیر مجموع ضرب‌ها یا MFCC یا گذر از صفر- را استخراج می‌کنند تحت عنوان ویژگی‌های با طول فریم کوتاه معرفی می‌شود. ویژگی‌های با طول فریم متوسط از تجمیع چندین پنجره متوالی کوتاه فریم حاصل می‌شود همان طور که در جدول 2-2 نمایان است عملگرهایی چون انحراف از معیار و میانگین و مشتق برای تجمیع در فاز فریم‌های متوسط مورد استفاده قرار می‌گیرد. طبقه بعدی ویژگی‌ها،ویژگی‌های با طول فریم طولانی است. که از تجمیع ویژگی‌های با طول فریم‌های متوسط ایجاد می‌شود. ویژگی‌ها با طول فریم متوسط از فریمی به طول 1 ثانیه و ویژگی‌ها با طول فریم طولانی ازفریم‌هایی با طول 10 ثانیه بهره می‌برند.]34[
جدول 2-2- تقسیم بندی ویژگی‌ها از نظر طول فریم استخراجی
ویژگی‌های
با
طول فریم کوتاهStrength of Strongest Beat – Compactness – Strongest Beat- Strength of Strongest Beat – Beat sum
Spectral Rolloff Point -Spectral Flux -Spectral Centroid
Fraction of Low Energy frames -Area Method of Moments Feature – Magnitude Spectrum-Power Spectrum
LPC – MFCC
Zero Crossing ویژگی
با طول فریم متوسط
Derivative Running mean Standard deviationویژگی
با طول فریم بلندDerivative of Standard deviation
Derivative of Running mean
Beat Histogram
2-4 مجموعه داده‌ها
تعداد مجموعه داده‌های معروفی که برای بازیابی اطلاعات موسیقی ایجادشده‌اندانگشت‌شمار است. در اکثر تحقیقات از مجموعه داده‌های ساختگی خود استفاده کرده‌اند. دو مجموعه داده معروف USPOP2002 و ISMIR 2004به منظور بازیابی اطلاعات موسیقی وجود دارد. بزرگ‌ترین ضعف این دو مجموعه داده عدم ارائه ویژگی‌های کافی برای بازیابی اطلاعات می‌باشد. این دو مجموعه داده تنها ضرایبMFCC را اختیار می‌گذارد. هیچ مجموعه داده مناسبی که بر اساس موسیقی ایرانی تهیه شده باشد وجود ندارد.
2-5 رده‌بندی موسیقی
2-5-1 رده‌بندی
در متون گذشته روشهای مختلفی برای رده‌بندی موسیقی ارائه شده است. ردهبندی کردن دادهها یکی از مهم‌ترین موضوعات در زمینه دادهکاوی محسوب میشود. هدف روشهای ردهبندی، دستهبندی نمونهها در کلاسهای از پیشتعیین شده هستند. آن‌ها نمونههای موجود در دادههای آموزش را برای پیشبینی برچسب نمونههای داخل مجموعه آزمون استفاده میکنند.
مجموعه دادههای D را در نظر بگیریم که نمونههای زیادی در آن وجود دارد و هر نمونه از دنبالهای از مقادیر مشخصهها تشکیل شده است. مضاف بر این، هر نمونه به یک کلاس با برچسب خاص تعلق دارد. بهصورت علمیتر مجموعه داده D شامل نمونههای I_j است که به شکل 〖<v〗_j1,v_j2 , …, v_jn>I_j بوده و v_ji مقدار مشخصه F_i و مربوط به دامنۀ این مشخصه است. مجموعه داده D به دو بخش آموزش و آزمون تقسیمبندی میشود. هدف اصلی در رده‌بندی، ایجاد روشی برای رده‌بندی است که بر اساس دادههای آموزش بتواند برچسبهای نمونههای موجود در مجموعه آزمون را به درستی پیشبین نماید.
در متون گذشته روشهای زیادی برای ردهبندی ارایه شده است. از جمله روشهای ردهبندی معروف میتوان به بیز ساده21[35]، شبکه عصبی [36]، درختهای تصمیمگیری [37] و الگوریتم ژنتیک [38] اشاره کرد. روشهای ردهبندی برای طبقهبندی نمونهها راهبردهای مختلفی را دنبال میکنند. یکی از مهم‌ترین راهبردها، استخراج قوانین در مرحله آموزش و به‌کارگیری این قوانین روی مجموعه آزمون است. برای استخراج قانون دو استراتژی کلی وجود دارد [39]. در استراتژی اول یک درخت تصمیمگیری ایجاد شده و سپس به یک مجموعه قانون تبدیل میشود. در این استراتژی میتوان با دنبال کردن یک مسیر از ریشه درخت به سمت یک برگ یک قانون را استخراج کرد. به عنوان مثال اگر درخت موجود در شکل 2-5 یک درخت ساخته شده توسط یک روش ردهبندی درخت تصمیمگیری باشد، میتوان قوانینی را به شرح زیر از آن استخراج کرد:
شکل2-5- یک نمونه درخت تصمیم‌گیری
اگر سن شخص جوان و فرد دانشجو باشد آنگاه برچسب وی بله است.
اگر سن شخص جوان و فرد دانشجو نباشد آنگاه برچسب وی خیر است.
اگر سن شخص مسن باشد آنگاه برچسب وی بله است.
اگر سن شخص میان سال بوده و



قیمت: تومان

دسته بندی : پایان نامه

پاسخ دهید