و skos:subject نیز اعمال می‌گردد.
4-5-9 پردازش صفحات بازگشتی
پس از ارسال هر تاپل (موضوع، نوع)، صفحات بازگشتی گوگل می‌بایستی پردازش شوند. در پردازش صفحات کلماتی چون حروف تعریف، حروف ربط، افعال و حروف اضافه بی تأثیر خواهد بود و سیستم ارائه شده فقط از نامها استفاده می‌کند. تمامی پردازش‌های متنی در این تحقیق با استفاده از نرم افزار پردازش متن Gate انجام گرفتهاند. در اولین مرحله تمامی‌کلمات ربط، اضافه، تعریف، افعال و کلماتی از این دست حذف می‌شوند. سیستم به ترتیب صفحات را واکشی می‌کند و پس از حذف کلمات اضافه، خصوصیات مورد نظر برچسب می‌شوند. این روند تا پیدا شدن 50 خصوصیت با احتساب تکرار آنها ادامه پیدا می‌کند.
در آزمایشات اولیه برای یافتن 50 خصوصیت در 3 زمینه موسیقی، فیلم و مکانهای تاریخی و فرهنگی بطور متوسط 3/7 صفحه بررسی شدهاند. با توجه به این نتیجه برای بالاتر بردن کارایی روش ارائه شده، به جای واکشی صفحات به صورت تکتک تا پیدا شدن 50 خاصیت، 8 صفحه اول در یک مرحله واکشی و پردازش میشوند. در صورتی که در این 8 صفحه خصوصیات به تعداد مورد نیاز تکرار نشده بود سیستم برای پیدا کردن باقیمانده خصوصیات به واکشی تکی صفحات بعد از صفحه هشتم اقدام می‌کند.
4-5-10 تحلیل آماری صفحات وب و محاسبه امتیاز خصوصیات
در میان یادگیری‌های بدون نظارت تحلیل‌های آماری روشی مناسب در جهت استخراج روابط و اهمیت اطلاعات است. مهمترین مشکل روش‌های تحلیل آماری کمبود منابع مورد تحلیل است که منتج به برآوردها و نتایج غلط می‌شوند [36]. که این نقیصه از طریق افزایش حجم داده‌های ورودی به سیستم تحلیلگر قابل حل است [37]. از این رو با توجه به حجم اطلاعات متنی موجود بر روی وب، درصورت استفاده به عنوان ورودی این مسئله قابل رفع است. در روش ارائه شده بسامد تکرار هر خصوصیت منتهی به امتیاز آن خصوصیت میگردد. امتیازی که به هر خاصیت داده می‌شود برابر تکرار آن خاصیت نسبت به کل تعداد تکرار همه خاصیت‌ها است که یک عدد نرمال شده بین 0 تا 1 خواهد بود.
(4-3)
∑▒〖S_i=1 ∀p_i:0≤S_i 〗≤1
که pi نشان دهنده خاصیت iام و si نشان دهنده امتیاز متناظر با آن است.
پس از امتیاز بندی خصوصیات، خاصیتهایی که امتیازی بدست نیاورده باشند نیز حذف خواهد شد. بعلاوه این خصوصیات به انباره خصوصیات ارسال میشوند تا در صورت مناسب بودن به انباره خصوصیات اضافه شوند.

شکل 4-10: مراحل امتیاز دهی خصوصیات و حذف خصوصیات نامطلوب
4-6 تحلیل پارافک
اکنون تنسور کاهش یافته باید توسط روش پارافک تجزیه شود، تا میزان وابستگی RDFها به یکدیگر و به خصوصیات معین شود. در رتبه‌بندی سه‌گانه برای این منظور از الگوریتم ALS106 استفاده شده است [33]. اگر تنسور T∈ R^(k×l×m) در نظر گرفته شود که قرار است به شکل
T≈∑_(k=1)^n▒〖λ_k . U_1^k ° U_2^k ° U_3^k 〗 تخمین زده شود. ALS ابتدا U_2^ و U_3^ را ثابت فرض کرده و U_1^ را حل می‌کند، سپس U_1^k و U_3^ را ثابت در نظر میگیرد تا U_2^ را محاسبه کند و در پایان U_1^ و U_2^ ثابت فرض کرده و U_3^ را محاسبه می کند. این فرایند آنقدر تکرار می‌شود تا شرط همگرایی تعیین شده که نشان دهنده میزان نزدیکی تنسور تخمین زده شده به تنسور اصلی است ارضاء شود.
الگوریتم ALS در مورد رتبه‌بندی سه‌گانه استاندارد عملکرد خوبی از خود نشان می‌دهد. اما در مورد مسئله ارائه شده در این تحقیق استفاده از آن چندان به صرفه نیست. با رجوع به جداول شماره 5-2 مشاهده می‌شود که تنسورهای پیشپردازش شده توسط روش جدید بطور متوسط بین 28 تا 34 درصد نسبت به تنسورهای پیشپردازش شده توسط روش رتبه‌بندی سه‌گانه استاندارد خصوصیت حذف شده دارند. حذف هر خصوصیت به معنای دست کم حذف یک رابط از گراف معنایی و در نتیجه قرار گرفتن یک صفر در موقعیت آن رابطه در تنسور مجاورت معادل است. پس تنکی107 تنسورهای این به مقدار قابل توجهی از تنسورهای پیشپردازش شده با رتبه‌بندی سه‌گانه استاندارد بیشتر است. به هنگام پردازش، الگوریتم ALS مسئله خلوت بودن تنسور را نادیده میگیرد [33]. از این رو از یک روش ALS منطبق شده با تنسورهای خلوت بنام CP-ALS سود جستهشده است.

شکل 4-11: شبه کد الگوریتم CP-ALS
در شبه کد الگوریتم CP-ALS که در بالا آمده است، X تنسور ورودی، R تعداد اجزاء مورد نیاز که تنسور باید به آنها تجزیه شود و N ابعاد تنسور است. در اینجا R و N هر دو برابر با 3 در نظر گرفته میشوند. زیرا در نهایت 3 ماتریس میبایستی تولید شوند
4-7 افزودن خصوصیات جدید به انباره خصوصیات حذفی
همانطور که گفته شد، در مرحله امتیازدهی خصوصیات با استفاده از وب، برخی از خصوصیات واجد امتیازی نمیشوند و حذف میشوند. برای توجیه امتیاز 0 این دسته از خصوصیات 2 دلیل میتواند ارائه شود. دلیل اول میتواند این باشد که خصوصیت مذکور یک خصوصیت عمومی‌–از آن دسته خصوصیاتی که در دسته اول یا دوم طبقهبندی گفته شده جای میگیرند- است. دلیل دوم میتواند این باشد که خصوصیت مذکور یک خصوصیت معتبر در دایره خصوصیات مربوط به یک حوزه باشد، اما به ندرت ممکن است مورد استفاده قرار بگیرد.
اینگونه خصوصیات به همراه موضوع RDFهای شامل آنها، و تعداد دفعات حذف به تفکیک آن موضوعات ذخیره میشوند. جدول 4-6 نمونهای از اینگونه خصوصیات را نشان می‌دهد. اگر خصوصیتی دست کم در n موضوع تکرار شده بود و در هر موضوع دستکم d بار حذف شده بود آن خصوصیت به انباره پویای خصوصیات حذفی اضافه می‌شود.
جدول 4-6: سابقه حذف خصوصیات (اطلاعات موضوع و تعداد حذفها ف
رضی هستند)
خصوصیت
موضوع(n)
تعداد حذف(d)
dbpp:wikilink
The Beatles
8

James Bond
4

Iran
3
dbpp:wikiPageUsesTemplate
James Bond
4

Iran
2
در جدول 4-6 اگر nبرابر با 2 و d مساوی با 3 در نظر گرفته شوند، آنگاه خصوصیت dbpp:wikilink میبایستی به انباره اضافه شود اما خصوصیت dbpp:wikiPageUsesTemplate هنوز نمیتواند در انباره قرار بگیرد.
مسئله موجود در مورد خصوصیات معتبر مربوط به دسته سوم که ممکن است بندرت مورد استفاده قرار بگیرند را با توجه به تعداد کاربران زیادی که میتوان برای سامانهی پیشنهاد دهنده متصور شد، قابل حل است. با در نظر گرفتن مقادیر به اندازهی کافی بزرگ برای n و d میتوان از افزوده نشدن خصوصیاتی که بندرت مورد استفاده قرار میگیرند، به انباره خصوصیات حذفی اطمینان حاصل کرد. و با توجه به تعداد زیاد پیشنهادات میتوان با درصد بالایی اطمینان حاصل کرد که اینگونه خصوصیات امتیاز شرایط لازم جهت اضافه شدن به انباره را کسب نکنند. راه حل دیگری که میتوان برای این مسئله در نظر گرفت این است که، به جای فرستادن خصوصیات با امتیاز صفر به انباره، همه خصوصیات را فرستاد. در این حالت خصوصیات دارای امتیاز اگر در لیست انتظار حذف قرار گرفته باشند را میتوان از لیست خارج کرد. مشکل روش دوم بار زیادی است که به سیستم وارد می‌شود. از این رو در این تحقیق روش اول بکار گرفته شده است.
4-8 کاربرد نظریه غذا یابی بهینه در سیستم
تا به اینجا بخش اول سیستم که براساس بهینه سازی مدل رتبهبندی سهگانه بود انجام گرفته است. اکنون زمان اعمال نظریه غذا یابی بهینه فرا میرسد. این مدل که در فصل سوم تشریح شد فرایند یافتن غذا توسط جانوران را توضیح میدهد.
4-9 تغییرات مورد نیاز روش انتخاب رژیم بهینه
مدل مورد استفاده مشخصا در حوزه رفتارشناسی جانداران تعریف شده است. بالطبع نگاشت این مدل به حوزه مسئله سیستمهای پیشنهادگر نیاز به ایجاد تغییرات و اعمال پیشفرضهایی دارد. مسائلی که میبایست مدنظر قرار گیرند شامل تفاوت بین ورودیها در حوزه زیستشناسی با حوزه سیستمهای پیشنهادگر، اختلاف در میزان و حجم ورودیها در این دو حوزه و تفاوت در خروجیهای مورد انتظار است.
از آنجا که این روش در حالت استاندارد به نوع توجه دارد نه نمونه بنابراین همهی نمونههایی که دارای سودمندی یکسانی باشند را در یک دسته قرار میدهد و فرایند انتخاب را روی آنها انجام میدهد. این بدان معنی است که دو گونه جانوری متفاوت در صورتی که بهره و هزینه یکسانی داشته باشند از یک نوع در نظر گرفته میشوند. از طرفی دیگر مدل استاندارد برای عمل بر روی مجموعههای با حجم اطلاعاتی محدودتری نسب به آنچه که در سیستمهای انفورماتیکی وجود دارد تعریف شده است. و در آخر اینکه شباهتهای بسیار زیاد در موردهایی که به عنوان ورودی در نظر گرفته میشود به صورت تئوری میتواند کارایی الگوریتم را تحت تاثیر قرار دهد. در نتیجه نسبت به مدل استاندارد باید مواردی مانند
کاهش شباهت بین نمونهها برای ایجاد تمایز امتیاز سودمندی بین آنها
کاهش تعداد نمونهها جهت کاهش حجم اطلاعات مورد نیاز در فرایند تصمیم گیری
اعمال روش برروی نمونه به جای نوع
بر روی مدل و دادههای ورودی مدل انجام شوند.
4-9-1 کاهش شباهت و تعداد نمونهها با پیشپردازش
در این فصل روش پیشپردازشی ارائه شد که با مقابله دادن اطلاعات حاصل از دادههای پیوندی با دادههای بدون ساختار شبکه جهانی وب، مبادرت به حذف خصوصیات و مشخصههای دادههای پیوندی و در نهایت حذف برخی از RDF های کاندیدای قابل ارائه به کاربر میکند. این روش باعث رفع مسئله اول در حد بسیار خوب و رفع کامل مورد دوم میشود. برای روشن شدن دلایل نیاز به پیش پرداز، فرض شود این مرحلهای انجام نشود و الگوریتم انتخاب رژیم غذایی بهینه به صورت استاندارد اعمال شود. این الگوریتم در ذات خود واجد دو خصوصیت است:
حریصانه عمل میکند.


دیدگاهتان را بنویسید