دیتا ماینینگ چیست؟
آموزش دیتا ماینینگ (مقدمه)
دادهکاوی یکی از مفاهیم انتزاعی در حوزه هوش مصنوعی به شمار میرود که در یک تعریف عامیانه میتوان آن را به روشی جهت کشف رابطه میان ویژگیهای یک پدیده و حالات آن توصیف نمود. یادگیری ماشین ، یکی از المانهایی است که در این شاخه از علم کامپیوتر بسیار موردبحث قرار میگیرد. در یک نگاه کلی، یادگیری ماشین به معنای تولید مدلی است که بتواند با هستهی یادگیری ازپیشتعیینشده، حالات مختلف یک سیستم را تشخیص دهد.
آموزش Data Mining (مقدمه)
-
کلیات داده کاوی
دادهکاوی یکی از مفاهیم انتزاعی در حوزه هوش مصنوعی به شمار میرود که در یک تعریف عامیانه میتوان آن را به روشی جهت کشف رابطه میان ویژگیهای یک پدیده و حالات آن توصیف نمود. یادگیری ماشین ، یکی از المانهایی است که در این شاخه از علم کامپیوتر بسیار موردبحث قرار میگیرد. در یک نگاه کلی، یادگیری ماشین به معنای تولید مدلی است که بتواند با هستهی یادگیری ازپیشتعیینشده، حالات مختلف یک سیستم را تشخیص دهد. برای مثال میتوان به تشخیص بیماری اوتیسم بر اساس ویژگیهای ژنی اشاره داشت. المانهای مهم در مدلهای دستهبندی عبارتند از:
1. دادههای ورودی (دیتاست)
2. روند آموزش مدل (بانظارت، بدون نظارت و نیمه نظارتی)
3. توسعهپذیری
دادههای ورودی در دیتا ماینینگ
المان اول، دادههای ورودی است که میتوانند بهصورت یک بردار از ویژگیها (فیلدها) که آن را با X نشان میدهیم و یک برچسب (ویژگی هدف) یا Y ارائه شوند. مثلاً، ویژگیهای یک نوع بیماری خاص بردار X و فیلد هدف آن (وجود یا عدم وجود بیماری) مقدار Y را تشکیل میدهد. در این بخش ممکن است مشکلاتی همانند عدم توازن ، نمونههای نویز ، آنومالی و طول بالای بردار ویژگیها وجود داشته باشد که بهصورت مستقیم بر دقت مدل نهایی تأثیرگذار خواهند بود. یکی دیگر از موارد تأثیرگذار در این بخش، نحوه توزیع دادههاست که میتواند بهصورت خطی و یا غیرخطی باشد.
روند آموزش مدل در دیتا ماینینگ
اگر فیلد هدف در دیتاست ورودی توسط یک شخص خبره از محیط عملیاتی برچسبگذاری شده باشد آنگاه روند تولید مدل بانظارت و در غیر این صورت بدون نظارت نامیده میشود. کلاسهبندی و خوشهبندی دادهها عملیاتی است که با توجه به دیتاست ورودی انتخاب میشوند.
توسعهپذیری در دیتا ماینینگ
پس از تولید مدل، ممکن است نمونههایی وارد شوند که پیشتر بررسی نگردیده و موجب تغییراتی در تابع کرنل شوند. بنابراین، حفظ توسعهپذیر بودن مدلهای تولیدشده یکی از المانهای مهم در یادگیری ماشین به شمار میرود.
روند تولید مدلهای یادگیری با نظارت در سه فاز مختلف آموزش، ارزیابی و آزمایش خلاصه میشود. در گام نخست، تابع کرنل بر اساس ناهنجاریهای دادهای و یا توزیعهای پیشین (آماری) شکلگرفته و رابطه میان ویژگیهای ورودی و فیلد هدف را مشخص میسازد. (فاز آموزش دادهها) در گام دوم، میبایستی مشخص گردد که درصد دقت مدل پیش از تولید نهایی به چه شکل بوده است (فاز ارزیابی). در سومین و آخرین گام، تست نهایی مدل انجام میپذیرد که میتواند دقت نهایی مدل در محیطهای عملیاتی را مشخص سازد. بنابراین، مدلهایی که بتوانند با کاهش حساسیت به نویز، درصد دقت را افزایش دهند، موردتوجه خواهند بود.
در آموزشهای بعدی، مدلهای مختلف کلاسهبندی و خوشهبندی نمونهها موردبحث قرار خواهد گرفت.
"تهیه شده در مجموعه ABLY"