دیتا ماینینگ چیست؟

دیتا ماینینگ چیست؟

 آموزش دیتا ماینینگ (مقدمه)

 داده‌کاوی  یکی از مفاهیم انتزاعی در حوزه هوش مصنوعی به شمار می‌رود که در یک تعریف عامیانه می‌توان آن را به روشی جهت کشف رابطه میان ویژگی‌های یک پدیده و حالات آن توصیف نمود. یادگیری ماشین ، یکی از المان‌هایی است که در این شاخه از علم کامپیوتر بسیار موردبحث قرار می‌گیرد. در یک نگاه کلی، یادگیری ماشین به معنای تولید مدلی است که بتواند با هسته‌ی یادگیری ازپیش‌تعیین‌شده، حالات مختلف یک سیستم را تشخیص دهد.

دیتا ماینینگ چیست؟

آموزش Data Mining (مقدمه)

  • کلیات داده کاوی

   داده‌کاوی یکی از مفاهیم انتزاعی در حوزه هوش مصنوعی به شمار می‌رود که در یک تعریف عامیانه می‌توان آن را به روشی جهت کشف رابطه میان ویژگی‌های یک پدیده و حالات آن توصیف نمود. یادگیری ماشین ، یکی از المان‌هایی است که در این شاخه از علم کامپیوتر بسیار موردبحث قرار می‌گیرد. در یک نگاه کلی، یادگیری ماشین به معنای تولید مدلی است که بتواند با هسته‌ی یادگیری ازپیش‌تعیین‌شده، حالات مختلف یک سیستم را تشخیص دهد. برای مثال می‌توان به تشخیص بیماری اوتیسم بر اساس ویژگی‌های ژنی اشاره داشت. المان‌های مهم در مدل‌های دسته‌بندی عبارتند از:


1.    داده‌های ورودی (دیتاست)
2.    روند آموزش مدل (بانظارت، بدون نظارت و نیمه نظارتی)
3.    توسعه‌پذیری 


 داده‌های ورودی در دیتا ماینینگ

المان اول، داده‌های ورودی است که می‌توانند به‌صورت یک بردار از ویژگی‌ها (فیلدها) که آن را با X نشان می‌دهیم و یک برچسب (ویژگی هدف) یا Y ارائه شوند. مثلاً، ویژگی‌های یک نوع بیماری خاص بردار X و فیلد هدف آن (وجود یا عدم وجود بیماری) مقدار Y را تشکیل می‌دهد. در این بخش ممکن است مشکلاتی همانند عدم توازن ، نمونه‌های نویز ، آنومالی  و طول بالای بردار ویژگی‌ها وجود داشته باشد که به‌صورت مستقیم بر دقت مدل نهایی تأثیرگذار خواهند بود. یکی دیگر از موارد تأثیرگذار در این بخش، نحوه توزیع داده‌هاست که می‌تواند به‌صورت خطی و یا غیرخطی باشد.


 روند آموزش مدل در دیتا ماینینگ

اگر فیلد هدف در دیتاست ورودی توسط یک شخص خبره از محیط عملیاتی برچسب‌گذاری شده باشد آنگاه روند تولید مدل بانظارت  و در غیر این صورت بدون نظارت  نامیده می‌شود. کلاسه‌بندی  و خوشه‌بندی  داده‌ها عملیاتی است که با توجه به دیتاست ورودی انتخاب می‌شوند.


توسعه‌پذیری در دیتا ماینینگ

پس از تولید مدل، ممکن است نمونه‌هایی وارد شوند که پیش‌تر بررسی نگردیده و موجب تغییراتی در تابع کرنل شوند. بنابراین، حفظ توسعه‌پذیر بودن مدل‌های تولیدشده یکی از المان‌های مهم در یادگیری ماشین به شمار میرود.


روند تولید مدل‌های یادگیری با نظارت در سه فاز مختلف آموزش، ارزیابی  و آزمایش  خلاصه می‌شود. در گام نخست، تابع کرنل  بر اساس ناهنجاری‌های داده‌ای و یا توزیع‌های پیشین (آماری) شکل‌گرفته و رابطه میان ویژگی‌های ورودی و فیلد هدف را مشخص می‌سازد. (فاز آموزش داده‌ها) در گام دوم، می‌بایستی مشخص گردد که درصد دقت  مدل پیش از تولید نهایی به چه شکل بوده است (فاز ارزیابی). در سومین و آخرین گام، تست نهایی مدل انجام می‌پذیرد که می‌تواند دقت نهایی مدل در محیط‌های عملیاتی را مشخص سازد. بنابراین، مدل‌هایی که بتوانند با کاهش حساسیت به نویز، درصد دقت را افزایش دهند، موردتوجه خواهند بود. 
در آموزش‌های بعدی، مدل‌های مختلف کلاسه‌بندی و خوشه‌بندی نمونه‌ها موردبحث قرار خواهد گرفت.

"تهیه شده در مجموعه ABLY"
 

نظرات یا سوالات خودرا با ما درمیان بگذارید

0912 097 5516 :شماره تماس
0713 625 1757 :شماره تماس