در حوزه یادگیری ماشین و یادگیری عمیق، الگوریتم‌های هوش مصنوعی مختلفی وجود دارند که از هر کدام می‌توان در حل مسائلی خاص استفاده کرد. شبکه عصبی «پرسپترون چند لایه» (Multi Layer Perceptron | MLP) به عنوان یکی از انواع شبکه‌های عصبی مصنوعی پرکاربرد محسوب می‌شود و از آن می‌توان در حل مسائل پیچیده‌ای استفاده کرد که در آن‌ها شبکه عصبی پرسپترون تک لایه کاربرد ندارد.

در این مطلب از مجله فرادرس قصد داریم در ابتدا به توضیح مختصری از شبکه پرسپترون تک لایه بپردازیم تا خواننده با ساختار کلی پرسپترون آشنا شود. سپس، اجزای درونی مدل پرسپترون چند لایه را شرح می‌دهیم و به ویژگی‌ها و کاربردهای آن اشاره خواهیم کرد. در پایان مطلب نیز مثالی از زبان برنامه نویسی پایتون ارائه خواهیم داد تا مخاطب این مطلب با نحوه پیاده‌سازی این مدل در پایتون آشنا شود.

شبکه عصبی تک لایه پرسپترون چیست؟

مدل تک لایه پرسپترون یک شبکه عصبی ساده است که توسط «فرانک رزنبلات» (Frank Rosenblatt) در دهه ۱۹۵۰ ارائه شد. این مدل لایه پنهان ندارد و از آن به منظور دسته‌بندی داده ورودی در دو کلاس استفاده می‌شود. می‌توان مدل تک لایه پرسپترون را جزء الگوریتم‌های «یادگیری نظارت شده» (Supervised Learning) تلقی کرد که آن را برای دسته‌بندی خطی داده‌ها به کار می‌برند.

شبکه عصبی پرسپترون تک لایه محاسباتی را بر روی ورودی خود انجام می‌دهد تا داده‌ها را بر اساس شناسایی ویژگی‌هایشان، در دو کلاس جای دهد. به همین خاطر، به این مدل، دسته‌بند دودویی خطی نیز گفته می‌شود.

مدل پرسپترون تک لایه از ۴ بخش تشکیل شده است:

  • مقادیر ورودی یا لایه ورودی: لایه ورودی پرسپترون تک لایه از نورون‌هایی ساخته شده است که داده‌ها را دریافت می‌کنند و این مقادیر را برای پردازش به لایه بعد می‌فرستند.
  • وزن‌ها و بایاس: پارامترهای شبکه عصبی، وزن‌ها و مقدار بایاس هستند و هدف آموزش شبکه‌های عصبی، پیدا کردن این مقادیر است. وزن‌های شبکه، مقدار اهمیت ورودی متناظر را مشخص می‌کند.
  • جمع مقادیر وزن‌دار ورودی: مقدار داده‌های ورودی در وزن‌های شبکه ضرب و در نهایت با مقدار بایاس با یکدیگر جمع می‌شوند تا مقدار نهایی، به تابع فعالسازی ارسال شود.
  • «تابع فعالسازی» (Activation Function): مقدار خروجی مرحله قبل از یک تابع خطی عبور می‌دهد تا مقدار خروجی شبکه مشخص شود. این تابع خطی، تابع فعالسازی نام دارد. در مدل پرسپترون تک لایه، از توابع فعالسازی نظیر Heaviside استفاده می‌شود. این تابع، به ازای مقادیر بزرگ‌تر مساوی ۰، مقدار ۱ و به ازای مقادیر کوچک‌تر از ۰ مقدار ۰ را در خروجی برمی‌گرداند.

در تصویر زیر، نمونه‌ای از شبکه عصبی پرسپترون تک لایه را به همراه محاسبات درون آن ملاحظه می‌کنید.

ساختار شبکه عصبی پرسپترون تک لایه
ساختار شبکه عصبی پرسپترون تک لایه

مشکل پرسپترون تک لایه چیست؟

مدل پرسپترون تک لایه، مدل ساده‌ای است که صرفاً می‌تواند داده‌ها را در دو کلاس قرار دهد و دسته‌بندی داده‌ها را به‌صورت خطی انجام دهد. به دلیل چنین محدودیتی، نمی‌توان از این مدل در مسائل پیچیده‌تر استفاده کرد. به همین خاطر، در دهه ۱۹۸۰ «جفری هینتون» (Geoffrey Hinton) با بررسی مغز انسان دریافت که مغز از یک مجموعه پیچیده‌ای از نورون‌های متصل به هم ساخته شده است که می‌تواند محاسبات پیچیده‌ای بر روی داده‌ها انجام دهد. وی از مشاهدات خود به این نتیجه رسید که مدل پرسپترون تک لایه را می‌تواند همانند مغز انسان به مدل چند لایه تبدیل کند تا از آن بتوان در حل مسائل پیچیده‌تر و غیرخطی نیز استفاده کرد. بدین ترتیب، شبکه عصبی پرسپترون چند لایه ظهور پیدا کرد.

مقایسه مدل پرسپترون چند لایه و مدل پرسپترون تک لایه
مقایسه مدل پرسپترون چند لایه و مدل پرسپترون تک لایه

در ادامه، به توضیح شبکه عصبی چند لایه پرسپترون و ویژگی‌های آن می‌پردازیم.

شبکه عصبی پرسپترون چند لایه

مدل پرسپترون چند لایه به عنوان یکی از انواع شبکه‌های عصبی تلقی می‌شود که از چندین لایه نورون متصل به هم تشکیل شده است. در این نوع شبکه عصبی، بر خلاف سایر الگوریتم های یادگیری عمیق نظیر «شبکه عصبی بازگشتی» (Recurrent Neural Network | RNN)، داده‌ها صرفاً به یک جهت (به سمت جلو) در شبکه منتقل می‌شوند. از مدل پرسپترون چند لایه در طراحی سایر الگوریتم‌های هوش مصنوعی مانند «شبکه عصبی پیچشی» (Convolutional Neural Network | CNN) استفاده می‌شود.

به منظور درک عملکرد شبکه پرسپترون چند لایه می‌توان از یک مثال ساده کمک گرفت. فرض کنید ۵ دانش‌آموز ۷ ساله داریم که می‌خواهند یک مسئله ریاضی را حل کنند. این دانش‌آموزان فقط می‌توانند محاسبات ساده دو رقمی را انجام دهند. اما مسئله ریاضی مطرح شده به این صورت است:

  ? = ۵ * ۳ + ۲ * ۴ + ۸ * ۲

از آنجایی که دانش‌آموزان نمی‌توانند این مسئله ریاضی را حل کنند، باید آن را به بخش‌های کوچک‌تری تقسیم کرد و هر بخش را به یک دانش‌آموز داد تا در نهایت پاسخ مسئله مشخص شود. به عنوان مثال، می‌توان از دانش‌آموز اول درخواست کرد که محاسبه ۲ * ۸ را انجام دهد. دانش آموز دوم و سوم نیز به‌ترتیب می‌توانند حاصل ۲ * ۴ و ۳ * ۵ را به دست آورند. از دانش‌آموز بعدی می‌توانیم درخواست کنیم پاسخ دانش‌آموز اول و پاسخ دانش‌آموز دوم را با یکدیگر جمع کند. سپس، دانش‌آموز آخر نیز می‌تواند پاسخ دانش‌آموز سوم و چهارم را با هم جمع کند تا مقدار نهایی مسئله به دست آید.

بدین‌ترتیب، با شکستن صورت مسئله ریاضی به بخش‌های کوچک‌تر و حل هر یک از آن‌ها می‌توان به پاسخ نهایی مسئله رسید. این دقیقاً همان ایده‌ای است که شبکه عصبی پرسپترون چند لایه برای حل مسائل پیش می‌گیرد. هر نورون مدل، به عنوان یک دانش‌آموز عمل می‌کند و محاسبات ساده ریاضی را انجام می‌دهد. پاسخ نهایی هر نورون به نورون‌های بعدی منتقل می‌شود تا در نهایت، پاسخ مسئله حاصل شود.

مثال ساده از دنیای واقعی برای درک مدل پرسپترون چند لایه

ساختار شبکه عصبی چند لایه پرسپرتون

شبکه عصبی پرسپترون چند لایه از چندین لایه متصل به هم تشکیل شده است. در ادامه، به لایه‌های این مدل اشاره می‌کنیم:

  • لایه ورودی: این لایه، اولین لایه شبکه عصبی است که داده‌های ورودی را دریافت می‌کند و وظیفه آن، ارسال داده‌ها به لایه بعدی است.
  • لایه پنهان: لایه‌های پنهان می‌توانند بیش از یک لایه باشند. این لایه‌ها از نورون‌هایی تشکیل شده‌اند که وظیفه انجام محاسباتی را بر روی ورودی‌های خود بر عهده دارند و خروجی حاصل شده از محاسبات را به لایه بعد خود منتقل می‌کنند.
  • لایه خروجی: این لایه، مقدار خروجی نهایی شبکه را مشخص می‌کند. ورودی این لایه، خروجی‌های لایه پنهان است.

تعداد نورون‌های لایه ورودی شبکه پرسپترون چند لایه برابر با اندازه داده‌های ورودی است و تعداد نورون‌های لایه خروجی، برابر با تعداد دسته‌های تعریف شده برای مسئله است. هر چقدر تعداد لایه‌های میانی (لایه پنهان) بیشتر باشد، شبکه نهایی می‌تواند از پس مسائل پیچیده‌تری برآید.

پردازش داده ها در شبکه عصبی پرسپترون چند لایه

همان‌طور که در بخش پیشین مطلب حاضر از مجله فرادرس گفته شد، مدل پرسپترون چند لایه از سه لایه اصلی ورودی، لایه پنهان و لایه خروجی تشکیل شده است. زمانی که داده‌ها را به ورودی این شبکه ارسال می‌کنیم، داده‌ها از لایه ورودی عبور می‌کنند. در این لایه، هیچ‌گونه محاسباتی بر روی داده‌ها انجام نمی‌شود و لایه ورودی صرفاً مسئولیت انتقال داده‌ها را به لایه بعدی بر عهده دارد.

نورون‌های لایه پنهان، بر روی داده‌های دریافتی محاسباتی را انجام می‌دهند و سپس مقادیر حاصل شده را به لایه بعدی خود منتقل می‌کنند. این روند انتقال داده‌ها تا زمانی پیش می‌رود که داده‌ها به لایه آخر منتقل شوند.

نورون‌های لایه‌های پنهان با یک سری مقادیر (وزن‌های شبکه) به یکدیگر متصل هستند که میزان اهمیت نورون را برای پردازش داده‌ها مشخص می‌کند. هر چقدر وزن‌ها بیشتر باشند، تاثیر نورون متصل به آن وزن در محاسبه بیشتر است و در پی این اتفاق، آن نورون بر روی محاسبه خروجی مسئله تاثیر بیشتری خواهد گذاشت. از طرف دیگر، اگر وزن یک نورون خیلی کوچک باشد، تاثیر داده آن نورون در محاسبات بعدی شبکه کم‌تر خواهد بود و در نتیجه تغییرات چندانی در خروجی نهایی شبکه ایجاد نخواهد کرد.

پرسپترون چند لایه
ساختار درونی مدل پرسپترون چند لایه

مقدار بایاس هر لایه نیز به نوعی مقدار حد آستانه خروجی یک نورون را مشخص می‌کند. چنانچه حاصل جمع ورودی یک نورون با بایاس از یک مقدار مشخص بیشتر شود، آن نورون یک مقدار خروجی تولید می‌کند در غیر این صورت مقدار نهایی حاصل شده آن نورورن برابر با عدد ۰ است. در فرمول زیر، پردازش محاسباتی درون هر نورون را ملاحظه می‌کنید:

$$ z = WX + bias $$

در این فرمول، W وزن‌های شبکه و X ورودی‌های شبکه هستند. هر نورون این فرمول را برای خود محاسبه می‌کند. محاسبات تا به اینجا، مشابه با محاسبات شبکه عصبی پرسپترون تک لایه است. این فرمول برای مدل‌های خطی به کار می‌رود. اما هدف از طراحی مدل پرسپترون چند لایه این بود که مسائل غیر خطی را حل کند. بدین ترتیب، در اینجا نیاز داریم از یک سری توابع غیر خطی به نام توابع فعالسازی استفاده کنیم.

اگر بخواهیم عملکرد توابع فعالسازی را برای شما به‌سادگی شرح دهیم، می‌توانیم بگوییم این توابع تصمیم می‌گیرند چه نورون‌هایی در شبکه فعال باشند و خروجی کدام نورون‌ها نادیده گرفته شوند. توابع فعالسازی نحوه پردازش نورون‌های مغز را شبیه‌سازی می‌کنند و به شبکه این امکان را می‌دهند تا روابط پیچیده و غیرخطی بین داده‌های ورودی و مقدار خروجی شبکه را یاد بگیرند.

بدین‌ترتیب، مقدار z فرمول ذکر شده در بالا به یک تابع فعالسازی در نورون ارسال می‌شود و خروجی تابع، به عنوان خروجی نورون محسوب می‌گردد. مقدار خروجی نورون برای انجام محاسبات به لایه بعدی منتقل می‌شود.

مثال شبکه چند لایه پرسپترون

بنابراین، محاسبات هر نورون را با در نظر تابع فعالسازی می‌توان به‌صورت زیر نوشت:

$$ output = Φ (WX + bias) $$

یا

$$ z = WX + bias $$

$$ output = Φ (z) $$

در فرمول بالا Φ تابع فعالسازی است.

یکی از توابع فعالسازی رایجی که در شبکه‌های عصبی مورد استفاده قرار می‌گیرد، تابع «یکسوساز» (Rectified Linear Unit | ReLU) است. این تابع با دریافت مقدار ورودی، بررسی می‌کند آیا از عدد ۰ بزرگ‌تر هست؟ اگر مقدار ورودی این تابع از عدد ۰ کوچکتر بود، تابع مقدار ۰ را در خروجی باز می‌گرداند. چنانچه ورودی تابع ReLU از مقدار ۰ بزرگ‌تر بود، تابع مقدار ورودی را به عنوان خروجی برمی‌گرداند. بازنمایی ریاضی تابع ReLU را در ادامه ملاحظه می‌کنید:

ReLU = max (0, z)

از توابع فعالسازی دیگری نیز می‌توان برای نورون‌های شبکه استفاده کرد که در ادامه به برخی از پرکاربردترین آن‌ها اشاره می‌کنیم:

  • تابع فعالسازی «سیگموئید» (Sigmoid): این تابع فعالسازی، مقادیر ورودی خود را به اعدادی بین بازه ۰ تا ۱ نگاشت می‌کند. از این تابع برای مدل‌سازی مسائل احتمالاتی استفاده می‌شود و معمولاً به عنوان تابع فعالسازی لایه آخر شبکه به کار می‌رود.
  • تابع فعالسازی «تانژانت هذلولوی» (Tangent Hyperbolic | Tanh): این تابع فعالسازی، مقادیر ورودی خود را در بازه‌ای بین ۱- و ۱ نگاشت می‌کند. معمولاً از این تابع در لایه‌های پنهان استفاده می‌شود.
  • تابع فعالسازی «سافتمکس» (Softmax): این تابع فعالسازی یکی از توابع پرکاربرد برای لایه آخر شبکه عصبی است و از آن برای دسته‌بندی داده‌های چندکلاسه استفاده می‌شود.

پس از این که تمام محاسبات لایه میانی و لایه آخر شبکه MLP انجام شد، بر اساس مقدار خروجی شبکه، میزان خطای مدل محاسبه می‌شود که در طی یادگیری شبکه، باید این میزان خطا به حداقل مقدار برسد. به منظور به‌روزرسانی وزن‌های شبکه، با استفاده از «روش پس انتشار» (Backpropagation) از «تابع زیان» (Loss Function | Cost Function) نسبت به وزن‌های شبکه مشتق جزئی گرفته می‌شود و مقادیر وزن‌ها تغییر می‌کنند.

کاربردهای مدل پرسپترون چند لایه

از مدل عمیق چند لایه پرسپترون در حل مسائل مختلفی استفاده می‌شود که در این بخش به رایج‌ترین کاربردهای آن اشاره می‌کنیم:

  • تشخیص تصویر: یکی از کاربردهای رایج مدل MLP استفاده از آن در تشخیص الگوهای موجود در تصاویر است تا با کمک این اطلاعات، تصاویر را در دسته‌های مختلف قرار دهد. این امر در مسائلی نظیر تشخیص چهره، تشخیص اشیا، قطعه‌بندی تصاویر و سایر مسائل پردازش تصویر کاربرد دارد.
  • «پردازش زبان طبیعی» (Natural Language Processing | NLP): از شبکه عصبی چند لایه پرسپترون برای درک و تولید زبان انسان استفاده می‌شود. کاربرد این مدل عمیق را می‌توان در مسائلی نظیر تبدیل متن به گفتار، ترجمه ماشینی و تحلیل احساسات ملاحظه کرد.
  • مدلسازی پیش‌بینی: از شبکه MLP می‌توان برای پیش‌بینی مسائل بر پایه داده‌های موجود استفاده کرد. کاربرد مدل‌سازی پیش‌بینی را می‌توانیم در مسائلی نظیر پیش‌بینی بورس، پیش‌بینی وضعیت آب و هوا و تشخیص کلاه‌برداری‌ ببینیم.
  • تشخیص‌های پزشکی: از مدل MLP می‌توان در حوزه پزشکی به منظور تشخیص بیماری‌های مختلف استفاده کرد. تفسیر تصاویر پزشکی یکی از کارهایی است که به‌راحتی با استفاده از مدل پرسپترون چند لایه با دقت بالا انجام می‌شود.
  • سیستم‌های پیشنهاد دهنده: از شبکه عصبی MLP می‌توان در طراحی سیستم‌های پیشنهاد دهنده استفاده کرد تا بر اساس یک سری ویژگی‌ها نظیر سلایق مشتری، خریدهای قبلی مشتری، جستجوهای مشتری و مواردی از این قبیل، پیشنهادات خرید مرتبطی را به مشتری نشان دهد.
دختری در حال بررسی هوش مصنوعی

مزایای مدل عمیق MLP

مدل هوش مصنوعی پرسپترون چند لایه دارای ویژگی‌های مثبتی است که در ادامه به برخی از مهم‌ترین آن‌ها اشاره می‌کنیم:

  • از مدل MLP می‌توان برای پیاده‌سازی مسائل غیرخطی پیچیده استفاده کرد.
  • مدل چند لایه پرسپترون می‌تواند برای مسائلی با حجم داده زیاد نتایج خوبی را ارائه دهد.
  • پس از مرحله آموزش، مدل MLP برای پیش‌بینی درباره داده‌های تست به زمان زیادی نیاز ندارد.
  • اگر داده‌های آموزشی کمی را برای مسئله تهیه کرده باشیم، مدل MLP تقریباً همان نتایجی را ارائه می‌دهد که با داده زیاد آن را آموزش داده باشیم.

معایب شبکه عصبی MLP

شبکه عصبی MLP علاوه‌بر مزایا، دارای معایبی نیز هست که در ادامه به آن‌ها می‌پردازیم:

  • این مدل برای رسیدن به همگرایی، به داده، زمان و پارامترهای زیادی احتیاج دارد.
  • احتمال رخداد «بیش برازش» (Overfitting) و «کم برازش» (Underfitting) برای این مدل عمیق وجود دارد.
  • «محو شدگی گرادیان» (Vanishing Gradients) از دیگر مسائلی است که به عنوان معایب شبکه MLP در نظر گرفته می‌شود.
  • مدل MLP در حین آموزش ممکن است در نقطه مینیم محلی گیر کند. بدین‌ترتیب، این احتمال وجود دارد بهینه‌ترین پاسخ برای مسئله پیدا نشود.

پیاده سازی رگرسیون با استفاده از شبکه MLP در پایتون

در این بخش مطلب از مجله فرادرس، قصد داریم یک مسئله رگرسیون را با مدل پرسپترون چند لایه پیاده‌سازی کنیم. در این مسئله با استفاده از کتابخانه Numpy زبان برنامه نویسی پایتون، داده‌هایی را به‌شکل تصادفی تولید می‌کنیم و با استفاده از مدل MLP قصد داریم الگوهای این داده‌ها را تشخیص دهیم.

در ابتدا، با استفاده از قطعه کد زیر، داده‌های آموزشی را ایجاد می‌کنیم:

from sklearn.datasets import make_regression
import numpy as np
import matplotlib.pyplot as plt

X_train = np.linspace(-10, 10, 1000)
y_train = np.sin(X_train) + np.random.normal(0, 0.2, size=X_train.shape)

X_test =  np.linspace(-10, 10, 500)
y_test =  np.sin(X_test) + np.random.normal(0, 0.2, size=X_test.shape)

با کمک قطعه کد زیر، داده‌های تولید شده را در قالب نمودار ملاحظه می‌کنیم:

plt.scatter(X_train, y_train)
plt.show()

خروجی قطعه کد بالا در تصویر زیر قابل ملاحظه است:

با استفاده از «تنسورفلو» (Tensorflow) و «کراس» (Keras)، مدل پرسپترون چند لایه را به صورت زیر تعریف می‌کنیم:

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(62, activation='relu', input_dim=1))
model.add(tf.keras.layers.Dense(62, activation='relu'))
model.add(tf.keras.layers.Dense(1, activation='linear'))

در قطعه کد بالا ملاحظه می‌کنید که شبکه عصبی MLP دارای دو لایه پنهان است که هر کدام از لایه‌ها، ۶۴ نورون با تابع فعالسازی ReLU دارند. ابعاد داده ورودی برابر با ۱ است زیرا داده‌های آموزشی تنها دارای یک ویژگی هستند و لایه آخر این شبکه نیز دارای یک نورون است.

model.compile(loss='mse', optimizer='adam', metrics=['mae'])
history = model.fit(X_train, y_train, epochs=500)

تابع هزینه مسئله رگرسیون را از نوع Mean Square Error یا همان MSE در نظر گرفتیم و برای بهینه‌سازی مدل نیز از الگوریتم بهینه سازی آدام Adam استفاده کردیم. قطعه کد زیر نیز نحوه عملکرد مدل را بر روی داده‌های آموزشی نشان می‌دهد:

plt.scatter(X_train, y_train)
plt.plot(X_train, model.predict(X_train), color='red')
plt.show()

خروجی قطعه کد بالا به صورت زیر است. منحنی قرمز رنگ به عنوان منحنی رگرسیون با استفاده از مدل MLP شکل گرفته است.

با استفاده از قطعه کد زیر نیز از مدل برای پیش‌بینی مقادیر داده‌های تست استفاده می‌کنیم:

pred = model.predict(X_test)

plt.scatter(X_test, y_test)
plt.plot(X_test, pred, color='red')
plt.show()

خروجی قطعه کد بالا را در تصویر زیر ملاحظه می‌کنید:

جمع‌بندی

الگوریتم‌های مختلفی در حوزه ماشین لرنینگ و یادگیری عمیق وجود دارند که با توجه به ویژگی‌های منحصربه‌فردی که دارند، در مسائل خاصی استفاده می‌شوند. در مطلب حاضر از مجله فرادرس، به توضیح شبکه عصبی پرکاربرد پرسپترون چند لایه پرداختیم که این مدل در ساختار سایر مدل‌های عمیق نیز کاربرد دارد. این مطلب شامل توضیح کاملی از ساختار درونی شبکه عصبی MLP بود و به ویژگی‌ها و مزایا و معایب آن نیز اشاره شد. در نهایت، یک مثال از مسئله رگرسیون ارائه گردید و نحوه استفاده از مدل پرسپترون چند لایه را برای پیاده‌سازی این مسئله شرح دادیم.

source