یادگیری ماشین چگونه در زمینه کارایی پروتئین‌ها استفاده می‌شود؟

یک مدل یادگیری ماشین (Machine learning) در دانشگاه MIT در رابطه با نحوه کارکرد پروتئین‌ها توسعه یافته است. این مدل کامپیوتری مشخص می‌کند که چطور قسمت‌های مختلف زنجیره آمینو اسید نحوه کارکرد پروتئین را مشخص می‌کنند. این قابلیت به محققان اجازه می‌دهد پروتئین‌های جدیدی را جهت ساخت داروهای جدید طراحی و آزمایش کنند.

ساختار پروتئین

پروتیئن‌ها زنجیره‌های خطی از آمینواسیدها هستند که توسط پیوندهای پپتید (peptide bond) به یکدیگر متصل شده‌اند. این زنجیره‌ها سپس به صورت یک ساختار سه بعدی پیچیده خم می‌شوند. این خم‌شدن به سلسله مراتب و برهمکنش‌های فیزیکی درون زنجیر بستگی دارد. این ساختار کارکرد بیولوژیکی پروتئین را مشخص می‌کند. بنابراین دانستن ساختار سه بعدی یک پروتئین بسیار سودمند خواهد بود. به عنوان مثال می‌توان پیش‌بینی کرد که یک پروتئین چطور به یک داروی خاص واکنش می‌دهد.

با این حال، علی‌رغم دهه‌ها تحقیق و توسعه تنها بخش کمی از ساختار پروتئین‌ها مشخص شده است. در واقع ده‌ها هزار ساختار از میلیون‌ها ساختار موجود. محققان در حال بکارگیری مدل‌های یادگیری ماشین برای پیش‌بینی ساختار پروتئین‌ها هستند. این پیش‌بینی‌ها براساس سلسله مراتب آمینواسیدها انجام می‌شود. این امر می‌تواند موجب کشف ساختارهای جدید پروتئینی ‌شود. اما این موضوع چالش بزرگی خواهد بود. زیرا که سلسله مراتب‌های مختلف می‌توانند پروتئین‌های بسیار شبیه به هم را بسازند. این در حالیست که تعداد ساختارهای موجود برای آموزش مدل محدود هستند.

در مقاله‌ای که اخیرا در یک کنفرانس بین‌المللی توسط محققین MIT ارائه شده، روشی برای یادگیری موقعیت‌ هر یک از آمینواسیدها ارائه شده است. در این مقاله موقعیت مکانی هر یک از آمینواسیدها در سلسله مراتب پروتئین قابل محاسبه است. البته در ابتدا از یک ساختار سه بعدی پروتئین برای یادگیری مدل استفاده می‌شود. سپس از موقعیت مکانی قابل محاسبه می‌توان کارکرد هر بخش از آمینواسید را پیش‌بینی کرد. مدل یادگیری ماشین می‌تواند این کار را بدون نیاز به داده‌های ساختار پروتئین انجام دهد.

در آینده می‌توان از این مدل برای مهندسی پروتئین‌ها استفاده کرد. این مدل به محققان این امکان را می‌دهد بخش خاصی از آمینواسید را اصلاح کنند.

یادگیری از ساختار

برخلاف روش‌های قبلی که سعی در پیش‌بینی ساختار پروتئین داشتند، این محققین اطلاعات مربوط به ساختار پروتئین را مستقیما کدگذاری کردند. برای این کار آنها از شباهت‌های ساختاری شناخته‌شده پروتئین‌ها استفاده کردند. بنابراین آنها قادر بودند مدل‌ها را طی یادگیری کارکرد آمینو اسیدهای خاص بررسی کنند.

آنها از ساختار 22000 پروتئین از بانک اطلاعاتی SCOP (Structural Classification of Proteins) استفاده کردند تا مدل‌ها را آموزش دهند. این بانک اطلاعاتی شامل هزاران پروتئین است که در دسته‌های مختلف طبقه‌بندی شده‌اند. آنها برای هر جفت پروتئین یک امتیاز تشابه محاسبه کردند. امتیاز تشابه میزان شباهت دو ساختار به یکدیگر را نشان می‌دهد. سپس محققان هر یک از این جفت‌ها را به همراه سلسله مراتب آمینو اسیدهایشان به مدل‌ها دادند. مدل‌ها این اطلاعات را به صورت عدد کدگذاری کردند.

در این تحقیق، اطلاعات مربوط به هر جفت نشان‌دهنده میزان شباهت سلسله آمینو اسید آن جفت به یکدیگر است. سپس مدل، امتیاز تشابه را محاسبه می‌کند تا میزان شباهت ساختار سه بعدی آن جفت را بدست آورد. سپس مدل امتیاز تشابه محاسبه‌شده را با داده‌های بانک اطلاعاتی مقایسه می‌کند. پس از مقایسه این نتایج، مدل بازخوردی را به بخش کدگذاری ارسال می‌کند.

بطور کلی محققان از مدل می‌خواهند پیش‌بینی کند آیا اعضای یک جفت پروتئین مشابه یکدیگر هستند یا خیر. سپس امتیاز تشابه محاسبه‌شده را با بانک اطلاعاتی SCOP مقایسه می‌کنند. در صورتی که نتایج صحیح باشند مدل درست کار می‌کند در غیر این صورت باید اصلاح شود.

طراحی پروتئین

در پایان مدل موقعیت مکانی هر زنجیره آمینو اسید در ساختار سه بعدی را بصورت عددی ارائه می‌دهد. سپس مدل یادگیری ماشین با استفاده از این کدگذاری عددی کارکرد هر آمینو اسید را پیش‌بینی می‌کند.

برای مثال محققان با استفاده از این مدل پیش‌بینی کردند چه بخش‌هایی از آمینو اسید از دیواره سلول عبور می‌کنند. نتایج بدست آمده از این مدل دقیق‌تر از مدل‌های قبلی بود. برای دریافت متن کامل مقاله به اینجا مراجعه کنید.

عنوان مقاله مورد بحث:

Learning protein sequence embeddings using information from structure

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *