یک مدل یادگیری ماشین (Machine learning) در دانشگاه MIT در رابطه با نحوه کارکرد پروتئینها توسعه یافته است. این مدل کامپیوتری مشخص میکند که چطور قسمتهای مختلف زنجیره آمینو اسید نحوه کارکرد پروتئین را مشخص میکنند. این قابلیت به محققان اجازه میدهد پروتئینهای جدیدی را جهت ساخت داروهای جدید طراحی و آزمایش کنند.
ساختار پروتئین
پروتیئنها زنجیرههای خطی از آمینواسیدها هستند که توسط پیوندهای پپتید (peptide bond) به یکدیگر متصل شدهاند. این زنجیرهها سپس به صورت یک ساختار سه بعدی پیچیده خم میشوند. این خمشدن به سلسله مراتب و برهمکنشهای فیزیکی درون زنجیر بستگی دارد. این ساختار کارکرد بیولوژیکی پروتئین را مشخص میکند. بنابراین دانستن ساختار سه بعدی یک پروتئین بسیار سودمند خواهد بود. به عنوان مثال میتوان پیشبینی کرد که یک پروتئین چطور به یک داروی خاص واکنش میدهد.
با این حال، علیرغم دههها تحقیق و توسعه تنها بخش کمی از ساختار پروتئینها مشخص شده است. در واقع دهها هزار ساختار از میلیونها ساختار موجود. محققان در حال بکارگیری مدلهای یادگیری ماشین برای پیشبینی ساختار پروتئینها هستند. این پیشبینیها براساس سلسله مراتب آمینواسیدها انجام میشود. این امر میتواند موجب کشف ساختارهای جدید پروتئینی شود. اما این موضوع چالش بزرگی خواهد بود. زیرا که سلسله مراتبهای مختلف میتوانند پروتئینهای بسیار شبیه به هم را بسازند. این در حالیست که تعداد ساختارهای موجود برای آموزش مدل محدود هستند.
در مقالهای که اخیرا در یک کنفرانس بینالمللی توسط محققین MIT ارائه شده، روشی برای یادگیری موقعیت هر یک از آمینواسیدها ارائه شده است. در این مقاله موقعیت مکانی هر یک از آمینواسیدها در سلسله مراتب پروتئین قابل محاسبه است. البته در ابتدا از یک ساختار سه بعدی پروتئین برای یادگیری مدل استفاده میشود. سپس از موقعیت مکانی قابل محاسبه میتوان کارکرد هر بخش از آمینواسید را پیشبینی کرد. مدل یادگیری ماشین میتواند این کار را بدون نیاز به دادههای ساختار پروتئین انجام دهد.
در آینده میتوان از این مدل برای مهندسی پروتئینها استفاده کرد. این مدل به محققان این امکان را میدهد بخش خاصی از آمینواسید را اصلاح کنند.
یادگیری از ساختار
برخلاف روشهای قبلی که سعی در پیشبینی ساختار پروتئین داشتند، این محققین اطلاعات مربوط به ساختار پروتئین را مستقیما کدگذاری کردند. برای این کار آنها از شباهتهای ساختاری شناختهشده پروتئینها استفاده کردند. بنابراین آنها قادر بودند مدلها را طی یادگیری کارکرد آمینو اسیدهای خاص بررسی کنند.
آنها از ساختار 22000 پروتئین از بانک اطلاعاتی SCOP (Structural Classification of Proteins) استفاده کردند تا مدلها را آموزش دهند. این بانک اطلاعاتی شامل هزاران پروتئین است که در دستههای مختلف طبقهبندی شدهاند. آنها برای هر جفت پروتئین یک امتیاز تشابه محاسبه کردند. امتیاز تشابه میزان شباهت دو ساختار به یکدیگر را نشان میدهد. سپس محققان هر یک از این جفتها را به همراه سلسله مراتب آمینو اسیدهایشان به مدلها دادند. مدلها این اطلاعات را به صورت عدد کدگذاری کردند.
در این تحقیق، اطلاعات مربوط به هر جفت نشاندهنده میزان شباهت سلسله آمینو اسید آن جفت به یکدیگر است. سپس مدل، امتیاز تشابه را محاسبه میکند تا میزان شباهت ساختار سه بعدی آن جفت را بدست آورد. سپس مدل امتیاز تشابه محاسبهشده را با دادههای بانک اطلاعاتی مقایسه میکند. پس از مقایسه این نتایج، مدل بازخوردی را به بخش کدگذاری ارسال میکند.
بطور کلی محققان از مدل میخواهند پیشبینی کند آیا اعضای یک جفت پروتئین مشابه یکدیگر هستند یا خیر. سپس امتیاز تشابه محاسبهشده را با بانک اطلاعاتی SCOP مقایسه میکنند. در صورتی که نتایج صحیح باشند مدل درست کار میکند در غیر این صورت باید اصلاح شود.
طراحی پروتئین
در پایان مدل موقعیت مکانی هر زنجیره آمینو اسید در ساختار سه بعدی را بصورت عددی ارائه میدهد. سپس مدل یادگیری ماشین با استفاده از این کدگذاری عددی کارکرد هر آمینو اسید را پیشبینی میکند.
برای مثال محققان با استفاده از این مدل پیشبینی کردند چه بخشهایی از آمینو اسید از دیواره سلول عبور میکنند. نتایج بدست آمده از این مدل دقیقتر از مدلهای قبلی بود. برای دریافت متن کامل مقاله به اینجا مراجعه کنید.
عنوان مقاله مورد بحث:
Learning protein sequence embeddings using information from structure