کلان داده در تمامی شاخههای علم روشهای تحقیقی جدیدی را ایجاد کرده است. روشهایی که پیشتر مشابه آنها وجود نداشت. در حالی که در گذشته ابزارهای تحقیقاتی تنها به یک زمینه علمی خاص منحصر میشدند امروزه کلان داده ابزاری مشترک بین اغلب شاخههای علمی شده است. در دسترس بودن کلان دادهها و ظرفیت ذخیره و اشتراکگذاری حجم بالای داده، راههای تحقیقاتی جدیدی ایجاد کرده است.
چالش های کار با کلان داده
از آنجایی که اساس کار تحقیقاتی داده است داده برای محققان یک امر الزامی است. بنابراین حجم بالای داده از نظر اغلب محققین یک مزیت است. مخصوصا محققانی که در شاخههای ژنتیک، فضانوردی، و فیزیک ذرات فعالیت میکنند. اگرچه کلان داده امروزه به عنوان یک الگوی علمی در نظر گرفته میشود اما آمارگران در مورد آن هشدار میدهند. کلان داده به علت چند بعدی بودن پیوسته در حال تغییر است و محققان باید به این موضوع توجه کنند. محققان از کلان داده استقبال میکنند اما علاوه بر مزیتهای فراوان پیچیدگیهایی با خود دارد. برخی از چالشهای پیشروی محققان هنگام کار با کلان داده عبارتند از:
1-مدیریت موثر داده کار سختی است
ذخیره حجم بالای داده برای محققان کار دشواری است. محققانی که دارای حمایت مالی مناسب نیستند از لحاظ زیرساختی و اقتصادی به مشکل بر میخورند. علاوه بر اینها، نگهداری و به اشتراکگذاری حجم بالای داده کار پیچیدهای است. زیرا در صورت همکاریهای بینالمللی امنیت و حریم دادهها ممکن است برای طرفین زمینه اختلاف شود. بنابراین نیاز به یک مدل اقتصادی که از پس چالشهای اقتصادی براید وجود دارد. این مدل همچنین باید به هموارتر شدن فرآیندهای تحقیقاتی مبتنی بر داده کمک کند.
2-جمعآوری داده بر طراحی مطالعه اولویت پیدا میکند
اگرچه داده برای هر تحقیقی لازم است اما گاها جمعآوری آن نسبت به طراحی یک تحقیق مناسب برتری مییابد. برخی از محققان بر این باورند که داده بیشتر مستقیما به تحقیق بهتر ختم میشود. با این فرض که داده بیشتر به معنی نتیجه بهتر است تنها بر جمعآوری حجم بالای داده میپردازند. در حالی که توجهی به روش و هدف جمعآوری داده و نحوه پردازش آن ندارند. به عنوان مثال در کشور انگلیس مزایای شیر پاستوریزه بروی بیست هزار کودک بررسی شد. طراحی این تحقیق و مقیاس انجام آزمایشات توسط آمارگران نقد شد. آنها معتقد بودند فاکتور اتفاقی بودن در این مطالعه کافی نبوده است. به اعتقاد آنها یک جامعه متشکل از 6 جفت نتیجه قابل اعتمادتری را حاصل میکرد.
3-تحلیل کلان داده به ابزارهای خاصی نیاز دارد
حجم بالای داده را نمیتوان با ابزارهای سنتی این کار تحلیل کرد. تکنیکهای نرمافزاری استانداری برای تحلیل مجموعه دادهای کم حجم استفاده میشود. اما کلان داده به قدری حجم بالایی دارد که ابزارهای قدیمی در برابر آن عاجز هستند. به طوری که یا زمان زیادی صرف پردازش میشود یا اصلا پردازش آن ممکن نیست. بنابراین برای اتصال داده به مدلها و ارزیابی دقیق آنها ابزارهای خاصی نیاز است. به عنوان مثال الگوریتم شرکت مایکروسافت با نام FaST-LMM برای این کار مناسب است.
تبدیل پایان نامه (تز) به مقاله ISI
4-سیل داده ممکن است تفسیر آن را به یک چالش تبدیل کند
کلان داده شامل دادههایی از منابع مختلف است. بنابراین چند وجهی است و تفسیر آن کاری بس دشوار. برای مثال، مجموعه داده در رابطه با جمعیت کره زمین شامل دادههایی مبتنی بر مکانهای جغرافیایی، نوع زندگی و غیره است. این دادهها خود با استفاده از تکنیکهای مختلفی حاصل شدهاند. ممکن است محققان نتوانند تمامی جوانب یک داده را در نظر بگیرند که منجر به نتیجهگیری غلط میشود. بنابراین به یک رویه مطمئن برای تفسیر داده نیاز است.
5-تمایل به یافتن الگو در داده خطرناک است
از آنجایی که کلان داده بزرگ است محققان باید دادههای مفید را جدا کنند. اگرچه، در بیشتر موارد بجای حذف داده بلااستفاده تمایل بر این است که بدنبال یک الگو در دادهها باشند. جستجو برای الگو تا جایی ادامه دارد که شواهدی در داده ایدههای قبلی را تایید کنند. هنگام انجام تحقیق این یک امر خطرناک است.
داده بدون شک یک دارایی ارزشمند است و کلان داده نقش مهمی در پیشرفت علم دارد. اگرچه، مشکلات کار با کلان داده نشان میدهد که این نوع داده همیشه خوب نیست. بنابراین، محققین باید یک تعادلی برای دادههای مورد نیاز خود بیابند. بطوریکه باید قبل از تحقیق مشخص شود آیا واقعا به کلان داده نیاز است یا خیر.