یه پروژه هست که باید با استفاده از pyspark انجام بشه. دسترسی به HPC وجود داره و با استفاده از اون باید یسری تسک مشخص روی دیتاست های از پیش تعیین شده انجام بشه. تسک ها اونقدر پیچیده نیست. تمرکز روی دقت و سرعت انجام کاره. بعضی از مهارتهای مورد نیاز برای انجام تسک ها(برای اطلاع دقیق از تسک ها پیام بدید):
Data Loading and Preprocessing
Data Filtering and Aggregation
Advanced Data Manipulations
Visualization