دوتا دیتاست در زمینه fashion در اختیارمون قرار داده شده است.
عملیات زیر می بایست دقیق انجام شود:
باید ۷مورد سوال چالش برانگیز که مستقیما با دیتا در ارتباط هستند، مطرح بشه.
-از pandas و python برای data cleansing و data manipulation استفاده بشه و بطور موازی، راه حل mysql یا sql server و نیز hive(در hadoop) هم ذکر بشه. در بخش کوچکی هم لازمه با mongo db کار بشه.
- حداقل ۳ نمونه از سوالات مطرح شده، با python mapreduce پاسخ داده شود.(همزمان راه حل spark را هم لازم دارند.)
- درخصوص ۲تا سوال مختلف مرتبط با دیتاست های پیوست، machine learning regression model ارائه بشه(۴تا مدل کلا) و ۲ به ۲ مقایسه بشه که کدوم مدل بهتریه. نهایتا دوتا prediction اتفاق بیفته... مثل پیشبینی قیمت.
خروجی ریپورت لازمه که با power bi نمایش داده بشه.
لطفاً از جاوا استفاده نشود. فقط از نرم افزارهای گفته شده استفاده شود و تمام ایده ها کاملا و مستقیما در ارتباط با سوالاتی از دیتاست باشد.
نیاز دارم که سوالات مربوط به تحلیل داده همان اول در اختیارم قرار بگیره و هر روز بخشی از پروژه که انجام شده را تحویل بگیرم.
بودجه ۷ میلیون تومان.