مشاهده پروژه ثبت پیشنهاد روی پروژه
این پروژه با هدف جمعآوری اطلاعات از سایت مدنظرم و با استفاده از کتابخانه Scrapy در پایتون و با رعایت ساختار استاندارد پروژههای Scrapy طراحی شده است.
جزئیات پروژه:
هدف: استخراج اطلاعات مربوط به فعالیتهای مختلف از سایت با استفاده از API جستجوی سایت.
دادههای مورد نیاز:
نام فعالیت
وبسایت
موقعیت مکانی
توضیحات
هزینه کلاس
محدوده سنی
سایر اطلاعات مرتبط (در صورت وجود ذخیره در فیلد جیسون به صورت key:value)
نکته: در صورتی که هر یک از فیلدهای فوق برای یک فعالیت موجود نباشد، فیلد مربوطه در خروجی خالی باشد و رکورد حذف نشود.
ساختار پروژه:
Spider:
مسئول پیمایش صفحات وب و استخراج اطلاعات اولیه.
استفاده از API جستجوی سایت برای یافتن فعالیتها بر اساس کلمات کلیدی.
استخراج اطلاعات از صفحات فعالیتها با استفاده از CSS selectors.
Item Pipeline:
پردازش دادههای استخراج شده توسط Spider.
پاکسازی دادهها (مانند حذف کاراکترهای اضافی).
اعتبارسنجی دادهها (مانند بررسی نوع داده و قالب).
ذخیره سازی دادهها در قالب ساختار یافته (مانند CSV یا JSON).
Data Model:
تعریف مدلهای دادهای با استفاده از scrapy.Item برای مشخص کردن ساختار دادههای استخراج شده و فیلدهای مورد نیاز.
ویژگیهای خزنده:
مدیریت محدودیت نرخ درخواست (rate limiting) برای جلوگیری از مسدود شدن توسط سایت.
مدیریت خطاها برای جلوگیری از وقفه در فرآیند جمعآوری دادهها.
تحویل پروژه:
کد منبع کامل پروژه Scrapy با ساختار استاندارد (شامل spider، pipeline و مدل داده).
فایلهای دادهای حاوی اطلاعات جمعآوری شده در قالب CSV یا JSON.
فایل requirements.txt حاوی لیست کتابخانههای مورد نیاز.
مستندات مربوط به نحوه اجرای خزنده و استفاده از دادهها.
مهارتهای مورد نیاز:
تسلط بر زبان برنامهنویسی پایتون.
تجربه کار با کتابخانه Scrapy و آشنایی با ساختار استاندارد پروژههای Scrapy.
آشنایی با HTML و CSS و روشهای استخراج اطلاعات با استفاده از CSS selectors.
آشنایی با API ها و روشهای کار با آنها.
توانایی درک و پیادهسازی منطق وب اسکرپینگ.
توانایی حل مسئله و مدیریت خطاها.
اطلاعات اضافی:
لطفاً نمونه کارهای قبلی خود در زمینه وب اسکرپینگ با استفاده از Scrapy را ارائه دهید.
نکات:
این پروژه نیازمند رعایت قوانین و محدودیتهای سایت است.
اطلاعات جمعآوری شده فقط برای مقاصد تحقیقاتی و غیر تجاری استفاده خواهد شد.
مشاهده جزئیات پیشنهادهای این پروژه
گزارش تخلف
پروژه را با دوستان خود به اشتراک بگذارید