برونسپاری
آموزش آنلاین
کسب درآمد
×
افزایش شانس استخدام

برنامه خزنده وب با ‏BeautifulSoup

۱۰ روز پیش
بودجه
از
۲۰۰,۰۰۰ تومان
تا
۸۰۰,۰۰۰ تومان
زمان پیشنهادی
۶ روز
(۱)
اصفهان
وضعیت
درحال انجام
ثبت پیشنهاد روی پروژه
ثبت پروژه مشابه
پروژه: توسعه وب اسکراپر (Web Scraper) با قابلیت استخراج داده‌های ساختاریافته مخاطب هدف: توسعه‌دهندگان پایتون، متخصصین وب اسکرپینگ، داده‌کاوان ۱. خلاصه پروژه: هدف این پروژه، طراحی و توسعه یک خزنده وب هوشمند و مقیاس‌پذیر با استفاده از کتابخانه BeautifulSoup در پایتون است. این اسکراپر باید بتواند داده‌های موردنیاز را از وب‌سایت‌های هدف استخراج کرده و به صورت ساختاریافته (مانند JSON, CSV, Excel) ذخیره نماید. ۲. اهداف اصلی پروژه: استخراج داده‌های خاص از صفحات وب بر اساس پارامترهای تعریف شده ذخیره‌سازی سازمان‌یافته داده‌های استخراج شده مدیریت فرآیند اسکرپینگ (کنترل نرخ درخواست، مدیریت خطاها) قابلیت گسترش برای افزودن وب‌سایت‌های جدید در آینده ۳. ویژگی‌های اصلی و قابلیت‌ها: الف) ماژول اسکرپینگ: پیکربندی آسان برای وب‌سایت‌های جدید استخراج داده‌ها بر اساس: تگ‌های HTML کلاس‌ها و IDها Selectorهای CSS XPath استخراج انواع داده: متون لینک‌ها تصاویر جداول داده‌های ساختاریافته (JSON-LD, Microdata) ب) ماژول مدیریت درخواست‌ها: تنظیم اتوماتیک فواصل زمانی بین درخواست‌ها رعایت robots.txt مدیریت کوکی‌ها و sessionها پشتیبانی از HTTP headers قابل تنظیم امکان استفاده از پروکسی (اختیاری) ج) ماژول ذخیره‌سازی داده‌ها: خروجی در قالب‌های: JSON CSV Excel SQLite ساختاردهی خودکار داده‌ها پشتیبانی از ذخیره‌سازی افزایشی (Incremental) د) ماژول مدیریت خطا و لاگ‌گیری: ثبت خطاهای اسکرپینگ گزارش آمار اجرا قابلیت restart از نقطه توقف ۴. تکنولوژی‌های پیشنهادی: زبان برنامه‌نویسی: Python 3.x کتابخانه‌های اصلی: BeautifulSoup4 برای پارسینگ HTML Requests برای ارسال درخواست‌های HTTP Pandas برای پردازش داده‌ها Selenium (در صورت نیاز برای صفحات JavaScript-heavy) ذخیره‌سازی: SQLite, CSV, JSON ۵. الزامات فنی: رعایت اخلاقیات وب اسکرپینگ مدیریت صحیح خطاها (Error Handling) کدنویسی تمیز و قابل توسعه (Modular Code) مستندسازی کامل کدها قابلیت اجرا روی سیستم‌عامل‌های مختلف ۶. خروجی‌های قابل تحویل: سورس کد کامل پایتون فایل requirements.txt مستندات فنی (توضیح معماری و ماژول‌ها) مستندات کاربری (راهنمای استفاده) نمونه‌های تست شده با داده‌های واقعی ۷. معیارهای پذیرش پروژه: استخراج دقیق داده‌ها از صفحات تست مدیریت صحیح خطاها و موارد edge case عملکرد پایدار در اجراهای طولانی قابلیت توسعه و افزودن وب‌سایت‌های جدید رعایت استانداردهای کدنویسی پایتون
ثبت پیشنهاد روی پروژه
ثبت پروژه مشابه
پروژه را با دوستان خود به اشتراک بگذارید
کپی لینک
کارلنسر را در شبکه های اجتماعی دنبال کنید
شماره تماس ۲۸۴۲۶۴۴۳ ۰۲۱
آدرس ایمیل info@karlancer.com
پشتیبانی