دیتاستی دارم از مجموعه ی توییت ها.
کلمات کلیدی اش استخراج شده و پر استفاده ترین هشتگ اش هم مشخص شده.
توییت هایی که شامل پر استفاده ترین هشتگ هستند لیبل yes گرفتند و بقیه لیبل No.
می خواهم با روش decision tree ( یا svm) به یک مدلی برسم که توییت هایی که لیبل yes دارند از لیبل no دارند تفکیک شوند .
(درجه ی شباهت کی ورد ها وهشتگ ها میشن فیچر )