بهبود مدل مبتنی بر یادگیری عمیق برای طبقه بندی ویدیو
یک مدل CNN دو بعدی می تواند ویژگی های تصویر را از هر یک از فریم های ویدئویی استخراج کند ، و مسئله بعدی این است که این ویژگی ها را در بعد زمانی در یک شاخص از دسته ویدیو ترکیب کنید. این ویژگی های تصویر در فریم های ویدیویی مجموعه ای از داده های زمانی را تشکیل می دهد. محتویات فریم های ویدئویی مجاور همبستگی قوی بین یکدیگر دارند ، به عنوان مثال ، محتوای یک یا چند فریم را می توان به طور اساسی توسط فریم های قبلی در یک عکس تعیین یا پیش بینی کرد. چنین مکانیزمی را می توان با یک مدل LSTM مدل سازی کرد.
مشاهده نمونه کار