هوش مصنوعی سورا (Sora) چیست؟

01 اسفند 1402 - آخرین بروزرسانی: 29 فروردین 1403
سورا چیست
زمان تقریبی مطالعه: 4 دقیقه

با ویدئوساز جدید شرکت OpenAI  آشنا هستید؟ باز هم این شرکت هوش مصنوعی، همه را غافلگیر کرد و ویدئوساز حرفه‌ای سورا (Sora) را معرفی کرد. ویدئوهای حاصل از این ابزار، بسیار واقعی هستند تا حدی که تشخیص آنها از فیلم ضبط شده بسیار سخت است.

سورا دارای معماری مبدل (transformer architecture) است؛  یعنی عملکرد شبکه عصبی آن مشابه چت جی پی تی (ChatGPT) است. شرکت OpenAI با عرضه این فناوری می‌خواهد آینده هوش مصنوعی را متحول کند.

این مدل هوش مصنوعی برای تبدیل متن به ویدئو«Text-to-Video» طراحی شده است. سورا پیام‌های متنی را دریافت می‌کند و آنها را به کلیپ‌های ویدیویی کوتاه تبدیل می‌کند. مجموعه ویدئوهای جدید OpenAI واقعاً نفس گیر هستند. به ویدئو زیر نگاه کنید:

OpenAI در بلاگ پست اخیرش، این گونه توضیح می‌دهد: «سورا می‌تواند صحنه‌های پیچیده با شخصیت‌های متعدد، انواع حرکت خاص و جزئیات دقیق سوژه و پس‌زمینه را تولید کند.» این مدل هوش مصنوعی، محتوای متنی که کاربر درخواست کرده را می‌فهمد و چگونگی وجود آن چیزها در دنیای واقعی را تشخیص می‌دهد.

طراحی صحنه های پیچیده

 

مطلب پیشنهادی: لیست ابزارهای هوش مصنوعی

 

حالا چه کسانی به سورا دسترسی دارند؟

سورا در حال حاضر از جانب محققان امنیتی در حال بررسی است. آنها باید از ایمن بودن آن قبل از انتشار عمومی، اطمینان پیدا کنند ‌و خطرات حیاتی را ارزیابی نمایند.

با این حال، به گفته OpenAI، گروه کوچکی از هنرمندان تجسمی، فیلمسازان و طراحان نیز به Sora دسترسی دارند. ولی نامی از هیچ هنرمند یا طراحی برده نشده است.

به نقل از برخی اکانت‌های موجود در انجمن OpenAI، لیست انتظار تکمیل خواهد شد که اولین فرصت برای دستیابی به این فناوری است. اما زمان دقیق ثبت نام عمومی برای استفاده از Sora مشخص نیست.

بنابراین تا به حال، تاریخ انتشاری برای سورا اعلام نشده است. تمام محتوایی که در اینترنت پخش شده هم از بلاگ پست شرکت OpenAI گرفته شده است. این شرکت حتی نشانه‌ای مبهم از زمان احتمالی یا نشانه‌ای مبنی بر عرضه آن در سال جاری را بروز نداده است.

با توجه به سرعتی که هوش مصنوعی در دوسال اخیر داشته، پس زمان عرضه عمومی این فناوری هم چندان دور نیست.

ساخت ویدئو حرکات چشم در سورا

چه انتظاری از Sora می‌رود؟

امنیت ساخت ویدیو با هوش مصنوعی باید به خوبی برررسی شود؛ چون مسائل اخلاقی زیادی را در بر دارد. شرکت OpenAI چند گام امنیتی مهم را قبل از عرضه عمومی سورا در پیش دارد. آنها با متخصصان کارکشته و تیم امنیت سایبری همکاری دارند تا این فناوری را از نظر ارائه اطلاعات نادرست (misinformation)، انتشار محتوای نفرت انگیز (hateful content) و تبعیض آمیز (bias )، تست کنند.

همچنین به گفته OpenAI این شرکت در حال کار روی فناوری تشخیص ویدیو با هوش مصنوعی است تا تشخیص دهد که آیا یک ویدیو را سورا ساخته یا نه؟

فیلم قدیمی از کالیفرنیا در دوران استخراج طلا

این مرحله مشابه اتفاقی است که پس از راه‌اندازی ChatGPT افتاد و این شرکت هوش مصنوعی، فناوری طبقه‌بندی کننده متن (text classifier) را راه‌اندازی کرد که البته بعداً به دلیل ناکارآمدی کنار گذاشته شد. وقتی آن را تست کردند تا ببینند که می‌تواند سرقت ادبی ChatGPT را پیدا کند، حتی قادر به تشخیص محتوای تولید شده توسط خودش هم نبود!

 

مطلب پیشنهادی: هوش مصنوعی عمومی چیست؟

 

عملکرد سورا چگونه است؟

شرکت OpenAI اعلام کرده: «سورا نوعی مدل انتشاری (diffusion model) است که با یک ویدیو، شبیه به نویز استاتیک (static noise) آغاز شده و به تدریج با حذف نویز در طی مراحل مختلف، آن را تغییر می‌دهد».

این فناوری مشابه خانواده مدل‌های زبانی GPT عمل می‌کند که ربات چت این شرکت، یعنی چت جی پی تی از آن بهره می‌برد. همه آنها از معماری ترانسفورمر یا مبدل استفاده می‌کنند. این نوع از شبکه عصبی، ورودی‌ها را می‌گیرد و آنها را به خروجی تبدیل می‌کند.

ساخت ویدئو گردش در گالری هنری

این مدل، درک عمیقی از زبان دارد تا بتواند درخواست کاربر را تفسیر کند و در نهایت کاراکترهای قانع‌کننده،‌ پر احساس و فعال را بسازد. همچنین می‌تواند چندین عکس از ویدیوی ساخته شده بگیرد تا ثبات کاراکترها و سبک بصری را با دقت حفظ کند.

شرکت OpenAI ویدئوساز سورا را با کمک ویدیوها و تصاویری تغذیه کرده که آنها را واحدهای داده یا «patches» می‌داند. با یکپارچه سازی این داده‌ها می‌توان اطلاعات بصری متفاوتی را از نظر بازه زمانی، وضوح و ابعاد فیلم در اختیار سورا قرار داد تا بیشتر از قبل آموزش ببیند.

مدل فعلی، نقطه ضعف هم دارد. شاید در شبیه سازی دقیق صحنه‌های پیچیده به مشکل خورده و موارد خاصی را نفهمد. به عنوان مثال، شاید فردی یک کلوچه را گاز بزند ولی جای گاز گرفتگی روی کلوچه نماند یا شاید جزئیات مکانی را اشتباه بگیرد؛ به عنوان مثال، چپ و راست را جابجا کند. در تصویر زیر حرکت نامناسب دونده، مشخص است.

طراحی نامناسب حرکت دونده به عنوان نقطه ضعف مدل

مطلب پیشنهادی: هوش مصنوعی گوگل جمینی چیست؟

 

منبع

https://tech.co/news/what-is-sora

آیا این مطلب برای شما مفید بود؟
بلهخیر
نویسنده مطلب زینت فلاح
من زینت فلاح، ارشد روان سنجی هستم. بیش از ده ساله که ترجمه متون روانشناسی،مدیریت و فناوری رو انجام میدم. به تولید محتوای جدید علاقمندم و چند ساله که با کارلنسر همکاری دارم. https://www.karlancer.com/profile/1408

دیدگاه شما

بدون دیدگاه