هوش مصنوعی گوگل جمینی Gemini چیست و چه کاربردهایی دارد؟
سر انجام گوگل از بزرگترین حرکت خود در راستای تکنولوژی رونمایی کرد و مدعی است با معرفی Gemini آخرین مدل زبانی بزرگ (LLM) دنیا را دگرگون خواهد کرد. به گفته دمیس حسابیس، مدیرعامل و یکی از بنیانگذاران گوگل دیپ مایند، Gemini “تواناترین” مدلی است که تا به حال ساخته شده است. احتمالا شما هم این روزها همزمان با معرفی جمنای گوگل، با عباراتی مانند Gemini Nano ،Gemini Pro و Gemini Ultra مواجه شدهاید. آیا اینها مدلهایی از گوگل جمینای هستند؟ و یا چه تفاوتی با گوگل جمینی دارند؟ برای پاسخ به این سوالات با ما همراه باشید.
گوگل جمینی چیست؟
اول از همه ببینیم تلفظ درست این هوش مصنوعی پرسروصدا چیست. تلفظ دقیق Gemini، “جِمِنای” است که در ایران به اشتباه، بیشتر “جِمینی” و یا “جِمینای” به کار برده میشود. در نگارش این مقاله، تلفظهای مختلف را استفاده کرده ایم.
Google Gemini یک خانواده از مدلهای زبان بزرگ هوش مصنوعی چندوجهی (AI) است که دارای قابلیتهایی در درک زبان، صدا، کد و ویدیو است. علاوه بر این، Gemini قادر به تکمیل مسائل پیچیده در ریاضی، فیزیک، زبانهای برنامه نویسی مختلف و سایر زمینههای تخصصی است. Google Gemini اولین بار در کنفرانس توسعه دهندگان Google I/O در ماه مه 2023 معرفی شد و نشان دهنده گامی مهم در نقشه راه هوش مصنوعی گوگل به شمار میآید. این فناوری توسط Google DeepMind توسعه یافته است. Gemini قابلیتهای پردازش زبان طبیعی را ادغام میکند و توانایی درک و پردازش زبان را فراهم میکند که برای درک پرسوجوهای ورودی و همچنین دادهها استفاده میشود.
مطلب پیشنهادی: لیست ابزارهای هوش مصنوعی
کاربردهای گوگل جمینی
همانطور که به آن اشاره کردیم، مدلهای جمنای گوگل قادر به انجام کارهای زیادی در چندین حالت، از جمله درک متن، تصویر، صدا و ویدیو هستند. ماهیت چندوجهی Gemini همچنین امکان ترکیب روشهای مختلف برای درک و تولید خروجی را فراهم میکند.
کارهایی که Gemini میتواند انجام دهد شامل موارد زیر است:
- مدلهای Gemini میتوانند محتوا را از انواع مختلف دادهها خلاصه کنند.
- Gemini میتواند به تولید محتوا را بر اساس درخواست کاربران بپردازد. این متن همچنین میتواند توسط یک رابط چت بات به شکل پرسش و پاسخ انجام شود.
- مدلهای Gemini دارای قابلیتهای چندزبانه گستردهای هستند که ترجمه و درک بیش از 100 زبان را ممکن میسازد.
- جمینای گوگل میتواند تصاویر پیچیده مانند نمودارها و شکلها را بدون ابزارهای OCR خارجی تجزیه کند. در واقع از این فناوری میتوان برای شرح تصاویر و قابلیتهای بصری پرسش و پاسخ استفاده کرد.
- گوگل Gemini از تشخیص گفتار در بیش از 100 زبان و کارهای ترجمه صوتی پشتیبانی می کند.
- یک نقطه قوت کلیدی Gemini استدلال چندوجهی است که در آن انواع مختلف دادهها را میتوان برای ایجاد یک خروجی ترکیب کرد.
- جمینی میتواند کدهای زبانهای برنامه نویسی محبوب از جمله برنامه نویسی پایتون، جاوا، C++ و غیره را درک، توضیح دهد و تولید کند.
مطلب پیشنهادی: ساخت ویدیو با هوش مصنوعی
مدلهای مختلف گوگل جمنای
گوگل، Gemini را به عنوان یک مدل انعطافپذیر معرفی کرده است که میتواند بر روی همه چیز از مراکز داده گوگل گرفته تا دستگاههای تلفن همراه اجرا شود. برای دستیابی به این میزان از مقیاس پذیری، Gemini در سه اندازه Gemini Nano ،Gemini Pro و Gemini Ultra عرضه میشود.
Gemini Nano
نسخه نانو جمنای برای اجرا بر روی دستگاههای تلفن همراه طراحی شده است و به زودی در برنامه AI Core گوگل از طریق اندروید 14 در Pixel 8 Pro به نمایش گذاشته میشود. این مدل برای انجام کارهایی که بر روی دستگاه نیاز به پردازش هوش مصنوعی کارآمد بدون اتصال به سرورهای خارجی دارند، مانند پیشنهاد پاسخها در برنامههای چت یا خلاصه کردن متن ساخته شده است.
Gemini Pro
Google Gemini Pro بر روی مراکز داده گوگل اجرا میشود و مواردی مانند Google Bard، ربات چت مشابه راه حل Copilot مایکروسافت را تقویت میکند. به زودی این فناوری در سایر ابزارهای گوگل مانند Duet AI ،Google Chrome و Google Ads نیز عرضه خواهد شد.
به گفته گوگل، Gemini Pro در مواردی مانند طوفان فکری، نوشتن و خلاصه کردن محتوا موثرتر از موارد دیگر است. Gemini Pro عملکرد بهتری از OpenAI GPT-3.5 در معیارهای اصلی دارد.
Gemini Ultra
Gemini Ultra بهترین و تواناترین مدل در این مجموعه شناخته میشود. Gemini Ultra میتواند اطلاعات ظریف متنی، کد و صداها را کاملاً درک کند و حتی به سوالات پیچیده پاسخ دهد.
مطلب پیشنهادی: هوش مصنوعی Grok چیست؟
گوگل جمینی چطور کار میکند؟
Google Gemini ابتدا با آموزش روی مجموعه عظیمی از دادهها کار می کند. پس از آموزش، مدل از چندین تکنیک شبکه عصبی برای درک محتوا، پاسخ به سؤالات، تولید متن و تولید خروجی کمک میگیرد.
به طور خاص، LLM جمنای از معماری شبکه عصبی مبتنی بر مدل ترانسفورماتور استفاده میکنند. معماری Gemini برای پردازش توالیهای متنی طولانی در انواع دادههای مختلف، از جمله متن، صدا و ویدئو، بهبود یافته است.
مدلهای Gemini بر روی مجموعه دادههای چندوجهی و چندزبانه متن، تصاویر، صدا و ویدئو با Google DeepMind با استفاده از فیلترینگ دادههای پیشرفته برای بهینهسازی آموزش دیدهاند.
مقایسه Gemini با GPT-3 و GPT-4
جمنای گوگل یک رقیب مستقیم برای مدلهای چت جی پی تی (GPT-3 و GPT-4) از OpenAI است. اما در این قسمت به مقایسه این ابزارهای هوش مصنوعی میپردازیم.
|
Gemini | GPT-3 و GPT-4 |
توسعه دهنده |
Google DeepMind |
OpenAI |
رابط چت بات |
Bard |
ChatGPT |
مدل |
چند وجهی؛ آموزش متن، تصویر، صدا و تصویر |
در اصل به عنوان یک مدل زبان فقط متنی ساخته شده است. GPT-4V ورودی بصری را فعال میکند |
تغییرات مدل | تغییرات مبتنی بر اندازه، از جمله Ultra ،Pro و Nano |
بهینه سازی برای اندازه، از جمله GPT-3.5 توربو و GPT-4 توربو |
چه برنامههایی از جمنای استفاده میکند؟
Gemini توسط گوگل به عنوان یک مدل پایه توسعه داده شد و به طور گسترده در سرویس های مختلف گوگل یکپارچه شده است. Gemini همچنین برای توسعه دهندگان برای استفاده و ساخت برنامههای خود در دسترس است. اما ابزارهای زیر از جمینی برای گسترش فعالیت خود استفاده میکنند.
Bard: سرویس هوش مصنوعی مکالمه گوگل از نسخه دقیق Gemini Pro برای استدلال پیشرفته و قابلیتهای چت بات کمک میگیرد.
AlphaCode 2: ابزار تولید کد AlphaCode 2 Google DeepMind از یک نسخه سفارشی شده Gemini Pro استفاده میکند.
Google Pixel: گوشیهای هوشمند Pixel 8 Pro که توسط گوگل ساخته شدهاند، اولین دستگاههایی هستند که Gemini Nano را بر روی دستگاه اجرا میکنند.
Android 14 :Pixel 8 Pro اولین گوشی هوشمند اندرویدی است که از تکنولوژی Gemini استفاده میکند. در آینده نه چندان دور، توسعه دهندگان اندروید قادر به ساخت دستگاههایی با Gemini Nano از طریق قابلیت سیستم AICore خواهند بود.
Google AI Studio: توسعه دهندگان میتوانند از طریق ابزار مبتنی بر وب Google AI Studio برنامهها را با Gemini بسازند.
Search: گوگل در حال آزمایش استفاده از Gemini در جستجوی Generative Experience برای بهبود کیفیت و افزایش سرعت است.
مطلب پیشنهادی: آیا هوش مصنوعی میتواند جایگزین نویسندهها شود؟
آینده گوگل جمینی
بزرگترین دستاورد در آینده جمینای مدل Gemini Ultra است که همزمان با Gemini Pro و Gemini Nano به صورت کامل در دسترس قرار نگرفت. در زمان راه اندازی جمینی، گوگل اعلام کرد که Gemini Ultra به صورت محدود در دسترس مشتریان، توسعه دهندگان، شرکا و کارشناسان منتخب قرار می گیرد تا آزمایشات اولیه و بازخورد را پیش از عرضه کامل برای توسعه دهندگان و شرکتها در اوایل سال 2024 انجام دهد.
جمنای قصد دارد در آینده، راه خود را به مرورگر Google Chrome پیدا کند تا به بهبود تجربه وب برای کاربران کمک کند. همچنین، گوگل در تلاش است که Gemini را در پلتفرم گوگل ادز ادغام کند تا راههای جدیدی را در اختیار تبلیغ کنندگان و کاربران قرار دهد.
مطلب پیشنهادی: تکنیکهای سرچ در گوگل
آیا جمینی بهتر از چت جی پی تی است؟
با افزایش تقاضای کاربران در جهت استفاده از فناوری هوش مصنوعی و مدلهای LLM، گوگل وارد فضای رقابتی شدیدی با ابزارهای دیگر شده است. بر اساس گفته گوگل، جمنای برای کمک گرفتن در کارهای روزمره بهتر از ابزارهای دیگر عمل میکند. اما در حال حاضر، امتیاز GPT-4 در این زمینه 95.3 درصد و نسخههای موجود Gemini 87.8 درصد است.
موضوع |
معیار | Gemini Ultra |
GPT-4 |
عمومی |
سوالات مختلف در 57 موضوع |
90.0% |
86.4% |
استدلالی |
درک مطلب |
82.4%
|
80.9%
|
ریاضیات |
مسائل چالش برانگیز ریاضی |
53.2%
|
52.9%
|
کدنویسی | کدنویسی پایتون | 74.9%
|
73.9%
|
در حالی که این آمار قدرت Gemini Ultra را نشان میدهد، باید به این نکته اشاره کرد که گوگل، Gemini را برای هر کار چندوجهی بهتر از GPT-4 میداند. GPT-4 ممکن است چندوجهی باشد، اما فقط میتواند برای پردازش تصاویر و متون کاربردی باشد. از طرفی دیگر مطالعه SemiAnalysis پیش بینی میکند در آینده جمینی به طور قدرتمندی، چت جی پی تی را با ضریب 5 درصدی پشت سر بگذارد.
مطلب پیشنهادی: استفاده رایگان از ChatGPT-4
آیا گوگل جمینی امن است؟
از آنجایی که مدلهای LLM و هوش مصنوعی مولد در حال توسعه هستند، نگرانی افراد از ایمن بودن آنها افزایش مییابد. گوگل جمینی از نظر امنیتی از چندین طریق محافظت میشود. همچنین، گوگل از مجموعهای از اقدامات امنیتی برای محافظت از دادههای کاربران در برابر سوء استفاده کمک میگیرد. اما همچنان گوگل در حال توسعه راههایی برای بهبود نظارت بر جمینی و آموزش برای تولید محتوای ایمنتر است.
مطلب پیشنهادی: میدجورنی چیست؟
هزینه استفاده از گوگل جمینی چقدر است؟
Gemini Pro برای استفاده در برنامههای Gemini و در حال حاضر، AI Studio و Vertex AI رایگان است. با این حال، هنگامی که Gemini Pro از پیشنمایش در Vertex خارج میشود، قیمت این مدل 0.0025 دلار برای هر کاراکتر خواهد بود در حالی که هزینه خروجی 0.00005 دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر 1000 کاراکتر (حدود 140 تا 250 کلمه) و در مورد مدل هایی مانند Gemini Pro Vision، به ازای هر تصویر (0.0025 دلار) پرداخت می کنند. فرض کنید یک مقاله 500 کلمه ای شامل 2000 کاراکتر است. خلاصه کردن آن مقاله با Gemini Pro 5 دلار هزینه دارد. در همین حال، تولید مقاله ای با طول مشابه 0.1 دلار هزینه دارد. قیمت اولترا هنوز اعلام نشده است.
چگونه میتوان از گوگل جمینی استفاده کرد؟
Gemini Pro
ساده ترین راه برای تجربه Gemini Pro، برنامههای Gemini هستند. Pro و Ultra به پرس و جوها به زبان های مختلفی پاسخ می دهند. Gemini Pro و Ultra نیز به صورت پیش نمایش در Vertex AI از طریق API قابل دسترسی هستند. API در حال حاضر برای استفاده در مناطق خاصی از جمله اروپا پشتیبانی میکند.
همچنین، Gemini Pro و Ultra را میتوانید در AI Studio پیدا کنید. با استفاده از این سرویس، توسعهدهندگان میتوانند درخواستها و چتباتهای مبتنی بر Gemini را تکرار کنند و سپس کلیدهای API را برای استفاده از آنها در برنامههای خود دریافت کنند و یا کد را به یک IDE با ویژگیهای کاملتر صادر کنند. Duet AI for Developers، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی گوگل برای تکمیل و تولید کد، اکنون از مدلهای Gemini استفاده میکند. و گوگل مدلهای Gemini را به ابزارهای توسعهدهنده خود برای پلتفرم توسعهدهندگان موبایل Chrome و Firebase آورده است.
Gemini Nano
Gemini Nano در حال حاضر بر روی Pixel 8 Pro کار میکند و در آینده برای دستگاههای دیگر نیز عرضه خواهد شد. توسعهدهندگانی که علاقهمند به گنجاندن این مدل در برنامههای اندرویدی خود هستند، میتوانند تنها با ثبت نام میتوانند یک دید کلی به این فناوری داشته باشند.
مطلب پیشنهادی: ساخت عکس با هوش مصنوعی
اخبار جدید در مورد گوگل جمینی
نسخه جدید جمینی پرو رونمایی شد: نسخه جدید جمینی پرو که “Gemini Pro 2.0” نام دارد، از قدرت پردازش و حافظه بیشتری برخوردار است. این نسخه قادر به انجام وظایف پیچیدهتر مانند نوشتن کد، ترجمه تخصصی متون و تولید محتوای خلاقانه است.
جمینی به مرورگر کروم اضافه شد: با آپدیت جدید جمینی، افراد میتوانند از آن برای جستجوی سریع اطلاعات، ترجمه صفحات وب و انجام وظایف مختلف دیگر در مرورگر کروم استفاده کنند.
همکاری گوگل با مایکروسافت برای استفاده از جمینی در محصولات مایکروسافت: این همکاری به منظور استفاده از جمینی در محصولات مایکروسافت مانند آفیس 365 و ویندوز 11 شکل گرفته است.
انتشار گزارشهایی مبنی بر استفاده از جمینی در پروژههای تحقیقاتی ناسا: ناسا از جمینی برای تجزیه و تحلیل دادههای علمی و پیشبینی پدیدههای فضایی در آپدیت جدید استفاده میکند.
سخن نهایی
گوگل جمنای یک مدل زبانی بزرگ (LLM) است که توسط گوگل AI توسعه یافته است. این مدل بر روی مجموعه دادهای عظیم از متن و کد آموزش دیده است و میتواند طیف گستردهای از وظایف مانند ترجمه زبانهای مختلف، تولید محتوای خلاقانه و غیره را انجام دهد. گوگل جمینی همچنان در حال توسعه است، اما پتانسیل بالایی برای تاثیرگذاری عمقی بر روی تمامی جنبههای زندگی انسانها دارد.
گوگل جمینای در حال حاضر به صورت نسخههای مختلفی مانند Gemini Nano ،Gemini Pro، و Gemini Ultra عرضه شده است. نسخه Gemini Nano برای دستگاههای اندرویدی طراحی شده است و نسخه Gemini Pro در حال حاضر در برخی از محصولات گوگل، مانند چت بات گوگل بارد، استفاده میشود. نسخه Gemini Ultra قدرتمندترین نسخه جمینی است و همچنان در حال توسعه است.
10 دیدگاه
-
29 آذر 1402
خانم برومند قلم بسیار خوبی در نوشتن مقالات دارند
-
29 آذر 1402
متاسفانه دمویی که گوگل از این محصول ارایه داد واقعی نبود و پر از ترفندهای ویدیویی بود تا زرق و برق کار و بیشتر کنه. حالا باید دید در عمل، این ۳ تا طرح Gemini چطور کار میکنند و چه خروجی در مقایسه با ابزارهای مشابه مثل Bing Ai دارند.
-
05 دی 1402
کِی و چطوری میشه ازش استفاده کرد؟
-
18 بهمن 1402
مقاله ی بسیار خوبی بود و نکاتی که لازم به دانستن بود رو ادائیه دادید. موفق باشید 💐
-
23 بهمن 1402
من از gbt-3.5 و gboard برای کدنویسی استفاده می کنم به نظر من چت جی بی تی بهتر از گوگل بارد به سوال هام پاسخ میده. ولی اینم بگم اوایل به gbt گفتم یه عکس بدم می تونی تشخیص بدی چیه گفت اره گفتم از کجا بهت آپلود کنم گفت متاسفانه این امکان وجود نداره خخخ
-
28 اردیبهشت 1403
خانم برومند سلام
متن عالی بود ولی برای ما که مشتاق کار و تجربه با جناب هستیم کاش ساده تر توضیح میدادید
اگر امکان ارتباط با شما درحوزه تخصصی شما یعنی مدیا مارکتینگ هست اعلام بفرمایید -
07 شهریور 1403
برای اطلاعات دقیق و بروز ، ممنون
دیدگاه شما