پردازش ویدیو با استفاده از GPT-4-Vision برای تولید متن مناسب و صداگذاری روی آن # این Notebook نشان میدهد چگونه میتوان از تواناییهای بصری GPT-4 برای درک محتوای یک ویدیو و تولید متن متناسب با آن و نهایتا تبدیل متن تولید شده به صدا استفاده کرد. GPT-4 به طور مستقیم ویدیوها را به عنوان ورودی قبول نمیکند، اما میتوانیم از قابلیت vision و طول کانتکست 128K برای توصیف فریمهای ثابت یک ویدیو در هر زمان استفاده کنیم.
...
تولید خودکار برچسب برای تصاویر و توضیح محتوای آنها با استفاده از GPT-4-Vision # این Notebook توضیح میدهد که چگونه میتوان از GPT-4-Vision برای برچسب زدن و توضیح تصاویر بهره برد. ما میتوانیم از تواناییهای GPT-4V استفاده کنیم تا تصاویر ورودی را همراه با اطلاعات تکمیلی در مورد آنها پردازش کند و برچسبها یا توضیحات مربوط به را خروجی دهد. سپس میتوان توضیحات تصویر را با استفاده از یک مدل زبانی (در این نوتبوک، ما از GPT-4-turbo استفاده خواهیم کرد) برای تولید توضیحات بیشتر اصلاح کرد.
...
RAG چندوجهی با CLIP Embeddings و GPT-4 Vision # استفاده از سیستمهای RAG چندوجهی با افزودن حالتهای اضافی به RAG های سادهی مبتنی بر متن٬ قابلیت LLMها در پاسخدهی به سوالات را با ارائه زمینه اضافی و پایهگذاری دادههای متنی برای درک بهتر، بهبود میبخشد.
با اتخاذ رویکرد ارایه شده در پست ساخت اپلیکیشن تطبیق لباس، ما تصاویر را برای جستجوی شباهت میان آنها امبدینگ میکنیم و از فرآیند از دست دادن اطلاعات در کپشننویسی متنی جلوگیری میکنیم تا دقت بازیابی را افزایش دهیم.
...
مدل جدید GPT-4 Turbo، اکنون امکان فراخوانی توابع با قابلیتهای دیداری (vision)و استدلال بهتر را فراهم میکند. استفاده از تصاویر با فراخوانی توابع، موارد کاربرد جدید را امکانپذیر میکند و به شما اجازه میدهد فراتر از OCR و توضیحات تصاویر بروید.
ما دو مثال را برای نشان دادن استفاده از فراخوانی توابع با GPT-4 Turbo با قابلیت دیداری بررسی خواهیم کرد:
شبیهسازی یک دستیار خدمات مشتری تحلیل یک نمودار سازمانی برای استخراج اطلاعات کارکنان برای اجرای کدهای زیر ابتدا باید یک کلید API را از طریق پنل کاربری گیلاس تولید کنید.
...