vision

vision

تولید روایت صوتی برای ویدیو

پردازش ویدیو با استفاده از GPT-4-Vision برای تولید متن مناسب و صداگذاری روی آن # این Notebook نشان می‌دهد چگونه می‌توان از توانایی‌های بصری GPT-4 برای درک محتوای یک ویدیو و تولید متن متناسب با آن و نهایتا تبدیل متن تولید شده به صدا استفاده کرد. GPT-4 به طور مستقیم ویدیوها را به عنوان ورودی قبول نمی‌کند، اما می‌توانیم از قابلیت vision و طول کانتکست 128K برای توصیف فریم‌های ثابت یک ویدیو در هر زمان استفاده کنیم. ...

تگ زدن تصاویر و تولید کپشن برای آنها

image-processing vision

تولید خودکار برچسب برای تصاویر و توضیح محتوای آنها با استفاده از GPT-4-Vision # این Notebook توضیح می‌دهد که چگونه می‌توان از GPT-4-Vision برای برچسب زدن و توضیح تصاویر بهره برد. ما می‌توانیم از توانایی‌های GPT-4V استفاده کنیم تا تصاویر ورودی را همراه با اطلاعات تکمیلی در مورد آنها پردازش کند و برچسب‌ها یا توضیحات مربوط به را خروجی دهد. سپس می‌توان توضیحات تصویر را با استفاده از یک مدل زبانی (در این نوت‌بوک، ما از GPT-4-turbo استفاده خواهیم کرد) برای تولید توضیحات بیشتر اصلاح کرد. ...

RAG چندوجهی با CLIP و GPT-4 Vision

vision embedding RAG

RAG چندوجهی با CLIP Embeddings و GPT-4 Vision # استفاده از سیستم‌های RAG چندوجهی با افزودن حالت‌های اضافی به RAG های ساده‌ی مبتنی بر متن٬ قابلیت‌ LLMها در پاسخ‌دهی به سوالات را با ارائه زمینه اضافی و پایه‌گذاری داده‌های متنی برای درک بهتر، بهبود می‌بخشد. با اتخاذ رویکرد ارایه شده در پست ساخت اپلیکیشن تطبیق لباس، ما تصاویر را برای جستجوی شباهت میان آنها امبدینگ می‌کنیم و از فرآیند از دست دادن اطلاعات در کپشن‌نویسی متنی جلوگیری می‌کنیم تا دقت بازیابی را افزایش دهیم. ...

ترکیب قابلیت vision با فراخوانی توابع

function-call vision

مدل جدید GPT-4 Turbo، اکنون امکان فراخوانی توابع با قابلیت‌های دیداری (vision)و استدلال بهتر را فراهم می‌کند. استفاده از تصاویر با فراخوانی توابع، موارد کاربرد جدید را امکان‌پذیر می‌کند و به شما اجازه می‌دهد فراتر از OCR و توضیحات تصاویر بروید. ما دو مثال را برای نشان دادن استفاده از فراخوانی توابع با GPT-4 Turbo با قابلیت دیداری بررسی خواهیم کرد: شبیه‌سازی یک دستیار خدمات مشتری تحلیل یک نمودار سازمانی برای استخراج اطلاعات کارکنان برای اجرای کدهای زیر ابتدا باید یک کلید API را از طریق پنل کاربری گیلاس تولید کنید. ...