vision

vision

Post Cover Image

تولید روایت صوتی برای ویدیو

پردازش ویدیو با استفاده از GPT-4-Vision برای تولید متن مناسب و صداگذاری روی آن # این Notebook نشان می‌دهد چگونه می‌توان از توانایی‌های بصری GPT-4 برای درک محتوای یک ویدیو و تولید متن متناسب با آن و نهایتا تبدیل متن تولید شده به صدا استفاده کرد. GPT-4 به طور مستقیم ویدیوها را به عنوان ورودی قبول نمی‌کند، اما می‌توانیم از قابلیت vision و طول کانتکست 128K برای توصیف فریم‌های ثابت یک ویدیو در هر زمان استفاده کنیم. ...

Post Cover Image

تگ زدن تصاویر و تولید کپشن برای آنها

تولید خودکار برچسب برای تصاویر و توضیح محتوای آنها با استفاده از GPT-4-Vision # این Notebook توضیح می‌دهد که چگونه می‌توان از GPT-4-Vision برای برچسب زدن و توضیح تصاویر بهره برد. ما می‌توانیم از توانایی‌های GPT-4V استفاده کنیم تا تصاویر ورودی را همراه با اطلاعات تکمیلی در مورد آنها پردازش کند و برچسب‌ها یا توضیحات مربوط به را خروجی دهد. سپس می‌توان توضیحات تصویر را با استفاده از یک مدل زبانی (در این نوت‌بوک، ما از GPT-4-turbo استفاده خواهیم کرد) برای تولید توضیحات بیشتر اصلاح کرد. ...

Post Cover Image

RAG چندوجهی با CLIP و GPT-4 Vision

RAG چندوجهی با CLIP Embeddings و GPT-4 Vision # استفاده از سیستم‌های RAG چندوجهی با افزودن حالت‌های اضافی به RAG های ساده‌ی مبتنی بر متن٬ قابلیت‌ LLMها در پاسخ‌دهی به سوالات را با ارائه زمینه اضافی و پایه‌گذاری داده‌های متنی برای درک بهتر، بهبود می‌بخشد. با اتخاذ رویکرد ارایه شده در پست ساخت اپلیکیشن تطبیق لباس، ما تصاویر را برای جستجوی شباهت میان آنها امبدینگ می‌کنیم و از فرآیند از دست دادن اطلاعات در کپشن‌نویسی متنی جلوگیری می‌کنیم تا دقت بازیابی را افزایش دهیم. ...

Post Cover Image

ترکیب قابلیت vision با فراخوانی توابع

مدل جدید GPT-4 Turbo، اکنون امکان فراخوانی توابع با قابلیت‌های دیداری (vision)و استدلال بهتر را فراهم می‌کند. استفاده از تصاویر با فراخوانی توابع، موارد کاربرد جدید را امکان‌پذیر می‌کند و به شما اجازه می‌دهد فراتر از OCR و توضیحات تصاویر بروید. ما دو مثال را برای نشان دادن استفاده از فراخوانی توابع با GPT-4 Turbo با قابلیت دیداری بررسی خواهیم کرد: شبیه‌سازی یک دستیار خدمات مشتری تحلیل یک نمودار سازمانی برای استخراج اطلاعات کارکنان برای اجرای کدهای زیر ابتدا باید یک کلید API را از طریق پنل کاربری گیلاس تولید کنید. ...