text-to-speech

text-to-speech

تولید روایت صوتی برای ویدیو

پردازش ویدیو با استفاده از GPT-4-Vision برای تولید متن مناسب و صداگذاری روی آن # این Notebook نشان می‌دهد چگونه می‌توان از توانایی‌های بصری GPT-4 برای درک محتوای یک ویدیو و تولید متن متناسب با آن و نهایتا تبدیل متن تولید شده به صدا استفاده کرد. GPT-4 به طور مستقیم ویدیوها را به عنوان ورودی قبول نمی‌کند، اما می‌توانیم از قابلیت vision و طول کانتکست 128K برای توصیف فریم‌های ثابت یک ویدیو در هر زمان استفاده کنیم. ...