v1/audio/

v1/audio/

توجه
در نظر داشته باشید که Gilas APIs از لحاظ فنی و نحوه کارکرد و قابلیت‌ها کاملا شبیه OpenAI APIs هستند. به همین منظور پیشنهاد میکنیم که برای آگاهی از نحوه‌ی کارکرد API ها به مستندات OpenAI API Reference و OpenAI Documentation ارجاع کنید.

مدل‌های صوتی برای تبدیل صوت به متن و همچنین متن به صوت قابل استفاده هستند. این مدل‌های از دقت بسیار بالاتری نسبت به سرویس‌های مشابه برخوردار بوده و همچنین صوت تولید شده شباهت زیادی به صدای انسان دارد. مدل Whisper قادر به تبدیل صوت به متن است و می‌توانند زبان‌های مختلف را به یکدیگر ترجمه کند. مدل TTS (Text-to-Speech) هم قادر به تبدیل متن به صوت به زبان‌های مختلف است.

تبدیل متن به صوت #

 برای تبدیل متن به صوت کافی‌ است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/speech ارسال کنید.

برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت می‌توانید مستندات OpenAI را مطالعه کنید.

1curl https://api.gilas.io/v1/audio/speech \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "tts-1",
6    "input": "درختان برای رشد به خاک, هوا و نور خورشید نیاز دارند.",
7    "voice": "alloy"
8  }' \
9  --output speech.mp3

خروجی این درخواست یک فایل صوتی با فرمت .mp3 خواهد بود.

تبدیل صوت به متن #

 برای تبدیل صوت به متن کافی‌ است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/transcriptions ارسال کنید.

برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت می‌توانید مستندات OpenAI را مطالعه کنید.

Request:

1curl https://api.gilas.io/v1/audio/transcriptions \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/audio.mp3" \
5  -F model="whisper-1"

Response:

1{
2  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
3}

Request:

1curl https://api.gilas.io/v1/audio/transcriptions \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/audio.mp3" \
5  -F "timestamp_granularities[]=word" \
6  -F model="whisper-1" \
7  -F response_format="verbose_json"

Response:

 1{
 2  "task": "transcribe",
 3  "language": "english",
 4  "duration": 8.470000267028809,
 5  "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
 6  "words": [
 7    {
 8      "word": "The",
 9      "start": 0.0,
10      "end": 0.23999999463558197
11    },
12    ...
13    {
14      "word": "volleyball",
15      "start": 7.400000095367432,
16      "end": 7.900000095367432
17    }
18  ]
19}

Request:

1curl https://api.gilas.io/v1/audio/transcriptions \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/audio.mp3" \
5  -F "timestamp_granularities[]=segment" \
6  -F model="whisper-1" \
7  -F response_format="verbose_json"

Response:

 1{
 2  "task": "transcribe",
 3  "language": "english",
 4  "duration": 8.470000267028809,
 5  "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
 6  "segments": [
 7    {
 8      "id": 0,
 9      "seek": 0,
10      "start": 0.0,
11      "end": 3.319999933242798,
12      "text": " The beach was a popular spot on a hot summer day.",
13      "tokens": [
14        50364, 440, 7534, 390, 257, 3743, 4008, 322, 257, 2368, 4266, 786, 13, 50530
15      ],
16      "temperature": 0.0,
17      "avg_logprob": -0.2860786020755768,
18      "compression_ratio": 1.2363636493682861,
19      "no_speech_prob": 0.00985979475080967
20    },
21    ...
22  ]
23}

ترجمه صوتی #

 برای ترجمه صوت به زبان مورد نظر خود کافی‌ است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/translations ارسال کنید.

برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت می‌توانید مستندات OpenAI را مطالعه کنید.

Requst:

1curl https://api.gilas.io/v1/audio/translations \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/german.m4a" \
5  -F model="whisper-1"

Response:

1{
2  "text": "سلام. اسم من مارتین هست و اهل آلمان هستم. برنامه‌ی شما امروز چی هست؟"
3}

برای آگاهی کامل از قابلیت‌های Audio API لطفا مستندات وب‌سایت OpenAI را مطالعه کنید.

همچنین OpenAI API Reference شامل مستندات مربوط به Audio API می‌باشد که مطالعه آنها برای استفاده از این اندپوینت بسیار اهمیت دارد.