v1/audio/

مدل‌های صوتی برای تبدیل صوت به متن و همچنین متن به صوت قابل استفاده هستند. این مدل‌های از دقت بسیار بالاتری نسبت به سرویس‌های مشابه برخوردار بوده و همچنین صوت تولید شده شباهت زیادی به صدای انسان دارد. مدل Whisper قادر به تبدیل صوت به متن است و می‌توانند زبان‌های مختلف را به یکدیگر ترجمه کند. مدل TTS (Text-to-Speech) هم قادر به تبدیل متن به صوت به زبان‌های مختلف است.

تبدیل متن به صوت #

برای تبدیل متن به صوت کافی‌ است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/speech ارسال کنید.

برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت می‌توانید مستندات OpenAI را مطالعه کنید.

1curl https://api.gilas.io/v1/audio/speech \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: application/json" \
4  -d '{
5    "model": "tts-1",
6    "input": "درختان برای رشد به خاک, هوا و نور خورشید نیاز دارند.",
7    "voice": "alloy"
8  }' \
9  --output speech.mp3

خروجی این درخواست یک فایل صوتی با فرمت .mp3 خواهد بود.

تبدیل صوت به متن #

برای تبدیل صوت به متن کافی‌ است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/transcriptions ارسال کنید.

Default

Request:

1curl https://api.gilas.io/v1/audio/transcriptions \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/audio.mp3" \
5  -F model="whisper-1"

Response:

1{
2  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. This is a place where you can get to do that."
3}

Word Timestamps

Request:

1curl https://api.gilas.io/v1/audio/transcriptions \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/audio.mp3" \
5  -F "timestamp_granularities[]=word" \
6  -F model="whisper-1" \
7  -F response_format="verbose_json"

Response:

 1{
 2  "task": "transcribe",
 3  "language": "english",
 4  "duration": 8.470000267028809,
 5  "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
 6  "words": [
 7    {
 8      "word": "The",
 9      "start": 0.0,
10      "end": 0.23999999463558197
11    },
12    ...
13    {
14      "word": "volleyball",
15      "start": 7.400000095367432,
16      "end": 7.900000095367432
17    }
18  ]
19}

Segment timestamps

Request:

1curl https://api.gilas.io/v1/audio/transcriptions \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/audio.mp3" \
5  -F "timestamp_granularities[]=segment" \
6  -F model="whisper-1" \
7  -F response_format="verbose_json"

Response:

 1{
 2  "task": "transcribe",
 3  "language": "english",
 4  "duration": 8.470000267028809,
 5  "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
 6  "segments": [
 7    {
 8      "id": 0,
 9      "seek": 0,
10      "start": 0.0,
11      "end": 3.319999933242798,
12      "text": " The beach was a popular spot on a hot summer day.",
13      "tokens": [
14        50364, 440, 7534, 390, 257, 3743, 4008, 322, 257, 2368, 4266, 786, 13, 50530
15      ],
16      "temperature": 0.0,
17      "avg_logprob": -0.2860786020755768,
18      "compression_ratio": 1.2363636493682861,
19      "no_speech_prob": 0.00985979475080967
20    },
21    ...
22  ]
23}

ترجمه صوتی #

برای ترجمه صوت به زبان مورد نظر خود کافی‌ است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/translations ارسال کنید.

Requst:

1curl https://api.gilas.io/v1/audio/translations \
2  -H "Authorization: Bearer $GILAS_API_KEY" \
3  -H "Content-Type: multipart/form-data" \
4  -F file="@/path/to/file/german.m4a" \
5  -F model="whisper-1"

Response:

1{
2  "text": "سلام. اسم من مارتین هست و اهل آلمان هستم. برنامه‌ی شما امروز چی هست؟"
3}

توجه
در نظر داشته باشید که Gilas APIs از لحاظ فنی و نحوه کارکرد و قابلیت‌ها کاملا شبیه OpenAI APIs هستند. به همین منظور پیشنهاد میکنیم که برای آگاهی از نحوه‌ی کارکرد API ها به مستندات OpenAI API Reference و OpenAI Documentation ارجاع کنید.