توجه
در نظر داشته باشید که Gilas APIs از لحاظ فنی و نحوه کارکرد و قابلیتها کاملا شبیه OpenAI APIs هستند. به همین منظور پیشنهاد میکنیم که برای آگاهی از نحوهی کارکرد API ها به مستندات OpenAI API Reference و OpenAI Documentation ارجاع کنید.
مدلهای صوتی برای تبدیل صوت به متن و همچنین متن به صوت قابل استفاده هستند. این مدلهای از دقت بسیار بالاتری نسبت به سرویسهای مشابه برخوردار بوده و همچنین صوت تولید شده شباهت زیادی به صدای انسان دارد. مدل Whisper قادر به تبدیل صوت به متن است و میتوانند زبانهای مختلف را به یکدیگر ترجمه کند. مدل TTS (Text-to-Speech) هم قادر به تبدیل متن به صوت به زبانهای مختلف است.
تبدیل متن به صوت #
برای تبدیل متن به صوت کافی است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/speech
ارسال کنید.
برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت میتوانید مستندات OpenAI را مطالعه کنید.
1curl https://api.gilas.io/v1/audio/speech \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: application/json" \
4 -d '{
5 "model": "tts-1",
6 "input": "درختان برای رشد به خاک, هوا و نور خورشید نیاز دارند.",
7 "voice": "alloy"
8 }' \
9 --output speech.mp3
خروجی این درخواست یک فایل صوتی با فرمت .mp3 خواهد بود.
تبدیل صوت به متن #
برای تبدیل صوت به متن کافی است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/transcriptions
ارسال کنید.
برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت میتوانید مستندات OpenAI را مطالعه کنید.
Request:
1curl https://api.gilas.io/v1/audio/transcriptions \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/audio.mp3" \
5 -F model="whisper-1"
Response:
Request:
1curl https://api.gilas.io/v1/audio/transcriptions \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/audio.mp3" \
5 -F "timestamp_granularities[]=word" \
6 -F model="whisper-1" \
7 -F response_format="verbose_json"
Response:
1{
2 "task": "transcribe",
3 "language": "english",
4 "duration": 8.470000267028809,
5 "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
6 "words": [
7 {
8 "word": "The",
9 "start": 0.0,
10 "end": 0.23999999463558197
11 },
12 ...
13 {
14 "word": "volleyball",
15 "start": 7.400000095367432,
16 "end": 7.900000095367432
17 }
18 ]
19}
Request:
1curl https://api.gilas.io/v1/audio/transcriptions \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/audio.mp3" \
5 -F "timestamp_granularities[]=segment" \
6 -F model="whisper-1" \
7 -F response_format="verbose_json"
Response:
1{
2 "task": "transcribe",
3 "language": "english",
4 "duration": 8.470000267028809,
5 "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
6 "segments": [
7 {
8 "id": 0,
9 "seek": 0,
10 "start": 0.0,
11 "end": 3.319999933242798,
12 "text": " The beach was a popular spot on a hot summer day.",
13 "tokens": [
14 50364, 440, 7534, 390, 257, 3743, 4008, 322, 257, 2368, 4266, 786, 13, 50530
15 ],
16 "temperature": 0.0,
17 "avg_logprob": -0.2860786020755768,
18 "compression_ratio": 1.2363636493682861,
19 "no_speech_prob": 0.00985979475080967
20 },
21 ...
22 ]
23}
ترجمه صوتی #
برای ترجمه صوت به زبان مورد نظر خود کافی است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/translations
ارسال کنید.
برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت میتوانید مستندات OpenAI را مطالعه کنید.
Requst:
1curl https://api.gilas.io/v1/audio/translations \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/german.m4a" \
5 -F model="whisper-1"
Response:
برای آگاهی کامل از قابلیتهای Audio API لطفا مستندات وبسایت OpenAI را مطالعه کنید.
همچنین OpenAI API Reference شامل مستندات مربوط به Audio API میباشد که مطالعه آنها برای استفاده از این اندپوینت بسیار اهمیت دارد.