مدلهای صوتی برای تبدیل صوت به متن و همچنین متن به صوت قابل استفاده هستند. این مدلهای از دقت بسیار بالاتری نسبت به سرویسهای مشابه برخوردار بوده و همچنین صوت تولید شده شباهت زیادی به صدای انسان دارد. مدل Whisper قادر به تبدیل صوت به متن است و میتوانند زبانهای مختلف را به یکدیگر ترجمه کند. مدل TTS (Text-to-Speech) هم قادر به تبدیل متن به صوت به زبانهای مختلف است.
تبدیل متن به صوت #
برای تبدیل متن به صوت کافی است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/speech
ارسال کنید.
برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت میتوانید مستندات OpenAI را مطالعه کنید.
1curl https://api.gilas.io/v1/audio/speech \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: application/json" \
4 -d '{
5 "model": "tts-1",
6 "input": "درختان برای رشد به خاک, هوا و نور خورشید نیاز دارند.",
7 "voice": "alloy"
8 }' \
9 --output speech.mp3
خروجی این درخواست یک فایل صوتی با فرمت .mp3 خواهد بود.
تبدیل صوت به متن #
برای تبدیل صوت به متن کافی است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/transcriptions
ارسال کنید.
برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت میتوانید مستندات OpenAI را مطالعه کنید.
Request:
1curl https://api.gilas.io/v1/audio/transcriptions \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/audio.mp3" \
5 -F model="whisper-1"
Response:
Request:
1curl https://api.gilas.io/v1/audio/transcriptions \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/audio.mp3" \
5 -F "timestamp_granularities[]=word" \
6 -F model="whisper-1" \
7 -F response_format="verbose_json"
Response:
1{
2 "task": "transcribe",
3 "language": "english",
4 "duration": 8.470000267028809,
5 "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
6 "words": [
7 {
8 "word": "The",
9 "start": 0.0,
10 "end": 0.23999999463558197
11 },
12 ...
13 {
14 "word": "volleyball",
15 "start": 7.400000095367432,
16 "end": 7.900000095367432
17 }
18 ]
19}
Request:
1curl https://api.gilas.io/v1/audio/transcriptions \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/audio.mp3" \
5 -F "timestamp_granularities[]=segment" \
6 -F model="whisper-1" \
7 -F response_format="verbose_json"
Response:
1{
2 "task": "transcribe",
3 "language": "english",
4 "duration": 8.470000267028809,
5 "text": "The beach was a popular spot on a hot summer day. People were swimming in the ocean, building sandcastles, and playing beach volleyball.",
6 "segments": [
7 {
8 "id": 0,
9 "seek": 0,
10 "start": 0.0,
11 "end": 3.319999933242798,
12 "text": " The beach was a popular spot on a hot summer day.",
13 "tokens": [
14 50364, 440, 7534, 390, 257, 3743, 4008, 322, 257, 2368, 4266, 786, 13, 50530
15 ],
16 "temperature": 0.0,
17 "avg_logprob": -0.2860786020755768,
18 "compression_ratio": 1.2363636493682861,
19 "no_speech_prob": 0.00985979475080967
20 },
21 ...
22 ]
23}
ترجمه صوتی #
برای ترجمه صوت به زبان مورد نظر خود کافی است درخواستی مشابه مثال زیر را به اندپوینت v1/audio/translations
ارسال کنید.
برای آگاهای از پارامترهای قابل استفاده در هنگام ارسال درخواست به این اندپوینت میتوانید مستندات OpenAI را مطالعه کنید.
Requst:
1curl https://api.gilas.io/v1/audio/translations \
2 -H "Authorization: Bearer $GILAS_API_KEY" \
3 -H "Content-Type: multipart/form-data" \
4 -F file="@/path/to/file/german.m4a" \
5 -F model="whisper-1"
Response:
توجه
در نظر داشته باشید که Gilas APIs از لحاظ فنی و نحوه کارکرد و قابلیتها کاملا شبیه OpenAI APIs هستند. به همین منظور پیشنهاد میکنیم که برای آگاهی از نحوهی کارکرد API ها به مستندات OpenAI API Reference و OpenAI Documentation ارجاع کنید.