Wenn Sie eine Antwort an Google Assistant zurückgeben, können Sie eine Teilmenge der Speech Synthesis Markup Language (SSML) in Ihre Antworten. Von mit SSML können Sie dafür sorgen, dass die Antworten in Ihrer Unterhaltung natürlicher wirken. gesprochene Sprache. Im Folgenden sehen Sie ein Beispiel für SSML-Markup und wie es von Google Assistant
<ph type="x-smartling-placeholder">function saySSML(conv) { const ssml = '<speak>' + 'Here are <say-as interpret-as="characters">SSML</say-as> samples. ' + 'I can pause <break time="3" />. ' + 'I can play a sound <audio src="https://www.example.com/MY_WAVE_FILE.wav">your wave file</audio>. ' + 'I can speak in cardinals. Your position is <say-as interpret-as="cardinal">10</say-as> in line. ' + 'Or I can speak in ordinals. You are <say-as interpret-as="ordinal">10</say-as> in line. ' + 'Or I can even speak in digits. Your position in line is <say-as interpret-as="digits">10</say-as>. ' + 'I can also substitute phrases, like the <sub alias="World Wide Web Consortium">W3C</sub>. ' + 'Finally, I can speak a paragraph with two sentences. ' + '<p><s>This is sentence one.</s><s>This is sentence two.</s></p>' + '</speak>'; conv.ask(ssml); }
{ "expectUserResponse": true, "expectedInputs": [ { "possibleIntents": [ { "intent": "actions.intent.TEXT" } ], "inputPrompt": { "richInitialPrompt": { "items": [ { "simpleResponse": { "textToSpeech": "<speak>Here are <say-as interpret-as=\"characters\">SSML</say-as> samples. I can pause <break time=\"3\" />. I can play a sound <audio src=\"https://www.example.com/MY_WAVE_FILE.wav\">your wave file</audio>. I can speak in cardinals. Your position is <say-as interpret-as=\"cardinal\">10</say-as> in line. Or I can speak in ordinals. You are <say-as interpret-as=\"ordinal\">10</say-as> in line. Or I can even speak in digits. Your position in line is <say-as interpret-as=\"digits\">10</say-as>. I can also substitute phrases, like the <sub alias=\"World Wide Web Consortium\">W3C</sub>. Finally, I can speak a paragraph with two sentences. <p><s>This is sentence one.</s><s>This is sentence two.</s></p></speak>" } } ] } } } ] }
Audio
SSML wird im Actions Simulator unterstützt, aber nicht in Dialogflow. Simulator.
URLs in SSML
Wenn Sie eine SSML-Antwort definieren, die nur eine URL enthält, wird in dieser URL ein Et-Zeichen (&) verwendet.
aufgrund der XML-Formatierung zu Problemen führen kann. Um sicherzustellen, dass die URL
ersetzen Sie Instanzen von &
durch &
.
Auch wenn Ihre SSML-Antwort nur eine URL enthält, benötigt Actions on Google
Anzeigetext für die Antwort. Da Text im <audio>
-Tag nicht automatisch
von Assistant vorgelesen werden, können Sie Fülltext oder eine kurze Beschreibung in Ihr
<audio>
Tag, um diese Anforderung zu erfüllen. Text innerhalb des <audio>
-Tags wird nicht
die nach der Audiowiedergabe von Assistant angesagt wird.
Anforderung für eine Anzeigetextversion Ihrer SSML.
Hier ein Beispiel für eine problematische SSML-Antwort:
<speak>
<audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
</audio>
</speak>
Im obigen Beispiel wird das &
nicht mit einem Escapezeichen versehen, um eine korrekte XML-Formatierung zu gewährleisten.
Eine korrigierte Version derselben SSML-Antwort sieht so aus:
<speak>
<audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
text
</audio>
</speak>
Unterstützung für SSML-Elemente
In den folgenden Abschnitten werden die SSML-Elemente und -Optionen beschrieben, die auf Ihrer Actions on Google-Plattform verwendet werden können.
<speak>
Das Stammelement der SSML-Antwort.
Weitere Informationen zum Element speak
finden Sie in der W3-Spezifikation.
Beispiel
<speak> my SSML content </speak>
<break>
Ein leeres Element, mit dem Pausen oder andere prosodische Abgrenzungen zwischen Wörtern gesteuert werden. Die Verwendung von <break>
zwischen Tokenpaaren ist optional. Wenn dieses Element nicht zwischen Wörtern eingefügt ist, wird die Pause automatisch basierend auf dem linguistischen Kontext festgestellt.
Weitere Informationen zum Element break
finden Sie in der W3-Spezifikation.
Attribute
Attribut | Beschreibung |
---|---|
time |
Legt die Länge der Pause in Sekunden oder Millisekunden fest, z. B. "3s" oder "250ms". |
strength |
Legt die Stärke der prosodischen Pause mit relativen Werten fest. Gültige Werte sind: "x-weak", "weak", "medium", "strong" und "x-strong". Der Wert "none" gibt an, dass keine prosodische Pause eingefügt werden soll. Sie können damit vom Prozessor generierte prosodische Pausen vermeiden. Die anderen Werte geben eine kontinuierlich nicht abnehmende (konzeptuell zunehmende) Pausenstärke zwischen Tokens an. Stärkere Abgrenzungen werden typischerweise von Pausen begleitet. |
Beispiel
Das folgende Beispiel verdeutlicht, wie Sie mit dem Element <break>
eine Pause zwischen Schritten einfügen:
<speak> Step 1, take a deep breath. <break time="200ms"/> Step 2, exhale. Step 3, take a deep breath again. <break strength="weak"/> Step 4, exhale. </speak>
<say‑as>
Mit diesem Element können Sie Informationen zur Art des im Element enthaltenen Textkonstrukts angeben. Damit lässt sich auch die Detailgenauigkeit für das Rendering des enthaltenen Texts festlegen.
Das Element <say‑as>
hat das erforderliche Attribut interpret-as
, das die Aussprache des Werts bestimmt. Je nach dem Wert in interpret-as
können Sie die optionalen Attribute format
und detail
verwenden.
Beispiele
Das Attribut interpret-as
unterstützt die folgenden Werte:
-
currency
Das folgende Beispiel wird als „zweiundvierzig Dollar und ein Cent“ gesprochen. Wenn das Attribut „language“ weggelassen wird, wird die aktuelle Sprache verwendet.
<speak> <say-as interpret-as='currency' language='en-US'>$42.01</say-as> </speak>
-
telephone
Informationen hierzu finden Sie in der W3C Working Group Note SSML 1.0 say-as-Attributwerte in der Beschreibung zu
interpret-as='telephone'
.Das folgende Beispiel wird als „eins acht null null zwei null zwei eins zwei eins zwei“ gesprochen. Wenn das Feld "google:style" ausgelassen wird, wird Null als Buchstabe O gesprochen.
Der Parameter „google:style='zero-as-zero'“ funktioniert derzeit nur in englischer Sprache.
<speak> <say-as interpret-as='telephone' google:style='zero-as-zero'>1800-202-1212</say-as> </speak>
-
verbatim
oderspell-out
Das folgende Beispiel wird Buchstabe für Buchstabe (auf Englisch) gesprochen:
<speak> <say-as interpret-as="verbatim">abcdefg</say-as> </speak>
-
date
Das Attribut
format
enthält eine Reihe von Zeichencodes für Datumsfelder. Die informat
unterstützten Feldzeichencodes sind {y
,m
,d
} für Jahr, Monat und Tag (des Monats). Wenn die Feldcodes für Jahr, Monat und Tag jeweils einmal angegeben sind, werden 4, 2 und 2 Ziffern erwartet. Wird ein Feldcode wiederholt, entspricht die Anzahl der erwarteten Ziffern der Anzahl der Codewiederholungen. Die Felder im Datumstext können durch Satzzeichen und/oder Leerzeichen getrennt sein.Das Attribut
detail
legt die Aussprache des Datums fest. Fürdetail='1'
ist nur das Tagesfeld und entweder ein Monats- oder ein Jahresfeld erforderlich, wobei es trotzdem möglich ist, alle drei Felder anzugeben. Dies ist der Standard, wenn nicht alle drei Felder angegeben sind. Gesprochen wird es als "The {Ordinaltag} of {Monat}, {Jahr}".Das folgende Beispiel wird als "The tenth of September, nineteen sixty" gesprochen:
<speak> <say-as interpret-as="date" format="yyyymmdd" detail="1"> 1960-09-10 </say-as> </speak>
Das folgende Beispiel wird als "The tenth of September" gesprochen:
<speak> <say-as interpret-as="date" format="dm">10-9</say-as> </speak>
Für
detail='2'
sind die Felder für Tag, Monat und Jahr erforderlich. Das ist der Standard, wenn alle drei Felder angegeben sind. Die gesprochene Form lautet "{Monat} {Ordinaltag}, {Jahr}".Das folgende Beispiel wird als "September tenth, nineteen sixty" gesprochen:
<speak> <say-as interpret-as="date" format="dmy" detail="2"> 10-9-1960 </say-as> </speak>
-
characters
Das folgende Beispiel wird als "C A N" (Englisch) gesprochen:
<speak> <say-as interpret-as="characters">can</say-as> </speak>
-
cardinal
Das folgende Beispiel wird als "Twelve thousand three hundred forty five" (US-Englisch) oder "Twelve thousand three hundred and forty five" (UK-Englisch) gesprochen:
<speak> <say-as interpret-as="cardinal">12345</say-as> </speak>
-
ordinal
Das folgende Beispiel wird als "First" gesprochen:
<speak> <say-as interpret-as="ordinal">1</say-as> </speak>
-
fraction
Das folgende Beispiel wird als "five and a half" gesprochen:
<speak> <say-as interpret-as="fraction">5+1/2</say-as> </speak>
-
expletive
oderbleep
Im folgenden Beispiel wird ein Signalton ausgegeben wie bei einer Zensierung:
<speak> <say-as interpret-as="expletive">censor this</say-as> </speak>
-
unit
Passt Einheiten an die Zahl an, wenn zwischen Singular oder Plural unterschieden wird. Das folgende Beispiel wird als "10 feet" gesprochen:
<speak> <say-as interpret-as="unit">10 foot</say-as> </speak>
-
time
Das folgende Beispiel wird als "Two thirty P.M." gesprochen:
<speak> <say-as interpret-as="time" format="hms12">2:30pm</say-as> </speak>
Das Attribut
format
enthält eine Reihe von Zeichencodes für Uhrzeitfelder. Die informat
unterstützten Feldzeichencodes sind {h
,m
,s
,Z
,12
,24
} für Stunde, Minute (der Stunde), Sekunde (der Minute), Zeitzone und 12- oder 24-Stunden-Format. Wenn die Feldcodes für Stunde, Minute und Sekunde jeweils einmal angegeben sind, werden 1, 2 und 2 Ziffern erwartet. Wird ein Feldcode wiederholt, entspricht die Anzahl der erwarteten Ziffern der Anzahl der Codewiederholungen. Die Felder im Uhrzeittext können durch Satzzeichen und/oder Leerzeichen getrennt sein. Wenn im Format keine Stunde, Minute oder Sekunde angegeben ist oder keine übereinstimmenden Ziffern vorhanden sind, wird das Feld als Nullwert behandelt. Der Standardwert fürformat
lautet "hms12".Mit dem Attribut
detail
steuern Sie, ob die Uhrzeit im 12- oder 24-Stunden-Format gesprochen wird. Bei Angabe vondetail='1'
oder wenn beim 24-Stunden-Formatdetail
weggelassen wird, wird das 24-Stunden-Format gesprochen. Bei Angabe vondetail='2'
oder wenn beim 12-Stunden-Formatdetail
weggelassen wird, wird das 12-Stunden-Format gesprochen.
Weitere Informationen zum Element say-as
finden Sie in der W3-Spezifikation.
<audio>
Unterstützt das Einfügen aufgezeichneter Audiodateien und anderer Audioformate in Verbindung mit synthetisierter Sprachausgabe.
Attribute
Attribut | Erforderlich | Standardeinstellung | Werte |
---|---|---|---|
src |
Ja | – | URI der Audiomedienquelle. Als Protokoll wird https unterstützt. |
clipBegin |
Nein | 0 | Eine Zeitangabe, die für den Start der Wiedergabe den Versatz ab dem Start der Audioquelle festlegt. Wenn dieser Wert größer oder gleich der tatsächlichen Dauer der Audioquelle ist, wird kein Audio eingefügt. |
clipEnd |
Nein | Unendlich | Eine Zeitangabe, die für das Ende der Wiedergabe den Versatz ab dem Start der Audioquelle festlegt. Wenn die tatsächliche Dauer der Audioquelle unter diesem Wert liegt, endet die Wiedergabe zu diesem Zeitpunkt. Wenn clipBegin größer oder gleich clipEnd ist, wird kein Audio eingefügt. |
speed |
Nein | 100 % | Das Verhältnis zwischen Wiedergabegeschwindigkeit der Ausgabe und normaler Eingabegeschwindigkeit als Prozentwert. Das Format ist eine positive reelle Zahl gefolgt von "%". Aktuell wird der Bereich [50% (langsam – halbe Geschwindigkeit), 200% (schnell – doppelte Geschwindigkeit)] unterstützt. Wenn Werte außerhalb dieses Bereichs angegeben werden, kann es eventuell sein, dass sie zu Werten innerhalb des Bereichs abgeändert werden. |
repeatCount |
Nein | 1; oder wenn repeatDur festgelegt ist: 10 |
Eine reelle Zahl, die angibt, wie oft die Audioinhalte eingefügt werden, gegebenenfalls nach Zuschneiden mit clipBegin und/oder clipEnd . Teilwiederholungen werden nicht unterstützt, weshalb der Wert auf die nächste Ganzzahl gerundet wird. Null ist kein gültiger Wert und wird daher als nicht angegeben behandelt. Stattdessen wird dann der Standardwert verwendet. |
repeatDur |
Nein | Unendlich | Eine Zeitangabe, die als Begrenzung der Dauer der eingefügten Audiowiedergabe dient, nachdem die Attribute clipBegin , clipEnd , repeatCount und speed auf die Quelle angewendet wurden (anstelle der normalen Wiedergabedauer). Wenn die Dauer der bearbeiteten Audiowiedergabe unter diesem Wert liegt, endet die Wiedergabe zu diesem Zeitpunkt. |
soundLevel |
Nein | +0dB | Hiermit passen Sie die Lautstärke der Audiowiedergabe an. soundLevel gibt den Wert in Dezibel an. Der maximale Bereich ist +/-40dB, wobei der tatsächliche Bereich geringer sein kann. Auch die Ausgabequalität kann innerhalb des Bereichs schwanken. |
Die folgenden Einstellungen werden derzeit für die Audiowiedergabe unterstützt:
- Format: MP3 (MPEG v2)
- 24.000 Samples pro Sekunde
- 24.000~96.000 Bit pro Sekunde, feste Abtastrate
- Format: Opus in Ogg
- 24.000 Samples pro Sekunde (Super-Breitband)
- 24.000–96.000 Bit pro Sekunde, feste Abtastrate
- Format (verworfen): WAV (RIFF)
- PCM 16-Bit mit Vorzeichen, Little Endian
- 24.000 Samples pro Sekunde
- Alle Formate:
- Einzelner Kanal bevorzugt, Stereo aber akzeptabel
- Maximale Dauer: 240 Sekunden, für längere Audiowiedergaben gegebenenfalls Medienantworten implementieren
- Maximale Dateigröße: 5 MB
- Quell-URL muss HTTPS-Protokoll verwenden
- Unser User-Agent beim Abrufen der Audiowiedergabe: "Google-Speech-Actions"
Der Inhalt des Elements <audio>
ist optional und wird verwendet, wenn die Audiodatei nicht wiedergegeben werden kann, oder das Ausgabegerät kein Audio unterstützt. Wenn im Inhalt das Element <desc>
vorkommt, wird für die Anzeige der Textinhalt dieses Elements verwendet. Weitere Informationen finden Sie in der Checkliste für Antworten im Abschnitt über aufgezeichnete Audioinhalte.
Die URL src
muss ebenfalls eine HTTPS-URL sein. In Google Cloud Storage können Ihre Audiodateien unter einer HTTPS-URL gehostet werden.
Weitere Informationen zu Medienantworten finden Sie im Leitfaden für Antworten im Abschnitt zu Medienantworten.
Weitere Informationen zum Element audio
finden Sie in der W3-Spezifikation.
Beispiel
<speak> <audio src="cat_purr_close.ogg"> <desc>a cat purring</desc> PURR (sound didn't load) </audio> </speak>
<p>,<s>
Satz- und Absatzelemente.
Weitere Informationen zu den Elementen p
und s
finden Sie in der W3-Spezifikation.
Beispiel
<p><s>This is sentence one.</s><s>This is sentence two.</s></p>
Best Practices
- Verwenden Sie <s>...</s>-Tags, um ganze Sätze einzuschließen. Das gilt vor allem, wenn sie SSML-Elemente enthalten, welche die Prosodie ändern, also <audio>, <break>, <emphasis>, <par>, <prosody>, <say-as>, <seq> und <sub>.
- Wenn eine Sprachunterbrechung so lang sein soll, dass Sie diese hören können, verwenden Sie <s>...</s>-Tags und fügen Sie die entsprechende Pause zwischen den Sätzen ein.
<sub>
Gibt an, dass der enthaltene Text bei Aussprache durch den Text im Attributwert "alias" ersetzt wird.
Sie können mit dem Element sub
auch eine vereinfachte Aussprache eines schwer lesbaren Worts angeben. Im letzten Beispiel unten wird das anhand eines japanischen Texts gezeigt:
Weitere Informationen zum Element sub
finden Sie in der W3-Spezifikation.
Beispiele
<sub alias="World Wide Web Consortium">W3C</sub>
<sub alias="にっぽんばし">日本橋</sub>
<mark>
Ein leeres Element, das eine Markierung in die Text- oder Tag-Sequenz einfügt. Die Markierung kann dazu verwendet werden, auf eine bestimmte Position in der Sequenz zu verweisen oder eine Markierung für asynchrone Benachrichtigungen in einen Ausgabestream einzufügen.
Weitere Informationen zum Element mark
finden Sie in der W3-Spezifikation.
Beispiel
<prosody>
Hiermit werden die Tonhöhe, die Sprechgeschwindigkeit und die Lautstärke für den Text im Element angepasst. Unterstützt werden derzeit die Attribute rate
, pitch
und volume
.
Die Attribute rate
und volume
können gemäß den W3-Spezifikationen festgelegt werden. Den Wert des Attributs pitch
können Sie auf drei Arten angeben:
Attribut | Beschreibung |
---|---|
name |
Die String-ID für jede Markierung. |
Option | Beschreibung |
---|---|
Relativ | Geben Sie einen relativen Wert an (z. B. "low", "medium", "high" usw.), wobei "medium" die Standardtonhöhe ist. |
Halbtöne | Erhöhen oder verringern Sie die Tonhöhe um "N" Halbtöne mit "+Nst" oder "-Nst". Die Angabe von "+/-" und "st" ist erforderlich. |
Prozentsatz | Erhöhen oder verringern Sie die Tonhöhe um "N" Prozent mit "+N%" oder "-N%". Die Angabe von "%" ist erforderlich, "+/-" ist optional. |
Weitere Informationen zum Element prosody
finden Sie in der W3-Spezifikation.
Beispiel
Im folgenden Beispiel wird mit dem Element <prosody>
die Sprechgeschwindigkeit verlangsamt und die Sprache zwei Halbtöne tiefer als normal ausgegeben:
<prosody rate="slow" pitch="-2st">Can you hear me now?</prosody>
<emphasis>
Hiermit wird der Text des Elements betont oder die Betonung entfernt. Mit dem Element <emphasis>
ändern Sie die Sprache ähnlich wie mit <prosody>
, ohne jedoch einzelne Sprachattribute festlegen zu müssen.
Dieses Element unterstützt das optionale Attribut "level" mit den folgenden gültigen Werten:
strong
moderate
none
reduced
Weitere Informationen zum Element emphasis
finden Sie in der W3-Spezifikation.
Beispiel
Im folgenden Beispiel wird der Text durch das Element <emphasis>
als Ankündigung gesprochen:
<emphasis level="moderate">This is an important announcement</emphasis>
<par>
Ein paralleler Mediencontainer, mit dem Sie mehrere Medienelemente gleichzeitig wiedergeben können. Als Inhalt sind nur ein oder mehrere der Elemente <par>
, <seq>
und <media>
zulässig. Elemente vom Typ <media>
können in beliebiger Reihenfolge angeordnet sein.
Sofern nicht durch ein untergeordnetes Element eine andere Startzeit angegeben wird, entspricht die implizite Startzeit des Elements der Startzeit des Containers <par>
. Wenn für das Attribut begin oder end eines untergeordneten Elements ein Versatzwert angegeben ist, wird der Start des Elements relativ zur Startzeit des Containers <par>
verschoben. Das Attribut "begin" des Stammelements <par>
wird ignoriert. Der Start erfolgt mit Beginn der Ausgabe des SSML-Sprachsyntheseprozesses für das Stammelement <par>
, d. h. effektiv zum Zeitpunkt "null".
Beispiel
<speak> <par> <media xml:id="question" begin="0.5s"> <speak>Who invented the Internet?</speak> </media> <media xml:id="answer" begin="question.end+2.0s"> <speak>The Internet was invented by cats.</speak> </media> <media begin="answer.end-0.2s" soundLevel="-6dB"> <audio src="https://actions.google.com/.../cartoon_boing.ogg"/> </media> <media repeatCount="3" soundLevel="+2.28dB" fadeInDur="2s" fadeOutDur="0.2s"> <audio src="https://actions.google.com/.../cat_purr_close.ogg"/> </media> </par> </speak>
<seq>
Ein sequenzieller Mediencontainer, mit dem Sie Medienelemente nacheinander wiedergeben können. Als Inhalt sind nur ein oder mehrere der Elemente <seq>
, <par>
und <media>
zulässig. Die Medienelemente werden in der Rendering-Reihenfolge angegeben.
Für die Attribute begin und end untergeordneter Elemente können Versatzwerte festgelegt werden. Weitere Informationen erhalten Sie nachfolgend unter Zeitangabe. Die Versatzwerte dieser untergeordneten Elemente gelten relativ zum Ende des vorherigen Elements in der Sequenz oder relativ zum Beginn des Containers <seq>
, wenn es sich um das erste Element handelt.
Beispiel
<speak> <seq> <media begin="0.5s"> <speak>Who invented the Internet?</speak> </media> <media begin="2.0s"> <speak>The Internet was invented by cats.</speak> </media> <media soundLevel="-6dB"> <audio src="https://actions.google.com/.../cartoon_boing.ogg"/> </media> <media repeatCount="3" soundLevel="+2.28dB" fadeInDur="2s" fadeOutDur="0.2s"> <audio src="https://actions.google.com/.../cat_purr_close.ogg"/> </media> </seq> </speak>
<media>
Steht für eine Medienebene innerhalb des Elements <par>
oder <seq>
. Als Inhalt für das Element <media>
ist ein SSML-Element <speak>
oder <audio>
zulässig. In der folgenden Tabelle werden die für das Element <media>
gültigen Attribute beschrieben.
Attribute
Attribut | Erforderlich | Standardeinstellung | Werte |
---|---|---|---|
xml:id | Nein | – | Eine eindeutige XML-Kennzeichnung für dieses Element. Codierte Entitäten werden nicht unterstützt. Die erlaubten Kennzeichnungswerte entsprechen dem regulären Ausdruck "([-_#]|\p{L}|\p{D})+" . Weitere Informationen finden Sie in der Referenz zu "xml:id". |
begin | Nein | 0 | Die Startzeit des Mediencontainers. Wird ignoriert, wenn dies das Stammelement des Mediencontainers ist, das wie der Standardwert "0" behandelt wird. Gültige Stringwerte sind unten im Abschnitt Zeitangabe aufgeführt. |
end | Nein | – | Die Endzeit des Mediencontainers. Gültige Stringwerte sind unten im Abschnitt Zeitangabe aufgeführt. |
repeatCount | Nein | 1 | Eine reelle Zahl, die angibt, wie oft das Medium eingefügt wird. Teilwiederholungen werden nicht unterstützt, weshalb der Wert auf die nächste Ganzzahl gerundet wird. Null ist kein gültiger Wert und wird daher als nicht angegeben behandelt. Stattdessen wird dann der Standardwert verwendet. |
repeatDur | Nein | – | Eine Zeitangabe, welche die Dauer des eingefügten Mediums begrenzt. Wenn die Dauer des Mediums unter diesem Wert liegt, endet die Wiedergabe zu diesem Zeitpunkt. |
soundLevel | Nein | +0dB | Hiermit passen Sie die Lautstärke der Audiowiedergabe an. soundLevel gibt den Wert in Dezibel an. Der maximale Bereich ist +/-40dB, wobei der tatsächliche Bereich geringer sein kann. Auch die Ausgabequalität kann innerhalb des Bereichs schwanken. |
fadeInDur | Nein | 0 Sek. | Eine Zeitangabe für das Einblenden des Mediums von lautlos bis zum optional angegebenen soundLevel . Wenn die Dauer des Mediums unter diesem Wert liegt, stoppt das Einblenden am Ende der Wiedergabe und der Ton erreicht nicht die angegebene Lautstärke. |
fadeOutDur | Nein | 0 Sek. | Eine Zeitangabe für das Ausblenden des Mediums vom optional angegebenen soundLevel bis zu lautlos. Wenn die Dauer des Mediums unter diesem Wert liegt, wird die Lautstärke auf einen niedrigeren Wert gesetzt, um sicherzustellen, dass die Stummschaltung am Ende der Wiedergabe erreicht wird. |
Zeitangabe
Eine Zeitangabe, die für die Attributwerte "begin" und "end" des Elements <media>
und der Mediencontainer (Elemente <par>
und <seq>
) verwendet wird, ist entweder ein Versatzwert (z. B. +2.5s
) oder ein Syncbase-Wert (z. B. foo_id.end-250ms
).
- Versatzwert: Der Zeitversatzwert ist ein SMIL-Timecount-Wert. Zulässige Werte müssen dem folgenden regulären Ausdruck entsprechen:
"\s\*(+|-)?\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"
Der erste Ziffernstring ist der ganze Teil der Dezimalzahl und der zweite Ziffernstring der Dezimalbruchteil. Das Standardvorzeichen (d. h. "(+|-)?") ist "+". Die Einheitenwerte entsprechen Stunden, Minuten, Sekunden bzw. Millisekunden. Der Standardwert für die Einheiten ist "s" (Sekunden).
- Syncbase-Wert: Ein Syncbase-Wert ist ein SMIL-Syncbase-Wert. Zulässige Werte müssen dem folgenden regulären Ausdruck entsprechen:
"([-_#]|\p{L}|\p{D})+\.(begin|end)\s\*(+|-)\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"
Die Ziffern und Einheiten werden so wie Versatzwerte interpretiert.
Sprachausgabe-Simulator
Die Actions Console enthält einen Text-in-Sprache-Simulator, mit dem Sie SSML testen können. mit einem der oben genannten Elemente. Den TTS-Simulator findest du in der Konsole. unter Simulator > Audio: Geben Sie den Text und die SSML in den Simulator ein und klicken Sie auf Aktualisieren und anhören, um die Sprachausgabe zu hören.
Sie können auch auf die Schaltfläche zum Herunterladen klicken, um eine .mp3
-Datei Ihrer Sprachausgabe zu speichern.
.