對話動作已於 2023 年 6 月 13 日淘汰。詳情請參閱「對話動作已淘汰」。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

SSML (Dialogflow)

傳回 Google 助理的回覆時，您可以使用回應中的語音合成標記語言 (SSML)。變更者：您可以運用 SSML 讓對話回應看起來更自然分別為形式，例如語言、視覺和語音以下為 SSML 標記的範例，以及系統如何讀取 SSML 標記「Google 助理」。

SSML

function saySSML(conv) {
  const ssml = '<speak>' +
    'Here are <say-as interpret-as="characters">SSML</say-as> samples. ' +
    'I can pause <break time="3" />. ' +
    'I can play a sound <audio src="https://www.example.com/MY_WAVE_FILE.wav">your wave file</audio>. ' +
    'I can speak in cardinals. Your position is <say-as interpret-as="cardinal">10</say-as> in line. ' +
    'Or I can speak in ordinals. You are <say-as interpret-as="ordinal">10</say-as> in line. ' +
    'Or I can even speak in digits. Your position in line is <say-as interpret-as="digits">10</say-as>. ' +
    'I can also substitute phrases, like the <sub alias="World Wide Web Consortium">W3C</sub>. ' +
    'Finally, I can speak a paragraph with two sentences. ' +
    '<p><s>This is sentence one.</s><s>This is sentence two.</s></p>' +
    '</speak>';
  conv.ask(ssml);
}

敬上

JSON

{
  "expectUserResponse": true,
  "expectedInputs": [
    {
      "possibleIntents": [
        {
          "intent": "actions.intent.TEXT"
        }
      ],
      "inputPrompt": {
        "richInitialPrompt": {
          "items": [
            {
              "simpleResponse": {
                "textToSpeech": "<speak>Here are <say-as interpret-as=\"characters\">SSML</say-as> samples. I can pause <break time=\"3\" />. I can play a sound <audio src=\"https://www.example.com/MY_WAVE_FILE.wav\">your wave file</audio>. I can speak in cardinals. Your position is <say-as interpret-as=\"cardinal\">10</say-as> in line. Or I can speak in ordinals. You are <say-as interpret-as=\"ordinal\">10</say-as> in line. Or I can even speak in digits. Your position in line is <say-as interpret-as=\"digits\">10</say-as>. I can also substitute phrases, like the <sub alias=\"World Wide Web Consortium\">W3C</sub>. Finally, I can speak a paragraph with two sentences. <p><s>This is sentence one.</s><s>This is sentence two.</s></p></speak>"
              }
            }
          ]
        }
      }
    }
  ]
}

音訊

動作模擬工具支援 SSML，但 Dialogflow 不支援模擬工具

SSML 中的網址

定義只包含網址的 SSML 回應時，網址中的連字號可能會因為 XML 格式而發生問題確保網址正確無誤則會將 & 的執行個體替換為 &。

即使 SSML 回應只包含網址，Actions on Google 也會要求顯示回應文字。因為 <audio> 標記中的文字不會這時，您可以在 <audio> 標記以符合這項規定。<audio> 標記內的文字不會並在音訊播放後向 Google 助理說話，並透過 Google 的 Action 進行操作 SSML 顯示文字版本的需求

以下是有問題的 SSML 回應示例：

<speak>
  <audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
  </audio>
</speak>

上述範例並未逸出 & 為正確的 XML 格式。

修正相同 SSML 回應的固定版本如下所示：

<speak>
  <audio src="https://firebasestorage.googleapis.com/v0/b/project-name.appspot.com/o/audio-file-name.ogg?alt=media&amp;token=XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX">
  text
  </audio>
</speak>

可使用的 SSML 元素

以下各節將說明可在動作中使用的 SSML 元素和選項。

`<speak>`

SSML 回應的根元素。

如要進一步瞭解 speak 元素，請參閱 W3 規格。

範例

<speak>
  my SSML content
</speak>

，瞭解如何調查及移除這項存取權。

`<break>`

控製字詞之間的停頓或其他韻律界限的空白元素。您可以選擇在任何符記組合之間使用 <break>。如果字詞之間沒有這個元素，系統會自動根據語言內容決定斷行。

如要進一步瞭解 break 元素，請參閱 W3 規格。

屬性

屬性	說明
`time`	設定廣告插播長度，以秒或毫秒為單位 (例如「3 秒」或「250 毫秒」)。
`strength`	根據相關字詞設定輸出內容的韻律休息強度。有效值為「x-weak」、「weak」、「medium」、「strong」和「x-strong」。值「無」表示不應輸出任何助力停頓邊界，可用於避免處理器會產生脈搏中斷。其他值則代表符記之間的單調非遞減 (在概念上遞增) 破壞強度。強度越高的邊界通常伴隨著停頓。

範例

以下範例說明如何使用 <break> 元素在步驟之間暫停：

<speak>
  Step 1, take a deep breath. <break time="200ms"/>
  Step 2, exhale.
  Step 3, take a deep breath again. <break strength="weak"/>
  Step 4, exhale.
</speak>

`<say‑as>`

這個元素可讓您指出元素所含的文字建構類型相關資訊。也可協助指定轉譯包含文字時所需的細節等級。

<say‑as> 元素包含必要屬性 interpret-as，可以決定系統要如何朗讀值。你可以依據特定的 interpret-as 值，使用選用屬性 format 和 detail。

範例

interpret-as 屬性支援下列值：

currency
以下範例的語音讀法是「40 two USD and cent」。如果省略語言屬性，則會使用目前的語言代碼。
```
<speak>
 <say-as interpret-as='currency' language='en-US'>$42.01</say-as>
</speak>
 
```
telephone
請參閱 W3C SSML 1.0 Say-as 屬性值 WG 附註中的 interpret-as='telephone' 說明。

以下範例的語音讀法是「one800 two new two one two two two.」。如果結果為「google:style」屬性卻省略了 0，所以會說出字母 O。

「google:style='zero-as-zero」屬性目前只適用於英文語言代碼。
```
 <speak>
 <say-as interpret-as='telephone' google:style='zero-as-zero'>1800-202-1212</say-as>
 </speak>
 
```
verbatim 或 spell-out
以下範例會將每個字母分別讀出來：
```
<speak>
 <say-as interpret-as="verbatim">abcdefg</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
date
format 屬性是一系列日期欄位字元碼。format 中支援的欄位字元代碼分別為 {y、m、d}，代表年、月和日。如果代表年、月或日的欄位代碼只出現一次，則預期的位數分別為 4、2 和 2。如果欄位代碼有重複，則預期位數是代碼重複的次數。日期文字中的欄位可用標點符號和/或空格分隔。

detail 屬性控制日期的口說形式。如果 detail='1' 只有日期欄位，以及「月」或「年」欄位，兩者皆為必要欄位。在未指定全部三個欄位時，這是預設值。口說形式是「The {ordinal day} of {month}, {year}」。

以下範例的語音讀法是「The tenth of9, 十 9ty:」
```
<speak>
 <say-as interpret-as="date" format="yyyymmdd" detail="1">
 1960-09-10
 </say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
以下範例的語音讀法是「The tenth of September」：
```
<speak>
 <say-as interpret-as="date" format="dm">10-9</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
detail='2' 的「日」、「月」、「年」欄位為必填。當提供所有三個欄位時，這是預設值。口說形式是「{month} {ordinal day}, {year}」。

以下範例的語音讀法是「9 10th, 19ty:」
```
<speak>
 <say-as interpret-as="date" format="dmy" detail="2">
 10-9-1960
 </say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
characters
以下範例的語音讀法是「C A N」：
```
<speak>
 <say-as interpret-as="characters">can</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
cardinal
以下範例的語音讀法是「十二千三百四十五」(美式英文適用) 或「12,3000405 (英國英文)」：
```
<speak>
 <say-as interpret-as="cardinal">12345</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
ordinal
以下範例的語音讀法是「First」：
```
<speak>
 <say-as interpret-as="ordinal">1</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
fraction
以下範例的語音讀法是「five and a half」：
```
<speak>
 <say-as interpret-as="fraction">5+1/2</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
expletive 或 bleep
以下範例呈現的嗶聲，就像經過審查後就是經過遮蔽：
```
<speak>
 <say-as interpret-as="expletive">censor this</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
unit
依據數字將單位轉換為單數或複數。以下範例的語音讀法是「10 英尺」：
```
<speak>
 <say-as interpret-as="unit">10 foot</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
time
以下範例的語音讀法是「Two thirty P.M.」：
```
<speak>
 <say-as interpret-as="time" format="hms12">2:30pm</say-as>
</speak>
 
```
您的瀏覽器不支援 HTML5 音訊元素。
，瞭解如何調查及移除這項存取權。
format 屬性是一系列時間欄位字元碼。format 中支援的欄位字元碼分別為 {h、m、s、Z、12、24}，代表小時、分鐘、秒 (分鐘)、時區、12 小時時間和 24 小時。如果代表小時、分鐘或秒的欄位代碼只出現一次，則預期的位數分別為 1、2 和 2。如果欄位代碼有重複，則預期位數是代碼重複的次數。時間文字中的欄位可用標點符號和/或空格分隔。如未以上述格式指定時、分或秒，或者沒有相符的數字，則系統會將該欄位視為零。format 的預設值為「hms12」。

detail 屬性可控制口說時間是 12 小時製或 24 小時制。如果省略 detail='1' 或 detail 且時間格式是 24 小時，則口說形式是 24 小時制。如果 detail='2' 或省略 detail 且時間格式為 12 小時，則口說形式是 12 小時。

如要進一步瞭解 say-as 元素，請參閱 W3 規格。

`<audio>`

支援插入錄製的音訊檔案，以及插入其他音訊格式與合成語音輸出。

屬性

屬性	必填	預設	值
`src`	是	不適用	參照音訊媒體來源的 URI。支援的通訊協定為 `https`。
`clipBegin`	否	0	TimeDesignation，從音訊來源的開頭到開始播放音訊之間的偏移值。如果這個值大於或等於音訊來源的實際長度，則不會插入任何音訊。
`clipEnd`	否	無限	TimeDesignation，從音訊來源的開頭到結束播放之間的偏移值。如果音訊來源的實際時間長度少於這個值，系統就會在該時間點結束播放。如果 `clipBegin` 大於或等於 `clipEnd`，則不會插入任何音訊。
`speed`	否	100%	輸出播放率相對於正常輸入速率的比率，以百分比表示。格式為正實數，後面接 %。目前支援的範圍為 [50% (慢 - 半速)、200% (快 - 兩倍速)]。超出該範圍的值可能會 (或可能不會) 調整到落在該範圍之內。
`repeatCount`	否	1，如果設定 `repeatDur`，則為 10	是一個實數，指定要插入多少次音訊 (剪輯之後，會以 `clipBegin` 和/或 `clipEnd` 表示)。不支援非小數的重複次數，因此系統會將該值四捨五入至最接近的整數。零不是有效值，因此會視為未指定，而使用預設值。
`repeatDur`	否	無限	TimeDesignation，限制在為 `clipBegin`、`clipEnd`、`repeatCount` 和 `speed` 屬性處理來源後 (而不是一般播放時間長度) 後，插入的音訊的時間長度限制。如果處理後的音訊長度少於此值，則播放會在值所在的時間點結束。
`soundLevel`	否	+0dB	請依`soundLevel`分貝調整音訊的音量。範圍上限是 +/-40dB，但實際範圍可能更低，而且輸出品質可能無法在整個範圍內產生良好的結果。

下方是目前支援的音訊設定：

格式：MP3 (MPEG v2)
- 每秒取樣 24K
- 每秒 24K ~ 96K 位元，固定速率
格式：Ogg 中的 Opus
- 每秒取樣 24K (超寬頻)
- 每秒 24K - 96K 位元，固定速率
格式 (已淘汰)：WAV (RIFF)
- PCM 16 符號位元，little endian 位元組順序
- 每秒取樣 24K
適用於所有格式：
- 建議使用單聲道，但也可以接受立體聲。
- 長度上限為 240 秒。如要播放較長的音訊，建議您導入媒體回應。
- 檔案大小上限 5 MB。
- 來源網址必須使用 HTTPS 通訊協定。
- 擷取音訊時，我們的 UserAgent 是「Google-Speech-Actions」。

<audio> 元素的內容為選用項目，如果無法播放音訊檔案或輸出裝置不支援音訊，就會使用這些內容。內容可能包含 <desc> 元素，在此情況下，系統會顯示該元素的文字內容。詳情請參閱回應檢查清單中的「錄製的音訊」一節。

src 網址也必須為 HTTPS 網址。Google Cloud Storage 可以透過 HTTPS 網址代管您的音訊檔案。

如要進一步瞭解媒體回應，請參閱《回應》指南中的媒體回應一節。

如要進一步瞭解 audio 元素，請參閱 W3 規格。

範例

<speak>
  <audio src="cat_purr_close.ogg">
    <desc>a cat purring</desc>
    PURR (sound didn't load)
  </audio>
</speak>

，瞭解如何調查及移除這項存取權。

`,<s>`

句子和段落元素。

如要進一步瞭解 p 和 s 元素，請參閱 W3 規格。

範例

<p><s>This is sentence one.</s><s>This is sentence two.</s></p>

，瞭解如何調查及移除這項存取權。

最佳做法

使用 <s>...</s>標記來包覆完整句子，特別是如果 SSML 元素會改變發音的話 (即 <audio>、<break>、<emphasis>、<par>、<prosody>、<say-as>、<seq> 和 )。
如果口語中斷有很長一段時間，可聽到內容，請使用 <s>...</s>標記，並在句子之間加上換行符號

``

指出別名屬性值中的文字將取代原有文字，方便發音。

您也可以使用 sub 元素，為難以閱讀的字詞提供簡化發音。在下面的最後一個範例中，我們以日文示範這個用法。

如要進一步瞭解 sub 元素，請參閱 W3 規格。

範例

<sub alias="World Wide Web Consortium">W3C</sub>

，瞭解如何調查及移除這項存取權。

<sub alias="にっぽんばし">日本橋</sub>

，瞭解如何調查及移除這項存取權。

``

這個空白元素會將標記放在文字或標記序列中。可用來參照或在輸出串流中插入標記時，顯示序列中特定位置非同步通知。

注意：使用 mark 元素時，請遵循下列規範：

使用 START 和 END 標記，而不要新增自訂標記標記在 SSML 的開頭或結尾
請勿在 SSML 中加上連續標記。快速連續的標記可能無法產生事件。此外，如果兩個符號之間沒有生成的音訊，則系統就不會產生事件舉例來說，請避免執行以下操作：
Sentence 1. Sentence 2.

，瞭解如何調查及移除這項存取權。

注意：為了方便起見，系統會自動取得 START 和互動畫布回應中的 END 事件。這些符號不包含在 W3 規格中。

，瞭解如何調查及移除這項存取權。

如要進一步瞭解 mark 元素，請參閱 W3 規格。

範例

<speak>
Go from <mark name="here"/> here, to <mark name="there"/> there!
</speak>

`<prosody>`

用於自訂元素所含文字的音調、說話速度和音量。目前支援 rate、pitch 和 volume 屬性。

您可以依據 W3 規格設定 rate 和 volume 屬性。有三種方式可以設定 pitch 屬性的值：

注意：<prosody> 標記只能用於完整句子。將字詞置於句子中，可能會使語音出現不必要的停頓。

屬性	說明
`name`	各個標記的字串 ID。

選項	說明
相對時間	指定一個相對值 (例如「低」、「中」、「高」等)，其中「medium」是為預設音調
半調色	將音調調高或調低「N」使用「+Nst」做為半音調或「-Nst」。請注意，「+/-」和「st」必填。
百分比	將音調調高或調低「N」按「+N%」計算百分比或「-N%」。請注意，「%」須為必填，但「+/-」為選用項目。

如要進一步瞭解 prosody 元素，請參閱 W3 規格。

範例

以下範例使用 <prosody> 元素，以低於正常音調 2 個半音的音慢說話：

<prosody rate="slow" pitch="-2st">Can you hear me now?</prosody>

，瞭解如何調查及移除這項存取權。

`<emphasis>`

用來在元素內含的文字中新增或移除強調語氣。<emphasis> 元素修改語音的方式與 <prosody> 類似，但不必設定個別語音屬性。

注意：<emphasis> 標記只能用於完整句子。將字詞置於句子中，可能會使語音出現不必要的停頓。

此元素支援選用的「level」屬性，其有效值如下：

strong
moderate
none
reduced

如要進一步瞭解 emphasis 元素，請參閱 W3 規格。

範例

下列範例使用 <emphasis> 元素發布公告：

<emphasis level="moderate">This is an important announcement</emphasis>

，瞭解如何調查及移除這項存取權。

`<par>`

平行媒體容器，可讓您一次播放多個媒體元素。唯一允許的內容是由一或多個 <par>、<seq> 和 <media> 元素所組成。<media> 元素的順序並不重要。

除非子元素指定了不同的開始時間，否則元素隱含的開始時間會與 <par> 容器的開始時間相同。如果子元素的「begin」或「end」屬性設定了偏移值，則元素的偏移時間會與 <par> 容器的開始時間有關。如果是根層級 <par> 元素，系統會忽略 start 屬性，開始時間則是指 SSML 語音合成程序開始為根 <par> 元素產生輸出內容的時間 (亦即實際上將時間設為「零」)。

範例

<speak>
  <par>
    <media xml:id="question" begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media xml:id="answer" begin="question.end+2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media begin="answer.end-0.2s" soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </par>
</speak>

，瞭解如何調查及移除這項存取權。

`<seq>`

序列媒體容器，可讓您逐一播放媒體元素。唯一允許的內容是由一或多個 <seq>、<par> 和 <media> 元素所組成。媒體元素的顯示順序就是媒體元素的顯示順序。

子元素的「begin」和「end」屬性可以設為偏移值 (請參閱下方的時間規格)。這些子元素偏移值與序列中前一個元素的結尾相關，若是序列中的第一個元素，則相對於其 <seq> 容器的開頭。

範例

<speak>
  <seq>
    <media begin="0.5s">
      <speak>Who invented the Internet?</speak>
    </media>
    <media begin="2.0s">
      <speak>The Internet was invented by cats.</speak>
    </media>
    <media soundLevel="-6dB">
      <audio
        src="https://actions.google.com/.../cartoon_boing.ogg"/>
    </media>
    <media repeatCount="3" soundLevel="+2.28dB"
      fadeInDur="2s" fadeOutDur="0.2s">
      <audio
        src="https://actions.google.com/.../cat_purr_close.ogg"/>
    </media>
  </seq>
</speak>

，瞭解如何調查及移除這項存取權。

`<media>`

代表 <par> 或 <seq> 元素中的媒體圖層。允許的 <media> 元素內容是 SSML <speak> 或 <audio> 元素。下表說明 <media> 元素的有效屬性。

屬性

屬性	必填	預設	值
xml:id	否	沒有數值	這個元素的專屬 XML ID。不支援經過編碼的實體。允許的 ID 值與規則運算式 `"([-_#]\|\p{L}\|\p{D})+"` 相符。詳情請參閱 XML-ID。
開始	否	0	此媒體容器的開始時間。如果這是根媒體容器元素，則忽略此值 (視為預設值「0」)。如要瞭解有效的字串值，請參閱下方的時間規格一節。
end	否	沒有數值	此媒體容器的結束時間規格。如要瞭解有效的字串值，請參閱下方的時間規格一節。
repeatCount	否	1	是一個實數，指定要插入多少次媒體。不支援非小數的重複次數，因此系統會將該值四捨五入至最接近的整數。零不是有效值，因此會視為未指定，而使用預設值。
repeatDur	否	沒有數值	TimeDesignation，限制插入媒體的時間長度。如果媒體的長度低於此值，則播放會在值所在的時間點結束。
soundLevel	否	+0dB	用 `soundLevel` 分貝調整音訊的音量。範圍上限是 +/-40dB，但實際範圍可能更低，而且輸出品質可能無法在整個範圍內產生良好的結果。
fadeInDur	否	0 秒	TimeDesignation，超過此值，媒體會從無聲漸入到選擇性指定的 `soundLevel`。如果媒體的時間長度低於此值，播放結束時就會停止淡入，不會達到指定的音量。
fadeOutDur	否	0 秒	TimeDesignation，超過此值，媒體會從選擇性指定的 `soundLevel` 淡出，直到無聲為止。如果媒體的時間長度小於這個值，系統就會將聲音水平設為較低的值，確保播放結束時不會設為靜音。

時間規格

時間規格用於 <media> 元素和媒體容器 (<par> 和 <seq> 元素) 的「begin」和「end」屬性值，可以是偏移值 (例如 +2.5s) 或同步處理基數 (例如 foo_id.end-250ms)。

偏移值 - 時間偏移值是一種 SMIL 時間計數值，允許符合規則運算式的值： "\s\*(+|-)?\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"
第一個數字字串是十進位數字的全部部分，第二個數字字串是小數的小數部分。預設符號 (即「(+|-)?」) 是「+」。單位值分別對應時、分、秒和毫秒。單位的預設值是「s」(秒)。
同步基準值 - 同步處理基準值是 SMIL 同步處理基準值，允許符合規則運算式的值： "([-_#]|\p{L}|\p{D})+\.(begin|end)\s\*(+|-)\s\*(\d+)(\.\d+)?(h|min|s|ms)?\s\*"
數字和單位的解釋方式與偏移值相同。

TTS 模擬工具

動作控制台提供 TTS 模擬工具，可用來測試 SSML 不支援以上任何元素您可以在控制台中找到 TTS 模擬工具前往「模擬工具」>「音訊：在模擬工具中輸入文字和 SSML，然後按一下 更新並聆聽即可聽取 TTS 輸出內容。

你也可以點選下載按鈕，將 TTS 的 .mp3 檔案儲存下來輸出內容

SSML (Dialogflow)

SSML 中的網址

可使用的 SSML 元素

`<speak>`

範例

`<break>`

屬性

範例

`<say‑as>`

範例

`<audio>`

屬性

範例

`<p>,<s>`

範例

最佳做法

`<sub>`

範例

`<mark>`

範例

`<prosody>`

範例

`<emphasis>`

範例

`<par>`

範例

`<seq>`

範例

`<media>`

屬性

時間規格

TTS 模擬工具

SSML (Dialogflow) 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

SSML 中的網址

可使用的 SSML 元素

<speak>

範例

<break>

屬性

範例

<say‑as>

範例

<audio>

屬性

範例

<p>,<s>

範例

最佳做法

<sub>

範例

<mark>

範例

<prosody>

範例

<emphasis>

範例

<par>

範例

<seq>

範例

<media>

屬性

時間規格

TTS 模擬工具

SSML (Dialogflow)

`<speak>`

`<break>`

`<say‑as>`

`<audio>`

`<p>,<s>`

`<sub>`

`<mark>`

`<prosody>`

`<emphasis>`

`<par>`

`<seq>`

`<media>`