URL とハッシュ化

このドキュメントは以下の方法に適用されます。 Update API(v4): fullHashes.find.

概要

セーフ ブラウジング リストは、可変長の SHA256 ハッシュで構成されています(リストの内容を参照)。URL を(ローカルまたはサーバー上の)セーフ ブラウジング リストと照合するには、まず その URL のハッシュ接頭辞を計算します。

URL のハッシュ プレフィックスを計算するには、次の手順に従います。

  1. URL を正規化します(正規化を参照)。
  2. URL のサフィックス / プレフィックス式を作成します(サフィックス / プレフィックス式をご覧ください)。
  3. 各サフィックス / プレフィックス式のフルレングスのハッシュを計算します(ハッシュの計算をご覧ください)。
  4. 各完全長ハッシュのハッシュ接頭辞を計算する (ハッシュ接頭辞の計算をご覧ください)。

なお、この手順は、セーフ ブラウジング サーバーがセーフ ブラウジング環境を維持するためのために使用するプロセスと同じものです。 ブラウジング リスト。

正規化

まず、クライアントが URL を解析し、RFC 2396 に基づいて有効にしたとします。 URL で国際化ドメイン名(IDN)を使用している場合、クライアントは URL を ASCII Punycode 表記に変換する必要があります。URL にはパス コンポーネントを含める必要があります。つまり、末尾にスラッシュ(「http://google.com/」)が必要です。

まず、タブ(0x09)、CR(0x0d)、LF(0x0a)の文字を できます。これらの文字のエスケープ シーケンス('%0a' など)は削除しないでください。

2 つ目は、URL の末尾がフラグメントになっている場合は、フラグメントを削除します。たとえば、「http://google.com/#frag」を「http://google.com/」に短縮します。

3 つ目に、パーセント エスケープがなくなるまで繰り返して、URL からパーセント エスケープを削除します。

ホスト名を正規化するには:

URL からホスト名を抽出し、次の操作を行います。

  1. 先頭と末尾のドットをすべて削除する。
  2. 連続するドットを 1 つのドットに置き換える。
  3. ホスト名を IP アドレスとして解析できる場合は正規化する 4 つのドット区切りの 10 進数値になります。クライアントは正規の IP アドレス エンコードを処理する必要があります。 16 進数、4 進数以下の 4 つの要素を含みます
  4. 文字列全体を小文字にする。

パスを正規化するには:

  1. 数列「/../」を解決してくださいおよび「/./」パス上で 「/./」を「/」を追加し、「/../」を削除します前のパスと 説明します。
  2. 連続するスラッシュの実行は単一のスラッシュ文字に置き換えます。

これらのパスの正規化をクエリ パラメータに適用しないでください。

URL 内のすべての文字をパーセントでエスケープします。 <= ASCII 32、>= 127、「#」、または「%」です。エスケープには、 使用します。

正規化の実装を検証するためのテストを以下に示します。

Canonicalize("http://host/%25%32%35") = "http://host/%25";
Canonicalize("http://host/%25%32%35%25%32%35") = "http://host/%25%25";
Canonicalize("http://host/%2525252525252525") = "http://host/%25";
Canonicalize("http://host/asdf%25%32%35asd") = "http://host/asdf%25asd";
Canonicalize("http://host/%%%25%32%35asd%%") = "http://host/%25%25%25asd%25%25";
Canonicalize("http://www.google.com/") = "http://www.google.com/";
Canonicalize("http://%31%36%38%2e%31%38%38%2e%39%39%2e%32%36/%2E%73%65%63%75%72%65/%77%77%77%2E%65%62%61%79%2E%63%6F%6D/") = "http://168.188.99.26/.secure/www.ebay.com/";
Canonicalize("http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/") = "http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/";
Canonicalize("http://host%23.com/%257Ea%2521b%2540c%2523d%2524e%25f%255E00%252611%252A22%252833%252944_55%252B") = "http://host%23.com/~a!b@c%23d$e%25f^00&11*22(33)44_55+";
Canonicalize("http://3279880203/blah") = "http://195.127.0.11/blah";
Canonicalize("http://www.google.com/blah/..") = "http://www.google.com/";
Canonicalize("www.google.com/") = "http://www.google.com/";
Canonicalize("www.google.com") = "http://www.google.com/";
Canonicalize("http://www.evil.com/blah#frag") = "http://www.evil.com/blah";
Canonicalize("http://www.GOOgle.com/") = "http://www.google.com/";
Canonicalize("http://www.google.com.../") = "http://www.google.com/";
Canonicalize("http://www.google.com/foo\tbar\rbaz\n2") ="http://www.google.com/foobarbaz2";
Canonicalize("http://www.google.com/q?") = "http://www.google.com/q?";
Canonicalize("http://www.google.com/q?r?") = "http://www.google.com/q?r?";
Canonicalize("http://www.google.com/q?r?s") = "http://www.google.com/q?r?s";
Canonicalize("http://evil.com/foo#bar#baz") = "http://evil.com/foo";
Canonicalize("http://evil.com/foo;") = "http://evil.com/foo;";
Canonicalize("http://evil.com/foo?bar;") = "http://evil.com/foo?bar;";
Canonicalize("http://\x01\x80.com/") = "http://%01%80.com/";
Canonicalize("http://notrailingslash.com") = "http://notrailingslash.com/";
Canonicalize("http://www.gotaport.com:1234/") = "http://www.gotaport.com/";
Canonicalize("  http://www.google.com/  ") = "http://www.google.com/";
Canonicalize("http:// leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("http://%20leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("%20leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("https://www.securesite.com/") = "https://www.securesite.com/";
Canonicalize("http://host.com/ab%23cd") = "http://host.com/ab%23cd";
Canonicalize("http://host.com//twoslashes?more//slashes") = "http://host.com/twoslashes?more//slashes";

サフィックス / プレフィックス式

URL が正規化されたら、次のステップとしてサフィックス/プレフィックスの式を作成します。各サフィックス / プレフィックス式は、次の例に示すように、ホスト サフィックス(または完全なホスト)とパス プレフィックス(または完全なパス)で構成されます。

サフィックス / プレフィックス式同等の正規表現
a.b/mypath/
http\:\/\/.*\.a\.b\/mypath\/.*
c.d/full/path.html?myparam=a
http\:\/\/.*.c\.d\/full\/path\.html?myparam=a

クライアントは、可能なホスト サフィックスとパス プレフィックスの組み合わせを最大 30 種類作成できます。 これらの組み合わせでは、URL のホストとパスのコンポーネントのみが使用されます。スキーム、ユーザー名、パスワード、ポートは破棄されます。URL にクエリ パラメータが含まれている場合は、少なくとも 1 つは 組み合わせにはフルパスとクエリ パラメータが含まれます。

ホストの場合、クライアントは最大で 5 つの異なる文字列を試行します。それらは次のとおりです。

  • URL の正確なホスト名。
  • 最後の 5 つのコンポーネントで始まり、先頭のコンポーネントを続けて削除することで形成される 4 つのホスト名。トップレベル ドメインはスキップできます。ホストが IP アドレスの場合は、これらの追加ホスト名をチェックしないでください。

パスの場合、クライアントは最大で 6 つの異なる文字列を試行します。。 次のとおりです。

  • クエリ パラメータを含む URL の正確なパス。
  • クエリ パラメータなしの URL の正確なパス。
  • ルート(/)から始まり、末尾のスラッシュを含むパス コンポーネントを連続して追加することによって形成される 4 つのパス。

次の例では、チェックの動作を示します。

URL http://a.b.c/1/2.html?param=1 の場合、クライアントは次の文字列の候補を試行します。

a.b.c/1/2.html?param=1
a.b.c/1/2.html
a.b.c/
a.b.c/1/
b.c/1/2.html?param=1
b.c/1/2.html
b.c/
b.c/1/

URL http://a.b.c.d.e.f.g/1.html の場合、クライアントは次の可能性を試みます。 strings:

a.b.c.d.e.f.g/1.html
a.b.c.d.e.f.g/
(Note: skip b.c.d.e.f.g, since we'll take only the last five hostname components, and the full hostname)
c.d.e.f.g/1.html
c.d.e.f.g/
d.e.f.g/1.html
d.e.f.g/
e.f.g/1.html
e.f.g/
f.g/1.html
f.g/

URL http://1.2.3.4/1/ の場合、クライアントは次の可能性を試みます。 strings:

1.2.3.4/1/
1.2.3.4/

ハッシュの計算

サフィックス / プレフィックス式のセットが作成されたら、次のステップは各式の完全な SHA256 ハッシュの計算です。単体テスト(疑似 C)を使用して、 ハッシュ計算を以下に示します。

FIPS-180-2 の例。

Unit Test (in pseudo-C)

// Example B1 from FIPS-180-2
string input1 = "abc";
string output1 = TruncatedSha256Prefix(input1, 32);
int expected1[] = { 0xba, 0x78, 0x16, 0xbf };
assert(output1.size() == 4);  // 4 bytes == 32 bits
for (int i = 0; i < output1.size(); i++) assert(output1[i] == expected1[i]);

// Example B2 from FIPS-180-2
string input2 = "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq";
string output2 = TruncatedSha256Prefix(input2, 48);
int expected2[] = { 0x24, 0x8d, 0x6a, 0x61, 0xd2, 0x06 };
assert(output2.size() == 6);
for (int i = 0; i < output2.size(); i++) assert(output2[i] == expected2[i]);

// Example B3 from FIPS-180-2
string input3(1000000, 'a');  // 'a' repeated a million times
string output3 = TruncatedSha256Prefix(input3, 96);
int expected3[] = { 0xcd, 0xc7, 0x6e, 0x5c, 0x99, 0x14, 0xfb, 0x92,
                    0x81, 0xa1, 0xc7, 0xe2 };
assert(output3.size() == 12);
for (int i = 0; i < output3.size(); i++) assert(output3[i] == expected3[i]);

ハッシュ プレフィックスの計算

最後に、クライアントは完全長の SHA256 ハッシュごとにハッシュ接頭辞を計算する必要があります。安心のために ブラウジングにおいて、ハッシュ接頭辞は SHA256 ハッシュの最上位 4 ~ 32 バイトで構成されます。

FIPS-180-2 の例。

  • FIPS-180-2 の例 B1 <ph type="x-smartling-placeholder">
      </ph>
    • 入力は「abc」です。
    • SHA256 ダイジェストは ba7816bf 8f01cfea 414140de 5dae2223 b00361a3 96177a9c b410ff61 f20015ad。
    • 32 ビットのハッシュ プレフィックスは ba7816bf です。
  • FIPS-180-2 の例 B2 <ph type="x-smartling-placeholder">
      </ph>
    • 入力は「abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq」です。
    • SHA256 ダイジェストは 248d6a61 d20638b8 e5c02693 0c3e6039 a33ce459 64ff2167 f6ecedd4 19db06c1 です。
    • 48 ビットのハッシュ接頭辞は 248d6a61 d206 です。