Mã hóa URL

Một số ký tự không thể là một phần của URL (ví dụ: dấu cách) và một số ký tự khác có ý nghĩa đặc biệt trong URL. Trong các biểu mẫu HTML, ký tự = được dùng để phân tách tên khỏi một giá trị. Cú pháp chung của URI sử dụng phương thức mã hoá URL để xử lý vấn đề này, trong khi các biểu mẫu HTML thực hiện thêm một số phương thức thay thế thay vì áp dụng phương thức mã hoá phần trăm cho tất cả các ký tự như vậy.

Ví dụ: dấu cách trong một chuỗi được mã hoá bằng %20 hoặc thay thế bằng dấu cộng (+). Nếu bạn sử dụng ký tự gạch đứng (|) làm dấu phân tách, hãy nhớ mã hoá dấu gạch đứng dưới dạng %7C. Dấu phẩy trong chuỗi phải được mã hoá thành %2C.

Bạn nên dùng các thư viện tạo URL thông thường của nền tảng để tự động mã hoá các URL nhằm đảm bảo các URL được thoát đúng cách cho nền tảng của mình.

Tạo URL hợp lệ

Bạn có thể cho rằng một URL "hợp lệ" là rõ ràng, nhưng điều này không đúng. Ví dụ: một URL được nhập vào thanh địa chỉ của trình duyệt có thể chứa các ký tự đặc biệt (ví dụ: "上海+中國"); trình duyệt cần dịch nội bộ các ký tự đó sang một chế độ mã hoá khác trước khi truyền. Tương tự như vậy, mọi mã tạo hoặc chấp nhận dữ liệu đầu vào UTF-8 đều có thể coi các URL có ký tự UTF-8 là "hợp lệ", nhưng cũng cần phải dịch các ký tự đó trước khi gửi đến máy chủ web. Quá trình này được gọi là mã hoá URL hoặc mã hoá phần trăm.

Các ký tự đặc biệt

Chúng tôi cần dịch các ký tự đặc biệt vì mọi URL đều cần tuân thủ cú pháp được chỉ định trong quy cách Giá trị nhận dạng tài nguyên thống nhất (URI). Trên thực tế, điều này có nghĩa là URL chỉ phải chứa một tập hợp con các ký tự ASCII đặc biệt: các ký tự chữ và số quen thuộc và một số ký tự dành riêng để dùng làm ký tự điều khiển trong URL. Bảng này tóm tắt những ký tự sau:

Tóm tắt các ký tự của URL hợp lệ
Đặtký tựViệc sử dụng URL
Chữ và số a b c d e f g g h i j k l m n o p q r s t t u v w x y z A B C D D E F G H I J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 9 6 7 Chuỗi văn bản, cách sử dụng lược đồ (http), cổng (8080), v.v.
Không dành riêng - _ . ~ Chuỗi văn bản
Đã đặt trước ! * ' ( ) ; : @ & = + $ , / ? % # [ ] Ký tự điều khiển và/hoặc Chuỗi văn bản

Khi tạo một URL hợp lệ, bạn phải đảm bảo URL đó chỉ chứa các ký tự đó trong bảng Tóm tắt các ký tự của URL hợp lệ. Việc tạo một URL để sử dụng bộ ký tự này thường dẫn đến hai vấn đề, một là bỏ qua và một trong hai trường hợp thay thế:

  • Các ký tự mà bạn muốn xử lý tồn tại bên ngoài tập hợp trên. Ví dụ: bạn cần mã hoá các ký tự bằng tiếng nước ngoài như 上海+中國 bằng các ký tự trên. Theo quy ước phổ biến, dấu cách (không được phép sử dụng trong URL) thường được biểu thị bằng ký tự dấu cộng '+'.
  • Các ký tự tồn tại trong tập hợp trên dưới dạng ký tự dành riêng, nhưng cần được sử dụng theo nghĩa đen. Ví dụ: ? được sử dụng trong các URL để cho biết phần đầu của chuỗi truy vấn. Nếu muốn sử dụng chuỗi "? và Mysterions", bạn cần mã hoá ký tự '?'.

Tất cả các ký tự cần mã hoá URL đều được mã hoá bằng một ký tự '%' và một giá trị hex gồm hai ký tự tương ứng với ký tự UTF-8 của các ký tự đó. Ví dụ: 上海+中國 trong UTF-8 sẽ được mã hoá URL thành %E4%B8%8A%E6%B5%B7%2B%E4%B8%AD%E5%9C%8B. Chuỗi ? and the Mysterians sẽ được mã hoá URL thành %3F+and+the+Mysterians hoặc %3F%20and%20the%20Mysterians.

Các ký tự phổ biến cần mã hóa

Một số ký tự phổ biến phải được mã hoá là:

Ký tự không an toàn Giá trị được mã hóa
Không gian %20
" %22
< %3C
> %3E
# %23
% %25
| %7C

Đôi khi, việc chuyển đổi một URL mà bạn nhận được từ hoạt động đầu vào của người dùng là quy trình phức tạp. Ví dụ: người dùng có thể nhập một địa chỉ là "5th&Main St." Nhìn chung, bạn nên tạo URL từ các phần của nó, coi mọi hoạt động đầu vào của người dùng là các ký tự cố định.

Ngoài ra, URL chỉ được dài tối đa 16384 ký tự đối với tất cả các dịch vụ web trên Nền tảng Google Maps và API web tĩnh. Đối với hầu hết các dịch vụ, giới hạn ký tự này hiếm khi được áp dụng. Tuy nhiên, xin lưu ý rằng một số dịch vụ có một số tham số có thể dẫn đến các URL dài.