滴滴前端面试题

来源：恒创科技编辑：恒创科技编辑部

2024-01-27 09:14:59

Unicode、UTF-8、UTF-16、UTF-32的区别？（1）Unicode

在说Unicode之前需要先了解一下ASCII码：ASCII 码（American Standard Code for Information Interchange）称为美国标准信息交换码。

它是基于拉丁字母的一套电脑编码系统。它定义了一个用于代表常见字符的字典。它包含了"A-Z"(包含大小写)，数据"0-9" 以及一些常见的符号。它是专门为英语而设计的，有128个编码，对其他语言无能为力

ASCII码可以表示的编码有限，要想表示其他语言的编码，还是要使用Unicode来表示，可以说Unicode是ASCII 的超集。

Unicode全称 Unicode Translation Format，又叫做统一码、万国码、单一码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode的实现方式（也就是编码方式）有很多种，常见的是UTF-8、UTF-16、UTF-32和USC-2。

（2）UTF-8

UTF-8是使用最广泛的Unicode编码方式，它是一种可变长的编码方式，可以是1—4个字节不等，它可以完全兼容ASCII码的128个字符。

注意： UTF-8 是一种编码方式，Unicode是一个字符集合。

UTF-8的编码规则：

对于单字节的符号，字节的第一位为0，后面的7位为这个字符的Unicode编码，因此对于英文字母，它的Unicode编码和ACSII编码一样。对于n字节的符号，第一个字节的前n位都是1，第n+1位设为0，后面字节的前两位一律设为10，剩下的没有提及的二进制位，全部为这个符号的Unicode码。

来看一下具体的Unicode编号范围与对应的UTF-8二进制格式：

编码范围（编号对应的十进制数）二进制格式0x00—0x7F （0-127）0xxxxxxx0x80—0x7FF （128-2047）110xxxxx 10xxxxxx0x800—0xFFFF （2048-65535）1110xxxx 10xxxxxx 10xxxxxx0x10000—0x10FFFF （65536以上）11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

那该如何通过具体的Unicode编码，进行具体的UTF-8编码呢？步骤如下：

找到该Unicode编码的所在的编号范围，进而找到与之对应的二进制格式将Unicode编码转换为二进制数（去掉最高位的0）将二进制数从右往左一次填入二进制格式的X中，如果有X未填，就设为0

来看一个实际的例子：
“马” 字的Unicode编码是：0x9A6C，整数编号是39532 （1）首选确定了该字符在第三个范围内，它的格式是 1110xxxx 10xxxxxx 10xxxxxx （2）39532对应的二进制数为1001 1010 0110 1100 （3）将二进制数填入X中，结果是：11101001 10101001 10101100

（3）UTF-16

1. 平面的概念

在了解UTF-16之前，先看一下平面的概念： Unicode编码中有很多很多的字符，它并不是一次性定义的，而是分区进行定义的，每个区存放65536（216）个字符，这称为一个平面，目前总共有17 个平面。

最前面的一个平面称为基本平面，它的码点从0 — 216-1，写成16进制就是U+0000 — U+FFFF，那剩下的16个平面就是辅助平面，码点范围是 U+10000—U+10FFFF。

2. UTF-16 概念：

UTF-16也是Unicode编码集的一种编码形式，把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位需要1个或者2个16位长的码元来表示，因此UTF-16也是用变长字节表示的。

3. UTF-16 编码规则：

编号在 U+0000—U+FFFF 的字符（常用字符集），直接用两个字节表示。编号在 U+10000—U+10FFFF 之间的字符，需要用四个字节表示。

4. 编码识别

那么问题来了，当遇到两个字节时，怎么知道是把它当做一个字符还是和后面的两个字节一起当做一个字符呢？

UTF-16 编码肯定也考虑到了这个问题，在基本平面内，从 U+D800 — U+DFFF 是一个空段，也就是说这个区间的码点不对应任何的字符，因此这些空段就可以用来映射辅助平面的字符。

辅助平面共有 220 个字符位，因此表示这些字符至少需要 20 个二进制位。UTF-16 将这 20 个二进制位分成两半，前 10 位映射在 U+D800 — U+DBFF，称为高位（H），后 10 位映射在 U+DC00 — U+DFFF，称为低位（L）。这就相当于，将一个辅助平面的字符拆成了两个基本平面的字符来表示。

因此，当遇到两个字节时，发现它的码点在 U+D800 —U+DBFF之间，就可以知道，它后面的两个字节的码点应该在 U+DC00 — U+DFFF 之间，这四个字节必须放在一起进行解读。

5. 举例说明

以 "

本文地址：https://www.henghost.com/jishu/19620/

上一篇：美团前端面试题合集下一篇：手机怎么远程登录云服务器？

相关文章
查看更多

[2024-05-08] NoSQL数据库怎么与前端进行交互

[2024-05-08] MongoDB如何与JavaScript...

[2024-05-08] 少儿python(java和javawe...

[2024-05-07] Kotlin如何构建Web前端

[2024-04-29] 怎么在javaScript中设置css不...

[2024-04-28] php如何写前端的搜索结果

[2024-04-26] 使用Docker加速前端开发和构建

[2024-04-26] 使用Docker优化前端开发流程

热门文章

1 如何查询代理服务器的ip地址和端口？

2 在Python中字符串逆序有几种方式，代...

3 有关Jubo的工作原理是什么

4 2022年国赛数学建模思路及参考代码提前...

5 如何进行SpringDataCommon...

6 鼠标左键点一下就双击怎么解决

7 unix和windows的区别是什么

8 addattribute()函数的基本语...

9 element-plus怎么实现按需导入...

10 centos6怎么用yum安装mysql

热门活动

热门标签查看详情

服务器

linux

vps

mysql

云计算

服务器类型

云主机

数据库

香港服务器

美国服务器

centos

网站服务器

云服务器

数据中心

网络安全

服务器租用

域名

海外服务器

日本服务器

7*24H
全天服务支持

1V1
专属客户服务

99.9%
SLA 可用性保障

退订
无忧退款保障

100 %
故障补偿保障

7*24H 服务电话：

+852 5104 3232

7*24H 服务QQ：

400 8606 069

违规举报：

noc@sondercloud.com

热门推荐

香港云服务器

日本云服务器

美国云服务器

香港服务器租用

香港高防服务器

快速入口

帮助文档

公告通知

优惠活动

渠道代理

推广联盟

服务支持

协议条款

SLA 协议

法律声明

投诉处理

WHOIS 查询

关于我们

企业介绍

发展历程

联系我们

合作伙伴

数据中心

Copyright© 2010-2023 Sondercloud Limited(Hong Kong).保留所有权利

网站地图

标签地图

隐私政策

Copyright 2010-2022 SonderCloud Limited

热门产品：

香港服务器

香港高防服务器

香港高防IP

云服务器

新云独享版

投诉处理

服务条款

公司简介

联系我们

请选择发起聊天的方式：

QQ帐号聊天匿名聊天

安装QQ

QQ咨询

QQ咨询

400 8606 069

7*24 小时免费业务咨询

TG 联系

Telegram

Cathy_sdc

7*24 小时免费业务咨询

意见反馈

意见反馈

恒创科技真诚期待您的宝贵建议！

立即参与

在线咨询 (7*24H)
QQ
400 8606 069

Telegram
Cathy_sdc

联系我们
QQ
400 8606 069

Telegram
Cathy_sdc

Tel (7*24H)
+852 5104 3232

电话咨询 (7*24H)
Hong Kong
+852 5104 3232

意见反馈
恒创科技真诚期待您的宝贵建议！
立即参与

意

见

箱

滴滴前端面试题

热门文章

热门活动

热门标签 查看详情

热门标签查看详情