trpl-zh-cn/src/ch03-02-data-types.md

242 lines
16 KiB
Markdown
Raw Normal View History

2017-02-11 14:49:51 +08:00
## 数据类型
2021-06-03 12:26:20 +08:00
> [ch03-02-data-types.md](https://github.com/rust-lang/book/blob/main/src/ch03-02-data-types.md)
2017-02-11 14:49:51 +08:00
> <br>
2023-01-16 23:29:51 +08:00
> commit d0acb2595c891de97a133d06635c50ab449dd65c
2017-02-11 14:49:51 +08:00
2018-11-30 15:40:10 +08:00
在 Rust 中,每一个值都属于某一个 **数据类型***data type*),这告诉 Rust 它被指定为何种数据以便明确数据处理方式。我们将看到两类数据类型子集标量scalar和复合compound
2017-02-11 14:49:51 +08:00
2019-11-20 00:43:49 +08:00
记住Rust 是 **静态类型***statically typed*)语言,也就是说在编译时就必须知道所有变量的类型。根据值及其使用方式,编译器通常可以推断出我们想要用的类型。当多种类型均有可能时,比如第二章的 [“比较猜测的数字和秘密数字”][comparing-the-guess-to-the-secret-number] 使用 `parse``String` 转换为数字时,必须增加类型注解,像这样:
2017-02-11 14:49:51 +08:00
```rust
2017-03-04 12:10:32 +08:00
let guess: u32 = "42".parse().expect("Not a number!");
2017-02-11 14:49:51 +08:00
```
2023-01-16 23:29:51 +08:00
如果不像上面的代码这样添加类型注解 `: u32`Rust 会显示如下错误,这说明编译器需要我们提供更多信息,来了解我们想要的类型:
2017-02-11 14:49:51 +08:00
```console
2022-02-06 22:46:20 +08:00
{{#include ../listings/ch03-common-programming-concepts/output-only-01-no-type-annotations/output.txt}}
2017-02-11 14:49:51 +08:00
```
2018-08-27 11:32:14 +08:00
你会看到其它数据类型的各种类型注解。
2017-02-11 14:49:51 +08:00
### 标量类型
2018-08-27 11:32:14 +08:00
**标量***scalar*类型代表一个单独的值。Rust 有四种基本的标量类型:整型、浮点型、布尔类型和字符类型。你可能在其他语言中见过它们。让我们深入了解它们在 Rust 中是如何工作的。
2017-02-11 14:49:51 +08:00
#### 整型
2021-12-09 00:29:42 +08:00
**整数** 是一个没有小数部分的数字。我们在第二章使用过 `u32` 整数类型。该类型声明表明,它关联的值应该是一个占据 32 比特位的无符号整数(有符号整数类型以 `i` 开头而不是 `u`)。表格 3-1 展示了 Rust 内建的整数类型。我们可以使用其中的任一个来声明一个整数值的类型。
2017-02-11 14:49:51 +08:00
2017-08-15 14:13:09 +08:00
<span class="caption">表格 3-1: Rust 中的整型</span>
2017-02-11 14:49:51 +08:00
2018-08-27 11:32:14 +08:00
| 长度 | 有符号 | 无符号 |
2019-11-20 00:43:49 +08:00
|---------|---------|----------|
| 8-bit | `i8` | `u8` |
| 16-bit | `i16` | `u16` |
| 32-bit | `i32` | `u32` |
| 64-bit | `i64` | `u64` |
| 128-bit | `i128` | `u128` |
| arch | `isize` | `usize` |
2017-02-11 14:49:51 +08:00
2023-01-16 23:29:51 +08:00
每一个变体都可以是有符号或无符号的,并有一个明确的大小。**有符号** 和 **无符号** 代表数字能否为负值,换句话说,这个数字是否有可能是负数(有符号数),或者永远为正而不需要符号(无符号数)。这有点像在纸上书写数字:当需要考虑符号的时候,数字以加号或减号作为前缀;然而,可以安全地假设为正数时,加号前缀通常省略。有符号数以[补码形式twos complement representation][twos-complement] 存储。
2017-02-13 15:43:15 +08:00
2018-08-27 11:32:14 +08:00
每一个有符号的变体可以储存包含从 -(2<sup>n - 1</sup>) 到 2<sup>n - 1</sup> - 1 在内的数字,这里 *n* 是变体使用的位数。所以 `i8` 可以储存从 -(2<sup>7</sup>) 到 2<sup>7</sup> - 1 在内的数字,也就是从 -128 到 127。无符号的变体可以储存从 0 到 2<sup>n</sup> - 1 的数字,所以 `u8` 可以储存从 0 到 2<sup>8</sup> - 1 的数字,也就是从 0 到 255。
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
另外,`isize` 和 `usize` 类型依赖运行程序的计算机架构64 位架构上它们是 64 位的32 位架构上它们是 32 位的。
2017-02-13 15:43:15 +08:00
可以使用表格 3-2 中的任何一种形式编写数字字面值。请注意可以是多种数字类型的数字字面值允许使用类型后缀,例如 `57u8` 来指定类型,同时也允许使用 `_` 做为分隔符以方便读数,例如`1_000`,它的值与你指定的 `1000` 相同。
2017-02-13 15:43:15 +08:00
2017-08-22 15:14:15 +08:00
<span class="caption">表格 3-2: Rust 中的整型字面值</span>
2017-02-13 15:43:15 +08:00
2018-08-27 11:32:14 +08:00
| 数字字面值 | 例子 |
2017-02-13 15:43:15 +08:00
|------------------|---------------|
2020-06-26 04:27:23 +08:00
| Decimal (十进制) | `98_222` |
| Hex (十六进制) | `0xff` |
| Octal (八进制) | `0o77` |
| Binary (二进制) | `0b1111_0000` |
| Byte (单字节字符)(仅限于`u8`) | `b'A'` |
2017-02-13 15:43:15 +08:00
那么该使用哪种类型的数字呢如果拿不定主意Rust 的默认类型通常是个不错的起点,数字类型默认是 `i32`。`isize` 或 `usize` 主要作为某些集合的索引。
2017-02-13 15:43:15 +08:00
2019-11-20 00:43:49 +08:00
> ##### 整型溢出
>
2021-12-09 00:29:42 +08:00
> 比方说有一个 `u8` ,它可以存放从零到 `255` 的值。那么当你将其修改为 `256` 时会发生什么呢?这被称为 “整型溢出”“integer overflow” ),这会导致以下两种行为之一的发生。当在 debug 模式编译时Rust 检查这类问题并使程序 *panic*,这个术语被 Rust 用来表明程序因错误而退出。第九章 [“`panic!` 与不可恢复的错误”][unrecoverable-errors-with-panic] 部分会详细介绍 panic。
2019-11-20 00:43:49 +08:00
>
2023-01-17 11:38:33 +08:00
> 使用 `--release` flag 在 release 模式中构建时Rust **不会**检测会导致 panic 的整型溢出。相反发生整型溢出时Rust 会进行一种被称为二进制补码 wrapping*twos complement wrapping*)的操作。简而言之,比此类型能容纳最大值还大的值会回绕到最小值,值 `256` 变成 `0`,值 `257` 变成 `1`,依此类推。程序不会 panic不过变量可能也不会是你所期望的值。依赖整型溢出 wrapping 的行为被认为是一种错误。
2023-01-16 23:29:51 +08:00
>
> 为了显式地处理溢出的可能性,可以使用这几类标准库提供的原始数字类型方法:
> * 所有模式下都可以使用 `wrapping_*` 方法进行 wrapping如 `wrapping_add`
> * 如果 `checked_*` 方法出现溢出,则返回 `None`值
> * 用 `overflowing_*` 方法返回值和一个布尔值,表示是否出现溢出
> * 用 `saturating_*` 方法在值的最小值或最大值处进行饱和处理
2018-11-30 15:40:10 +08:00
2017-02-13 15:43:15 +08:00
#### 浮点型
2021-12-09 00:29:42 +08:00
Rust 也有两个原生的 **浮点数***floating-point numbers*类型它们是带小数点的数字。Rust 的浮点数类型是 `f32``f64`,分别占 32 位和 64 位。默认类型是 `f64`,因为在现代 CPU 中,它与 `f32` 速度几乎一样,不过精度更高。所有的浮点型都是有符号的。
2017-02-13 15:43:15 +08:00
这是一个展示浮点数的实例:
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-06-floating-point/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2017-08-15 14:13:09 +08:00
浮点数采用 IEEE-754 标准表示。`f32` 是单精度浮点数,`f64` 是双精度浮点数。
2017-02-13 15:43:15 +08:00
2018-08-27 11:32:14 +08:00
#### 数值运算
2017-02-13 15:43:15 +08:00
Rust 中的所有数字类型都支持基本数学运算:加法、减法、乘法、除法和取余。整数除法会向零舍入到最接近的整数。下面的代码展示了如何在 `let` 语句中使用它们:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-07-numeric-operations/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2022-11-03 11:12:57 +08:00
这些语句中的每个表达式使用了一个数学运算符并计算出了一个值,然后绑定给一个变量。[附录 B][appendix_b]<!-- ignore --> 包含 Rust 提供的所有运算符的列表。
2017-02-13 15:43:15 +08:00
#### 布尔型
2017-08-15 14:13:09 +08:00
正如其他大部分编程语言一样Rust 中的布尔类型有两个可能的值:`true` 和 `false`。Rust 中的布尔类型使用 `bool` 表示。例如:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-08-boolean/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2019-11-20 00:43:49 +08:00
使用布尔值的主要场景是条件表达式,例如 `if` 表达式。在 [“控制流”“Control Flow”][control-flow] 部分将介绍 `if` 表达式在 Rust 中如何工作。
2017-02-13 15:43:15 +08:00
#### 字符类型
2023-01-17 11:38:33 +08:00
Rust 的 `char` 类型是语言中最原生的字母类型。下面是一些声明 `char` 值的例子:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-09-char/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2024-01-10 18:19:44 +08:00
注意,我们用单引号声明 `char` 字面量而与之相反的是使用双引号声明字符串字面量。Rust 的 `char` 类型的大小为四个字节 (four bytes),并代表了一个 Unicode 标量值Unicode Scalar Value这意味着它可以比 ASCII 表示更多内容。在 Rust 中带变音符号的字母Accented letters中文、日文、韩文等字符emoji绘文字以及零长度的空白字符都是有效的 `char` 值。Unicode 标量值包含从 `U+0000``U+D7FF``U+E000``U+10FFFF` 在内的值。不过,“字符” 并不是一个 Unicode 中的概念,所以人直觉上的 “字符” 可能与 Rust 中的 `char` 并不符合。第八章的 [“使用字符串储存 UTF-8 编码的文本”][strings] 中将详细讨论这个主题。
2017-02-13 15:43:15 +08:00
### 复合类型
2018-08-27 11:32:14 +08:00
**复合类型***Compound types*可以将多个值组合成一个类型。Rust 有两个原生的复合类型元组tuple和数组array
2017-02-13 15:43:15 +08:00
2018-08-27 11:32:14 +08:00
#### 元组类型
2017-02-13 15:43:15 +08:00
2019-11-20 00:43:49 +08:00
元组是一个将多个其他类型的值组合进一个复合类型的主要方式。元组长度固定:一旦声明,其长度不会增大或缩小。
2017-02-13 15:43:15 +08:00
2018-08-27 11:32:14 +08:00
我们使用包含在圆括号中的逗号分隔的值列表来创建一个元组。元组中的每一个位置都有一个类型,而且这些不同值的类型也不必是相同的。这个例子中使用了可选的类型注解:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-10-tuples/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2018-08-27 11:32:14 +08:00
`tup` 变量绑定到整个元组上因为元组是一个单独的复合元素。为了从元组中获取单个值可以使用模式匹配pattern matching来解构destructure元组值像这样
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-11-destructuring-tuples/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2017-12-04 22:33:03 +08:00
程序首先创建了一个元组并绑定到 `tup` 变量上。接着使用了 `let` 和一个模式将 `tup` 分成了三个不同的变量,`x`、`y` 和 `z`。这叫做 **解构***destructuring*),因为它将一个元组拆成了三个部分。最后,程序打印出了 `y` 的值,也就是 `6.4`
2017-02-13 15:43:15 +08:00
2021-12-09 00:29:42 +08:00
我们也可以使用点号(`.`)后跟值的索引来直接访问它们。例如:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-12-tuple-indexing/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
这个程序创建了一个元组,`x`,然后使用其各自的索引访问元组中的每个元素。跟大多数编程语言一样,元组的第一个索引值是 0。
2017-02-13 15:43:15 +08:00
不带任何值的元组有个特殊的名称,叫做 **单元unit** 元组。这种值以及对应的类型都写作 `()`,表示空值或空的返回类型。如果表达式不返回任何其他值,则会隐式返回单元值。
2018-08-27 11:32:14 +08:00
#### 数组类型
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
另一个包含多个值的方式是 **数组***array*。与元组不同数组中的每个元素的类型必须相同。Rust 中的数组与一些其他语言中的数组不同Rust 中的数组长度是固定的。
2017-02-13 15:43:15 +08:00
2021-12-09 00:29:42 +08:00
我们将数组的值写成在方括号内,用逗号分隔:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-13-arrays/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2021-12-09 00:29:42 +08:00
当你想要在栈stack而不是在堆heap上为数据分配空间[第四章][stack-and-heap]将讨论栈与堆的更多内容),或者是想要确保总是有固定数量的元素时,数组非常有用。但是数组并不如 vector 类型灵活。vector 类型是标准库提供的一个 **允许** 增长和缩小长度的类似数组的集合类型。当不确定是应该使用数组还是 vector 的时候,那么很可能应该使用 vector。[第八章][vectors]会详细讨论 vector。
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
然而,当你确定元素个数不会改变时,数组会更有用。例如,当你在一个程序中使用月份名字时,你更应趋向于使用数组而不是 vector因为你确定只会有 12 个元素。
2017-02-13 15:43:15 +08:00
```rust
let months = ["January", "February", "March", "April", "May", "June", "July",
"August", "September", "October", "November", "December"];
```
2019-11-20 00:43:49 +08:00
可以像这样编写数组的类型:在方括号中包含每个元素的类型,后跟分号,再后跟数组元素的数量。
2018-11-30 15:40:10 +08:00
```rust
let a: [i32; 5] = [1, 2, 3, 4, 5];
```
2019-11-20 00:43:49 +08:00
这里,`i32` 是每个元素的类型。分号之后,数字 `5` 表明该数组包含五个元素。
2022-01-07 09:33:27 +08:00
你还可以通过在方括号中指定初始值加分号再加元素个数的方式来创建一个每个元素都为相同值的数组:
2019-11-20 00:43:49 +08:00
```rust
let a = [3; 5];
```
2018-11-30 15:40:10 +08:00
2020-08-26 15:10:27 +08:00
变量名为 `a` 的数组将包含 `5` 个元素,这些元素的值最初都将被设置为 `3`。这种写法与 `let a = [3, 3, 3, 3, 3];` 效果相同,但更简洁。
2017-02-13 15:43:15 +08:00
##### 访问数组元素
2023-01-17 11:38:33 +08:00
数组是可以在栈 (stack) 上分配的已知固定大小的单个内存块。可以使用索引来访问数组的元素,像这样:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
```rust
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-14-array-indexing/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2018-01-11 23:09:29 +08:00
在这个例子中,叫做 `first` 的变量的值是 `1`,因为它是数组索引 `[0]` 的值。变量 `second` 将会是数组索引 `[1]` 的值 `2`
2017-02-13 15:43:15 +08:00
##### 无效的数组元素访问
2021-12-09 00:29:42 +08:00
让我们看看如果我们访问数组结尾之后的元素会发生什么呢?比如你执行以下代码,它使用类似于第 2 章中的猜数字游戏的代码从用户那里获取数组索引:
2017-02-13 15:43:15 +08:00
2023-01-17 11:38:33 +08:00
<span class="filename">文件名src/main.rs</span>
2017-02-13 15:43:15 +08:00
2019-11-20 00:43:49 +08:00
```rust,ignore,panics
2022-02-06 22:46:20 +08:00
{{#rustdoc_include ../listings/ch03-common-programming-concepts/no-listing-15-invalid-array-access/src/main.rs}}
2017-02-13 15:43:15 +08:00
```
2023-01-16 23:29:51 +08:00
此代码编译成功。如果您使用 `cargo run` 运行此代码并输入 `0`、`1`、`2`、`3` 或 `4`,程序将在数组中的索引处打印出相应的值。如果你输入一个超过数组末端的数字,如 10你会看到这样的输出
2017-02-13 15:43:15 +08:00
```console
thread 'main' panicked at 'index out of bounds: the len is 5 but the index is 10', src/main.rs:19:19
2022-02-06 22:46:20 +08:00
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace
2017-02-13 15:43:15 +08:00
```
程序在索引操作中使用一个无效的值时导致 **运行时** 错误。程序带着错误信息退出,并且没有执行最后的 `println!` 语句。当尝试用索引访问一个元素时Rust 会检查指定的索引是否小于数组的长度。如果索引超出了数组长度Rust 会 *panic*,这是 Rust 术语,它用于程序因为错误而退出的情况。这种检查必须在运行时进行,特别是在这种情况下,因为编译器不可能知道用户在以后运行代码时将输入什么值。
2017-02-13 15:43:15 +08:00
这是第一个在实战中遇到的 Rust 安全原则的例子。在很多底层语言中并没有进行这类检查这样当提供了一个不正确的索引时就会访问无效的内存。通过立即退出而不是允许内存访问并继续执行Rust 让你避开此类错误。第九章会更详细地讨论 Rust 的错误处理机制,以及如何编写可读性强而又安全的代码,使程序既不会 panic 也不会导致非法内存访问。
2019-11-20 00:43:49 +08:00
[comparing-the-guess-to-the-secret-number]:
2024-01-10 18:19:44 +08:00
ch02-00-guessing-game-tutorial.html#比较猜测的数字和秘密数字
2023-01-16 23:29:51 +08:00
[twos-complement]: https://en.wikipedia.org/wiki/Two%27s_complement
[control-flow]: ch03-05-control-flow.html#控制流
2024-01-10 18:19:44 +08:00
[strings]: ch08-02-strings.html#使用字符串储存-utf-8-编码的文本
[stack-and-heap]: ch04-01-what-is-ownership.html#栈stack与堆heap
2021-12-09 00:29:42 +08:00
[vectors]: ch08-01-vectors.html
2019-11-20 00:43:49 +08:00
[unrecoverable-errors-with-panic]: ch09-01-unrecoverable-errors-with-panic.html
[wrapping]: https://doc.rust-lang.org/std/num/struct.Wrapping.html
2024-01-08 23:33:11 +08:00
[appendix_b]: appendix-02-operators.html