【Linux网络与网络编程】10.网络层协议IP
前言
我们之前谈的主机B把数据传递给主机C过程都是黑盒式的,即并没有考虑它的中间过程。本篇博客和下一篇博客将要考虑的问题是:主机B和主机C并不是直接连接的,主机B想要把数据传输给主机C需要经过若干路由器的。我们就引出了两个问题:
1. 主机B凭什么把数据交给路由器F呢?
目标决定路径,这就需要网络通信的每一个主机都要有IP地址。本质就是路径的选择问题。
2. 数据是怎么从一个主机流转到另一台主机的呢?
同一子网内的主机是直接连接的,这也就转化成了局域网通信问题。
网络层所解决的问题就是问题1,数据链路层所解决的问题就是问题2。
于是乎,网络通信的本质就是由若干局域网通信所构成的广域网通信。
关于IP地址:
IP地址分为 IPv4 和 IPv6 。
IP 地址由网络号和主机号构成。
• 网络号:保证相互连接的两个网段具有不同的标识
• 主机号:同一网段内,主机之间具有相同的网络号,但是必须有不同的主机号
主机:配有 IP 地址,但是不进行路由控制的设备
路由器:配有 IP 地址,又能进行路由控制的设备
节点:主机和路由器的统称
1. IP协议格式图
在介绍IP协议格式图之前,我们先来回顾一个问题:
重谈TCP和IP
IP的核心作用是把数据包跨网络转发到目标主机,负责的是执行。
TCP的核心人物是解决数据在网络传输中遇到的丢包等问题,负责的是策略。
所以TCP+IP提供了把数据从A主机跨网络传输到B主机的能力,这解决的不就是远距离传输的核心问题吗?所以我们把所学的网络协议栈称为TCP/IP协议。
可以看出整体的格式和TCP协议很相似:固定大小的20字节的报头+选项+数据。
各部分的功能(整体认识,下文依次展开):
• 4 位版本号:指定 IP 协议的版本,对于 IPv4 来说就是 4
• 4 位首部长度:表面IP 头部有多少个 4 字节
• 8 位服务类型: 由 3 位优先权字段(已经弃用),4 位 TOS 字段和 1 位保留字段(必须置为 0)构成。4 位 TOS 分别表示:最小延时、最大吞吐量、最高可靠性和最小成本,这四者相互冲突,只能选择一个。对于 ssh/telnet 这样的应用程序,最小延时比较重要;对于 ftp 这样的程序,最大吞吐量比较重要
• 16 位总长度:IP 数据报整体占多少个字节
• 16 位标识:唯一的标识主机发送的报文。如果 IP 报文在数据链路层被分片了,那么每一个片里面的这个 id 都是相同的
• 3 位标志字段:第一位保留(保留的意思是现在不用,但是还没想好说不定以后要用到);第二位置为 1 表示禁止分片(如果报文长度超过 MTU,IP 模块就会丢弃报文);第三位表示更多分片(如果分片了的话,最后一个分片置为 0,其它是 1。 类 似于一个结束标记)
• 13 位分片偏移:分片相对于原始 IP 报文开始处的偏移。其实就是在表示当前分片在原报文中处在哪个位置,实际偏移的字节数是这个值 8 得到的。因此,除了最后一个报文之外,其它报文的长度必须是 8 的整数倍(否则报文就不连续了)
• 8 位生存时间:数据报到达目的地的最大报文跳数,一般是 64。 每次经过一个路由,TTL -= 1。如果减到 0 还没到达那么就丢弃了,这个字段主要是用来防止出现路由循环
• 8 位协议:表示上层协议的类型
• 16 位头部校验和:使用 CRC 进行校验鉴别头部是否损坏
• 32 位源地址和 32 位目标地址:表示发送端和接收端
• 选项字段:略
IP协议是如何解包,如何分用的?
首先读取固定的报头20字节,从而得到首部长度(基本单位为4字节),进而分离出报头+选项+报文。接下来就可以通过8位的协议字段区分上层的协议完成交付。
2. 网段划分
2.1 网段划分的意义
首先要明确一点:报文转发只有目的IP是不够的,还要有设计好的网络,这些网络主要是由三大运营商提前通过子网划分设计好的。
我们上面谈到过:在一个子网中的不同主机网络号是相同的,主机号是不同的,可以通过主机号来标识主机的唯一性。但是路由器往往是用来级联两个子网的,所以路由器有两个不同的IP地址。
子网内的IP地址是怎么来的?
路由器具备构建子网的能力,我们联网的本质就是向路由器申请一个IP地址。
路由器的IP地址是怎么来的?
路由器往往是第一个连上网络的主机,所以它的主机标识往往是固定的一号主机。
在进行路由时,若目的网络号与当前所处的网络号相同就会进行内网转发,否则就会默认的交给路由器进行转发。所以一个IP地址的具体转发过程就是:根据目标网络号,转发报文到目标网络,转发到目标网络之后将报文进行内网转发。(路由的基本单位是网络)
其实我们可以看出来,网段划分有一点向学校根据我们的学号锁定学院来进行查找指定的同学。而通过对子网进行划分,可以加快了筛选速度,提高了淘汰了,从而提高了查找效率。
2.2 网段划分的方法
有一种技术叫做 DHCP ,能够自动的给子网内新增主机节点分配 IP 地址,避免了手动管理 IP 的不便。一般的路由器都带有 DHCP 功能,因此路由器也可以看做一个 DHCP 服务器。过去曾经提出一种划分网络号和主机号的方案,即把所有 IP 地址分为五类,如下图所示:
• A 类:0.0.0.0 到 127.255.255.255
• B 类:128.0.0.0 到 191.255.255.255
• C 类:192.0.0.0 到 223.255.255.255
• D 类:224.0.0.0 到 239.255.255.255
• E 类:240.0.0.0 到 247.255.255.255
随着 Internet 的飞速发展,这种划分方案的局限性很快显现出来。大多数组织都申请 B 类网络地址,导致 B 类地址很快就分配完了,而 A 类却浪费了大量地址。
针对这种情况提出了新的划分方案,称为 CIDR 。通过引入一个额外的子网掩码(subnet mask)来区分网络号和主机号,子网掩码也是一个 32 位的正整数,通常用一串 "0" 来结尾,将 IP 地址和子网掩码进行 "按位与" 操作,得到的结果就是网络号。网络号和主机号的划分与这个 IP 地址是 A 类、B 类还是 C 类无关。
可见,IP 地址与子网掩码做与运算可以得到网络号,主机号从全 0 到全 1 就是子网的地址范围。IP 地址和子网掩码还有一种更简洁的表示方法,例如:140.252.20.68/24 表示 IP 地址为 140.252.20.68,子网掩码的高 24 位是 1,即 255.255.255.0
特殊的 IP 地址:
• 将 IP 地址中的主机地址全部设为 0,这就成为了网络号,用来代表这个局域网
• 将 IP 地址中的主机地址全部设为 1,这就成为了广播地址,用于给同一个链路中相互连接的所有主机发送数据包
• 127.* 的 IP 地址用于本机环回(loop back)测试,通常是 127.0.0.1
IP 地址的数量限制
我们知道IP 地址(IPv4)是一个 4 字节 32 位的正整数。那么一共只有
(43 亿)个 IP 地址,而 TCP/IP 协议规定,每个主机都需要有一个 IP 地址。这意味着一共只有 43 亿台主机能接入网络么?
实际上,由于一些特殊的 IP 地址的存在,数量远不足 43 亿。IP 地址不非是按照主机台数来配置的,而是每一个网卡都需要配置一个或多个 IP 地址。CIDR 在一定程度上缓解了 IP 地址不够用的问题(提高了利用率,减少了浪费,但是 IP 地址的绝对上限并没有增加),但还是有些不够用,这时候有三种方式来解决:
• 动态分配 IP 地址:只给接入网络的设备分配 IP 地址。因此同一个 MAC 地址的设备,每次接入互联网中得到的 IP 地址不一定是相同的。
• NAT 技术:后面会重点介绍
• IPv6: IPv6 并不是 IPv4 的简单升级版,这是互不相干的两个协议,彼此并不兼容。IPv6用 16 字节 128 位来表示一个 IP 地址。目前 IPv6 还没有普及。
2.3 运营商与全球网络
2.3.1 私有 IP 地址和公网 IP 地址
如果一个组织内部组建局域网,IP 地址用于局域网内的通信而不直接连到 Internet 上的话,理论上使用任意的 IP 地址都可以,但是 RFC 1918 规定了用于组建局域网的私有 IP 地址:
• 10.* :前 8 位是网络号,共 16777216 个地址
• 172.16.*到 172.31.*:前 12 位是网络号,共 1048576 个地址
• 192.168.* :前 16 位是网络号,共 65536 个地址
包含在上述范围内的IP都成为私有 IP,其余的则称为公网IP
私有IP只能用来组建局域网,是绝对不能出现在公网中的!对于不同的子网,IP是可以重复的。
网络在架设的时候,在内网和公网统一采用了用各自的子网掩码的方式来进行网络构建。
2.3.2 运营商
在家庭中的路由器就有构建子网的能力,这一在局域网中构建子网的工作运营商也在做!对于我们申请的IP,无论是公网 IP 还是私有 IP ,网络的建设工作都是由运营商来做的!
对于路由器,可以分为家用路由器和企业路由器。一般来说,路由器在私网中的 IP 地址往往是xxx.xxx.xxx.1。以家用路由器为例,它还是运营商所构建的子网中一台主机,所以路由器至少会级联两个网络,有两个不同的IP地址。我们把家用子网路由器对应的 IP 称为LAN口 IP ,把运营商构建的子网对应的IP称为WAN口 IP 。
换句话说,从家用路由器中出去的报文没有直接到达公网,而是必须要先到达由运营商所构建的更大的子网中。
为什么要给运营商交钱?
我们的报文必须要经过运营商构建的子网的路由器才能到达公网。运营商可以因为你欠费而不对你的报文进行转发;运营商也可以对你访问的非法目标地址而进行拦截,这其实也说明了想要使用魔法就要骗过运营商。
由私网IP请求一个目的IP会根据相应的路由算法进行转发,但是怎么从相应的目标IP向我们的私有IP发回请求呢?
子网内的主机需要和外网进行通信时,路由器将 IP 首部中的 IP 地址进行替换 (替换成 WAN 口 IP),这样逐级替换,最终数据包中的 IP 地址成为一个公网 IP。这种技术称为 NAT (Network Address Translation,网络地址转换),后续的博客会详细介绍。
上面我们提到NAT技术可以缓解IP地址不足的问题,这是问什么呢?
因为NAT技术单独的切分出来一部分IP用做内网,这样大大的提高了IP地址的的复用率。
2.3.3 全球网络
全球网络实际上就是以国家、地区、组织等为单位对全球的公网IP进行划分的过程。
下图就是各个国家的IP数量:
接下来我们通过下面的一个demo样例来帮助大家理解:
上面的这个图其实就能够帮助大家进行理解网络转发的过程了,也能理解为什么现实中除了广域网和局域网,还存在城域网的概念。
网段划分的直接体现就是把IP地址的若干位充当了子网的入口地址,把配置信息体现在路由器当中,全球当中都以这种方式进行就可以在全球范围内进行网段划分。所以,网段划分不仅仅是要把IP地址划分好,还要把划分好的网段在所在地区、国家、组织进行落实,并配置到对应的路由器当中,全球所有的路由器共同构成了网段划分的结果。
3. 路由
其实只要把网络的基础设施建设好,路由的工作几乎解决了。所谓路由,就是在复杂的网络结构中找出一条通往终点的路线。下图就可以看出可以看出路由的基本单位是子网。
路由的过程,就是上图这样这样一跳一跳 "问路" 的过程。所谓 "一跳" 就是数据链路层中的一个区间,具体在以太网中指从源 MAC 地址到目的 MAC 地址之间的帧传输区间。
IP 数据包的传输过程也和问路一样。当 IP 数据包到达路由器时,路由器会先查看目的 IP 。根据目的IP,路由器决定这个数据包是直接发送给目标主机还是需要发送给下一个路由器。依次反复,一直到达目标 IP 地址。
那么如何判定当前这个数据包该发送到哪里呢? 这个就依靠每个节点内部维护一个路由表。路由表可以使用 route 命令查看,如果目的 IP 命中了路由表就直接转发即可。路由表中的最后一行主要由下一跳地址和发送接口两部分组成,当目的地址与路由表中其它行都不匹配时,就按缺省路由条目规定的接口发送到下一跳地址。
[caryon@ALiClode ~]$ route
Kernel IP routing table
Destination Gateway Genmask Flags Metric Ref Use Iface
default gateway 0.0.0.0 UG 0 0 0 eth0
link-local 0.0.0.0 255.255.0.0 U 1002 0 0 eth0
172.24.112.0 0.0.0.0 255.255.240.0 U 0 0 0 eth0
路由表的 Destination 是目的网络地址,Genmask 是子网掩码,Gateway 是下一跳地址,Iface 是发送接口,Flags 中的 U 标志表示此条目有效(可以禁用某些条目)、G 标志表示此条目的下一跳地址是某个路由器的地址,没有 G 标志的条目表示目的网络地址是与本机接口直接相连的网络,不必经路由器转发。
4. 分片与组装
之前我们在谈论TCP协议时曾提出过一个问题:为什么不把滑动窗口中的数据整体打包成一个报文进行转发,而是分成了一个一个的数据段进行转发呢?而实际上在IP协议中,过长的报文也会进行分片处理,这是为什么呢?
这是因为数据链路层规定单次发送的数据帧的有效载荷不能超过mtu(1500)。
于是乎就产生了网络层的分片与组装。
首先我们来分析一下分片和组装的行为好吗?
首先,传输层并不关心分片和组装的细节,但是分片会使丢包的概率大大的增加了。所以分片的报文不能作为网络传输的主流情况,应当尽可能的让传输层不要发送太大的报文,这也就解释了为什么TCP协议会使用滑动窗口将数据分成一块一块的。
4.1 分片的过程
检查 MTU 限制:
当一个 IP 数据报的大小超过了网络的 MTU(最大传输单元)限制时,就需要进行分片
分割数据报:
IP 层将原始的 IP 数据报分割成多个较小的片段,对于每个片段,IP 层会设置相应的标识(Identification)、偏移量 (Fragment Offset)和标志位(Flags)等字段。标识字段用于标识属于同一个数据报的不同分片,确保所有分片能够被正确地重新组装。偏移量字段指示了当前分片相对于原始数据报的起始位置,以 8 字节为单位。标志位字段包含了 3 位,其中 MF(More Fragment)位用于指示是否还有更多的分片,DF(Do Not Fragment)位用于指示数据报是否允许进行分片
添加 IP 头部:
每个分片都会加上自己的 IP 头部,与完整 IP 报文拥有类似的 IP 头结构,但 MF 和 Fragment Offset 等字段的值会有所不同
发送分片:
分片在传输过程中独立传输,每个分片都有自己的 IP 头部,并且各自独立地选择路由。
4.2 组装的过程
接收分片:
当目的主机的 IP 层接收到这些分片后,会根据标识字段将属于同一个数据报的所有分片挑选出来。
排序与组装:
利用片偏移字段,IP 层会对属于同一个数据报的分片进行排序。当所有的分片都到达并正确排序后,IP 层会将这些分片重新组装成一个完整的 IP 数据报。
传递给上层协议:
将组装好的 IP 数据报会传递给上层的协议进行处理。