TCP之timestamps选项

默认情况下内核是开启timestamps选项的,如下tcp_sk_init函数中对sysctl_tcp_timestamps的初始化。

static int __net_init tcp_sk_init(struct net *net)
{
    net->ipv4.sysctl_tcp_timestamps = 1;

也可通过PROC文件tcp_timestamps控制选项行为,tcp_timestamps值为0时,表示关闭timestamps选项;值为1时,表示使能RFC1323(最新-RFC7323)中定义的timestamps选项,并且使用随机偏移值与timesstamp叠加,以抵御攻击。最后,当tcp_timestamps值为2时,仅开启timestamps选项,不使用偏移值。

$ cat /proc/sys/net/ipv4/tcp_timestamps
1

TSopt定义

如下所示,TSopt选项包含2个4字节的时间戳值,其中TSval为发送端的当前时间戳;而TSecr为最近接收到的对端所发送报文的TSopt选项中包含的TSval时间戳值,并且只有在TCP头部ACK标志置位时,携带的TSecr值才有效,否则,将此字段清零。接收端在收到ACK标志未设置的报文时,将忽略TSopt选项中的TSecr字段。

   TCP Timestamps option (TSopt):

   Kind: 8

   Length: 10 bytes

          +-------+-------+---------------------+---------------------+
          |Kind=8 |  10   |   TS Value (TSval)  |TS Echo Reply (TSecr)|
          +-------+-------+---------------------+---------------------+
              1       1              4                     4

TSopt选项的支持能力在连接建立阶段进行协商,如果SYN报文中携带了TSopt,并且,SYN+ACK报文中也携带了TSopt,才能成功完成TSopt的协商。如果SYN报文中未携带TSopt,服务端不能在SYN+ACK回复报文中携带TSopt。TSopt协商成功之后,所有的报文都必须携带TSopt选项数据,如果接收到一个未携带TSopt的报文,应将其丢弃。连接复位RST报文,不强制要求携带TSopt选项数据。

如果TSopt能力未协商成功,但在后续接收到了携带有TSopt的报文,应忽略TSopt选项数据,报文正常处理。

SYN报文中的TSopt

TCP客户端使用tcp_v4_connect函数发起连接建立过程,这里,由secure_tcp_ts_off函数根据源地址和目的地址,以及随机生成的秘钥进行hash计算得到一个偏移值。如上所述,如果sysctl_tcp_timestamps值不等于1,tsoffset偏移值为零。

int tcp_v4_connect(struct sock *sk, struct sockaddr *uaddr, int addr_len)
{
    if (likely(!tp->repair)) {
        tp->tsoffset = secure_tcp_ts_off(sock_net(sk),
                         inet->inet_saddr, inet->inet_daddr);
    }
    
    err = tcp_connect(sk);

在函数tcp_connect中,使用tcp_mstamp_refresh函数,保存发送时间戳到tcp_mstamp(实际上其表示最近一次发送/接收的时间,单位时毫秒)。并且由变量retrans_stamp保存SYN报文的发送时间戳。

int tcp_connect(struct sock *sk)
{
    struct tcp_sock *tp = tcp_sk(sk);

    tcp_connect_init(sk);

    tcp_init_nondata_skb(buff, tp->write_seq++, TCPHDR_SYN);
    tcp_mstamp_refresh(tp);
    tp->retrans_stamp = tcp_time_stamp(tp);

如下为函数tcp_mstamp_refresh,注意,tcp_mstamp时间戳使用的是微秒单位,以上的retrans_stamp时间戳使用的是毫秒为单位,即TCP时钟。但是两者的时间戳是相同的。另外,在tcp_closk_cahe变量中缓存了此刻的纳秒为单位的时间戳。tcp_mstamp_refresh函数中的if判断,保证了时间戳的值是单向递增的。

变量tcp_mstamp主要用于RTT的估算过程。

void tcp_mstamp_refresh(struct tcp_sock *tp)
{      
    u64 val = tcp_clock_ns();

    if (val > tp->tcp_clock_cache)
        tp->tcp_clock_cache = val;

    val = div_u64(val, NSEC_PER_USEC);
    if (val > tp->tcp_mstamp)
        tp->tcp_mstamp = val; 
}
static inline u32 tcp_time_stamp(const struct tcp_sock *tp)
{
    return div_u64(tp->tcp_mstamp, USEC_PER_SEC / TCP_TS_HZ);
} 

在SYN报文发送处理函数__tcp_transmit_skb中,由于SYN报文为首个报文,tcp_wstamp_ns为零,skb_mstamp_ns的取值为tcp_closk_cache的值,即在以上tcp_mstamp_refresh函数中缓存的以纳秒表示的时间戳。在函数tcp_syn_options中,将使用此时间戳为TSopt的TSval赋值。

static int __tcp_transmit_skb(struct sock *sk, struct sk_buff *skb, int clone_it, gfp_t gfp_mask, u32 rcv_nxt)
{
    prior_wstamp = tp->tcp_wstamp_ns;
    tp->tcp_wstamp_ns = max(tp->tcp_wstamp_ns, tp->tcp_clock_cache);

    skb->skb_mstamp_ns = tp->tcp_wstamp_ns;

    memset(&opts, 0, sizeof(opts));

    if (unlikely(tcb->tcp_flags & TCPHDR_SYN))
        tcp_options_size = tcp_syn_options(sk, skb, &opts, &md5);
		
    err = icsk->icsk_af_ops->queue_xmit(sk, skb, &inet->cork.fl);

    if (!err && oskb) {
        tcp_update_skb_after_send(sk, oskb, prior_wstamp);
        tcp_rate_skb_sent(sk, oskb);
    }

如下函数tcp_syn_options为SYN报文添加选项数据,如果sysctl_tcp_timestamps为真,将添加TSopt数据。其中,TSval的值为时间戳加上偏移值,这里tcp_skb_timestamp返回的时间戳单位为毫秒(TCP时钟);而TSecr等于零,但是对于此套接口非首次发起连接的情况,TSecr的值有可能不为零。

static unsigned int tcp_syn_options(struct sock *sk, struct sk_buff *skb,
                struct tcp_out_options *opts, struct tcp_md5sig_key **md5)
{
    struct tcp_sock *tp = tcp_sk(sk);

    if (likely(sock_net(sk)->ipv4.sysctl_tcp_timestamps && !*md5)) {
        opts->options |= OPTION_TS;
        opts->tsval = tcp_skb_timestamp(skb) + tp->tsoffset;
        opts->tsecr = tp->rx_opt.ts_recent;
        remaining -= TCPOLEN_TSTAMP_ALIGNED;
    }
static inline u32 tcp_skb_timestamp(const struct sk_buff *skb)
{  
    return div_u64(skb->skb_mstamp_ns, NSEC_PER_SEC / TCP_TS_HZ);
}

SYN报文TSopt处理和SYNACK报文的TSopt

在接收到SYN报文之后,函数tcp_conn_request处理此请求,其中与TSopt相关的有三个部分:一是解析报文TCP选项数据;二是request_sock结构初始化;最后是初始化本地TSopt的偏移值。

int tcp_conn_request(struct request_sock_ops *rsk_ops, const struct tcp_request_sock_ops *af_ops,
             struct sock *sk, struct sk_buff *skb)
{
    tcp_parse_options(sock_net(sk), skb, &tmp_opt, 0, want_cookie ? NULL : &foc);

    tmp_opt.tstamp_ok = tmp_opt.saw_tstamp;
    tcp_openreq_init(req, &tmp_opt, skb, sk);

    if (tmp_opt.tstamp_ok)
        tcp_rsk(req)->ts_off = af_ops->init_ts_off(net, skb);

首先,看一下TSopt字段的解析,如下函数tcp_parse_options,在连接建立阶段,即estab为零时,如果本地的sysctl_tcp_timestamps设置为真,将对报文的TSopt进行解析,否则,本地不支持TSopt,无需解析对端的TSopt字段数据。

另外,在连接建立之后,根据tstamp_ok字段判断TSopt是否协商成功,参考以上函数tcp_conn_request,如果此处正确解析对端TSopt,将设置tstamp_ok标志。

void tcp_parse_options(const struct net *net, const struct sk_buff *skb,
               struct tcp_options_received *opt_rx, int estab, struct tcp_fastopen_cookie *foc)
{
     case TCPOPT_TIMESTAMP:
         if ((opsize == TCPOLEN_TIMESTAMP) && ((estab && opt_rx->tstamp_ok) ||
              (!estab && net->ipv4.sysctl_tcp_timestamps))) {
             opt_rx->saw_tstamp = 1;
             opt_rx->rcv_tsval = get_unaligned_be32(ptr);
             opt_rx->rcv_tsecr = get_unaligned_be32(ptr + 4);
         }
         break;

其次,在inet_request_sock初始化过程中,将在其成员tstamp_ok中保存TSopt协商结果。在ts_recent中保存对端报文中的TSval时间戳值,用于之后在TSopt的TSecr中返回给客户端。

static void tcp_openreq_init(struct request_sock *req, const struct tcp_options_received *rx_opt,
                 struct sk_buff *skb, const struct sock *sk)
{
    struct inet_request_sock *ireq = inet_rsk(req);

    req->ts_recent = rx_opt->saw_tstamp ? rx_opt->rcv_tsval : 0;
    ireq->tstamp_ok = rx_opt->tstamp_ok;

最后,如果TSopt协商成功,对于IPv4而言,函数tcp_v4_init_ts_off将初始化服务端的TS偏移值,但是如果sysctl_tcp_timestamps不等于1,偏移值赋值为零。

static u32 tcp_v4_init_ts_off(const struct net *net, const struct sk_buff *skb)
{
    return secure_tcp_ts_off(net, ip_hdr(skb)->daddr, ip_hdr(skb)->saddr);
}
u32 secure_tcp_ts_off(const struct net *net, __be32 saddr, __be32 daddr)
{                  
    if (net->ipv4.sysctl_tcp_timestamps != 1)
        return 0;  

    ts_secret_init();
    return siphash_2u32((__force u32)saddr, (__force u32)daddr, &ts_secret);
}

在回复SYN+ACK报文时,函数tcp_make_synack使用tcp_clock_ns获取到当前时刻的纳秒值,保存于skb_mstamp_ns变量中。之后,由函数tcp_synack_options初始化选项字段。

struct sk_buff *tcp_make_synack(const struct sock *sk, struct dst_entry *dst,
                struct request_sock *req,...)
{
#ifdef CONFIG_SYN_COOKIES
    if (unlikely(req->cookie_ts))
        skb->skb_mstamp_ns = cookie_init_timestamp(req);
    else
#endif
        skb->skb_mstamp_ns = tcp_clock_ns();

    tcp_header_size = tcp_synack_options(sk, req, mss, skb, &opts, md5, foc) + sizeof(*th);

此时,根据新创建的inet_request_sock结构中标示TSopt协商成功的标志tstamp_ok,将TSecr赋值为以上tcp_openreq_init函数中赋值的ts_recent变量的值,而本地的TSval值为tcp_skb_timestamp的返回值和ts_off的和。

static unsigned int tcp_synack_options(const struct sock *sk, struct request_sock *req,
                       unsigned int mss, struct sk_buff *skb,
                       struct tcp_out_options *opts,...)
{
    struct inet_request_sock *ireq = inet_rsk(req);

    if (likely(ireq->tstamp_ok)) {
        opts->options |= OPTION_TS;
        opts->tsval = tcp_skb_timestamp(skb) + tcp_rsk(req)->ts_off;
        opts->tsecr = req->ts_recent;
        remaining -= TCPOLEN_TSTAMP_ALIGNED;
    }

如下函数tcp_skb_timestamp,将skb_mstamp_ns中的纳秒值转换为timestamps的毫秒值(TCP时钟)。

#define TCP_TS_HZ   1000

static inline u32 tcp_skb_timestamp(const struct sk_buff *skb)
{   
    return div_u64(skb->skb_mstamp_ns, NSEC_PER_SEC / TCP_TS_HZ);
} 

SYNACK报文TSopt处理

TCP客户端在接收到SYNACK报文之后,由函数tcp_rcv_synsent_state_process进行处理,tcp_parse_options负责解析选项信息,如果TSopt选项解析完成,saw_tstamp为真,并且服务端返回的TSecr值不为零,减去偏移值tsoffset,即得到本端原始的时间戳值。

static int tcp_rcv_synsent_state_process(struct sock *sk, struct sk_buff *skb, const struct tcphdr *th)
{
    ...
    tcp_parse_options(sock_net(sk), skb, &tp->rx_opt, 0, &foc);
    if (tp->rx_opt.saw_tstamp && tp->rx_opt.rcv_tsecr)
        tp->rx_opt.rcv_tsecr -= tp->tsoffset;

    if (th->ack) {
        if (tp->rx_opt.saw_tstamp && tp->rx_opt.rcv_tsecr &&
            !between(tp->rx_opt.rcv_tsecr, tp->retrans_stamp, tcp_time_stamp(tp))) {
            NET_INC_STATS(sock_net(sk), LINUX_MIB_PAWSACTIVEREJECTED);
            goto reset_and_undo;
        }
        if (tp->rx_opt.saw_tstamp) {
            tp->rx_opt.tstamp_ok       = 1;
            tp->tcp_header_len = sizeof(struct tcphdr) + TCPOLEN_TSTAMP_ALIGNED;
            tp->advmss      -= TCPOLEN_TSTAMP_ALIGNED;
            tcp_store_ts_recent(tp);
        }

在函数tcp_connect中使用retrans_stamp保存了SYN报文的时间戳,而tcp_time_stamp返回的为套接口最近发送或接收报文的时间戳,如在函数tcp_rcv_state_process中对此时间戳的更新(tcp_mstamp_refresh),因此,TSecr应当位于retrans_stamp和tcp_mstamp两者之间。此三个时间戳值的单位都是毫秒。函数tcp_mstamp_refresh也将更新tcp_clock_cache缓存值。

int tcp_rcv_state_process(struct sock *sk, struct sk_buff *skb)
{
    switch (sk->sk_state) {
    case TCP_SYN_SENT:
        tp->rx_opt.saw_tstamp = 0;
        tcp_mstamp_refresh(tp);
        queued = tcp_rcv_synsent_state_process(sk, skb, th);

在处理函数tcp_rcv_synsent_state_process中,TSopt选项协商完成,设置标志位tstamp_ok,并且,在函数tcp_store_ts_recent中,将服务端SYNACK报文中的TSval值保存在ts_recent变量中,记录下ts_recent更新时刻的时间戳(ts_recent_stamp)。

static void tcp_store_ts_recent(struct tcp_sock *tp)
{   
    tp->rx_opt.ts_recent = tp->rx_opt.rcv_tsval;
    tp->rx_opt.ts_recent_stamp = ktime_get_seconds();
} 

TCP客户端回复的ACK报文(第三个握手报文)以SYN报文一样,由函数__tcp_transmit_skb负责发送。通常情况下skb_mstamp_ns的值由tcp_clock_cache决定,稍后介绍例外情况。由于不是SYN报文,此时使用函数tcp_established_options设置TCP选项数据。

static int __tcp_transmit_skb(struct sock *sk, struct sk_buff *skb,
                  int clone_it, gfp_t gfp_mask, u32 rcv_nxt)
{
    const struct inet_connection_sock *icsk = inet_csk(sk);

    tp = tcp_sk(sk);

    prior_wstamp = tp->tcp_wstamp_ns;
    tp->tcp_wstamp_ns = max(tp->tcp_wstamp_ns, tp->tcp_clock_cache);
    skb->skb_mstamp_ns = tp->tcp_wstamp_ns;

    memset(&opts, 0, sizeof(opts));

    if (unlikely(tcb->tcp_flags & TCPHDR_SYN))
        tcp_options_size = tcp_syn_options(sk, skb, &opts, &md5);
    else
        tcp_options_size = tcp_established_options(sk, skb, &opts, &md5);

以下函数tcp_established_options,首先判断TSopt是否协商成功;其次,将记录在ts_recent中的服务端时间戳赋值到TSecr字段,返回给服务端;之后,本端的时间戳值TSval设置为当前时间加上偏移值tsoffset。之前介绍了tcp_skb_timestamp函数的作用是将skb_mstamp_ns变量表示的纳秒值转换为毫秒值。

static unsigned int tcp_established_options(struct sock *sk, struct sk_buff *skb,
                    struct tcp_out_options *opts, struct tcp_md5sig_key **md5)
{       
    struct tcp_sock *tp = tcp_sk(sk);

    if (likely(tp->rx_opt.tstamp_ok)) {
        opts->options |= OPTION_TS;
        opts->tsval = skb ? tcp_skb_timestamp(skb) + tp->tsoffset : 0;
        opts->tsecr = tp->rx_opt.ts_recent;
        size += TCPOLEN_TSTAMP_ALIGNED;
    }

ACK报文TSopt选项

函数tcp_check_req首先对ACK报文进行相应的检查,这里仅关注TSopt相关的部分,如果ACK报文中携带有TSopt选项(saw_tstamp为真),将request_sock中保存的上次客户端通过的时间戳ts_recent赋值到tcp_options_received结构的tmp_opt变量的成员ts_recent中,随后的PAWS检查函数,将比较此时间戳与当前ACK报文中时间戳的大小,以便判断是否是重复的报文。

另外,在设置ts_recent的同时,设置了时间戳ts_recent_stamp,这里其单位为秒。num_timeout为SYNACK超时重传的次数。之后,根据报文中TSopt字段的TSval值更新ts_recent值,记录下客户端ACK报文中的时间戳。

struct sock *tcp_check_req(struct sock *sk, struct sk_buff *skb,
               struct request_sock *req, bool fastopen, bool *req_stolen)
{
    tmp_opt.saw_tstamp = 0;
    if (th->doff > (sizeof(struct tcphdr)>>2)) {
        tcp_parse_options(sock_net(sk), skb, &tmp_opt, 0, NULL);

        if (tmp_opt.saw_tstamp) {
            tmp_opt.ts_recent = req->ts_recent;
            if (tmp_opt.rcv_tsecr)
                tmp_opt.rcv_tsecr -= tcp_rsk(req)->ts_off;
            /* We do not store true stamp, but it is not required,
             * it can be estimated (approximately) from another data.
             */
            tmp_opt.ts_recent_stamp = ktime_get_seconds() - ((TCP_TIMEOUT_INIT/HZ)<<req->num_timeout);
            paws_reject = tcp_paws_reject(&tmp_opt, th->rst);
        }
    }
	...
    /* In sequence, PAWS is OK. */

    if (tmp_opt.saw_tstamp && !after(TCP_SKB_CB(skb)->seq, tcp_rsk(req)->rcv_nxt))
        req->ts_recent = tmp_opt.rcv_tsval;
    child = inet_csk(sk)->icsk_af_ops->syn_recv_sock(sk, skb, req, NULL, req, &own_req);

在tcp_v4_syn_recv_sock函数中,将使用tcp_create_openreq_child创建子套接口,将TSopt相关的数据保存到新套接口中。比如,TSopt协商标志tstamp_ok,客户端的时间戳ts_recent,以及本端的偏移值tsoffset。

在函数inet_csk_clone_lock中,将子套接口的状态设置为了TCP_SYN_RECV,稍后将用到此状态。

struct sock *tcp_create_openreq_child(const struct sock *sk, struct request_sock *req, struct sk_buff *skb)
{
    struct sock *newsk = inet_csk_clone_lock(sk, req, GFP_ATOMIC);
    const struct inet_request_sock *ireq = inet_rsk(req);
    struct tcp_request_sock *treq = tcp_rsk(req);

    newtp->rx_opt.tstamp_ok = ireq->tstamp_ok;

    if (newtp->rx_opt.tstamp_ok) {
        newtp->rx_opt.ts_recent = req->ts_recent;
        newtp->rx_opt.ts_recent_stamp = ktime_get_seconds();
        newtp->tcp_header_len = sizeof(struct tcphdr) + TCPOLEN_TSTAMP_ALIGNED;
    } else {
        newtp->rx_opt.ts_recent_stamp = 0;
        newtp->tcp_header_len = sizeof(struct tcphdr);
    }
    newtp->tsoffset = treq->ts_off;

在接收状态机函数tcp_rcv_state_process中,首先由函数tcp_mstamp_refresh更新套接口中的缓存时间戳tcp_clock_cache,之后由tcp_ack函数处理ACK报文,最后子套接口的状态已经设置为了TCP_SYN_RECV,此处将其更改为TCP_ESTABLISHED。

int tcp_rcv_state_process(struct sock *sk, struct sk_buff *skb)
{
    tcp_mstamp_refresh(tp);
    tp->rx_opt.saw_tstamp = 0;

    if (!th->ack && !th->rst && !th->syn)
        goto discard;
    if (!tcp_validate_incoming(sk, skb, th, 0))
        return 0;

    /* step 5: check the ACK field */
    acceptable = tcp_ack(sk, skb, FLAG_SLOWPATH |
                      FLAG_UPDATE_TS_RECENT | FLAG_NO_CHALLENGE_ACK) > 0;

    switch (sk->sk_state) {
    case TCP_SYN_RECV:
        ...
        tcp_set_state(sk, TCP_ESTABLISHED);
    }

由于在调用tcp_ack函数时,指定了FLAG_UPDATE_TS_RECENT选项,调用函数tcp_replace_ts_recent对其进行更新。

static int tcp_ack(struct sock *sk, const struct sk_buff *skb, int flag)
{
    /* ts_recent update must be made after we are sure that the packet is in window.
     */
    if (flag & FLAG_UPDATE_TS_RECENT)
        tcp_replace_ts_recent(tp, TCP_SKB_CB(skb)->seq);

最终,函数tcp_store_ts_recent使用选项结构rx_opt中保存的TSval值更新ts_recent时间戳。

static void tcp_store_ts_recent(struct tcp_sock *tp)
{
    tp->rx_opt.ts_recent = tp->rx_opt.rcv_tsval;
    tp->rx_opt.ts_recent_stamp = ktime_get_seconds();
}
static void tcp_replace_ts_recent(struct tcp_sock *tp, u32 seq)
{
    if (tp->rx_opt.saw_tstamp && !after(seq, tp->rcv_wup)) {
        /* PAWS bug workaround wrt. ACK frames, the PAWS discard
         * extra check below makes sure this can only happen for pure ACK frames.  -DaveM
         * Not only, also it occurs for expired timestamps.
         */
        if (tcp_paws_check(&tp->rx_opt, 0))
            tcp_store_ts_recent(tp);
    }
}

TSval取值

在连接建立之后,函数tcp_established_options负责为TSopt选项赋值,以下可见TSval的值由skb_mstamp_ns和tsoffset偏移值组成。

static unsigned int tcp_established_options(struct sock *sk, struct sk_buff *skb,
                    struct tcp_out_options *opts,...)
{
    if (likely(tp->rx_opt.tstamp_ok)) {
        opts->options |= OPTION_TS;
        opts->tsval = skb ? tcp_skb_timestamp(skb) + tp->tsoffset : 0;
        opts->tsecr = tp->rx_opt.ts_recent;
        size += TCPOLEN_TSTAMP_ALIGNED;
    }
static inline u32 tcp_skb_timestamp(const struct sk_buff *skb)
{   
    return div_u64(skb->skb_mstamp_ns, NSEC_PER_SEC / TCP_TS_HZ);
} 

在发送函数__tcp_transmit_skb中,skb_mstamp_ns的值等于tcp_wstamp_ns和tcp_clock_cache两者中的最大值。

static int __tcp_transmit_skb(struct sock *sk, struct sk_buff *skb, int clone_it, gfp_t gfp_mask, u32 rcv_nxt)
{
    prior_wstamp = tp->tcp_wstamp_ns;
    tp->tcp_wstamp_ns = max(tp->tcp_wstamp_ns, tp->tcp_clock_cache);

    skb->skb_mstamp_ns = tp->tcp_wstamp_ns;

    if (unlikely(tcb->tcp_flags & TCPHDR_SYN))
    else
        tcp_options_size = tcp_established_options(sk, skb, &opts, &md5);

    err = icsk->icsk_af_ops->queue_xmit(sk, skb, &inet->cork.fl);

    if (!err && oskb) {
        tcp_update_skb_after_send(sk, oskb, prior_wstamp);
        tcp_rate_skb_sent(sk, oskb);
    }

由函数tcp_write_xmit可知,在发送之前,其使用tcp_mstamp_refresh函数,将tcp_clock_cache时间戳值更新到了当前时刻。所以,通过情况下,tcp_clock_cache的值大于tcp_wstamp_ns。

static bool tcp_write_xmit(struct sock *sk, unsigned int mss_now, int nonagle, int push_one, gfp_t gfp)
{
    tcp_mstamp_refresh(tp);

    while ((skb = tcp_send_head(sk))) {
        ...
        if (unlikely(tcp_transmit_skb(sk, skb, 1, gfp)))
            break;

如下函数tcp_update_skb_after_send,其在报文发送之后被调用,以确定下一个报文的发送时间戳。由于Pacing的存在,报文并不一定在tcp_write_xmit调用的时刻被发送出去。而函数tcp_update_skb_after_send根据Pacing速率和报文长度,估算出下一个报文的发送时刻,保存在tcp_wstamp_ns中,此种情况下,其有可能大于tcp_clock_cache的值。所以TSval的值取两者之间较大值。

static void tcp_update_skb_after_send(struct sock *sk, struct sk_buff *skb, u64 prior_wstamp)
{
    struct tcp_sock *tp = tcp_sk(sk);

    skb->skb_mstamp_ns = tp->tcp_wstamp_ns;
    if (sk->sk_pacing_status != SK_PACING_NONE) {
        unsigned long rate = sk->sk_pacing_rate;

        /* Original sch_fq does not pace first 10 MSS Note that tp->data_segs_out overflows after 2^32 packets,
         * this is a minor annoyance.
         */
        if (rate != ~0UL && rate && tp->data_segs_out >= 10) {
            u64 len_ns = div64_ul((u64)skb->len * NSEC_PER_SEC, rate);
            u64 credit = tp->tcp_wstamp_ns - prior_wstamp;

            /* take into account OS jitter */
            len_ns -= min_t(u64, len_ns / 2, credit);
            tp->tcp_wstamp_ns += len_ns;
        }
    }
    list_move_tail(&skb->tcp_tsorted_anchor, &tp->tsorted_sent_queue);

TSecr值的选取

由以上的介绍可知,TSecr的值取自ts_recent变量。RFC7323中规定ts_recent的更新需满足以下公式,即接收报文中的TSval大于等于本地上次记录的ts_recent值,并且,接收报文的序号小于等于本地最近ACK字段请求的序号:

            SEG.TSval >= TS.Recent and SEG.SEQ <= Last.ACK.sent

        then SEG.TSval is copied to TS.Recent; otherwise, it is ignored.

在quickack模式下,一个报文对应一个ACK,必然满足以上的条件。在延迟ACK模式下,例如接收到两个数据报文之后,回复一个ACK,只有第一个数据报文满足以上条件,第二个数据报文的序号将大于Last.ACK.sent。另外,当接收到一个乱序报文时,其序号也将大于Last.ACK.sent的值,乱序报文的TSval将不用做更新ts_recent。

变量ts_recent的值通常情况下由函数tcp_store_ts_recent进行更新,并且记录下更新时间(ts_recent_stamp),更新时间由PAWS检查时使用。

static void tcp_store_ts_recent(struct tcp_sock *tp)
{
    tp->rx_opt.ts_recent = tp->rx_opt.rcv_tsval;
    tp->rx_opt.ts_recent_stamp = ktime_get_seconds();
}

在连接建立之后,函数tcp_rcv_established处理接收报文,首先看一下在TCP快速接收路径中ts_recent时间戳的更新。前提是报文中的TSval值必须大于当前记录的ts_recent值,再者看一下第二个条件SEG.SEQ <= Last.ACK.sent的判断,在内核中对应seq<=rcv_wup,而在此快速路径中,seq是等于rcv_nxt的,即rcv_nxt<=rcv_wup,最后rcv_wup变量表示的是上一次窗口更新时的rcv_nxt的值,必然有rcv_nxt>=rcv_wup,所以,仅需要判断rcv_nxt是否等于rcv_wup。

另外,对于报文长度len,小于tcp_header_len指定长度(其中包含TCPOLEN_TSTAMP_ALIGNED长度)的报文,说明其中未携带TSopt字段数据,将其丢弃。

void tcp_rcv_established(struct sock *sk, struct sk_buff *skb)
{
    if ((tcp_flag_word(th) & TCP_HP_BITS) == tp->pred_flags &&
        TCP_SKB_CB(skb)->seq == tp->rcv_nxt &&
        !after(TCP_SKB_CB(skb)->ack_seq, tp->snd_nxt)) {
		
        if (tcp_header_len == sizeof(struct tcphdr) + TCPOLEN_TSTAMP_ALIGNED) {
            if (!tcp_parse_aligned_timestamp(tp, th)) /* No? Slow path! */
                goto slow_path;

            /* If PAWS failed, check it more carefully in slow path */
            if ((s32)(tp->rx_opt.rcv_tsval - tp->rx_opt.ts_recent) < 0)
                goto slow_path;
        }
		
        if (len <= tcp_header_len) { /* Bulk data transfer: sender */
            if (len == tcp_header_len) {
                /* Predicted packet is in window by definition.
                 * seq == rcv_nxt and rcv_wup <= rcv_nxt.
                 * Hence, check seq<=rcv_wup reduces to:
                 */
                if (tcp_header_len == (sizeof(struct tcphdr) + TCPOLEN_TSTAMP_ALIGNED) &&
                    tp->rcv_nxt == tp->rcv_wup)
                    tcp_store_ts_recent(tp);
            } else { /* Header too small */
                TCP_INC_STATS(sock_net(sk), TCP_MIB_INERRS);
                goto discard;
            }

对于TCP慢速路径,将在tcp_ack中更新ts_recent时间戳,以上也将进行了接收,其参数FLAG_UPDATE_TS_RECENT指明了这一点。

slow_path:
    if (len < (th->doff << 2) || tcp_checksum_complete(skb))
        goto csum_error;

    if (!th->ack && !th->rst && !th->syn)
        goto discard;

    /*  Standard slow path. */
    if (!tcp_validate_incoming(sk, skb, th, 1))
        return;
step5:
    if (tcp_ack(sk, skb, FLAG_SLOWPATH | FLAG_UPDATE_TS_RECENT) < 0)
        goto discard;

tcp_ack使用函数tcp_replace_ts_recent更新ts_recent的值,以下函数实现可见,两个if语句确保负荷RFC7323中的规定。

static void tcp_replace_ts_recent(struct tcp_sock *tp, u32 seq)
{
    if (tp->rx_opt.saw_tstamp && !after(seq, tp->rcv_wup)) {
        /* PAWS bug workaround wrt. ACK frames, the PAWS discard
         * extra check below makes sure this can only happen for pure ACK frames.  -DaveM
         *
         * Not only, also it occurs for expired timestamps.
         */

        if (tcp_paws_check(&tp->rx_opt, 0))
            tcp_store_ts_recent(tp);
    }

RFC7323中对ts_recent的更新定义,目的再有帮助对端能够更好的计算连接RTT值。例如,对于延迟ACK的情况,ts_recent使用的是最早的未确认报文中携带的TSval的值,这将使得对端计算的RTT值变大,降低对端进行重传的风险。反之,如果使用最近一个接收到的报文中的TSval值,对端计算的RTT值将减小,进一步导致RTO值减小,容易造成对较早发送报文进行不必要的重传。

TIMEWAIT套接口TSopt

套接口在进入TIMEWAIT状态(子状态可能为TCP_FIN_WAIT2)之后,分配新的inet_timewait_sock结构套接口,随将TSopt相关记录:ts_recent、ts_recent_stamp和tsoffset赋值到新的套接口中。

void tcp_time_wait(struct sock *sk, int state, int timeo)
{
    const struct inet_connection_sock *icsk = inet_csk(sk);
    struct inet_timewait_sock *tw;

    tw = inet_twsk_alloc(sk, tcp_death_row, state);
    if (tw) {
        struct tcp_timewait_sock *tcptw = tcp_twsk((struct sock *)tw);
        const int rto = (icsk->icsk_rto << 2) - (icsk->icsk_rto >> 1);
        struct inet_sock *inet = inet_sk(sk);

        tcptw->tw_ts_recent = tp->rx_opt.ts_recent;
        tcptw->tw_ts_recent_stamp = tp->rx_opt.ts_recent_stamp;
        tcptw->tw_ts_offset = tp->tsoffset;

如下所示为TIMEWAIT套接口状态机处理函数tcp_timewait_state_process,其中对TSopt数据的处理与以上介绍的一致。

enum tcp_tw_status
tcp_timewait_state_process(struct inet_timewait_sock *tw, struct sk_buff *skb, const struct tcphdr *th)
{
    struct tcp_options_received tmp_opt;
    struct tcp_timewait_sock *tcptw = tcp_twsk((struct sock *)tw);
    bool paws_reject = false;

    tmp_opt.saw_tstamp = 0;
    if (th->doff > (sizeof(*th) >> 2) && tcptw->tw_ts_recent_stamp) {
        tcp_parse_options(twsk_net(tw), skb, &tmp_opt, 0, NULL);

        if (tmp_opt.saw_tstamp) {
            if (tmp_opt.rcv_tsecr)
                tmp_opt.rcv_tsecr -= tcptw->tw_ts_offset;
            tmp_opt.ts_recent   = tcptw->tw_ts_recent;
            tmp_opt.ts_recent_stamp = tcptw->tw_ts_recent_stamp;
            paws_reject = tcp_paws_reject(&tmp_opt, th->rst);
        }
    }

内核版本 5.0

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章