<a id="Header1_HeaderTitle" class="headermaintitle" href="http://www.blogjava.net/jb2011/">Jack Jiang

[6] 一套原创分布式即时通讯(IM)系统理论架构方案

[7] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[9] 基于实践：一套百万消息量小规模IM系统技术要点总结

[10] 一套十万级TPS的IM综合消息系统的架构实践与思考

[11] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[12] 闲鱼亿级IM消息系统的架构演进之路

[13] 深度解密钉钉即时消息服务DTIM的技术设计

[14] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[15] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

（本文已同步发布于：http://www.52im.net/thread-4202-1-1.html）

posted @ 2023-04-28 10:41 Jack Jiang 阅读(75) | 评论 (0) | 编辑收藏

即时通讯技术文集（第13期）：Web端即时通讯技术精华合集 [共15篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第13 期。

[- 1 -] 新手入门贴：史上最全Web端即时通讯技术原理详解

[链接] http://www.52im.net/thread-338-1-1.html

[摘要] 本文的目的就是要详细探讨这些技术并分析其原理和过程。

[- 2 -] Web端即时通讯技术盘点：短轮询、Comet、Websocket、SSE

[链接] http://www.52im.net/thread-336-1-1.html

[摘要] 本文将简要介绍这4种技术的原理，并指出各自的异同点、优缺点等。

[- 3 -] SSE技术详解：一种全新的HTML5服务器推送事件技术

[链接] http://www.52im.net/thread-335-1-1.html

[摘要] 本文对服务器推送技术（SSE）进行了详细的介绍，包含浏览器端和服务器端的相应实现细节，为在实践中使用该技术提供了指南。

[- 4 -]Comet技术详解：基于HTTP长连接的Web端实时通信技术

[链接] http://www.52im.net/thread-334-1-1.html

[摘要] 一般来说，Web端即时通讯技术因受限于浏览器的设计限制，一直以来实现起来并不容易，主流的Web端即时通讯方案大致有4种：传统Ajax短轮询、Comet技术、WebSocket技术、SSE（Server-sent Events）。本文将专门讲解Comet技术。

[- 5 -] socket.io实现消息推送的一点实践及思路

[链接] http://www.52im.net/thread-188-1-1.html

[摘要] 对于普通站点来说，请求-响应模式可以满足绝大多数的功能需求，但总有某些功能我们希望能够为用户提供实时消息的体验。

[- 6 - ] LinkedIn的Web端即时通讯实践：实现单机几十万条长连接

[链接] http://www.52im.net/thread-659-1-1.html

[摘要] 在这篇文章中会描述在我们收到了消息、分型指标和读回复之后，如何立刻把它们发往客户端。内容会包含我们是如何使用Play框架和Akka Actor Model来管理长连接、由服务器主动发送事件的。我们也会分享一些在生产环境中我们是如何在服务器上做负载测试，来管理数十万条并发长连接的，还有一些心得。最后，我们会分享在整个过程中我们用到的各种优化方法。

[- 7 -] Web端即时通讯技术的发展与WebSocket、Socket.io的技术实践

[链接] http://www.52im.net/thread-690-1-1.html

[摘要] 为什么说Web即时通讯技术这么重要？我们生活在一个实时（real-time）的世界中，因此Web的最终最自然的状态也应当是实时的。用户需要实时的沟通、数据和搜索。我们对互联网信息实时性的要求也越来越高，如果信息或消息延时几分钟后才更新，简直让人无法忍受。现在很多大公司（如Google、Facebook和Twitter）都在关注实时Web，并提供了实时性服务。实时Web是现在也将是未来最热门的话题之一。

[- 8 -] 开源框架Pomelo实践：搭建Web端高性能分布式IM聊天服务器

[链接] http://www.52im.net/thread-849-1-1.html

[摘要] Pomelo是来自网易公司的基于 Node.js 的高性能、分布式游戏服务器框架。它包括基础的开发框架和相关的扩展组件（库和工具包），可以帮助你省去游戏开发枯燥中的重复劳动和底层逻辑的开发。

[- 9 -] 使用WebSocket和SSE技术实现Web端消息推送

[链接] http://www.52im.net/thread-907-1-1.html

[摘要] 请注意，本文要求熟悉 HTTP 服务器推送的语言和概念。两个应用程序都是在 Python 中使用 CherryPy 编写的。

[- 10 -] 详解Web端通信方式的演进：从Ajax、JSONP 到 SSE、Websocket

[链接] http://www.52im.net/thread-1038-1-1.html

[摘要] 这里我们将围绕上述的几种通信方式进行详细的介绍。

[- 11 -] MobileIMSDK-Web的网络层框架为何使用的是Socket.io而不是Netty？

[链接] http://www.52im.net/thread-1248-1-1.html

[摘要] 本文要讨论的是MobileIMSDK-Web的网络层框架为何使用的是Socket.io而不是Netty。

[- 12 -] 一文读懂前端技术演进：盘点Web前端20年的技术变迁史

[链接] http://www.52im.net/thread-2719-1-1.html

[摘要] 我们经历了前端的洪荒时代、Prototype时代、jQuery时代、后jQuery时期、三大框架割据时代，这其中均是由国外开发者主导，直到如今的小程序时代，才是中国开发者独创的。这是漫长的技术储备下的成果，最终促成了良好的技术成长收获。期间的前端发展之路，崎岖艰难，本文将带你回顾这个过程。

[- 13 -] Web端即时通讯基础知识补课：一文搞懂跨域的所有问题！

[链接] http://www.52im.net/thread-2732-1-1.html

[摘要] 本文将为你讲解跨域问题原理，以及理论联系实际，用实践代码也为你演示解决跨域问题的几种方法。

[- 14 -] 网页端IM通信技术快速入门：短轮询、长轮询、SSE、WebSocket

[链接] http://www.52im.net/thread-3555-1-1.html

[摘要] 对于即时通讯网的im和消息推送这类即时通讯技术开发者来说，掌握WebSocket固然很重要，但了解短轮询、长轮询等这些所谓的Web端即时通讯“老技术”仍然大有裨益，这也正是整理分享本文的重要原因。

[- 15 -] 搞懂现代Web端即时通讯技术一文就够：WebSocket、socket.io、SSE

[链接] http://www.52im.net/thread-3695-1-1.html

[摘要] 本文将专门介绍WebSocket、socket.io、SSE这几种现代的Web端即时通讯技术，从适用场景到技术原理，通俗又不失深度的文字，特别适合对Web端即时通讯技术有一定了解，且想深入学习WebSocket等现代Web端“实时”通信技术，却又不想花时间去深读枯燥的IETF技术手册的读者。

👉52im社区本周新文：《网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成 http://www.52im.net/thread-4188-1-1.html》，欢迎阅读！👈

posted @ 2023-04-21 13:49 Jack Jiang 阅读(76) | 评论 (0) | 编辑收藏

开源即时通讯IM框架MobileIMSDK的微信小程序端技术概览

一、基本介绍

MobileIMSDK - 微信小程序端是一套基于微信原生 WebSocket 的即时通讯库：

1）超轻量级、无任何第 3 方库依赖（开箱即用）；
2）纯 JS 编写、ES6 语法、高度提炼，简单易用；
3）基于微信原生 WebSocket API，简洁优雅；
4）支持运行于任何支持微信小程序的手机端；
5）能与 MobileIMSDK 的各种客户端完美互通；
6）可应用于微信小程序中的消息推送、客服聊天、企业 OA、IM 等场景。

二、与 MobileIMSDK 的关系

MobileIMSDK - 微信小程序端是基于微信原生 WebSocket 协议的 MobileIMSDK 配套客户端库。

MobileIMSDK 是一套专为移动端开发的开源原创 IM 通信层框架：

历经 8 年、久经考验；
超轻量级、高度提炼，lib 包 50KB 以内；
精心封装，一套 API 同时支持 UDP、TCP、WebSocket 三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准 Java、H5、小程序、Uniapp(开发中..)；
服务端基于 Netty，性能卓越、易于扩展；👈
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；👈
可应用于跨设备、跨网络的聊天 APP、企业 OA、消息推送等各种场景。

以下是 MobileIMSDK 的最新通信架构图：

PS：MobileIMSDK 的客户端库一直在持续开发和升级中，目前基于 Uniapp 的 MobileIMSDK 客户端正在开发中。

三、设计目标

直接使用原生的微信小程序 WebSocket 有以下问题和劣势：

1）功能有限：没有心跳保活、断线重连、消息送达保证（重传和去重）等即时通讯关键算法和逻辑；
2）API 简陋：在如此有限的原生 API 下，能逻辑清晰地实现并组合心跳保活、断线重连、消息送达保证等算法，需要相当高的技术掌控力；
3）逻辑耦合：经验欠缺的开发人员，会将 WebSocket 通信与前端 UI 界面代码混在一起，使得 UI 界面的重构、维护、改版都非常困难。

针对以上问题，而 MobileIMSDK - 微信小程序端库将让开发者专注于 UI 应用层的开发，网络通信层的专业代码交由 SDK 开发人员，从而解偶 UI 前端和通信层的逻辑耦合性，大大降低技术复杂性。

MobileIMSDK - 微信小程序端库的设计目标是为您的开发带来以下便利：

1）界面与通信解偶：UI 界面与网络通信代码解耦，UI 界面的重构、维护、改版都非常容易和优雅；
2）轻量级和兼容性：受益于坚持原生微信小程序 WebSocket API，简洁轻量，无需任何额外依赖；
3）核心内聚和收敛：得益于长期的提炼和经验积累，SDK 核心层高度封装，开发者无需理解复杂算法即可简单上手。
4）纯 JS 轻量级实现：SDK 为纯 JS 编写、ES6 语法，无重量级框架和库依赖，可干净利落地对接各种既有系统。

四、技术亮点

轻量易使用：超轻量级 —— 纯 JS 编写且无任何第 3 方库依赖，高度提炼 —— 简单易用；
代码现代感：尽可能优先使用 ES6 语法，摒弃旧式 JS 语法的年代感；
兼容性很好：基于微信原生 WebSocket API，可很好地运行于支持微信小程序的手机端；
断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；
送达保证机制：完善的 QoS 消息送达保证机制（多重保障），不漏过每一条消息；
通信协议封装：实现了一个对上层透明的即时通讯通信协议模型；
身份认证机制：实现了简单合理的身份认证机制；
完善的 log 信息：在开发调试阶段，确保每一个算法关键步骤都有日志输出，让您的运行调试更为便利；
界面代码解耦：实现了 UI 界面代码与 SDK 网络通信代码解偶，防止界面代码跟 IM 核心代码混在一起，不利于持续升级、重用和维护；
聊天协议兼容：实现了与 MobileIMSDK 各种客户端完全兼容的协议模型。

五、文件组成

SDK代码文件概览：

SDK代码文件用途说明：

六、技术交流

学习和资料：点击进入、bug和建议：点击进入

七、Demo运行截图

1）Demo的真机运行效果和功能说明图：

2）Demo在模拟器下的运行效果：

3）Demo真机运行实拍图：

八、详尽开发者手册

① 开发者手册（网页版）：MobileIMSDK的微信小程序端开发快速入门 ◀

② 开发者手册（PDF精编版）：

九、引用资料

[1] 微信小程序开发者手册
[2] MobileIMSDK开源框架的API文档
[3] MobileIMSDK开源IM框架源码（Github地址点此）
[4] 开源轻量级 IM 框架 MobileIMSDK 的微信小程序端已发布
[5] 开源即时通讯框架MobileIMSDK的微信小程序端开发者手册

posted @ 2023-04-20 10:33 Jack Jiang 阅读(67) | 评论 (0) | 编辑收藏

网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成

本文由黄工首先发表于strongerHuang公众号，原题“网络硬件的发展史”，本文有修订。

1、引言

本文是《网络编程懒人入门》系列文章的第15篇，本篇将继续以通俗易懂的文字，帮你无脑理解各种基础网络硬件设备的功能原理。

本文不罗列复杂、全面的计算机网络理论，目的是让阅读者脱离以往计算机理论专著的枯燥内容，在寓教于乐的语言文字中轻松快速的掌握这些知识，适合入门者，计网大佬和网络编程老油条们请略过。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4188-1-1.html）

2、如何连接个人计算机（PC）？

在发明网络之前，个人计算机之间是独立工作的，没有网卡、网线或协议栈，主要使用磁盘、CD 和其他东西来传输数据。

后来，网线出现了。

最小的网络单元由网线、网卡和协议栈组成：

1）网线起着物理介质的作用，以传输比特流 / 电信号；
2）网卡将转换数据（例如：它将计算机存储的数据转换为网线的比特流 / 电信号）；
3）协议栈作为一种通信语言，可以在通信过程中实现数据分析、地址寻址和流控制。

3、网线不够长怎么办？

如果终端之间的距离太远，一旦超过网线物理传输距离的上限，数据就会开始丢失。

中继器是物理层的设备，可以中继和放大信息以实现设备的远距离传输。

4、中继器端口不足怎么办？

中继器通常只有两个接口，这意味着如果网络中有三个以上的终端主机，则无法实现多个主机之间的直接数据通信。

集线器是一种多接口中继器，也是一个物理层设备。它可以中继和放大信息，从任何接口接收的数据都将被发送到所有其他接口。

5、如何有选择性的发送数据？

有人把网桥比喻成一个 “聪明” 的中继器。因为中继器只是对所接收的信号进行放大，然后直接发送到另一个端口连接的电缆上，主要用于扩展网络的物理连接范围。

而网桥除了可以扩展网络的物理连接范围外，还可以对 MAC 地址进行分区，隔离不同物理网段之间的碰撞（也就是隔离 “冲突域”）。

6、速度不够快怎么办？

交换机可以记录该终端主机的 MAC 地址，并生成一个 MAC 表。MAC 表相当于一个 “map”，交换机根据 MAC 表在主机之间转发数据流。

交换机基于网桥进行扩展和升级。

与网桥相比，交换机具有以下优点：

1）接口数量更密集（每个主机位于一个独立的冲突域中，带宽利用率大大提高）；
2）使用专用的 ASIC 硬件芯片进行高速转发；
3）VLAN 隔离（不仅可以隔离冲突域，还可以通过 VLAN 隔离广播域）。

交换机是一种局域网设备，通常用于局域网，不能实现远程广域网通信。

7、距离还不够怎么办？

世界上第一台路由器是由斯坦福大学的 Leonard Bossack 和 Santi Lerner 这对教师夫妇为斯坦福大学校园网络 (SUNet) 和思科公司发明的。

▲ 思科公司创始人Leonard Bossack 和 Santi Lerner 夫妇

路由器是一种基于 IP 寻址的网络层设备，利用路由表来实现数据转发。路由器主要用于连接不同的局域网以实现广播域隔离，也可以用于远程通信，如广域网连接。

诸如 IP 协议之类的逻辑寻址机制是实现不同类型局域网连接的关键。不同局域网的主机只要具有逻辑地址（IP 地址）和合理的逻辑地址规划（网段规划)，它们就可以通信。

路由器的诞生是互联网爆炸的主要原因，跨媒介、跨地域的网络集成已成为现实。

8、接线太麻烦怎么办？

无线 AP可以被视为具有无线功能的交换机 / 路由器。随着无线城市和移动办公的发展趋势，无线产品在网络中所占的比例正在增加。

根据部署方式的不同，可以分为胖 AP 和瘦 AP 解决方案。

1）在胖 AP 方案中，无线 AP 具有独立的操作系统，该操作系统可以独立调试无线热点的所有配置，类似于家用 Tp-link 产品。

2）在瘦 AP 方案中，无线 AP 仅具有无线信号传输功能，所有命令调试都集中在后台的 AC / 无线控制器上。

小型无线网络（家庭、小型企业）可以使用胖 AP 解决，而大型无线网络（无线城市、无线园区网络）则需要使用瘦 AP（AC + AP）解决。

9、不够安全怎么办？

防火墙是一种用于限制网络安全访问的网络安全产品，通常用于 Internet 的边缘，以防止外部黑客的攻击。

根据防火墙的技术特点，可以分为包过滤、应用代理和状态检测防火墙。根据产品形式，可以分为软件防火墙和硬件防火墙。

防火墙可视为具有安全功能的路由器。早期的防火墙在路由器的基础上增加了访问控制功能，因此在路由器上可以看到许多防火墙的功能，例如路由协议、访问控制列表、地址转换技术等。

防火墙和路由器可以同时存在于网络中。例如，防火墙可以放置在路由器之前或之后。在这种情况下，路由器侧重于地址转换和路由策略，而防火墙侧重于安全隔离等。

在防火墙的基础上，扩展出了 Web 防火墙、安全网关和入侵检测 / 入侵防御等安全产品。

10、网络拥塞怎么办？

网络中的流量控制设备主要分为：

1）上网行为管理；
2）负载均衡器 / 应用交付；
3）链路优化；
... ...

上网行为管理产品主要关注细粒度的区分和流量控制。

负载平衡 / 应用程序交付侧重于流量的负载平衡（根据流量特征、应用程序、地址等进行区分，然后分配到不同的链接和服务器）。

链接优化主要用于广域网等低速链路的边界，以使链路利用率最大化。

问题来了：组成一个网络需要多少种设备？

11、家庭 SOHO 网络

这是一个典型的家庭网络，它通过无线路由器提供 WiFi 热点访问，并提供路由器连接到外部网络。

12、小型企业网络

小型企业网络使用二层架构、单核拓扑，需要路由器、交换机和服务器。

13、园区网

最常见的园区网架构，如大中型企业网络 / 校园网络，采用接入汇聚核三层架构和双核组网。

根据网络需求，分为：

1）用户区；
2）内部服务区；
3）外部服务区；
4）管理区；
5）Internet 区；
... ...

它们通过核心交换机和防火墙连接并隔离。

互联网使用多出口连接，通过路由器实现拨号和 NAT，通过流量控制设备实现负载均衡 / 上网行为管理，通过防火墙实现安全隔离。

14、数据中心网络

上图是典型的大型第二层数据中心网络 / IDC 设计。

主要分为：

1）租户区（服务集群）；
2）Internet 区；
3）安全管理区域。

租户区：采用设备虚拟化和链路虚拟化技术，提高设备处理能力和链路承载能力，并将负载均衡器放置在服务器区域中，以合理有效的方式将流量分配给固定服务器。

Internet 出口区域：使用路由器执行 BGP 和地址反转，使用 IPS / anti-DDoS 设备进行大流量泛洪攻击，使用流量控制执行出口负载，并使用防火墙进行安全隔离。

安全管理区：通过防火墙安全访问，通过审计、日志、入侵检测、网络管理等产品对整个网络进行管理。

15、系列文章

本文是系列文章中的第15篇，本系列文章的大纲如下：

[1] 网络编程懒人入门(一)：快速理解网络通信协议（上篇）

[2] 网络编程懒人入门(二)：快速理解网络通信协议（下篇）

[4] 网络编程懒人入门(四)：快速理解TCP和UDP的差异

[5] 网络编程懒人入门(五)：快速理解为什么说UDP有时比TCP更有优势

[6] 网络编程懒人入门(六)：史上最通俗的集线器、交换机、路由器功能原理入门

[7] 网络编程懒人入门(七)：深入浅出，全面理解HTTP协议

[8] 网络编程懒人入门(八)：手把手教你写基于TCP的Socket长连接

[9] 网络编程懒人入门(九)：通俗讲解，有了IP地址，为何还要用MAC地址？

[10] 网络编程懒人入门(十)：一泡尿的时间，快速读懂QUIC协议

[11] 网络编程懒人入门(十一)：一文读懂什么是IPv6

[12] 网络编程懒人入门(十二)：快速读懂Http/3协议，一篇就够！

[13] 网络编程懒人入门(十三)：一泡尿的时间，快速搞懂TCP和UDP的区别

[14] 网络编程懒人入门(十四)：到底什么是Socket？一文即懂！

[15] 网络编程懒人入门(十五)：外行也能读懂的网络硬件设备功能原理速成（* 本文)

16、参考资料

[1] 快速理解网络通信协议（上篇）

[2] 快速理解网络通信协议（下篇）

[3] 假如你来设计网络，会怎么做？

[4] 史上最通俗的集线器、交换机、路由器功能原理入门

[5] 面视必备，史上最通俗计算机网络分层详解

[6] 技术往事：改变世界的TCP/IP协议（珍贵多图、手机慎点）

[7] P2P技术详解(一)：NAT详解——详细原理、P2P简介

[8] 通俗讲解，有了IP地址，为何还要用MAC地址？

（本文已同步发布于：http://www.52im.net/thread-4188-1-1.html）

posted @ 2023-04-18 11:07 Jack Jiang 阅读(80) | 评论 (0) | 编辑收藏

零基础快速入门WebRTC：基本概念、关键技术、与WebSocket的区别等

摘要: 本文引用自Hussein Nasser的两个视频分享，原文内容由卢冰聪翻译整理，即时通讯网收录时有大量修订和重新排版。1、内容概述本文是专为学习开源实时音视频工程WebRTC的入门者编写的速成指南。本文主要分享了WebRTC的基本概念、关键技术术语（包括NAT、STUN、TURN、ICE、SDP 和信令），着重讲解了WebRTC是如何实现P2P通信以及WebRTC信令的作用，同时讨论了WebRTC... 阅读全文

posted @ 2023-04-13 17:11 Jack Jiang 阅读(126) | 评论 (0) | 编辑收藏

即时通讯技术文集（第12期）：网络保活、心跳机制等文章汇总 [共23篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第12 期。

[- 1 -] 应用保活终极总结(一)：Android6.0以下的双进程守护保活实践

[链接] http://www.52im.net/thread-1135-1-1.html

[摘要] 因为Android机型太多太杂，以及各厂商定制ROOM的差异，Android应用保活没有一劳永逸和万能的方法，本文探讨的是Android应用在Android 6.0以下系统中的典型应用场景下的保活实践（Android 6.0及以上系统的防杀和复活方法，详见本系列文章的下两篇《应用保活终极总结(二)：Android6.0及以上的保活实践(进程防杀篇)》、《Android应用保活终极总结(三)：Android6.0及以上的保活实践(被杀复活篇)》），内容仅供参考，希望给您带来启发。

[- 2 -] 应用保活终极总结(二)：Android6.0及以上的保活实践(进程防杀篇)

[链接] http://www.52im.net/thread-1138-1-1.html

[摘要] 本文便是对最近一周的Android进程防杀、进程被杀复活的探索、学习、测试的内容总结，以备将来不时之需。因保活防杀和被杀复活涉及内容较多，我将它分成了两篇：即进程防杀篇（本文）和进程被杀复活篇（下篇），本篇将讨论如何实现进程防杀。

[- 3 -] 应用保活终极总结(三)：Android6.0及以上的保活实践(被杀复活篇)

[链接] http://www.52im.net/thread-1140-1-1.html

[摘要] 本文将重点讨论进程被杀后复活的可能性及实践。

[- 4 -] Android进程保活详解：一篇文章解决你的所有疑问

[链接] http://www.52im.net/thread-438-1-1.html

[摘要] 什么样的应用需要进程保活？通常情况下，即时通讯类的应用（包括IM聊天应用、消息推送服务等）为了保证消息的全时、实时送达能力，必须要实现进程或Service的保活。而就这一看似不起眼的问题，实际处理起来，因为众多Android手机和Android系统版本的差异，让问题的处理充满了不确定性。

[- 5 -] Android端消息推送总结：实现原理、心跳保活、遇到的问题等

[链接]http://www.52im.net/thread-341-1-1.html

[- 6-] 为何基于TCP协议的移动端IM仍然需要心跳保活机制？

[链接] http://www.52im.net/thread-281-1-1.html

[摘要] 很多人认为，TCP协议自身先天就有KeepAlive机制，为何基于它的通讯链接，仍然需要在应用层实现额外的心跳保活？本文将从移动端IM实践的角度告诉你，即使使用的是TCP协议，应用层的心跳保活仍旧必不可少。

[- 7 -] 一文读懂即时通讯应用中的网络心跳包机制：作用、原理、实现思路等

[链接] http://www.52im.net/thread-2697-1-1.html

[摘要] 要想真正理解即时通讯应用底层的开发，心跳机制必须掌握，而这也是本文写作的目的，希望能带给你启发。

[- 8-] 微信团队原创分享：Android版微信后台保活实战分享(进程保活篇)

[链接] http://www.52im.net/thread-210-1-1.html

[摘要] 尽量保证应用的进程不被Android系统回收。这是本文要讨论的内容。

[- 9 -] 微信团队原创分享：Android版微信后台保活实战分享(网络保活篇)

[链接] http://www.52im.net/thread-209-1-1.html

[摘要] 如何保证消息接收实时性。这是本文要讨论的内容。

[- 10-] 移动端IM实践：实现Android版微信的智能心跳机制

[链接] http://www.52im.net/thread-120-1-1.html

[摘要] 设计此方案的主要目标是，在尽量不影响用户收消息及时性的前提下，根据网络类型自适应的找出保活信令TCP连接的尽可能大的心跳间隔，从而达到减少安卓微信因心跳引起的空中信道资源消耗，减少心跳Server的负载，以及减少部分因心跳引起的耗电。

[- 11-] 移动端IM实践：WhatsApp、Line、微信的心跳策略分析

[链接] http://www.52im.net/thread-121-1-1.html

[摘要] 本文着重分析WhatsApp、Line、微信的心跳。

[- 12-] Android P正式版即将到来：后台应用保活、消息推送的真正噩梦

[链接] http://www.52im.net/thread-1832-1-1.html

[摘要] Android P官方公开的开发者资料来看，此版加入或强化的多项设备电量管理新特性，使得需要后台消息推送、应用保活的APP变的越来越困难，黑科技恐将成为历史。

[- 13-] 全面盘点当前Android后台保活方案的真实运行效果（截止2019年前）

[链接] http://www.52im.net/thread-2176-1-1.html

[摘要] 正因为Android系统版本的差异，也导致了各种保活黑科技的运行效果大相径庭，所以本文正好借此机会，盘点一下当前主流（截止2019年前）的保活黑科技在市面上各版本Android手机上的运行效果，希望能给大家提供一些客观的参考

[- 14-] 融云技术分享：融云安卓端IM产品的网络链路保活技术实践

[链接] http://www.52im.net/thread-2744-1-1.html

[摘要] 众所周知，IM 即时通讯是一项对即时性要求非常高的技术，而保障消息即时到达的首要条件就是链路存活。那么在复杂的网络环境和国内安卓手机被深度定制化的条件下，如何保障链路存活呢？本文详解了融云安卓端IM产品在基于 TCP 协议实现链路保活方面的实践总结。

[- 15-] 一种Android端IM智能心跳算法的设计与实现探讨（含样例代码）

[链接] http://www.52im.net/thread-783-1-1.html

[摘要] 本文将与大家一起探讨一种更加简单易行和实用的心跳算法，不一定适合所有人，但希望能需要的同行带来一些启发。

[- 16-] 跟着源码学IM(一)：手把手教你用Netty实现心跳机制、断线重连机制

[链接] http://www.52im.net/thread-2663-1-1.html

[- 17-] 跟着源码学IM(五)：正确理解IM长连接、心跳及重连机制，并动手实现

[链接] http://www.52im.net/thread-2799-1-1.html

[- 18-] 2020年了，Android后台保活还有戏吗？看我如何优雅的实现

[链接] http://www.52im.net/thread-2881-1-1.html

[摘要] 总之，Android应用的后台保活在某些场景下，还是有持续的需求。除了之前那些耳熟能详的保活黑科技以外，在Android 9.0（甚至Android 10）时代，我们还有哪些保活方法可以用？那么，请跟着本文作者的思路，看看更优雅的后台保活实现方法吧。

[- 19-] 史上最强Android保活思路：深入剖析腾讯TIM的进程永生技术

[链接] http://www.52im.net/thread-2893-1-1.html

[摘要] 本文将从Andriod系统层面为你深入剖析腾讯TIM这款IM应用的超强保活能力，希望能给你带来更多Android方面的灵感。

[- 20-] Android进程永生技术终极揭密：进程被杀底层原理、APP应对被杀技巧

[链接] http://www.52im.net/thread-2921-1-1.html

[摘要] 本文的技术原理讲解透彻、系统源码分享到位、样例代码也很有参考意义，希望能对有同样兴趣爱好的Android开发者、IM开发者、推送系统开发者等，带来对于Android进程保活技术的深入理解。

[- 21-] Android保活从入门到放弃：乖乖引导用户加白名单吧(附7大机型加白示例

[链接] http://www.52im.net/thread-3033-1-1.html

[摘要] 本文将以某款线上的IM产品为例，介绍它是如何引导用户在多款主流机型上加白名单的，并分享了该款IM中已制作完成的多达7款主流Andriod机型的详细加白FAQ页面资源（含完整HTML+图片），方便您进行参考、学习和研究，希望能为你的应用开发带来帮助。

[- 22-] 阿里IM技术分享(五)：闲鱼亿级IM消息系统的及时性优化实践

[链接] http://www.52im.net/thread-3726-1-1.html

[- 23-] 万字长文：手把手教你实现一套高效的IM长连接自适应心跳保活机制

[链接] http://www.52im.net/thread-3908-1-1.html

[摘要] 我将通过本篇文章，手把手教大家实现一套可自适应的心跳保活机制，从而能高效稳定地维持诸如IM聊天这类需求的长连接。

👉52im社区本周新文：《即时通讯框架MobileIMSDK的微信小程序端开发者手册》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2023-04-11 14:49 Jack Jiang 阅读(79) | 评论 (0) | 编辑收藏

开源即时通讯IM框架MobileIMSDK的微信小程序端开发快速入门

摘要: 一、理论知识准备您需要对微信小程序开发有所了解：1）真正零基础入门学习笔记系列2）从零开始的微信小程序入门教程3）最全教程：微信小程序开发入门详解您需要对WebSocket技术有所了解：1）新手快速入门：WebSocket简明教程2）WebSocket详解（一）：初步认识WebSocket技术3）WebSocket从入门到精通，半小时就够！4）从零理解WebSocket的通信原理、协议格式、安全性... 阅读全文

posted @ 2023-04-07 12:21 Jack Jiang 阅读(105) | 评论 (0) | 编辑收藏

开源轻量级 IM 框架 MobileIMSDK 的微信小程序端已发布！

一、基本介绍

MobileIMSDK - 微信小程序端是一套基于微信原生 WebSocket 的即时通讯库：

1）超轻量级、无任何第 3 方库依赖（开箱即用）；
2）纯 JS 编写、ES6 语法、高度提炼，简单易用；
3）基于微信原生 WebSocket API，简洁优雅；
4）支持运行于任何支持微信小程序的手机端；
5）能与 MobileIMSDK 的各种客户端完美互通；
6）可应用于微信小程序中的消息推送、客服聊天、企业 OA、IM 等场景。

二、与 MobileIMSDK 的关系

MobileIMSDK - 微信小程序端是基于微信原生 WebSocket 协议的 MobileIMSDK 配套客户端库。

MobileIMSDK 是一套专为移动端开发的开源原创 IM 通信层框架：

历经 8 年、久经考验；
超轻量级、高度提炼，lib 包 50KB 以内；
精心封装，一套 API 同时支持 UDP、TCP、WebSocket 三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准 Java、H5、小程序、Uniapp(开发中..)；
服务端基于 Netty，性能卓越、易于扩展；👈
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；👈
可应用于跨设备、跨网络的聊天 APP、企业 OA、消息推送等各种场景。

以下是 MobileIMSDK 的最新通信架构图：

MobileIMSDK 的客户端库一直在持续开发和升级中，目前基于 Uniapp 的 MobileIMSDK 客户端正在开发中。

三、设计目标

直接使用原生的微信小程序 WebSocket 有以下问题和劣势：

1）功能有限：没有心跳保活、断线重连、消息送达保证（重传和去重）等即时通讯关键算法和逻辑；
2）API 简陋：在如此有限的原生 API 下，能逻辑清晰地实现并组合心跳保活、断线重连、消息送达保证等算法，需要相当高的技术掌控力；
3）逻辑耦合：经验欠缺的开发人员，会将 WebSocket 通信与前端 UI 界面代码混在一起，使得 UI 界面的重构、维护、改版都非常困难。

MobileIMSDK - 微信小程序端库的设计目标是为您的开发带来以下便利：

1）界面与通信解偶：UI 界面与网络通信代码解耦，UI 界面的重构、维护、改版都非常容易和优雅；
2）轻量级和兼容性：受益于坚持原生微信小程序 WebSocket API，简洁轻量，无需任何额外依赖；
3）核心内聚和收敛：得益于长期的提炼和经验积累，SDK 核心层高度封装，开发者无需理解复杂算法即可简单上手。
4）纯 JS 轻量级实现：SDK 为纯 JS 编写、ES6 语法，无重量级框架和库依赖，可干净利落地对接各种既有系统。

四、技术亮点

轻量易使用：超轻量级 —— 纯 JS 编写且无任何第 3 方库依赖，高度提炼 —— 简单易用；
代码现代感：尽可能优先使用 ES6 语法，摒弃旧式 JS 语法的年代感；
兼容性很好：基于微信原生 WebSocket API，可很好地运行于支持微信小程序的手机端；
断网恢复能力：拥有网络状况自动检测、断网自动治愈的能力；
送达保证机制：完善的 QoS 消息送达保证机制（多重保障），不漏过每一条消息；
通信协议封装：实现了一个对上层透明的即时通讯通信协议模型；
身份认证机制：实现了简单合理的身份认证机制；
完善的 log 信息：在开发调试阶段，确保每一个算法关键步骤都有日志输出，让您的运行调试更为便利；
界面代码解耦：实现了 UI 界面代码与 SDK 网络通信代码解偶，防止界面代码跟 IM 核心代码混在一起，不利于持续升级、重用和维护；
聊天协议兼容：实现了与 MobileIMSDK 各种客户端完全兼容的协议模型。

五、Demo 运行截图

六、详细介绍

① MobileIMSDK - 微信小程序端的详细介绍：点此查看 👈

② MobileIMSDK - 微信小程序端的开发手册：点此查看 👈

③ MobileIMSDK 开源框架的详细介绍：https://gitee.com/jackjiang/MobileIMSDK 👈

posted @ 2023-04-03 12:00 Jack Jiang 阅读(122) | 评论 (0) | 编辑收藏

IM跨平台技术学习(七)：得物基于Electron开发客服IM桌面端的技术实践

摘要: 本文由得物技术团队Uni分享，即时通讯网收录时有内容修订和排版优化。一、引言本文要分享的是得物技术团队基于Electron开发客服IM桌面端的技术实践过程，内容包括桌面技术选型、Electron的基础概念、具体的实施技术方案、遇到的棘手问题等。Electron社区虽然很活跃，但是不一样的场景遇到的技术问题，几乎找不到对应的解决方案，我们很多都是在探索过程中不断的去完善，希望本文能带给你一些启发。学... 阅读全文

posted @ 2023-03-30 13:38 Jack Jiang 阅读(148) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十一)：为什么WiFi信号差？一文即懂！

摘要: 一、本文内容概述WiFi对于现在的家庭来说，属于司空见惯的上网方式，但很多情况下，家里房间多、空间大、杂物乱的情况下，WiFi的信号就受影响。为什么WiFi信号会受影响？什么情况下该使用何种方式组网？如何改善WiFi信号差的问题？等等，本文将通俗易懂地为你找到这些问题的答案。学习交流：- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》- 开源IM框架源码：https://gith... 阅读全文

posted @ 2023-03-23 14:53 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

即时通讯技术文集（第10期）：IM通信协议该选TCP还是UDP [共12篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第10 期。

[-1-] 简述传输层协议TCP和UDP的区别

[链接] http://www.52im.net/thread-580-1-1.html

[摘要] 本文将从应用层的角度，简要的对比TCP和UDP协议的区别，或许能给你些许启发。

[-2-] 为什么QQ用的是UDP协议而不是TCP协议？

[链接] http://www.52im.net/thread-279-1-1.html

[摘要] QQ既有UDP也有TCP！不管UDP还是TCP，最终登陆成功之后，QQ都会有一个TCP连接来保持在线状态。这个TCP连接的远程端口一般是80，采用UDP方式登陆的时候，端口是8000。

[-3-]移动端即时通讯协议选择：UDP还是TCP？

[链接] http://www.52im.net/thread-33-1-1.html

[摘要]对于有选择困难证的人来说，基于以上因素，加上UDP和TCP协议的本质差异，这样的选择确实很纠结。本文将从作者的实践总结，给出自已的观点，如有异议还请理性回复，不为找喷，仅供参考。

[-4-]快速理解TCP和UDP的差异

[链接] http://www.52im.net/thread-1160-1-1.html

[摘要] 本文延续《网络编程懒人入门》系列文章的风格，通过快速对比分析 TCP 和 UDP 的区别，来帮助即时通讯初学者快速了解这些基础的知识点，从而在IM、消息推送等网络通信应用场景中能准确地选择合适的传输层协议。

[-5-] 快速理解为什么说UDP有时比TCP更有优势

[链接] http://www.52im.net/thread-1277-1-1.html

[摘要] 随着网络技术飞速发展，网速已不再是传输的瓶颈，UDP协议以其简单、传输快的优势，在越来越多场景下取代了TCP，如网页浏览、流媒体、实时游戏、物联网。本文作为《网络编程懒人入门》系列文章的第5篇，将为您快速梳理UDP协议在某些场景下对比TCP协议所具有的优势。

[-6-] UDP的连接性和负载均衡

[链接] http://www.52im.net/thread-1018-1-1.html

[摘要]本文将从实践出发，讨论UDP在实际应用中的连接性和负载均衡问题。

[-7-] 深入地理解UDP协议并用好它

[链接] http://www.52im.net/thread-1024-1-1.html

[摘要] 本文接系列文章的上篇《不为人知的网络编程(五)：UDP的连接性和负载均衡》，将从实践出发，讨论如何深入地理解UDP协议并在实践中用好它。

[-8-] 如何让不可靠的UDP变的可靠？

[链接] http://www.52im.net/thread-1293-1-1.html

[摘要] 涉及到实时传输我们都会先考虑 RUDP，RUDP 应用在我们APP核心传输体系的各个方面，但不同的系统场景我们设计了不同的 RUDP 方式，所以基于那些激烈的讨论和我们使用的经验，我决定扒一扒 RUDP，来给大家分享如何让UDP变的可靠的实践经验。

[-9-] 从底层入手，深度分析TCP连接耗时的秘密

[链接] http://www.52im.net/thread-3265-1-1.html

[摘要] 经过日常工作的思考之后，我更想弄明白的是，TCP的开销到底有多大，能否进行量化。一条TCP连接的建立需要耗时延迟多少，是多少毫秒，还是多少微秒？能不能有一个哪怕是粗略的量化估计？当然影响TCP耗时的因素有很多，比如网络丢包等等。我今天只分享我在工作实践中遇到的比较高发的各种情况。

[-10-]彻底搞懂TCP协议层的KeepAlive保活机制

[链接] http://www.52im.net/thread-3506-1-1.html

[摘要] 限于篇幅，该篇并没有深入探讨TCP协议本身的KeepAlive机制，所以这次借本文想把TCP协议的KeepAlive保活机制给详细的整理出来，以便大家能深入其中一窥究竟。

[-11-] 拔掉网线再插上，TCP连接还在吗？一文即懂

[链接] http://www.52im.net/thread-3846-1-1.html

[摘要] 本篇文章，我们就从系统层面深入地探讨一个有趣的TCP技术问题：拔掉网线后，再插上，原本的这条TCP连接还在吗？或者说它还“好”吗？

[-12-] 单台服务器并发TCP连接数到底可以有多少

[链接] http://www.52im.net/thread-561-1-1.html

[摘要] 到底一台服务器能够支持多少TCP并发连接呢？这就是本文要讨论的问题。

👉52im社区本周新文：《得物从0到1自研客服IM系统的技术实践之路》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2023-03-23 10:42 Jack Jiang 阅读(96) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(六)：手把手教你如何在Android上从零使用Protobuf

摘要: 1、前言最近我负责的 LiveChat 客服聊天系统到了自研阶段，任务类似于做一个腾讯云IM这样的通信层SDK。在和后台进行技术选型讨论后，确定了数据传输层协议格式使用 Protobuf。本文基于我对Protobuf在Android端的实际使用心得，手把手教你如何在Android端IM产品中使用Protobuf，希望对你有帮助。学习交流：- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动... 阅读全文

posted @ 2023-03-09 14:30 Jack Jiang 阅读(84) | 评论 (0) | 编辑收藏

开源即时通讯IM框架 MobileIMSDK：快速入门

1、项目简介

MobileIMSDK是一套专为移动端开发的原创IM通信层框架：

1）历经8年、久经考验；
2）超轻量级、高度提炼，lib包50KB以内；
3）精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
4）客户端支持iOS、Android、标准Java、H5(暂未开源)、小程序(开发中..)、Uniap(开发中..)；
5）服务端基于Netty，性能卓越、易于扩展 new；
6）可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
7）可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

2、代码托管同步更新

GitHub.com：

代码托管：https://github.com/JackJiang2011/MobileIMSDK
技术社区：点击查看更多资料

码云gitee：

代码托管： http://git.oschina.net/jackjiang/MobileIMSDK
技术社区：点击查看更多资料

3、设计目标

让开发者专注于应用逻辑的开发，底层复杂的即时通讯算法交由SDK开发人员，从而解偶即时通讯应用开发的复杂性。

4、框架组成

整套MobileIMSDK框架由以下6部分组成：

1）Android客户端SDK：用于开发Android版即时通讯客户端，支持Android 2.3及以上版本，查看API文档；
2）iOS客户端SDK：用于开发iOS版即时通讯客户端，支持iOS 8.0及以上版本，查看API文档；
3）Java客户端SDK：用于开发跨平台的PC端即时通讯客户端，支持标准Java 1.6及以上版本，查看API文档；
4）H5客户端SDK：暂无开源版，查看精编注释版；
5）小程序端SDK：持续开发中，敬请关注；
6）服务端SDK：用于开发即时通讯服务端，支持Java 1.7及以上版本，查看API文档；

整套MobileIMSDK框架的架构组成：

5、技术特征

久经考验：历经8年，从Andriod 2.3、iOS 5.0 时代持续升级至今（绝不烂尾）；
超轻量级：高度提炼，lib包50KB以内；
多种协议：可能是全网唯一开源可同时支持UDP、TCP、WebSocket三种协议的同类框架；
多种网络：精心优化的TCP、UDP、WebSocket协议实现，可应用于卫星网、移动网、嵌入式物联网等场景；
高效费比：独有的UDP协议实现，无连接特性，同等条件下可实现更高的网络负载和吞吐能力；
消息走向：支持即时通讯技术中消息的所有可能走向，共3种（即C2C、C2S、S2C）；
粘包半包：优雅解决各端的TCP经典粘包和半包问题，底层封装，应用层完全无感知；
QoS机制：完善的消息送达保证机制（多重保障），不漏过每一条消息；
健壮可靠：实践表明，非常适于在高延迟、跨洲际、不同网络制式环境中稳定、可靠地运行；
断网恢复：拥有网络状况自动检测、断网自动治愈的能力；
原创算法：核心算法和实现均为原创，保证了持续改进和提升的空间；
多种模式：预设多种实时灵敏度模式，可根据不同场景控制即时性、流量和客户端电量消耗；
数据压缩：自有协议实现，未来可自主定制数据压缩，灵活控制客户端的流量、服务端网络吞吐；
高度封装：高度封装的API接口，保证了调用的简易性，也使得可应用于更多的应用场景；
Web支持：可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
扩展性好：服务端基于Netty，继承了Netty的优秀高可扩展性；
性能优异：服务端继承了Netty高性能、高吞吐特性，适用于高性能服务端场景。

MobileIMSDK 所支持的全部3种即时通讯消息走向分别是：
(1) Client to Client (C2C)：即由某客户端主动发起，接收者是另一客端；
(2) Client to Server (C2S)：即由某客户端主动发起，接收者是服务端；
(3) Server to Client (S2C)：即由服务端主动发起，接收者是某客户端。

6、性能测试

压力测试表明，MobileIMSDK用于推送场景时，理论单机负载可接近千万级。用于聊天应用时，单机负载也可达数十万。

当然，每款应用都有各自的特点和差异，请视具体场景具体评估之，测试数据仅供参考。

性能测试报告：点此查看。

7、演示程序

1）Android客户端 Demo：点此安装和使用；
2）iOS客户端 Demo：点此安装和使用；
3）Java客户端 Demo：点此安装和使用；
4）H5客户端 Demo：点此查看介绍；
5）服务端 Demo：点此安装和使用 new。

8、应用案例

RainbowChat是一款基于MobileIMSDK的产品级聊天APP，更多详情：点击下载体验或查看运行截图。

① 基于MobileIMSDK的产品级聊天APP：

▶ 详细介绍、下载体验或查看运行截图。

② MobileIMSDK在高网络延迟下的案例：

▶ 某款基于MobileIMSDK的商业商品，曾运营于跨洲际的复杂网络环境下，端到端通信延迟在洲际网络繁忙时可高达600ms以上（与服务端的单向延迟约为300ms左右，而通常大家访问国内主流门户的延迟约为20~50ms），某段时期的非敏感运营数据点此查看。

9、打包下载（all in one）

① 最新发布版（国外地址）：Github打包下载
② 最新发布版（国内地址）：码云gitee打包下载（访问速度快！）

说明：最新发布版打包内容中，已包含完整的demo源码、sdk源码、api文档、编译后的分发包等。

10、典型应用场景

场景1：聊天APP

应用说明：可用于开发类似于微信、QQ等聊天工具。
消息走向：需使用C2C、C2S、S2C全部类型。

特别说明：MobileIMSDK并未定义聊天应用的应用层逻辑和协议，开发者可自行定义并实现之。

场景2：消息推送

应用说明：可用于需要向客户端实时推送信息的各种类型APP。
消息走向：仅需使用S2C 1种消息走向，属MobileIMSDK的最简单应用场景。

场景3：企业OA

应用说明：可用于实现企业OA的指令、公文、申请等各种消息实时推送，极大提升用户体验，并可延伸至移动设备。
消息走向：仅需使用S2C 1种消息走向，属MobileIMSDK的最简单应用场景。

场景4：企业OA的增强型

应用说明：可用于实现企业OA中各种系统级、用户级消息的实时互动，充分利用即时通讯技术提升传统OA的价值。
消息走向：可使用C2C、C2S、S2C全部类型，这与聊天APP在很多方面已无差别，但企业OA有自已的用户关系管理模型和逻辑，较之全功能聊天APP要简单的多。

11、开发指南

1）Android客户端开发指南：点此查看；
2）iOS客户端开发指南：点此查看；
3）Java客户端开发指南：点此查看；
4）H5客户端开发指南：点此查看；
5）Server端开发指南：点此查看。

12、关注作者

博客地址：点击入进、Github主页：点击进入

附录1：Demo截图

1）Android和iOS运行效果

>> 安装和使用：进入Android版Demo帮助页、进入iOS版Demo帮助页。

2）Windows 运行效果

>> 安装和使用：进入Java版Demo帮助页。

3）Mac OS X 运行效果

>> 安装和使用：进入Java版Demo帮助页。

附录2：基于MobileIMSDK的全功能IM【案例】

>> 关于RainbowChat的更多资料请见：RainbowChat前端APP功能截图网页。

附录3：基于MobileIMSDK-Web的网页端IM系统【案例】

下图为RainbowChat-Web的主界面（更多截图点此进入、更多演示视频点此进入）：

posted @ 2023-03-06 12:21 Jack Jiang 阅读(69) | 评论 (0) | 编辑收藏

不为人知的网络编程(十五)：深入操作系统，一文搞懂Socket到底是什么

摘要: 1、引言我相信大家刚开始学网络编程中socket的时候，都跟我一样对书上所讲的socket概念云里雾里的、似懂非懂，很是困扰。这篇文章我打算从初学者的角度，用通俗易懂的文字，跟大家分享下我所理解的socket是什么，并由浅入深从操作系统内核实现来透视socket的原理。* 推荐阅读：跟本篇类似，《到底什么是Socket？一文即懂！》一文也非常适合初学者。另一篇《我们在读写Socket时，究竟在读写... 阅读全文

posted @ 2023-03-02 14:25 Jack Jiang 阅读(88) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat-iOS端v6.2版已发布

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v6.2 版更新内容

此版更新内容（更多历史更新日志）：

1）[优化] 升级核心通信层库 MobileIMSDK 至 v6.3；
2）[优化] 提供了方便的配置用于开/关长连接的SSL/TLS加密传输。

此版主要功能运行截图（更多截图点此查看）：

posted @ 2023-03-01 12:05 Jack Jiang 阅读(49) | 评论 (0) | 编辑收藏

手把手教你为基于Netty的IM生成自签名SSL/TLS证书

摘要: 1、引言对于IM聊天应用来说，为了提升安全性，对聊天消息加密是常规操作。众所周之，Netty是高性能的Java NIO网络通信框架，因而用Netty来写IM是再正常不过了。网上关于为Netty生成、以及使用SSL/TLS证书的文章有很多，但由于各种原因，生成的证书要么是Netty中无法读取和使用，要么是代码不全或不具体导致根本配不通SSL/TLS加密。正好这段时间专门为 MobileIM... 阅读全文

posted @ 2023-02-23 14:18 Jack Jiang 阅读(78) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v8.4版已发布

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v8.4 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容【通信核心层优化！】：

1）[优化] 可根据http接口的url自动判断并启用https加密；
2）[优化] 升级核心长连接通信层库 MobileIMSDK 至 v6.3；
3）[优化] 提供了灵活的接口定制和开启长连接的SSL/TLS加密传输。

（2）服务端主要更新内容：

1）[优化] 升级核心长连接通信层库MobileIMSDK 至 v6.3；
2）[优化] 开放了灵活的接口定制和开启长连接的SSL/TLS加密传输。

此版主要功能运行截图（更多截图点此查看）：

posted @ 2023-02-16 10:42 Jack Jiang 阅读(71) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(九)：手把手教你如何在iOS上从零使用Protobuf

本文作者：丁同舟，来自金蝶随手记技术团队。

1、引言

接上篇《金蝶随手记团队的Protobuf应用实践(原理篇)》，本文将以iOS端的Objective-C代码为例，图文并茂地向您菔救绾卧趇OS工程中快速使用Protobuf，希望对你有帮助。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4133-1-1.html）

2、系列文章

本文是系列文章中的第 9 篇，本系列总目录如下：

《IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！》
《IM通讯协议专题学习(二)：快速理解Protobuf的背景、原理、使用、优缺点》
《IM通讯协议专题学习(三)：由浅入深，从根上理解Protobuf的编解码原理》
《IM通讯协议专题学习(四)：从Base64到Protobuf，详解Protobuf的数据编码原理》
《IM通讯协议专题学习(五)：Protobuf到底比JSON快几倍？全方位实测！》
《IM通讯协议专题学习(六)：手把手教你如何在Android上从零使用Protobuf》（稍后发布..）
《IM通讯协议专题学习(七)：手把手教你如何在NodeJS中从零使用Protobuf》
《IM通讯协议专题学习(八)：金蝶随手记团队的Protobuf应用实践(原理篇)》
《IM通讯协议专题学习(九)：手把手教你如何在iOS上从零使用Protobuf》（* 本文）

另外：如果您还打算系统地学习IM开发，建议阅读《新手入门一篇就够：从零开发移动端IM》。

3、基本介绍

Protobuf（全称 Protocol buffers）是 Google 提出的一种跨平台、多语言支持且开源的序列化数据格式。相对于类似的 XML 和 JSON，Protobuf 更为小巧、快速和简单。相对于传统的 XML 和 JSON， Protobuf 的优势主要在于：更加小、更加快，其语法目前分为proto2和proto3两种格式。

如果你没不了解Protobuf是什么，建议先阅读本系列的前几篇《Protobuf从入门到精通，一篇就够！》、《快速理解Protobuf的背景、原理、使用、优缺点》、《金蝶随手记团队的Protobuf应用实践(原理篇)》，本篇就不再重复介绍了。

目前 Google 官方的 Protobuf最新 release 版本为3.21.12，但本文写作时用的是3.5.1，以下截图都是基于此版本的环境搭建，如果你使用最新版本，差异并不大，因为只是小版本更新。

关于 Protobuf的使用可以查阅官方文档：https://developers.google.com/protocol-buffers/docs/overview，建议养成阅读文档的习惯。

4、准备工作

4.1环境要求

最低开发环境要求：

1）Objective-C 2.0 Runtime (32bit & 64bit iOS, 64bit OS X)
2）Xcode 7.0 以上版本

注意：Protobuf 出于性能考虑没有使用 ARC，但在 ARC 下是可以使用的。

4.2下载安装

下载 Protobuf 代码包(https://github.com/protocolbuffers/protobuf/releases/tag/v21.12)，因文章截图时用的是v3.5.1，所以我这里的为了保持一致选择的是 protobuf-objectivec-3.5.1.tar.gz，版本区别不大，建议依此类推。

4.3解压代码包

编译 Protobuf，这里可能需要安装部分工具:

$ brew install autoconf
$ brew install automake
$ brew install libtool

运行下面脚本进行编译：

$ ./autogen.sh
$ ./configure
$ make
$ makeinstall

检查protobuf是否安装成功：

$ protoc --version

如果成功打印版本号则安装成功：

libprotoc 3.5.1

5、在 iOS 中使用 Protobuf

5.1创建.proto文件

这里使用官方文档上的一份示例数据结构创建Person.proto：

syntax = "proto3";

message Person {
  string name = 1;
  int32 id = 2;
  string email = 3;

  enumPhoneType {
    MOBILE = 0;
    HOME = 1;
    WORK = 2;
  }

  message PhoneNumber {
    string number = 1;
    PhoneType type = 2;
  }

  repeated PhoneNumber phone = 4;
}

使用命令行编译Person.proto为objective-c的文件，编译出来的文件为Person.pbobjc.h和Person.pbobjc.m：

protoc Person.proto --objc_out=./

5.2引入 Protobuf 运行时资源

Google 官方的文档提供了两种引入方式，但使用第一种的时候编译不能通过，所以这里选择了第二种。

具体就是：复制protobuf目录下的：objectivec/*.h, objectivec/google/protobuf/*.pbobjc.h, objectivec/google/protobuf/*.pbobjc.m, 以及除去 objectivec/GPBProtocolBuffers.m 后的objectivec/*.m。

这里直接用命令行操作。

首先进入protobuf下objectivec的目录:

$ cdprotobuf-3.5.1/objectivec

然后复制符合规则的文件到指定的工程目录下:

$mkdir~/ProtobufDemo/ProtocolBuffers~/ProtobufDemo/ProtocolBuffers/google~/ProtobufDemo/ProtocolBuffers/google/protobuf
$ cp*.h *.m ~/ProtobufDemo/ProtocolBuffers
$ cpgoogle/protobuf/*.pbobjc.h google/protobuf/*.pbobjc.m ~/ProtobufDemo/ProtocolBuffers/google/protobuf

注意：上面的命令并没有排除 GPBProtocolBuffers.m 文件，引入时需要手动排除。

现在把ProtocolBuffers目录下所有文件以及上面编译出来的 Person.pbobjc.h 和 Person.pbobjc.m 都引入到工程中。

现在工程目录结构大概是长这样：

注意：由于protobuf没有使用 ARC，因此需要为所有.m文件加上-fno-objc-arc来关闭 ARC。

结果如下：

提示：需要留意工程中的 Header Search Paths 要增加 $(PROJECT_DIR)/ProtocolBuffers(具体的路径视情况而定)。

5.3直接引入 ProtocolBuffers 工程

如果觉得手动引入文件的方式过于复杂，可以直接引入ProtocolBuffers工程作为依赖项。

1）进入解压后的protobuf目录下，复制objective目录下的所有文件到ProtobufDemo/ProtocolBuffers目录下。

2）在ProtobufDemo工程中引入ProtocolBuffers_iOS工程：

3）在Build Phases中加入依赖关系并链接库：

4）引入Person.pbobjc.h和Person.pbobjc.m文件并为.m加上-fno-objc-arc。

5）修改工程配置中部分路径为 $(PROJECT_DIR)/ProtocolBuffers。

5.4运行测试

首先引入头文件：

#import "Person.pbobjc.h"

生成Person对象并进行编码和解码：

Person *p = [[Person alloc] init];
p.id_p = 1;
p.name = @"person1";
p.email = @"123@qq.com";

//encode
NSData*data = [p data];
NSLog(@"Protocol Buffers:\n%@\nData: %@\nData Length: %lu", p, data, data.length);

//decode
Person *newP = [[Person alloc] initWithData:data error:nil];
NSLog(@"Decoded: %@", newP);

运行程序，打印日志如下：

Protocol Buffers:
<;Person 0x60c0000da2b0>: {
    name: "person1"
    id: 1
    email: "123@qq.com"
}
Data: <0a077065 72736f6e 3110011a 0a313233 4071712e 636f6d>
Data Length: 23
Decoded: <;Person 0x6040000d9c90>: {
    name: "person1"
    id: 1
    email: "123@qq.com"
}

6、参考资料

[1] Protobuf 官方开发者指南（中文译版）

[2] Protobuf官方手册

[3] Protobuf从入门到精通，一篇就够！

[4] 如何选择即时通讯应用的数据传输格式

[5] 强列建议将Protobuf作为你的即时通讯应用数据传输格式

[6] APP与后台通信数据格式的演进：从文本协议到二进制协议

[7] 面试必考，史上最通俗大小端字节序详解

[8] 移动端IM开发需要面对的技术问题（含通信协议选择）

[9] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[10] 理论联系实际：一套典型的IM通信协议设计详解

[11] 58到家实时消息系统的协议设计等技术实践分享

[12] 金蝶随手记团队的Protobuf应用实践(原理篇)

[13] 新手入门一篇就够：从零开发移动端IM

Coffee time！

（本文已同步发布于：http://www.52im.net/thread-4133-1-1.html）

posted @ 2023-02-14 12:52 Jack Jiang 阅读(48) | 评论 (0) | 编辑收藏

阿里IM技术分享(十)：深度揭密钉钉后端架构的单元化演进之路

本文由钉钉技术专家啸台、万泓分享，为了获得更好的阅读效果，本文已对内容进行少修订和重新排版。

1、引言

钉钉后端架构的单元化工作从2018年开始到今年，已经是第五个年头了。五年的时间，钉钉单元化迭代了三个版本，从最初的毛头小子，到达今年已经小有成就。

我们在进行单元化架构建设的过程中，除了网上能找到的屈指可数的文章外，可以直接使用的系统更是乏善可陈，使我们不得不从最基础的系统开始造轮子，极大的影响建设效率。幸运的是，近几年云原生技术的兴起，让我们能复用很多基础设施，进而快速提升我们的单元化建设能力，助力钉钉的发展。

今天想借此文和大家分享我们在钉钉单元化架构实施过程中的心路历程和一些最佳实践。因涉及的技术和业务面太广，本文的分享无法做到面面俱到，主要是想在同路人中形成共鸣，进而能复用一些架构或子系统的设计和实现思路。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文同步发布于：http://www.52im.net/thread-4122-1-1.html）

2、系列文章

本文是系列文章的第 10 篇，总目录如下：

3、术语概念

本文内容中使用了一些专有的技术名词，为了方便大家理解，我把关键的几个术语概念的缩写及其含义专门列出来，供大家参考。

主要是以下几个：

1）Geo：钉钉专有化部署单位，解决数据合规需求，Geo间数据按需互通，并且互通数据在Geo内部做镜像拷贝，解决两化问题；
2）Unit: Geo内部资源物理分区隔离的最小单位，解决Geo内的容灾和容量的问题；
3）L0：客户端路由，决定了用户客户端接入钉钉服务器的所属单元，用户长连接所在的逻辑单元，起到连接加速作用。用户接入单元；
4）L1：接入层路由，以用户为维度进行调度，即用户操作发生的单元。用户归属单元；
5）L2：业务层路由，以业务资源为维度进行调度，大部分的业务资源所在单元应该和用户调度单元一致，但一些业务无法按照用户划分单元，如IM的会话，音视频的会议。业务归属单元；
6）DMB：负责钉钉应用跨单元RPC调用的转发，可以认为是钉钉单元化RPC路由中间件；
7）DMR：负责钉钉应用跨单元MQ消息的转发，可以认为是钉钉单元化MQ路由中间件；
8）DTIM：钉钉IM系统。

4、单元化架构1.0版：合规驱动下的部署架构

2018年，部分大客户出于法律政策、商业机密数据存储的要求，要求钉钉的数据存储、访问接入、服务部署需要在其信任的区域内。既需要满足其数据存储私有化要求，同时需要满足跨地区网络的rt性能要求。

于是我们结合阿里云机房部署位置、物理距离、用户数据安全等方面出发，钉钉在客户的阿里云机房内建设了一个单元，将通讯录、IM信息等企业数据单独存储在客户机房。

我们通过一条专线，将两个机房逻辑串联到一起，内部通过DMB/DMR系统，实现了请求互通，这就是钉钉单元化架构的1.0版。

1.0版比较简单，纯粹是业务驱动，和支付宝单元化建设的初衷——“容灾驱动”有较大区别。两个站点通过UID分段，将用户划分为中心用户和专有用户。

上图只是一个简化的逻辑结构，内部实现远比上图复杂，但是1.0建设主要是从0到1，和大多数异地多活的系统较相似，这里就只简单的和大家分享一下。

5、单元化架构2.0版：逼出来的容量架构

2020年是一个特殊的年份，由于疫情的原因，带给大家非常多的改变，其中也包括钉钉。

由于在线办公与教育流量的突增，开年第一天上班就给钉钉一个下马威，平峰的流量已经和除夕跨年的持平，但是和除夕不同的是这个流量是持续的，即使节前准备了三倍容量，也抵挡不住流量对系统的冲击。只能借助阿里云的能力，不断的扩容。

但是每天将近30%的流量增幅，单纯的扩容也能难保障服务的连续性，最终也遇到了扩无可扩的场景，张北机房没有机位了，有机器资源但是没有机位让我们有力无处使。我们不得不不断进行系统优化，同时借助限流、降级、双推等措施，勉强抗住了流量的最高峰。

疫情之前，我们一直在做高可用，但是这个高可用主要集中在容灾机制上，比如搭建容灾单元。如同支付宝一样，是因为当时光纤被挖断；又比如银行的两地三中心架构，是担心某一个地域由于天灾或者战争导致数据丢失。疫情的流量给我们上了一课，仅仅关注容灾是不够的，特别是钉钉的DAU从千万走向亿级别之后，更需要在容量上做出提前规划。

正因如此，我们认为“容量架构不是设计出来而是真真切切被逼出来的”，所以容量架构就成为我们单元化核心要素之一。

容量架构是将流量划分到不同单元，每个单元承载各自的流量。容灾架构是单元异常时，能保障核心的能力可用，也可以将流量动态调度到别的单元，实现服务的快速恢复。

因此钉钉单元化进入了2.0时代，专注于容量和容灾的建设。

6、2.0版是基于什么维度进行流量划分的？

要实现流量的划分，必然要基于一个维度进行划分，一部分到A单元，一部分到B单元。

钉钉单元化架构也是参考了淘系和支付宝的单元化架构，前两者都是基于UID划分，钉钉单元化的第一个版本其实也是一样的，基于UID做拆分。

但是当我们设计容量架构时，发现基于UID划分无法解决我们的容量问题。

以IM为例：一条消息其实属于聊天双方的，群聊亦是如此。用户能和任意一个人聊天，这样我们根本无法找到一个切入点来划分流量，强行按照UID拆分，必然导致一个用户的消息出现在N个单元，单元的自封闭就无法做了。

也有同学会说：为什么消息不按照每个人存储，这不就能按照UID划分了吗？结论是不行。首先这个消息变成了写扩散，持久化的时候会变成多单元写，其次是成本翻倍，在DTIM这种过亿规模的场景这条路走不通。这里可以多说一点，因为这个观点来之不易，大家都知道，人是有惯性的，既然淘宝、支付宝甚至是微信都是UID划分，为什么钉钉要特立独行？当时我们团队受到了绝大部分钉钉技术团队的挑战，持续长达将近一个月的技术选型的“争吵”，最终还是达成了一致意见。

DTIM主要有3个维度，分别是UID、会话（CID）、消息。其中会话和消息是绑定的，而系统中最大量的是消息，按照第一性原则来看，一定要将消息划分开来，才能做到将容量划分开来的效果。

我们再来看看音视频，是按照房间维度组织流量和数据的，和IM又完全不同。

同样，文档其实更适合按照企业维度来划分。

不同的业务拥有不同的维度，因此我们认为：单元化最重要的找到自身“最大”的业务维度，将这个维护拆分，才能实现单元的横向扩展，我们称之为“业务路由”。

回头来看：我们之前其实是进入了思考误区，以为淘系和支付宝都是UID维度，我们也要这个维度，其实UID正是前者的业务维度，比如订单，也是围绕用户，并不会有交集的情况，会话就是IM的划分维度，因此做单元化之前要先找到属于自己的业务维度。

7、2.0版是如何实现IM消息的全局路由能力的？

7.1概述

UID路由有个最大的好处，就是可以按照UID分段，能实现高效的静态路由，也不用担心多单元之间的一致性问题。但是这种分段路由局限性也比较明显，需要预先分配，单元之间动态调度流量和数据成本极高，而且只能支持这种数值+顺序的场景。

在钉钉的场景中，有会话维度、房间维度、企业维度等等，想简单采用这种预分段机制难以满足业务需求。因此我们需要构建一个业务路由系统（RoutingService），实现消息流量的精确路由。

以IM为例：每次消息的发送，在单元化框架层面，会通过消息的会话（CID），查询路由信息，如果是本单元，流量下行并持久化；如果是非本单元，路由到对应的单元中。

下图是三个会话：分别是cid:1001、cid:1002、cid:1003，三个会话隶属不同单元，不管用户从哪个单元发送消息，都会路由到会话所在的单元。比如：用户在Unit B的cid:1001 中发送消息，当消息进入Receiver之后，会先查询此cid:1001所在的单元，发现是Unit A，路由框架将请求转到A单元，消息在A单元持久化并通过A单元的同步协议，将数据推送到客户端。

从上图可知：每次消息发送，都要查询路由服务，DTIM百万的峰值，对路由必然会带来超大的压力，同时我们能发现，路由数据在多单元实现一致性是一个巨大的挑战。

7.2边缘计算：端到端路由

在DTIM的场景中，会话的路由信息几乎不会变更，只有当我们决定将某些超大的会话或者企业腾挪到新单元时，才会发起路由的变更，因此会话的路由信息几乎可以认为是恒定不变的。那么每次查询路由服务端，效费比太低，是极大的浪费。

既然路由信息几乎不可变，是否将路由信息缓存呢？最常见的是使用一个集中式的Cache系统，缓存Hot的会话，我们也是这么做的，但是这么做还是不够，一旦Cache系统失效，DTIM还是会出现大面积故障，而且这个百万级的请求对Cache也是一个极大的压力。

考虑到钉钉有强大的客户端，借用边缘计算的思路，我们将用户的会话数据缓存到客户端。对于客户端来说，也只用缓存用户自身最热的N会话路由数据，消息发送时，通过Header将路由数据携带到服务端，服务端路由SDK只要做合法性和续约即可，这样就将路由流量降低了95%以上。当路由服务出现异常时，还可以继续使用客户端路由，将路由的可用性提升到一个新的高度。

SDK本地会依据上行请求的返回中是否有新的路由信息，进而更新客户端路由。同时可以借助钉钉有主动下推的能力，通过同步协议将新的路由信息主动推送给客户端，使会话迁移做到更平顺。

7.3计算下沉：多单元一致性

对于新会话：比如小明要创建一个群聊，是应该创建在那个单元呢？

如果在A单元创建了，当会话消息来到B单元，系统怎么能第一时间知道会话已经在被绑定到A单元。

这里一般的方式有两种：

1）单元之间的存储系统采用类似DTS的机制进行异步同步，这种机制有秒级延迟；
2）在应用层主动同步，比如接入消息队列。

这两种方式由于都是异步的原因，都会出现不一致的问题，如果会话同时被绑定在两个单元，逻辑上会导致用户的历史消息丢失，这个是不能接受的。

多地域（Region）数据同步其实是通用的技术挑战，我们认为存储系统提供是最好的方式，正如Google的Spanner一样，这样对我们上层才是最友好的方式。

因此我们找到了存储的OTS、Nuwa团队一起共建了GlobalTable。GlobalTable的核心原理还是借助Nuwa的一致性组，组分布在多个地域，采用多数派写入成功即返回的原理，做到20ms以内的一致性写。

8、2.0版的容灾能力

钉钉单元化的容灾能力是深度结合钉钉的业务层场景落地的，和淘系支付宝等有明确的区别。

以DTIM为例，最大的特点是当服务单元异常时，服务侧仍能提供最核心的服务，保障最基本的能力。本质上是由于DTIM是最终一致性系统，可以短暂允许部分环节失败。

可以看一下DTIM发送消息的容灾场景。当某个单元完全不可用的情况下，用户消息发送链路通过降级为local模式，在本地校验非本单元会话数据通过之后直接做消息发送，processor遇到非本单元的会话消息数据可以做单元间投递做数据回放，本地是否落库可选，同步协议推送不必区分是否为本单元会话消息数据直接通过本单元的topic推送给客户端，配合用户无状态快速迁移能力，单元间可以实现真正的分钟级别容灾切换能力。

9、2.0版的成果与突破

以上是钉钉单元化2.0提供给应用的核心能力，在满足容灾和容量设计需求之后，钉钉单元化给应用带来了更多的能力和想象空间。

比如：

1）快速迁移：当某一地域资源不足时，钉钉单元化可以将业务快速的从A单元迁移到B单元；
2）常态化切流：比如新建的教育会话，可以放到独立的单元；
3）热点治理：当前某一个会话过热，特殊时期可以迁移到独立集群；
4）SLA：满足不同的VIP客户需求，基于不同的SLA和售卖价格，将VIP客户放到对应地单元。

核心还是我们拥有单元化能力之后，实现了多单元流量的快速调度，为业务解决了后顾之忧。

10、2.0版在新时代面临的新挑战

10.1鱼和熊掌不可兼得

2022年对钉钉来说是成本之年，成本的压力不光落到了团队，还落到了每个人身上。

正如存储的CAP理论是一样的，我们同时只能满足两个维度，对于流量（性能P）、成本（C）、体验（E）也是一样，在流量不可预知和干预的情况下，选择成本必然导致体验受损，反之选择体验，必然导致成本升高。进入下半年，疫情反复带来流量的反复，为了实现可控的教育成本，只能在高峰期降级部分能力，这又导致体验受损，这段时间的工单量可以窥见一斑。

流量是用户侧触发的，我们无法干预，只能在成本和体验之间寻求平衡。和前面提及的一样，为了减小成本的消耗这就导致我们在扩容和缩容之间疲于奔命，反应不及时甚至有故障的危险，这种机制不可取也不可持续。到底是要流量与成本，还是要流量与体验，给我们技术团队带来了巨大的挑战和矛盾。

10.2商业化路在何方

当前钉钉为支持大客户提供了多种解决方案，专业钉钉、专属存储与打包、专有钉钉。

专属钉钉通过APP专属化以及部分专属功能，比如为一个企业定制一个拥有独立Logo的APP，能满足一般的中大型客户的业务诉求。

对于大型以及超大型客户，我们提供专有钉钉，提供专有化输出，完全隔离的方案，比如浙政钉。

伴随着钉钉的商业化进入深水区，客户对钉钉提出了新的诉求，特别是数据安全与归属、互联互通、完整的能力栈等诉求，当前钉钉输出产品形态都无法同时地满足以上需求。

前几年互联网上出现的几起数据安全事件，数据丢失与泄露，未经客户授权私自访问客户数据，让大多数客户不信任服务提供商，即使服务商的安全能力已经是业界一线能力。其实这个是可以理解的，数据即客户的生命线，数据无法在自身可控范围内，特别是对于很多特殊行业，这是无法接受的，自身性命岂能假手于人。专属钉钉在面临这种客户时，前线售卖同学是无能为力。

那么很多同学肯定会提“如果专属钉钉满足不了需求，我们专有钉钉不是能解决这些问题吗？”，其实单单从诉求来看，专有钉钉场景是切合客户的业务诉求，提供完全独立运行环境、可控的数据安全。但是专有钉钉由于其独特的架构带来高昂的售价以及后期的运维代价，对于超大型的客户来说也难以承担如此高的成本。对于钉钉自身来说，从研发到后续运维，维护一套独立体系也难以在客户侧大面积推广。

11、单元化架构3.0版：混合云架构

11.1概述

钉钉单元化经过四年的发展，在容灾和容量上做出一定的积淀，同时完成了一些核心技术的积累。

当整体架构成熟之后，我们也在思考，单元化能否从技术架构升级为业务架构，比如搭建独立的高可用单元，按照售卖的SLA提供给VIP客户，支持钉钉商业化的发展。

同时我们在云原生逐步发力，将部分核心应用放到云上，经过这一年多的运行，遇到了新的挑战，但更获得云下无法获得的计算弹性能力，云上的弹性对云下是一个降维打击，从一个新的方向解决计算问题。

如上文提到的两个核心挑战，钉钉单元化同样面临这个问题，在持续的发展中找到了一个合适的架构方向。

基本思路是：

1）云下作为基本盘，保障核心流量的问题，毕竟云下经过集团多年的打磨，不管是稳定性还是流程的合理性都有保障；
2）云上应对高涨异常的流量，比如和疫情正相关的教育流量，既保证了服务的稳定性，又能充分利用云上弹性能力，在提供完整能力的前提下做到一个相对较低的成本。

其次是升级Geo概念：

1）将Geo作为一个独立的业务域，实现Geo级别完全独立部署，分布式云模式；
2）同时Geo之间按需互通，从研发体系上能做到一套代码。

因此，钉钉单元化来到了3.0版本，我们称之为钉钉单元化混合云架构。

混合云主要是从两个维度来看：

第一：是云上云下，我们认为云上云下并不是取代的关系，而是相互补充的关系，是一个长期的状态，正如很多大客户随着规模的持续扩张，最终依赖的部分核心能力必然走向自研道理一样，这能做成本的进一步降低，所以架构是一个混合云架构；
第二：业务架构上也是混合云架构，通过不同的Geo，将不同的业务逻辑上聚合到一起，构建起一张钉钉的大网，不同Geo按需互通，实现了业务架构的混合。

3.0从系统架构上相对于2.0，最大的区别就是云原生技术的运用和互通网关的建立。

11.2云原生技术：抵抗系统架构熵增的有效手段

近几年，互联网圈最火的技术莫过于以Docker为代表的云原生技术最为火热，各大云厂商也都在不遗余力的推广云原生技术以及对应的产品。同时钉钉服务过亿DAU的客户，面对各种可靠性、服务连续性、并发、容灾等技术挑战，也都走到了现有技术的边界。

所以我们也在不断吸收新的技术和架构，希望从体系与架构上降低我们的技术复杂度，以抵抗熵增。

我们在2021年底启动了云原生升级战略，升级云原生技术并不是为了技术而升级，而是切实面临巨大的技术挑战。

1）首先我们面临多语言的挑战：

我们以IM为例，IM的核心逻辑都是使用C++构建，但是我们常用的中间件三大件：存储、缓存、异步队列，其中缓存和异步队列在C++客户端上长期建设不足，导致IM长期在使用低版本。

低版本由于长时间缺乏维护，经常会出现异常，比如队列假死、消费不均等，导致我们自己不得不亲自上阵修改SDK的代码，以致最后难以使用到产品的新能力，阻碍IM服务能力的提升。

2）其次是多产品多云的挑战：

我们以阿里云为例，数据库类目下的产品，从类别上就有关系数据库、NoSQL数据库、数仓等等，还有存储也是一样。

对于我们上层业务，其实绝大部分服务都只依赖了底层的CURD，这么多产品，每次对接一个产品都要开发一轮。

配置系统也是一样，弹内有Diamond，云上有Nacos、Mse，K8s有自己的Configmap等，而且这些配置系统不像数据库有标准，而是百花齐放，但是这样却苦了我们使用者。

这些内容不是我们的核心路径，浪费大把时间在各种产品接口的适配上，明显拖累了钉钉的发展。

3）最后就是通用的流量治理挑战：

钉钉很多系统都是最终一致的系统，IM就是典型的最终一致系统，这类系统和强同步系统在架构设计有一个明显的区别，强一致系统如果遇到失败，必须要持续重试直到成功，所以一般编程上都是重试+退避。

但是最终一致系统不是，这类系统允许部分节点失败，不要阻碍其他流程，失败的流量通过一个异步回旋的队列，将数据逐步回放回来即可。这种回旋需要借助异步队列，而且要设计各种消费机制，比如限速、比如丢弃等等，这是一个通用的逻辑，但是每个业务方或多或少都在实现自己的回旋系统，重复的造轮子。又比如各种故障注入，单元化路由流量等等，要想拥有这个能力，团队不得不投入人力研发。

在对付架构复杂度上，我们主要从两个维度来屏蔽复杂度。

首先代码层面我们选择了DDD模式，我们使用DDD分层核心是把对外系统的依赖全部收拢到Infrastructure这一层，全部采用纯虚函数(Interface)对外提供接口。屏蔽底层中间件差异和细节。

在架构上采用Sidecar的模式，类似于Dapr的思想，通过标准的GRPC和PB实现应用与中间件解耦。Sidecar中集成了各种中间件、配置系统、灰度系统等，等价实现了应用和中间件的解耦。上文中提到的不管是多语言挑战、多云多产品的挑战、重复造轮子等问题，都能很好的解决。

11.3互通网关：混合架构的基石

云上云下互通，或者说多个云账户VPC之间的互通，我们常见的有两种方案：

1）其一是VPC直接打通，让多个VPC之间形成一个大的局域网，RealServer实现点对点互通；
2）其一是中间搭建一个负载均衡器，通过暴露EIP实现互通。

两个方案都有自己的优缺点。

对于方案一：打通的VPC涉及到IP规划，如果前期没有合理规划，后续很难打通；还有这种方案有水桶短板安全问题，一旦一个VPC被攻破，这张网也被攻破；但是对于内部的应用来说架构就比较简单，可以仅仅借助K8s DNS service就能做到服务发现。

对于方案二：最大的缺点就是中间有一个集中式的负载均衡，需要申请独立的LB才可访问；但是这种方案隔离性好。

对于钉钉单元化来说，涉及N个业务方，N * M个应用，对应X个VPC，要想VPC之间打通，几乎没有可能性，而且VPC打通，还面临应用之间的安全性问题。要实现Geo之间互通，环境之间的隔离性是基本要求，与此同时，我们也要考虑到系统的可扩展性，所以我们必须要构建一套独立的流量网关，实现流量加密、寻址、转发等通用能力。

钉钉互通网关是构建在Envoy之上的系统，双向Ingress和Egress，支持GRPC和钉钉自研协议。具备流量管理、传输加密、单元寻址等能力。钉钉单元化借助互通网关的能力，再配合全局流控系统，我们可以在多单元之间实现精确的流量控制和调度。

12、写在最后

伴随着专属集群的持续输出，客户对专属的场景需求会越来越多，需要我们投入更多的人力持续的建设。

比如：

1）在架构侧：首先是Sidecar持续强化，支持更多的中间件和环境，提供不同维度的安全能力，满足客户和应用的安全需求；
2）在运维侧：我们需要构建多Geo管理能力，完善Geo和单元之间流量快速调度能力，提供自动化的自检系统等；
3）在交付侧：如果实现快速交付，比如是否能做到新应用一周完成单元化改造，新Geo一天部署完成。这些挑战都是接下来我们要重点投入的方向。

对于标准钉钉来说，这个是我们的基本盘，一个稳定可靠且低成本的钉钉是我们持之以恒的目标，接下来我们会加大云上流量的占比，充分的借助云上弹性能力，实现可控的成本。

今天我们只是站在钉钉的角度上抛了一个“砖”，希望在异地多活这个领域激起一层浪花，欢迎大家一起讨论。

13、相关资料

[1] 现代IM系统中聊天消息的同步和存储方案探讨

[2] 企业级IM王者——钉钉在后端架构上的过人之处

[3] 深度解密钉钉即时消息服务DTIM的技术设计

[4] 钉钉——基于IM技术的新一代企业OA平台的技术挑战(视频+PPT)

[5] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[6] IM系统的MQ消息中间件选型：Kafka还是RabbitMQ？

[7] 深度揭密RocketMQ在钉钉IM系统中的应用实践

（本文同步发布于：http://www.52im.net/thread-4122-1-1.html）

posted @ 2023-02-13 10:50 Jack Jiang 阅读(121) | 评论 (0) | 编辑收藏

开源即时通讯IM框架 MobileIMSDK v6.3 发布

一、更新内容简介

本次更新为次要版本更新，进行了若干优化（更新历史详见：码云 Release Nodes）。可能是市面上唯一同时支持 UDP+TCP+WebSocket 三种协议的同类开源IM框架。

二、MobileIMSDK简介

MobileIMSDK 是一套专为移动端开发的原创IM通信层框架：

历经8年、久经考验；
超轻量级、高度提炼，lib包50KB以内；
精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准Java、H5、小程序(开发中..)、Uniapp(开发中..)；
服务端基于Netty，性能卓越、易于扩展；
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

MobileIMSDK工程始于2013年10月，起初用作某产品的即时通讯底层实现，完全从零开发，技术自主可控！

您可能需要：查看关于MobileIMSDK的详细介绍。

三、代码托管同步更新

OsChina.net

代码托管： http://git.oschina.net/jackjiang/MobileIMSDK
项目资料：点击查看更多资料

GitHub.com

代码托管： https://github.com/JackJiang2011/MobileIMSDK
项目资料：点击查看更多资料

四、MobileIMSDK设计目标

让开发者专注于应用逻辑的开发，底层复杂的即时通讯算法交由SDK开发人员，从而解偶即时通讯应用开发的复杂性。

五、MobileIMSDK框架组成

整套MobileIMSDK框架由以下5部分组成：

Android客户端SDK：用于Android版即时通讯客户端，支持Android 2.3及以上，查看API文档；
iOS客户端SDK：用于开发iOS版即时通讯客户端，支持iOS 8.0及以上，查看API文档；
Java客户端SDK：用于开发跨平台的PC端即时通讯客户端，支持Java 1.6及以上，查看API文档；
H5客户端SDK：暂无开源版，查看精编注释版；
服务端SDK：用于开发即时通讯服务端，支持Java 1.7及以上版本，查看API文档。

整套MobileIMSDK框架的架构组成：

另外：MobileIMSDK可与姊妹工程 MobileIMSDK-Web 无缝互通，从而实现Web网页端聊天或推送等。

六、MobileIMSDK v6.3更新内容

【重要说明】：

MobileIMSDK v6.3 为次要版本，进行了若干优化！查看详情

【新增的特性】：

1. [所有端] 提供了灵活的接口供开发者定制和开启SSL/TLS加密传输；

【其它优化和提升】：

1. [iOS] 解决了iOS端Demo在iOS16下的适配问题；
2. [iOS] 解决了iOS端Demo在黑暗模式下背景和标题栏是黑色的问题；
3. [Android] 优化了Android端Demo在最新Android系统下的适配等；
4. [Android/Java] 对全局单例增加线程安全处理，防止在高版本JDK中出现并发调用而导致单例被重复实例化。

【版本地址】：

https://gitee.com/jackjiang/MobileIMSDK/releases/tag/6.3

posted @ 2023-02-07 10:27 Jack Jiang 阅读(58) | 评论 (0) | 编辑收藏

IM开发者的零基础通信技术入门(十)：零基础，史上最强5G技术扫盲

摘要: 本文引用了“鲜枣课堂”的《史上最强5G科普》文章内容。为了更好的内容呈现，在引用和收录时内容有改动，转载时请注明原文来源。1、内容概述➊ 5G技术的关注度越来越高：在此之前，5G技术对于普通老百姓来说，似乎还很遥远，关注度并不高。但从去年开始，美帝赤裸裸打压中兴和华为的国际事件，让5G技术在国内有了很高的关注度。美帝打压中兴、华为固然是坏事，但因为这个事情，相当于反过来为5... 阅读全文

posted @ 2023-02-04 16:21 Jack Jiang 阅读(73) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(八)：金蝶随手记团队的Protobuf应用实践(原理篇)

摘要: 本文由金蝶随手记技术团队丁同舟分享。1、引言跟移动端IM中追求数据传输效率、网络流量消耗等需求一样，随手记客户端与服务端交互的过程中，对部分数据的传输大小和效率也有较高的要求，普通的数据格式如 JSON 或者 XML 已经不能满足，因此决定采用 Google 推出的 Protocol Buffers 以达到数据高效传输。本文将基于随手记团队的Protobuf应用实践，分享了Protobuf的技术原... 阅读全文

posted @ 2023-01-28 16:57 Jack Jiang 阅读(111) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(七)：手把手教你如何在NodeJS中从零使用Protobuf

摘要: 1、前言Protobuf是Google开源的一种混合语言数据标准，已被各种互联网项目大量使用。Protobuf最大的特点是数据格式拥有极高的压缩比，这在移动互联时代是极具价值的（因为移动网络流量到目前为止仍然昂贵的），如果你的APP能比竞品更省流量，无疑这也将成为您产品的亮点之一。现在，尤其IM、消息推送这类应用中，Protobuf的应用更是非常广泛，基于它的优秀表现，微信和手机QQ这样的主流IM... 阅读全文

posted @ 2023-01-05 16:14 Jack Jiang 阅读(146) | 评论 (0) | 编辑收藏

阿里IM技术分享(九)：深度揭密RocketMQ在钉钉IM系统中的应用实践

本文由钉钉技术专家尹启绣分享，有修订和重新排版。

1、引言

短短的几年时间，钉钉便迅速成为一款国民级应用，发展速度堪称迅猛。

IM作为钉钉最核心的功能，每天需要支持海量企业用户的沟通，同时还通过 PaaS 形式为淘宝、高德等 App 提供基础的即时通讯能力，是日均千亿级消息量的 IM 平台。

在钉钉的IM中，我们通过 RocketMQ实现了系统解耦、异步削峰填谷，还通过定时消息实现分布式定时任务等高级特性。同时与 RocketMQ 深入共创，不断优化解决了很多RocketMQ本身的问题，并且孵化出 POP 消费模式等新特性，使 RocketMQ 能够完美支持对性能稳定性和时延要求非常高的 IM 系统。本文将为你分享这些内容。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4106-1-1.html）

2、系列文章

本文是系列文章的第9篇，总目录如下：

3、钉钉IM面临的巨大技术挑战

3.1 概述

钉钉作为企业级 IM 领先者，面临着巨大的技术挑战。市面上DAU过亿的App里，只有钉钉是2B产品，我们不仅需要和其他 2C 产品一样，支持海量用户的低时延、高并发、高性能、高可用，还需保证企业级用户在使用钉钉时能够提升沟通协同效率。

下图是概括的是钉钉的主要能力：

3.2 技术挑战1：ToB与ToC的差异

作为企业级应用，需要保证帮助用户提升沟通体验。

ToB 的工作沟通和 ToC 的场景生活沟通存在较大差异， ToC的IM产品比如微信，在有完整的关系链后，只需满足大部分用户需求即可。

然而微信的很多体验其实并不友好：比如聊天消息中的视频图片在固定时间内没有打开则会无法下载，卸载重装之后聊天记录全部丢失。

而 ToB 场景下：聊天记录是非常重要的内容，钉钉为保证用户消息不丢失，提供了多端同步和消息云端存储的能力，用户任意换端都能查看完整的聊天记录。

在工作过程中，大量会议是工作效率杀手，钉钉还提供了已读、Ding 等效率套件，为工作沟通提供新选项。

3.3 技术挑战2：安全要求高

在ToB 的工作场景下，用户对信息安全要求非常高，信息安全是企业的生命线。

钉钉提供了人和组织架构打通的工作群，用户离开组织后自动退出企业工作群，这样就很好地保障了企业信息的安全。

同时，在已经支持的全链路加密能力上提供了三方加密能力，可以最大程度保障企业用户的信息安全性。

3.4 技术挑战3：稳定性要求高

企业用户对稳定性的要求也非常高，如果钉钉出现故障，深度使用钉钉的企业都会受到巨大影响。

因此，钉钉 IM 系统在稳定性上也做了非常深入的建设，架构上对依赖和流量做了深入治理，核心能力所有依赖都为双倍。

比如虽然 RocketMQ 已经非常稳定，也没有发生过故障，但是对 RocketMQ 可能出现故障的产品依然做了很好的保护，使用 RocketMQ 定时消息和堆积能力做热点治理和流量防护，让系统面对大规模流量时能从容应对，并且建设了异地多活和可弹性扩缩容能力，疫情期间很好地保证了学生们的在线课堂。

在稳定性机制上，常态化容灾演练、突袭演练、自动化健康巡检等也能很好地保证线上稳定性。比如波浪式流量就是在做断网演练时发现。

3.5 技术挑战4：业务多样性

针对不同行业的业务多样性，还要尽可能地满足用户的通用性需求，比如万人群、全员群等，目前钉钉已经做到能够支持 10 万人级别的群。

更多的业务需求将依赖于我们抽象出的通用开放能力，将 IM 能力尽可能地开放给企业和三方 ISV，使得不同形态的业务都能在钉钉平台上得到满足。

4、消息队列在钉钉IM系统中的重要作用

4.1 概述

在如此丰富的企业级能力下，钉钉IM要与微信等 ToC 产品一样，支持亿级用户低时延沟通，系统架构需要具备高并发、高性能、高可用的能力，挑战非常之大。

IM 本身是异步化沟通系统，与开会或者电话沟通相比，让沟通双方异步处理消息能够减少打断次数，提升沟通效率。这种异步的特性和消息队列的能力很契合，消息队列可以很好地帮助 IM 完成异步化解耦、失败重试、削峰填谷等能力。

这里，我们以钉钉IM系统最核心的发消息和已读链路简化流程（如下图所示），来详细说明消息队列在系统里的重要作用。

4.2 发消息链路

钉钉IM系统的发消息链路流程如下：

1）处于登录状态的钉钉用户发送一条消息时，首先会将请求发送到 receiver 应用；
2）为保证发消息体验和成功率，receiver 应用只做这条消息能否发送的校验，其他如消息入库、接收者推送等都交由下游应用完成；
3）校验完成之后将消息投递给消息队列，成功后即可返回给用户；
4）消息发送成功，processor 会从消息队列里订阅到这条消息，并对消息进行入库处理，再通过消息队列将消息交给同步服务 syncserver 做处理，将消息同步给在线接收者。

上述过程中，对于不在线的用户：可以通过消息队列将消息推给离线 push 系统。离线 push 系统可以对接接苹果、华为、小米等推送系统进行离线推送。

用户发消息过程中的每一步，失败后都可通过消息队列进行重试处理。如 processor 入库失败，可将消息打回消息队列，继续回旋处理，达到最终一致。同时，可以在订阅的过程中对消费限速，避免线上突发峰值给系统带来灾难性的后果。

4.3 消息已读链路

钉钉IM系统的消息已读链路流程如下：

1）用户对一条消息做读操作后，会发送请求到已读服务；
2）已读服务收到请求后，直接将请求放到消息队列进行异步处理，同时可以达到削峰填谷的目的；
3）已读服务处理完之后，将已读事件推给同步服务，让同步服务将已读事件推送给消息发送者。

从上面两个链路可以看出，消息队列是 IM 系统里非常重要的组成部分。

5、钉钉IM选择RocketMQ的原因

阿里内部曾有 notify、RocketMQ 两套应用消息中间件，也有其他基于 MQTT 协议实现的消息队列，最终都被 RocketMQ 统一。

IM 系统对消息队列有如下几个基本要求：

1）解耦和削峰填谷（这是消息队列的基础能力）；
2）高性能、低时延；
3）高可用性。

对于第 3）点：要求消息队列的高可用性方面不仅包括系统可用性，也包括数据可用性，要求写入消息队列时消息不丢失（钉钉 IM 对消息的保证级别是一条都不丢）。

RocketMQ 经过多次双 11 考验，其堆积性能、低时延、高可用已成为业届标杆，完全符合对消息队列的要求。

同时它的其他特性也非常丰富，如定时消息、事务消息，能够以极低的成本实现分布式定时任务，消息可重放和死信队列提供了后悔药的能力，比如线上系统出现 bug ，很多消息没有正确处理，可以通过重置位点、重新消费的方式，订正之前的错误处理。

另外：消息队列的使用场景非常丰富，RocketMQ 的扩展能力可以在消息发送和消费上做切面处理，实现通用性的扩展封装，大大降低开发工作量。 Tag & SQL 过滤能让下游针对性地订阅定业务需要的消息，无需订阅整个 topic 里的所有消息，大幅降低下游系统的订阅压力。

RocketMQ 至今从未发生故障，集群峰值 TPS 可达 300w/s，从生产到消费时延能够保证在 10 ms 以内，支持 30 亿条消息堆积，核心指标数据表现抢眼，性能异常优秀。

6、RocketMQ的消息必达3重保险

如上图所示，发消息流程中，很重要的一步是 receiver 应用做完消息能否发送的校验之后，通过 RocketMQ 将消息投递给 processor做消息入库处理。

投递过程中，将提供三重保险，以保证消息发送万无一失。

第一重保险：receiver 将消息写进 RocketMQ 时， RocketMQ SDK 默认会重试五次（每次尝试不同的 broker ，保障了消息写失败的概率非常小）。

第二重保险：写入 RocketMQ 失败的情况下，会尝试以 RPC 形式将消息投递给 processor 。

第三重保险：如果 RPC 形式也失败，会尝试将本地 redoLog 通过 Crontab 任务定时将消息回放到 RocketMQ 里面。

此外，如何在系统异常的情况下做到消息最终一致？

Processor 收到上游投递的消息时，会尝试对消息做入库处理。即使入库失败，依然会将消息投给同步服务，将消息下发，保证实时消息收发正常。异常情况时会将消息重新投递到异常 topic 进行重试，投递过程中通过设置RocketMQ 定时消息做退避处理，对异常 topic 做限速消费。

重试写不同的 topic 是为了与正常流量隔离，优先处理正常流量，防止因为异常流量消费而导致真正的线上消息处理被延迟。

另外：Rocket MQ 的一个 broker 默认只有一个 Retry 消息队列，如果消费失败量特别大的情况下，会导致下游负载不均，某些机器打死。

此外：如果系统持续发生异常，则会不断地进行回旋重试，如果不做限速处理，线上容易出现流量叠加，导致整个系统雪崩。

7、RocketMQ的独门绝技——分布式定时任务

在几千人的群里发一条消息，假设有 1/4 的成员同时开着聊天窗口，如果不对服务端已读服务和客户端需要更新的已读数做合并处理，更新的 QPS 会高达到 1000/s。钉钉能够支持十几万人的超大群，超大群的活跃对服务端和客户端都会带来很大冲击，而实际上用户的需求只需实现秒级更新。

针对以上场景：可以利用 RocketMQ 的定时消息能力实现分布式定时任务。

以已读流程为例（如下图所示），用户发起请求时，会将请求放入集中式请求队列，再通过 RocketMQ 定时消息生成定时任务，比如 5 秒后批量处理。5秒之后，RocketMQ 订阅到任务触发消息，将队列里面所有请求都取出处理。

▲ 用 RocketMQ 实现分布式定时任务的流程原理

我们抽象了一个分布式定时任务的组件，提供了很多其他实时性可达秒级的功能，如万人群的群状态更新、消息扩展更新都接入了此组件。通过组件的定时合并处理，大幅降低系统压力。

如上图（右边部分），在一些大群活跃的时间点成功地让流量下降并保持平稳状态。

8、钉钉IM使用RocketMQ遇到的技术问题

8.1 概述

RocketMQ 的生产端策略如下：

1）生产者获取到对应 topic 所有 broker 和 Queue 列表，然后轮询写入消息；
2）消费者端也会获取到 topic 所有 broker 和Queue列表；
3）还需要要从 broker 中获取所有消费者 IP 列表进行排序（按照配置负载均衡，如哈希、一次性哈希等策略计算出自己应该订阅哪些 Queue）。

上图中：ConsumerGroupA的Consumer1被分配到MessageQueue0和MessageQueue1，则它订阅MessageQueue0和MessageQueue1。

在RocketMQ的使用过程中，我们面临了诸多问题，下面我们来逐一分享。

8.2 问题1：波浪式流量

我们发现订阅消息集群滚动时，CPU 呈现波浪式飙升。

经过深入排查发现，断网演练后进行网络恢复时，大量 producer 同时恢复工作，同时从第一个 broker 的第一个 Queue 开始写入消息，生产消息波浪式写入 RocketMQ ，进而导致消费者端出现波浪式流量。

最终，我们联系 RocketMQ 开发人员，调整了生产策略，每次生产者发现 broker 数量或状态发生变化时，都会随机选取一个初始Queue写入消息，以此解决问题。

另一个导致波浪式流量的问题是配置问题。

排查线上问题时，从 broker 视角看，每个 broker 的消息量都是平均的，但 consumer 之间流量相差特别大。最终通过在 producer 侧尝试抓包得以定位到问题，是由于 producer 写入消息时超时率偏高。

梳理配置后发现，是由于 producer 写入消息时配置超时太短，Rocket MQ 在写消息时会尝试多次，比如第一个 broker 写入失败后，将直接跳到下一个 broker 的第一个 Queue ，导致每个 broker 的第一个 Queue 消息量特别大，而靠后的 partition 几乎没有消息。

8.3 问题2：负载均衡维度太粗

负载均衡只能到Queue维度，导致需要不时地关注 Queue 数量。

比如线上流量增长过快，需要进行扩容，而扩容后发现机器数大于 Queue 数量，导致无论怎么扩容都无法分担线上流量，最终只能联系 RocketMQ 运维人员调高 Queue 数量来解决。

虽然调高 Queue 数量能解决机器无法订阅的问题，但因为负载均衡策略只到 Queue 维度，负载始终无法均衡。从下图可以看到， consumer 1 订阅了两个 Queue 而 consumer 2 只订阅了一个 Queue。

8.4 问题3：单机夯死导致消息堆积

单机夯死导致消息堆积，这也是负载均衡只能到 Queue 维度带来的副作用。

比如 Broker A 的 Queue 由 consumer 1 订阅，出现宿主机磁盘 IO 夯死但与 broker 之间的心跳依然正常，导致 Queue 消息长时间无法订阅进而影响用户接收消息。最终只能通过手动介入将对应机器下线来解决。

8.5 问题4：rebalance

Rocket MQ 的负载均衡由 client 自己计算，导致有机器异常或发布时，整个集群状态不稳定，时常会出现某些 Queue 有多个 consumer 订阅，而某些 Queue 在几十秒内没有 consumer 订阅的情况。

因而导致线上发布的时候，出现消息乱序或对方已回消息但显示未读的情况。

8.6 问题5：C++ SDK 能力缺失

钉钉IM的核心处理模块Receiver、processor 等应用都是通过 C++ 实现，而RocketMQ 的 C++ SDK 相比于 Java 存在较大缺失。经常出现内存泄漏或 CPU 飙高的情况，严重影响线上服务的稳定。

9、钉钉IM与RocketMQ的相互促进

面对以上困扰，在经过过多次讨论和共创后，最终孵化出 RocketMQ 5.0 POP 消费模式。

这是 RocketMQ 在实时系统里程碑式的升级，解决了大量实时系统使用 RocketMQ 过程中遇到的问题（如下图所示）。

1）Pop消费模式下，每一个 consumer 都会与所有 broker 建立长连接并具备消费能力，以 broker 维护整个消息订阅的负载均衡和位点。重云轻端的模式下，负载均衡、订阅消息、位点维护都在客户端完成，而新客户端只需做长链接管理、消息接收，并且通用 gRPC 协议，使得多语言比如 C++、Go、 Python 等语言客户端都能轻松实现，无需持续投入力去升级维护 SDK 。

2）broker能力升级更简单。重云轻端很好地解决了客户端版本升级问题，客户端改动的可能性和频率大大降低。以往升级新特性或能力只能推动所有相关 SDK 应用进行升级发布，升级过程中还需考虑新老兼容等问题，工作量极大。而新模式只需升级 broker 即可完成工作。

3）单机夯死消息能继续被消费。新模式下 consumer 和 broker 进行网状连接和消息订阅，由 broker 通过负载均衡策略平均分配消息给 consumer 进行消费，以往宕机夯死导致的 Queue 消息堆积问题也迎刃而解。如果 broker 发现 consumer 长时间没有进行消息 ACK ，则将不再对其投递消息，彻底解决单机夯死问题。

4）无需关注partition数量。

5）彻底解决rebalance。

6）负载更均衡。通过新的订阅模式，不管上游流量如何偏移，只要不超过单个 broker 的容量上限，消费端都能实现真正意义上的负载均衡。

POP 模式消费模式已经在钉钉 IM 场景磨合得非常成熟，在对可用性、性能、时延方面要求非常高的钉钉 IM 系统证明了自己，也证明了不断升级的 RocketMQ 是即时通讯场景消息队列的不二选择。

10、相关资料

[1] 现代IM系统中聊天消息的同步和存储方案探讨

[2] 企业级IM王者——钉钉在后端架构上的过人之处

[3] 深度解密钉钉即时消息服务DTIM的技术设计

[4] 钉钉——基于IM技术的新一代企业OA平台的技术挑战(视频+PPT)

[5] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[6] IM系统的MQ消息中间件选型：Kafka还是RabbitMQ？

（本文已同步发布于：http://www.52im.net/thread-4106-1-1.html）

posted @ 2022-12-30 12:05 Jack Jiang 阅读(105) | 评论 (0) | 编辑收藏

基于Netty的IM聊天加密技术学习：一文理清常见的加密概念、术语等

1、引言

在社区中，分享了很多篇基于Netty编写的IM聊天入门文章（比如《跟着源码学IM》系列、《基于Netty，从零开发IM》系列等），在这些文章中分享了各种IM通信算法原理和功能逻辑的实现。但是这样简单的IM聊天系统是比较容易被窃听的，如果想要在里面说点悄悄话是不太安全的。

怎么办呢？学过密码学的朋友可能就想到了一个解决办法，聊天的时候对消息加密，处理的时候再对消息进行解密。是的，道理就是这样。

但密码学本身的理论就很复杂，加上相关的知识和概念又太多太杂，对于IM入门者来说，想要快速理清这些概念并实现合适的加解密方案，是比较头疼的。

本文正好借此机会，以Netty编写的IM聊天加密为例，为入门者理清什么是PKI体系、什么是SSL、什么是OpenSSL、以及各类证书和它们间的关系等，并在文末附上简短的Netty代码实示例，希望能助你通俗易懂地快速理解这些知识和概念！

补充说明：本文为了让文章内容尽可能言简意赅、通俗易懂，尽量不深入探讨各个技术知识和概念，感兴趣的读者可以自行查阅相关资料进一步学习。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4104-1-1.html）

2、相关文章

3、什么是PKI？

我们需要先了解一下公钥和私钥的加密标准体系PKI。

3.1 基本概念

PKI的全称是Public Key Infrastructure，是指支持公钥管理体制的基础设施，提供鉴别、加密、完整性和不可否认性服务。

通俗讲：PKI是集机构、系统（硬件和软件）、人员、程序、策略和协议为一体，利用公钥概念和技术来实现和提供安全服务的、普适性的安全基础设施。

在公钥密码中，发送者用公钥（加密密钥）加密，接收者用私钥（解密密钥）解密。公钥一般是公开的，不再担心窃听，这解决了对称密码中的密钥配送问题。但是接收者依然无法判断收到的公钥是否合法（有可能是中间人假冒的）。

事实上，仅靠公钥密码本身，无法防御中间人攻击。于是，需要（认证机构）对公钥进行签名，从而确认公钥没有被篡改。加了数字签名的公钥称为公钥证书，一般简称证书。

有了证书来认证，可以有效防御中间人攻击，随之带来了一系列非技术性工作。

例如：谁来发证书？如何发证书？不同机构的证书怎么互认？纸质证书作废容易，数字证书如何作废？解决这些问题，需要制定统一的规则，即PKI体系。

PKI体系是通过颁发、管理公钥证书的方式为终端用户提供服务的系统，最核心的元素是证书。

围绕证书构成了PKI体系的要素：

1）使用PKI的用户；
2）颁发证书的机构（Certificate Authority，CA）；
3）保存证书的仓库。

总之：PKI是一个总称，既包括定义PKI的基础标准，也包括PKI的应用标准。

3.2 PKI体系现状

事实上PKI已经有两代了。

第一代的PKI标准主要是由美国RSA公司的公钥加密标准PKCS、国际电信联盟的ITU-T X.509、IETF的X.509、WAP和WPKI等标准组成。但是因为第一代PKI标准是基于抽象语法符号ASN.1进行编码的，实现起来比较复杂和困难，所以产生了第二代PKI标准。

第二代PKI标准是由微软、VeriSign和webMethods三家公司在2001年发布的基于XML的密钥管理规范也叫做XKMS。

事实上现在CA中心使用的最普遍的规范还是X.509系列和PKCS系列。

X.509系列主要由X.209、X.500和X.509组成，其中X.509是由国际电信联盟（ITU-T）制定的数字证书标准。在X.500基础上进行了功能增强，X.509是在1988年发布的。

X.509证书由用户公共密钥和用户标识符组成。此外还包括版本号、证书序列号、CA标识符、签名算法标识、签发者名称、证书有效期等信息。

而PKCS是美国RSA公司的公钥加密标准，包括了证书申请、证书更新、证书作废表发布、扩展证书内容以及数字签名、数字信封的格式等方面的一系列相关协议。它定义了一系列从PKCS#1到PKCS#15的标准。

其中最常用的是PKCS#7、PKCS#12和PKCS#10。PKCS#7 是消息请求语法，常用于数字签名与加密，PKCS#12是个人消息交换与打包语法主要用来生成公钥和私钥（题外话：iOS程序员对PKCS#12不陌生，在实现APNs离线消推送时就需要导出.p12证明，正是这个）。PKCS#10是证书请求语法。

4、什么是SSL？

4.1 基本概念

SSL（全称 Secure Socket Layer）安全套接层是网景公司（Netscape）率先采用的网络安全协议。它是在传输通信协议（TCP/IP）上实现的一种安全协议，采用公开密钥技术。

通俗地说：SSL被设计成使用TCP来提供一种可靠的端到端的安全服务，它不是单个协议，而是二层协议。低层是SSL记录层，用于封装不同的上层协议，另一层是被封装的协议，即SSL握手协议，它可以让服务器和客户机在传输应用数据之前，协商加密算法和加密密钥，客户机提出自己能够支持的全部加密算法，服务器选择最适合它的算法。

SSL特点是：它与应用层协议独立无关。上层的应用层协议（例如：HTTP、FTP、Telnet等）能透明的建立于SSL协议之上。SSL协议在应用层协议通信之前就已经完成加密算法、通信密钥的协商以及服务器认证工作。在此之后应用层协议所传送的数据都会被加密，从而保证通信的私密性。

4.2 与TLS的关系

SSL是网景公司（Netscape）设计，但IETF将SSL作了标准化，即RFC2246，并将其称为TLS（Transport Layer Security），其最新版本是RFC5246、版本1.2。

实际上：TLS是IETF在SSL3.0基础上设计的，相当于SSL的后续版本。所以我们通常都是SSL/TLS放一起说。

5、什么是OpenSSL？

5.1 基本概念

OpenSSL是一个开放源代码的软件库，应用程序可以使用这个包来进行安全通信，它包括代码、脚本、配置和过程的集合。例如：如果您正在编写一个需要复杂安全加密的软件，那么只有添加一个安全加密库才有意义，这样您就不必自己编写一大堆复杂的加解密函数（而且密码学本身很复杂，要写好它们并不容易）。

其主要库是以 C 语言所写成，实现了基本的加密功能，实现了 SSL 与 TLS 协议。

OpenSSL整个软件包大概可以分成三个主要功能部分：

1）SSL协议库；
2）应用程序；
3）密码算法库。

OpenSSL的目录结构自然也是围绕这三个功能部分进行规划的。

OpenSSL 可以运行在 OpenVMS、 Microsoft Windows 以及绝大多数类 Unix 操作系统上。

5.2 具体来说

密钥和证书管理是PKI的一个重要组成部分，OpenSSL为之提供了丰富的功能，支持多种标准。

OpenSSL实现了ASN.1的证书和密钥相关标准，提供了对证书、公钥、私钥、证书请求以及CRL等数据对象的DER、PEM和BASE64的编解码功能。

OpenSSL提供了产生各种公开密钥对和对称密钥的方法、函数和应用程序，同时提供了对公钥和私钥的DER编解码功能。并实现了私钥的PKCS#12和PKCS#8的编解码功能。

OpenSSL在标准中提供了对私钥的加密保护功能，使得密钥可以安全地进行存储和分发。

在此基础上，OpenSSL实现了对证书的X.509标准编解码、PKCS#12格式的编解码以及PKCS#7的编解码功能。并提供了一种文本数据库，支持证书的管理功能，包括证书密钥产生、请求产生、证书签发、吊销和验证等功能。

5.3 发展历程

OpenSSL 计划在 1998 年开始，其目标是发明一套自由的加密工具，在互联网上使用。

OpenSSL 以 Eric Young 以及 Tim Hudson 两人开发的 SSLeay 为基础，随着两人前往 RSA 公司任职，SSLeay 在 1998 年 12 月停止开发。因此在 1998 年 12 月，社群另外分支出 OpenSSL，继续开发下去。

▲ 上图为 Tim Hudson

OpenSSL 管理委员会当前由 7 人组成有 13 个开发人员具有提交权限（其中许多人也是 OpenSSL 管理委员会的一部分）。只有两名全职员工（研究员），其余的是志愿者。

该项目每年的预算不到 100 万美元，主要依靠捐款。 TLS 1.3 的开发由 Akamai 赞助。

5.4 下载方法

OpenSSL可以从其官网上下载，地址是：https://www.openssl.org/source/，感兴趣的读者可以自行下载安装研究。

6、各类证书

6.1 证书类型

操作过证书的朋友可能会对各种证书类型眼花缭乱，典型的体现就是各种不同的证书扩展名上，一般来说会有DER、CRT、CER、PEM这几种证书的扩展名。

以下是最常见的几种：

1）DER文件：表示证书的内容是用二进制进行编码的；
2）PEM文件：是一个文本文件，其内容是以“ - BEGIN -” 开头的，Base64编码的字符；
3）CRT和CER文件：基本上是等价的，他们都是证书的扩展，也是文本文件，不同的是CRT通常用在liunx和unix系统中，而CER通常用在windows系统中。并且在windows系统中，CER文件会被MS cryptoAPI命令识别，可以直接显示导入和/或查看证书内容的对话框；
4）KEY文件：主要用来保存PKCS＃8标准的公钥和私钥。

6.2 常用OpenSSL命令

下面的命令可以用来查看文本证书内容：

openssl x509 -incert.pem -text -noout
openssl x509 -incert.cer -text -noout
openssl x509 -incert.crt -text -noout

下面的命令可以用来查看二进制证书内容：

openssl x509 -incert.der -inform der -text -noout

下面是常见的PEM和DER相互转换。

PEM到DER的转换：

openssl x509 -incert.crt -outform der-out cert.der

DER到PEM的转换：

openssl x509 -incert.crt -inform der -outform pem -out cert.pem

补充说明：上述命令中用到的openssl程序，就是本文中提到的OpenSSL开源库提供的程序。

7、Netty中的聊天加密代码示例

7.1 关于Netty

Netty是一个Java NIO技术的开源异步事件驱动的网络编程框架，用于快速开发可维护的高性能协议服务器和客户端，事实上用Java开发IM系统时，Netty是几乎是首选。

有关Netty的介绍我就不啰嗦了，如果不了解那就详读以下几篇：

《史上最强Java NIO入门：担心从入门到放弃的，请读这篇！》

《Java的BIO和NIO很难懂？用代码实践给你看，再不懂我转行！》

《新手入门：目前为止最透彻的的Netty高性能原理和框架架构解析》

《史上最通俗Netty框架入门长文：基本介绍、环境搭建、动手实战》

基它有关Netty的重要资料：

Netty-4.1.x 源码 (在线阅读版)

Netty-4.1.x API文档 (在线查阅版)

7.2 启动SSL Server代码示例

事实上这个标题是不对的，Netty中启动的server还是原来那个server，只是对发送的消息进行了加密解密处理。也就是说添加了一个专门进行SSL操作的Handler。

netty中代表ssl处理器的类叫做SslHandler，它是SslContext工程类的一个内部类，所以我们只需要创建好SslContext即可通过调用newHandler方法来返回SslHandler。

让服务器端支持SSL的代码：

ChannelPipeline p = channel.pipeline();
SslContext sslCtx = SslContextBuilder.forServer(...).build();
p.addLast("ssl", sslCtx.newHandler(channel.alloc()));

让客户端支持SSL的代码：

ChannelPipeline p = channel.pipeline();
SslContext sslCtx = SslContextBuilder.forClient().build();
p.addLast("ssl", sslCtx.newHandler(channel.alloc(), host, port));

netty中SSL的实现有两种方式，默认情况下使用的是OpenSSL，如果OpenSSL不可以，那么将会使用JDK的实现。

要创建SslContext,可以调用SslContextBuilder.forServer或者SslContextBuilder.forClient方法。

这里以server为例，看下创建流程。

SslContextBuilder有多种forServer的方法，这里取最简单的一个进行分析：

publicstaticSslContextBuilder forServer(File keyCertChainFile, File keyFile) {
returnnewSslContextBuilder(true).keyManager(keyCertChainFile, keyFile);
}

该方法接收两个参数：

1）keyCertChainFile是一个PEM格式的X.509证书文件；
2）keyFile是一个PKCS#8的私钥文件。

熟悉OpenSSL的童鞋应该知道使用openssl命令可以生成私钥文件和对应的自签名证书文件。

具体openssl的操作可以查看我的其他文章，这里就不详细讲解了。

除了手动创建证书文件和私钥文件之外，如果是在开发环境中，大家可能希望有一个非常简单的方法来创建证书和私钥文件，netty为大家提供了SelfSignedCertificate类。

看这个类的名字就是知道它是一个自签名的证书类，并且会自动将证书文件和私钥文件生成在系统的temp文件夹中，所以这个类在生产环境中是不推荐使用的。默认情况下该类会使用OpenJDK's X.509来生成证书的私钥，如果不可以，则使用 Bouncy Castle作为替代。

7.3 启动SSL Client代码示例

同样的在client中支持SSL也需要创建一个handler。

客户端的SslContext创建代码如下：

// 配置 SSL.
finalSslContext sslCtx = SslContextBuilder.forClient().trustManager(InsecureTrustManagerFactory.INSTANCE).build();

上面的代码我们使用了一个InsecureTrustManagerFactory.INSTANCE作为trustManager。

什么是trustManager呢？

当客户端和服务器端进行SSL连接的时候，客户端需要验证服务器端发过来证书的正确性。

通常情况下，这个验证是到CA服务器中进行验证的，不过这样需要一个真实的CA证书环境，所以在测试中，我们使用InsecureTrustManagerFactory，这个类会默认接受所有的证书，忽略所有的证书异常。

当然：CA服务器也不是必须的，客户端校验的目的是查看证书中的公钥和发送方的公钥是不是一致的，那么对于不能联网的环境，或者自签名的环境中，我们只需要在客户端校验证书中的指纹是否一致即可。

netty中提供了一个FingerprintTrustManagerFactory类，可以对证书中的指纹进行校验。

该类中有个fingerprints数组，用来存储安全的授权过的指纹信息。通过对比传入的证书和指纹，如果一致则校验通过。

使用openssl从证书中提取指纹的步骤如下：

openssl x509 -fingerprint -sha256 -inmy_certificate.crt

8、小结一下

上面我们对Netty聊天用到的加密技术和相关概念进行了梳理，我来简单这些概念之间的关系。

这些概念之间的关系，简单来说就是：

1）PKI：是一套加密体系和标准的合集，它是理论方案；
2）SSL：是利用了PKI理论体系，针对Socket网络这个场景设计的一套安全通信标准，属于是PKI的一个具体应用场景；
3）OpenSSL：是PKI体系及SSL标准的算法和代码实现，它包括了具体的开源代码、工具程序等；
4）各种证书：是在SSL或其它基于PKI体系的安全协议标准中需要使用的到一些加密凭证文件等。

而具体到Netty中的聊天加密，那就是应用了上述的PKI体系，基于SSL协议，在OpenSSL等开源库的帮助下实现的安全程序。

9、参考资料

[1] 公钥基础设施（PKI）国际标准进展

[2] 一篇文章让你彻底弄懂SSL/TLS协议

[3] 什么是OpenSSL？它有什么用途

[8] TCP/IP详解（全网唯一在线阅读版）

[9] 快速理解TCP协议一篇就够

[10] Netty-4.1.x 源码(在线阅读版)

[11] Netty-4.1.x API文档(在线版)

（本文已同步发布于：http://www.52im.net/thread-4104-1-1.html）

posted @ 2022-12-22 17:34 Jack Jiang 阅读(98) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(五)：Protobuf到底比JSON快几倍？全方位实测！

摘要: 本文由陶文分享，InfoQ编辑发布，有修订和改动。1、前言本系列的前几篇主要是从各个角度讲解Protobuf的基本概念、技术原理这些内容，但回过头来看，对比JSON这种事实上的数据协议工业标准，Protobuf到底性能到底高多少？本篇将以Protobuf为基准，对比市面上的一些主流的JSON解析库，通过全方位测试来证明给你看看Protobuf到底比JSON快几倍。学习交流：- 移动端IM开发入门文... 阅读全文

posted @ 2022-12-16 12:43 Jack Jiang 阅读(122) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v8.3版已发布

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v8.3 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容【bug修复及优化！】：

1）[bug] 当首页“消息”列表所有的item都是置顶时，取消其中任一个置顶，都会错误地将其排在列表首位而不是列表末尾；
2）[bug] 解决了从首页“消息”列表中遗留的陌生人聊天信息无法重置消息未读数的问题；
3）[bug] 解决了聊天界面中底部面板和输入法软键盘切换时ui发生弹跳的问题；
4）[优化] 重构了APP包名、应用名，防止被某些手机误报成恶意软件。
5）[优化] 重构了搜索功能相关的代码，使之更易理解和维护；
6）[优化] 优化了APP中各种文本输入框UI效果，以及其它UI细节；
7）[优化] 解决了自定义长按菜单在某些机型上item文字会换行的问题；
8）[优化] 大文件发送时，选择的图片、视频文件可以自动以图片消息和短视频消息的形式发送；
9）[优化] 优化了APP处于后台时，收到实时语音/视频请求的通知形式（用高优先级的系统Notification方式提醒用户）。

（2）服务端主要更新内容：

1）[bug] 解决了uid登陆时的sql注入风险；
2）[优化] 升级MobileIMSDK至v6.2正式版。

此版主要功能运行截图（更多截图点此查看）：

posted @ 2022-12-07 15:17 Jack Jiang 阅读(98) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(四)：从Base64到Protobuf，详解Protobuf的数据编码原理

摘要: 本文由腾讯PCG后台开发工程师的SG4YK分享，进行了修订和和少量改动。1、引言近日学习了 Protobuf 的编码实现技术原理，借此机会，正好总结一下并整理成文。接上篇《由浅入深，从根上理解Protobuf的编解码原理》，本篇将从Base64再到Base128编码，带你一起从底层来理解Protobuf的数据编码原理。本文结构总体与 Protobuf 官方文档相似，不少内容也来自官方文档，并在官方... 阅读全文

posted @ 2022-12-02 12:33 Jack Jiang 阅读(128) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(三)：由浅入深，从根上理解Protobuf的编解码原理

摘要: 本文由码农的荒岛求生陆小风分享，为了提升阅读体验，进行了较多修订和排版。1、引言搞即时通讯IM方面开发的程序员，在谈到通讯层实现时，必然会提到网络编程。那么计算机网络编程中的一个非常基本的问题：到底该怎样组织Client与server之间交互的数据呢？本篇文章我们不讨论IM系统中的那些高端技术话题，我们回归到通讯的本质——也就是数据在网络中交互时的编解码原理，并由浅入深从底... 阅读全文

posted @ 2022-11-24 11:43 Jack Jiang 阅读(133) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(二)：快速理解Protobuf的背景、原理、使用、优缺点

本文由vivo技术团队Li Guanyun分享，为了提升阅读体验，行了较多修订和重新排版。

1、引言

Protobuf 作为一种跨平台、语言无关、可扩展的序列化结构数据通讯协议，已广泛应用于网络数据交换的场景中（比如IM通信、分布式RPC调用等）。

随着互联网的发展，分布式系统的异构性会愈发突出，跨语言的需求会愈加明显，同时 gRPC 也大有取代Restful之势，而 Protobuf 作为gRPC 跨语言、高性能的法宝，我们技术人有必要深入理解 Protobuf 原理，为以后的技术更新和选型打下基础。

借此机会，我将个人的Protobuf学习过程以及实践经验，总结成文，与大家一起探讨学习。本篇主要从Protobuf的基础概念开始，包括技术背景、技术原理、使用方法和优缺点。

PS：本篇本跟上篇《Protobuf从入门到精通，一篇就够！》类似，都适合作为Protobuf的入门文章，但本篇力求简洁，尽量不涉及Protobuf的具体技术细节，目的是降低阅读的门槛、提升阅读效果，希望对你有用。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4081-1-1.html）

2、系列文章

本文是系列文章中的第 2 篇，本系列总目录如下：

《IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！》
《IM通讯协议专题学习(二)：快速理解Protobuf的背景、原理、使用、优缺点》（* 本文）
《IM通讯协议专题学习(三)：由浅入深，从通信编解码原理上理解Protobuf》（稍后发布..）
《IM通讯协议专题学习(四)：从Base64到Protobuf，详解Protobuf的数据编码原理》（稍后发布..）
《IM通讯协议专题学习(五)：Protobuf到底比JSON快几倍？请看全方位实测！》（稍后发布..）
《IM通讯协议专题学习(六)：手把手教你如何在Android上从零使用Protobuf》（稍后发布..）
《IM通讯协议专题学习(七)：手把手教你如何在NodeJS中从零使用Protobuf》（稍后发布..）
《IM通讯协议专题学习(八)：金蝶随手记团队的Protobuf应用实践(原理篇) 》（稍后发布..）
《IM通讯协议专题学习(九)：金蝶随手记团队的Protobuf应用实践(实战篇) 》（稍后发布..）

3、什么是Protobuf？

Protobuf（全称是Protocol Buffers）是一种跨平台、语言无关、可扩展的序列化结构数据的方法，可用于网络通信数据交换及存储。

在序列化结构化数据的机制中，Protobuf是灵活、高效、自动化的，相对常见的XML、JSON，描述同样的信息，Protobuf序列化后数据量更小、序列化/反序列化速度更快、更简单。

一旦定义了要处理的数据的数据结构之后，就可以利用Protobuf的代码生成工具生成相关的代码。只需使用 Protobuf 对数据结构进行一次描述，即可利用各种不同语言（proto3支持C++, Java, Python, Go, Ruby, Objective-C, C#）或从各种不同流中对你的结构化数据轻松读写。

PS：类似的介绍，在上篇《Protobuf从入门到精通，一篇就够！》中也有涉及，有兴趣可以一并阅读之。

4、为什么是 Protobuf？

4.1 技术背景

大家可能会觉得 Google 发明 Protobuf 是为了解决序列化速度的，其实真实的原因并不是这样的。

Protobuf最先开始是 Google用来解决索引服务器 request/response 协议的。

在没有Protobuf之前，Google 已经存在了一种 request/response 格式，用于手动处理 request/response 的编解码。

这种sstk式也能支持多版本协议，不过代码不够优雅：

if(protocolVersion=1) {
doSomething();
} elseif(protocolVersion=2) {
doOtherThing();
} ...

如果是非常明确的格式化协议，会使新协议变得非常复杂。因为开发人员必须确保请求发起者与处理请求的实际服务器之间的所有服务器都能理解新协议，然后才能切换开关以开始使用新协议。

这也就是每个服务器开发人员都遇到过的低版本兼容、新旧协议兼容相关的问题。

为了解决这些问题，于是Protobuf就诞生了。

4.2 Protobuf 诞生了

Protobuf 最初被寄予以下 2 个期望：

1）更容易引入新的字段，并且不需要检查数据的中间服务器可以简单地解析并传递数据（而无需了解所有字段）；
2）数据格式更加具有自我描述性，可以用各种语言来处理（比如C++, Java 等各种语言）。

但这个版本的 Protobuf 仍需要自己手写解析的代码。

随着Protobuf的发展、演进，它具有了更多的特性：

1）自动生成的序列化和反序列化代码（避免了手动解析的需要。官方提供自动生成代码工具，各个语言平台的基本都有）；
2）除了用于数据交换之外，Protobuf也被用作某些持久化数据的便捷自描述格式。

Protocol Buffers 命名的由来：

Why the name "Protocol Buffers"?
The name originates from the early days of the format, before we had the protocol buffer compiler to generate classes for us. At the time, there was a class called ProtocolBuffer which actually acted as a buffer for an individual method. Users would add tag/value pairs to this buffer individually by calling methods like AddValue(tag, value). The raw bytes were stored in a buffer which could then be written out once the message had been constructed.
Since that time, the "buffers" part of the name has lost its meaning, but it is still the name we use. Today, people usually use the term "protocol message" to refer to a message in an abstract sense, "protocol buffer" to refer to a serialized copy of a message, and "protocol message object" to refer to an in-memory object representing the parsed message.

4.3 Protobuf 在谷歌业务中的地位

Protobuf 现在是 Google 用于数据交换和存储的通用语言。

谷歌代码树中定义了 48162 种不同的消息类型，包括 12183 个 .proto 文件。它们既用于 RPC 系统，也用于在各种存储系统中持久存储数据。

Protobuf 诞生之初是为了解决服务器端新旧协议（高低版本）兼容性问题，名字也很体贴——“协议缓冲区”，只不过后期慢慢发展成用于传输数据。

5、Protobuf 协议的工作原理

如下图所示：可以看到，对于序列化协议来说，使用方只需要关注业务对象本身，即 idl 定义，序列化和反序列化的代码只需要通过工具生成即可。

6、Protobuf 协议的消息定义

Protobuf 的消息是在idl文件（.proto）中描述的。

下面是本次样例中使用到的消息描述符 customer.proto：

syntax = "proto3";

package domain;

option java_package = "com.Protobuf.generated.domain";
option java_outer_classname = "CustomerProtos";

message Customers {
    repeated Customer customer = 1;
}

message Customer {
    int32 id= 1;
    string firstName = 2;
    string lastName = 3;

    enum EmailType {
        PRIVATE = 0;
        PROFESSIONAL = 1;
    }

    message EmailAddress {
        string email = 1;
        EmailType type= 2;
    }

    repeated EmailAddress email = 5;
}

上面的消息比较简单，Customers包含多个Customer（Customer包含一个id字段、一个firstName字段、一个lastName字段以及一个email的集合）。

除了上述定义外，文件顶部还有三行可帮助代码生成器的申明：

1）syntax = "proto3"：用于idl语法版本，目前有两个版本proto2和proto3，两个版本语法不兼容，如果不指定，默认语法是proto2（由于proto3比proto2支持的语言更多，语法更简洁，本文使用的是proto3）；
2）package domain：此配置用于嵌套生成的类/对象；
3）option java_package：生成器还使用此配置来嵌套生成的源（此处的区别在于这仅适用于Java，在使用Java创建代码和使用JavaScript创建代码时，使用了两种配置来使生成器的行为有所不同。也就是说，Java类是在包com.Protobuf.generated.domain下创建的，而JavaScript对象是在包domain下创建的）。

Protobuf 提供了更多选项和数据类型，本文不做详细介绍，感兴趣可以参考官方文档。

7、Protobuf 的代码生成

首先安装 Protobuf 编译器 protoc（点这里有详细的安装教程）。

安装完成后，可以使用以下命令生成 Java 源代码：

1protoc --java_out=./src/main/java./src/main/idl/customer.proto

上述命令的意图是：从项目的根路径执行该命令，并添加了两个参数 java_out（即定义 ./src/main/java/ 为Java代码的输出目录；而 ./src/main/idl/customer.proto 是.proto文件所在目录）。

生成的代码非常复杂，但幸运的是它的用法却非常简单：

CustomerProtos.Customer.EmailAddress email = CustomerProtos.Customer.EmailAddress.newBuilder()
        .setType(CustomerProtos.Customer.EmailType.PROFESSIONAL)
        .setEmail("crichardson@email.com").build();

CustomerProtos.Customer customer = CustomerProtos.Customer.newBuilder()
        .setId(1)
        .setFirstName("Lee")
        .setLastName("Richardson")
        .addEmail(email)
        .build();
// 序列化
byte[] binaryInfo = customer.toByteArray();
System.out.println(bytes_String16(binaryInfo));
System.out.println(customer.toByteArray().length);
// 反序列化
CustomerProtos.Customer anotherCustomer = CustomerProtos.Customer.parseFrom(binaryInfo);
System.out.println(anotherCustomer.toString());

8、Protobuf 的性能数据

我们简单地以上述Customers为模型，分别构造、选取小对象、普通对象、大对象进行性能对比。

序列化耗时以及序列化后数据大小对比：

反序列化耗时：

更多性能数据可以参考官方的测试Benchmark。

9、Protobuf 的优点

9.1效率高

从序列化后的数据体积角度，与XML、JSON这类文本协议相比，Protobuf通过 T-(L)-V（TAG-LENGTH-VALUE）方式编码，不需要", {, }, :等分隔符来结构化信息。同时在编码层面使用varint压缩。

所以描述同样的信息，Protobuf序列化后的体积要小很多，在网络中传输消耗的网络流量更少，进而对于网络资源紧张、性能要求非常高的场景。比如在移动网络下的IM即时通讯应用中，Protobuf协议就是非常不错的选择（PS：这也是我为什么着手分享Protobuf系列文章的原因啦）。

我们来简单做个对比。

要描述如下JSON数据：

1{"id":1,"firstName":"Chris","lastName":"Richardson","email":[{"type":"PROFESSIONAL","email":"crichardson@email.com"}]}

使用JSON序列化后的数据大小为118byte：

7b226964223a312c2266697273744e616d65223a224368726973222c226c6173744e616d65223a2252696368617264736f6e222c22656d61696c223a5b7b2274797065223a2250524f46455353494f4e414c222c22656d61696c223a226372696368617264736f6e40656d61696c2e636f6d227d5d7d

而使用Protobuf序列化后的数据大小为48byte：

0801120543687269731a0a52696368617264736f6e2a190a156372696368617264736f6e40656d61696c2e636f6d1001

从序列化/反序列化速度角度，与XML、JSON相比，Protobuf序列化/反序列化的速度更快，比XML要快20-100倍。

9.2支持跨平台、多语言

Protobuf是平台无关的，无论是Android、iOS、PC，还是C#与Java，都可以利用Protobuf进行无障碍通讯。

proto3支持C++、Java、Python、Go、Ruby、Objective-C、C#（详见《Protobuf从入门到精通，一篇就够》）。

9.3扩展性、兼容性好

Protobuf具有向后兼容的特性：更新数据结构以后，老版本依旧可以兼容，这也是Protobuf诞生之初被寄予解决的问题，因为编译器对不识别的新增字段会跳过不处理。

9.4使用简单

Protobuf 提供了一套编译工具，可以自动生成序列化、反序列化的样板代码，这样开发者只要关注业务数据idl，简化了编码解码工作以及多语言交互的复杂度。

10、Protobuf 的缺点

Protobuf的优点很突出，但缺点也很明显。

Protobuf的缺点主要是：

1）不具备自描述能力：跟XML、JSON相比，这两者是自描述的，而ProtoBuf则不是；
2）数据可读性非常差：ProtoBuf是二进制协议，如果没有idl文件，就无法理解二进制数据流，对调试非常不友好。

不过：Charles已经支持Protobuf协议，导入数据的描述文件即可，详情可参考 Charles Protocol Buffers。

然而：由于没有idl文件无法解析二进制数据流，ProtoBuf在一定程度上可以保护数据，提升核心数据被破解的门槛，降低核心数据被盗爬的风险（也算是缺点变优点的典型范例）。

11、参考资料

[1] Protobuf官方网站

[2] Protobuf从入门到精通，一篇就够！

[3] 如何选择即时通讯应用的数据传输格式

[4] 强列建议将Protobuf作为你的即时通讯应用数据传输格式

[5] APP与后台通信数据格式的演进：从文本协议到二进制协议

[6] 面试必考，史上最通俗大小端字节序详解

[7] 移动端IM开发需要面对的技术问题（含通信协议选择）

[8] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[9] 理论联系实际：一套典型的IM通信协议设计详解

[10] 58到家实时消息系统的协议设计等技术实践分享

（本文已同步发布于：http://www.52im.net/thread-4081-1-1.html）

posted @ 2022-11-17 10:52 Jack Jiang 阅读(89) | 评论 (0) | 编辑收藏

即时通讯技术文集（第5期）：零基础通信技术入门 [共15篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第5 期。

* 评语：本系列文章尽量使用最浅显易懂的文字、图片来组织内容，力求通信技术零基础的人群也能看懂。但个人建议，至少稍微了解过网络通信方面的知识后再看，会更有收获。特别推荐即时通讯开发者来阅读，因为针对移动弱网的问题，确实可以找到很多有价值的答案。

[- 1 -] IM开发者的零基础通信技术入门(一)：通信交换技术的百年发展史(上)

[链接]http://www.52im.net/thread-2354-1-1.html

[摘要] 本文（上下两篇）将带你了解当今通信交换技术最初的模样以及发展过程。学习技术更要了解技术的前世今生，技术本无聊，故事很有趣。

[- 2 -]IM开发者的零基础通信技术入门(二)：通信交换技术的百年发展史(下)

[链接]http://www.52im.net/thread-2356-1-1.html

[摘要] 接上篇，本篇里我们需要暂停一下，回过头来看看我们国家的交换机发展情况。

[- 3 -] IM开发者的零基础通信技术入门(三)：国人通信方式的百年变迁

[链接] http://www.52im.net/thread-2360-1-1.html

[摘要] 本文通过大量珍贵历史图片，从中国第一条电报线路，到如今触手可及的5G网络，回顾过去、展望未来，一起来看国人通信方式的百年历史变迁。

[- 4 -]IM开发者的零基础通信技术入门(四)：手机的演进，史上最全移动终端发展史

[链接] http://www.52im.net/thread-2369-1-1.html

[摘要] 本文将通过大量历史图片，讲述手机这种移动终端的演化过程，为您呈现如今已深度融入人类生活的智能手机本来的样子。了解过去，才能更好地展望未来。

[- 5 -] IM开发者的零基础通信技术入门(五)：1G到5G，30年移动通信技术演进史

[链接] http://www.52im.net/thread-2373-1-1.html

[摘要] 今天的5G，3.5GHz+大规模MIMO+波束赋形，还有固定无线应用，不禁让人看到了当年3G时代WiMax的影子，但WiMax为何输给了LTE，难道命运也喜欢对技术开玩笑吗？一部跨越三十年惊心动魄的移动通信史，为你揭晓答案。

[- 6 -] IM开发者的零基础通信技术入门(六)：移动终端的接头人——“基站”技术

[链接] http://www.52im.net/thread-2375-1-1.html

[摘要]自上个世纪70年代末移动通信网络诞生以来，移动通信基站已经陪伴人类40年了，为人类社会带来了空前的变革，但你知道它的故事吗？

[- 7 -] IM开发者的零基础通信技术入门(七)：移动终端的千里马——“电磁波”

[链接] http://www.52im.net/thread-2382-1-1.html

[摘要] 本文将回归到无线通信的技术之魂——“电磁波”，尽量用通俗易懂的文字讲述这个稍显枯燥的通信技术基础知识。

[- 8 -] IM开发者的零基础通信技术入门(八)：零基础，史上最强“天线”原理扫盲

[链接] http://www.52im.net/thread-2385-1-1.html

[摘要] 实际生活中，无线通信中的天线都长什么样？有哪些用途？更重要的是，天线的技术原理是怎样的？本文将通过大量的图片，为你讲述这些内容。本文力求通俗易懂，面向零基础读者，希望继续给即时通讯网的开发者带来更多通信技术方面的收获。

[- 9 -] IM开发者的零基础通信技术入门(九)：无线通信网络的中枢——“核心网”

[链接]http://www.52im.net/thread-2391-1-1.html

[摘要] 对于通信专业的人来说，几乎每个人都认为核心网难（不只是难，而且是非常难），很难有人能通俗易懂地讲明白它是什么东西。所以本文想借此机会，为零基础的IM开发者或其他移动端应用层程序员们，讲清楚这个话题。

[- 10 -] IM开发者的零基础通信技术入门(十)：零基础，史上最强5G技术扫盲

[链接] http://www.52im.net/thread-2394-1-1.html

[摘要] 作为IM开发者，或者移动端开发者来说，提前了解5G技术显然是很有必要的。那么什么是5G技术？技术原理是怎么样的？5G技术将带来哪些技术革新？本文将以零基础的应用程序开发者为阅读对象，帮你找到这些问题的答案。

[- 11 -] IM开发者的零基础通信技术入门(十一)：为什么WiFi信号差？一文即懂！

[链接] http://www.52im.net/thread-2402-1-1.html

[摘要] 为什么WiFi信号会受影响？什么情况下该使用何种方式组网？如何改善WiFi信号差的问题？等等，本文将通俗易懂地为你找到这些问题的答案。

[- 12 -] IM开发者的零基础通信技术入门(十二)：上网卡顿？网络掉线？一文即懂！

[链接]http://www.52im.net/thread-2406-1-1.html

[摘要] 本文将详细介绍生活中遇到的常见网络问题，及可能的解决方法，虽说是一篇技术文章，但内容将一如既往地通俗易懂，简单实用。

[- 13 -] IM开发者的零基础通信技术入门(十三)：为什么手机信号差？一文即懂！

[链接] http://www.52im.net/thread-2415-1-1.html

[摘要] 关于手机信号的问题真的不是大家想象得那么简单。本文正好收集整理了这一块的通信技术知识，一如既往的力求通俗易懂，希望对你有用。

[- 14 -] IM开发者的零基础通信技术入门(十四)：高铁上无线上网有多难？一文即懂！

[链接] http://www.52im.net/thread-2419-1-1.html

[摘要] 为什么在高铁上手机信号会这么差？这个无线通信难题真的无法解决吗？今天，作为通信老司机的笔者，就详细和大家聊聊这个问题。

[- 15 -] IM开发者的零基础通信技术入门(十五)：理解定位技术，一篇就够

[链接]http://www.52im.net/thread-2428-1-1.html

[摘要] 定位技术到底是怎么实现的？技术原理怎样？有哪些局限性？貌似我们平时也没有做更多了解，既然这样，那就跟着本文来一窥究竟吧。

👉52im社区本周新文：《IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！ http://www.52im.net/thread-4080-1-1.html》，欢迎阅读！👈

我是Jack Jiang，我为自已带盐！https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2022-11-11 11:33 Jack Jiang 阅读(215) | 评论 (0) | 编辑收藏

IM通讯协议专题学习(一)：Protobuf从入门到精通，一篇就够！

摘要: 本文由IBM开发者社区分享，有较多修订和改动。1、引言在当今移动网络时代，手机流量和电量是宝贵的资源，对于移动端最常见的即时通讯IM应用，由于实时通信基于Socket长连接，它对于流量和电量的需求较一般应用来说更高（详见《移动端IM实践：WhatsApp、Line、微信的心跳策略分析》）。在IM应用中，优化数据流量消耗过多的基本方法就是使用高度压缩的通讯协议，而数据压缩后流量减小带来的自然结果也就... 阅读全文

posted @ 2022-11-10 11:49 Jack Jiang 阅读(112) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat-iOS端v6.1版已发布

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v6.1 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug] 在聊天信息界面中查找消息时，点击查看指定消息，在聊天界面中不能自动滚动到这条消息；
2）[bug] 点击首页“消息”列表中遗留的陌生人聊天信息时，无法重置消息未读数的问题；
3）[bug] 在聊天界面中进入别的界面再回来时，底部面板没有自动关闭/收起；
4）[优化] 优化了标题栏弹出菜单的圆角效果（使之更符合最新iOS美感设计）；
5）[优化] 优化了APP中各种文本输入框UI效果，以及其它UI细节；
6）[优化] 优化了短视频录制界面在iOS16“灵动岛”手机上的ui适配。

此版主要功能运行截图（更多截图点此查看）：

posted @ 2022-11-05 17:42 Jack Jiang 阅读(85) | 评论 (0) | 编辑收藏

IM消息ID技术专题(七)：网易严选分布式ID的技术选型、优化、落地实践

1、引言

在《IM消息ID技术专题》系列文章的前几篇中，我们已经深切体会到消息ID在分布式IM聊天系统中的重要性以及技术实现难度，各种消息ID生成算法及实现虽然各有优势，但受制于具体的应用场景，也并不能一招吃遍天下，所以真正在IM系统中该如何落地消息ID算法和实现逻辑，还是要因地致宜，根据自已系统的设计逻辑和产品定义取其精华，综合应用之。

本文将基于网易严选的订单ID使用现状，分享我们是如何结合业内常用的分布式ID解决方案，从而在此基础之上进行ID特性丰富，并不断提升系统可用性和稳定性保障。同时，也对ID生成算法的落地实践过程中遇到坑进行了深入剖析。

本篇中的订单ID虽然不同于IM系统中的消息ID，但其技术实践仍然相通，希望能给你的IM系统消息ID技术选型也来更多的启发。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4069-1-1.html）

2、关于作者

西狂：服务端研发工程师, 早期参与严选采购、严选财务、严选合伙人以及报警平台等系统后端建设，目前主要致力于严选交易域技术演进以及业务研发工作。

3、系列文章

本文是系列文章中的第7篇，本系列总目录如下：

4、为什么需要分布式ID？

4.1 业务背景

如上图所示，对于网易严选的主站、分销和tob都会生成各自的订单ID，在同步订单数据到订单中心的时候，订单中心会生成一个订单中心内部的一个订单号，只是推送给到下游仓配时使用的订单ID略有不同。

4.2 带来的问题

因为订单ID使用的混乱，导致了一系列问题的产生，例如: 沟通壁垒、管控困难以及代码腐化等等。

4.3 技术目标

我们希望通过分布式ID来帮助生成订单ID，在业务规则上必须全局唯一、安全性高，在性能上要高可用、低延迟。

5、我们的分布式ID架构原理

5.1 技术选型

下表是业内常见的分布式ID解决方案：

综合考虑是否支持水平扩展以及能够显示指定ID长度，最终选择的是Leaf的Segment模式（详见《深度解密美团的分布式ID生成算法》）。

5.2 架构简介

Leaf采用了预分发的方式来生成ID（如下图所示），在DB之上搭载若干个Server，每个Server在启动的时候，都会去DB中拿固定长度的ID列表，存放于内存中，因为ID是基于内存分发的，所以可以做到很高效。

在数据持久化方面，每次去DB拿固定长度的ID列表，只是把最大的ID持久化。

整体架构实现比较简单，主要是为了尽快解决业务层DB压力的问题，但是在生产环境中也暴露出一些问题。

比如：

1）TP999数据波动大，当号段使用完之后还是会hang在更新数据库的I/O上，tp999数据会出现偶尔的尖刺；
2）当更新DB号段的时候，如果DB宕机或者发生主从切换，会导致一段时间的服务不可用。

5.3 可用性优化

为了解决上面提到这个两个问题，引入双Buffer机制和异步更新策略，当一个Buffer消耗到某个临界点时，就会异步的触发任务，把下一个号段加载到内存中。

保证无论何时DB出现问题，都能有一个Buffer的号段可以正常对外提供服务，只要DB在一个Buffer的下发的周期内恢复，就不会影响整个Leaf的可用性。

5.4 步长动态调整

号段长度在固定不变的前提下，流量的突增和锐减都会使得正常流量下维持原有号段正常工作的时间缩短和提升。

可以尝试使用以下关系表达式来描述：

Q * T = L
(Q：服务qps L：号段长度 T：号段更新周期)

但是Leaf的本质是希望T固定，如果Q和L可以正相关，T就可以趋于一个定值。

所以在Leaf每次更新号段的时候，会根据上一次号段更新的周期T和号段长度step，来决定下一次号段长度nextStep。

如下所示：

T < 15min，nextStep = step * 2
15min < T < 30min，nextStep = step
T > 30min，nextStep = step / 2
(初始指定step <= nextStep <= 最大值(自定义：100W))

6、我们做了什么改进？

6.1 特性丰富

通过结合严选的实际业务场景，进行了特性化支持，例如支持批量ID获取、大促提前扩容以及提前跳段处理。

6.2 可用性保障

1）针对DB：

DB（MySql）采用主从模式（读写分离、降低主库压力），一主两从的配置方式，Master和Slave之间采用的是半同步复制（数据一致性要求，后期可考虑使用MySql Group Replication）。同时还添加了双1配置，保证不丢数据。

2）引入SDK：

通过引入SDK可以降低各个业务方的接入成本、降低Leaf服务端压力以及在Leaf服务不可用时，客户端起到短暂降级的效果。

SDK的实现原理和Leaf类似，在项目启动之初会加载业务关心参数配置信息，在应用构建本地缓存，同样采用了双Buffer存储模式。

6.3 稳定性保障

1）运维方面：

主要分为3个方面：

1）日志监控：可以帮助发现预期之外的异常情况；
2）流量监控：流有助于号段长度的评估范围，预防号段被快速消费的极端场景；
3）线上巡检：可以时刻对服务进行存活校验。

2）SLA高可用方面：

除了运维之外还做了SLA的接入，通常用SLA来衡量系统的稳定性，除此之外我们还按照接口维度设定了SLO目标规则，目前的指标项比较单一只有请求延迟和错误率这两项。

7、我们遇到的坑

7.1 问题发现

如下图所示，我们发现每次服务启动上线接口的rt（响应时间）都要比平时高的多，但是过了一段时间之后却又恢复成正常水平。

7.2 问题探究

在分析之前，我们可以先简单的回顾下java虚拟机是如何运行Java字节码的。

虚拟机视角下Java字节码如何被虚拟机运行：

Java虚拟机将class文件加载到虚拟机中，然后将字节码翻译成机器码给底层硬件执行，而这里的翻译有两种形式，解释执行和编译执行。前者的优势在于无需等待编译，后者的优势在于实际运行速度更快。HotSpot默认采用混合模式，它会先解释执行字节码，然后将其中反复执行的热点代码，以方法为单位进行即时编译，JVM是依据方法的调用次数以及循环回边的执行次数来触发JIT编译的。

在Java7之前我们可以根据程序的特性选择对应的即时编译器。Java7开始引入分层编译机制（-XX:+TieredCompilation）：综合了C1的启动性能优势和C2的峰值性能优势。

分层编译将JVM的执行状态分为了5个层次：

L0：解释执行（也会profiling）；
L1：执行不带profiling的C1代码；
L2：执行仅带方法调用次数和循环回边执行次数profiling的C1代码；
L3：执行带所有profiling的C1代码；
L4：执行C2代码。

对于C1编译的三个层次，按执行效率从高至低：L1 > L2 > L3, 这是因为profiling越多，额外的性能开销越大。通常情况下，C2代码的执行效率比C1代码高出30%以上。（这里需要注意的是Java8默认开启了分层编译）

这张图列出了常见的分层编译的编译路径：

1）通常情况下，热点方法会被第三层的C1编译器编译，再被C2编译器编译(0-> 3-> 4)；
2）如果方法的字节数目比较少并且第三层的profilling没有可收集的数据，jvm会判定该方法对于C1和C2的执行效率相同，在经过3层的C1编译过后，直接回到1层的C1(0-> 3-> 1)；
3）在C1忙碌的情况下，JVM在解释执行过程中对程序进行profiling，而后直接由4层的C2编译(0-> 4)；
4）在C2忙碌的情况下，方法会被2层的C1编译，然后再被3层的C1编译，以减少方法在3层的执行时间(0-> 2-> 3-> 4)。

上图是项目启动时的分层编译日志以及整个过程接口响应RT。

从图中可以看到先是执行了C1编译，再执行C2编译（日志文件中的3和4分别打标L3和L4），满足 0->3->4 编译顺序。

发现从C1编译到C2编译耗时过程比较长，这符合我们一开始提出的疑问，为什么项目启动需要经过一段时间接口RT才能趋于稳定。

7.3 解决方案

为了能在项目启动之初，快速达到接口RT峰值，因此只要尽最大程度缩短解释执行这个中间过程即可。

相应的解决方案：

方案 1：关闭分层编译，降低编译阈值；
方案 2：Mock接口数据, 快速触发JIT编译以及C2编译；
方案 3：Java9 AOT提前编译。

针对方案3：Java9中支持新特性AOT提前编译，相比较于JIT即时编译而言，AOT在运行前就已经编译好了，避免 JIT 编译器的运行时性能消耗，同时避免解释程序的早期性能开销，可以极大提高java代码性能。

8、落地使用概况

Leaf已经在线上环境投入使用，各个业务方（包括主站、渠道、tob）也相应接入进行统一整改，自此严选订单ID生成得到统一收拢。

在整个严选的落地情况，按照业务维度，目前累计接入3个业务，分别是订单ID、订单快照ID、订单商品快照ID，都经受住了双十一和双十二考验。

9、参考资料

[1] 微信的海量IM聊天消息序列号生成实践（算法原理篇）

[2] 解密融云IM产品的聊天消息ID生成策略

[3] 深度解密美团的分布式ID生成算法

[4] 深度解密滴滴的高性能ID生成器(Tinyid)

（本文已同步发布于：http://www.52im.net/thread-4069-1-1.html）

posted @ 2022-11-03 11:45 Jack Jiang 阅读(109) | 评论 (0) | 编辑收藏

即时通讯技术文集（第4期）：不为人知的网络编程 [共14篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第4 期。

[- 1 -] 不为人知的网络编程(一)：浅析TCP协议中的疑难杂症(上篇)

[链接] http://www.52im.net/thread-1003-1-1.html

[摘要] 可能大家都知道TCP是三次交互完成连接的建立，四次交互来断开一个连接，那为什么是三次握手和四次挥手呢？反过来不行吗？

[- 2 -] 不为人知的网络编程(二)：浅析TCP协议中的疑难杂症(下篇)

[链接] http://www.52im.net/thread-1004-1-1.html

[摘要] 接上篇《不为人知的网络编程(一)：浅析TCP协议中的疑难杂症(上篇)》，我们提到第6个疑问：TCP的头号疼症TIME_WAIT状态，下面我们继续这个问题的解答。

[-3 -] 不为人知的网络编程(三)：关闭TCP连接时为什么会TIME_WAIT、CLOSE_WAIT

[链接] http://www.52im.net/thread-1007-1-1.html

[摘要] 这次就和大家分享一下我们的netframework服务总会抛出一个“connet reset by peer”的原因吧。

[-4 -] 不为人知的网络编程(四)：深入研究分析TCP的异常关闭

[链接] http://www.52im.net/thread-1014-1-1.html

[摘要] 大家都明白是“网络被对端重置了”，但究竟什么情况下会导致这种情况呢？本文就对TCP的各种关闭情况做了进一步的测试研究。

[- 5 -] 不为人知的网络编程(五)：UDP的连接性和负载均衡

[链接] http://www.52im.net/thread-1018-1-1.html

[摘要] 本文将从实践出发，讨论UDP在实际应用中的连接性和负载均衡问题。

[- 6 -] 不为人知的网络编程(六)：深入地理解UDP协议并用好它

[链接] http://www.52im.net/thread-1024-1-1.html

[摘要]本文接上篇《不为人知的网络编程(五)：UDP的连接性和负载均衡》，将从实践出发，讨论如何深入地理解UDP协议并在实践中用好它。

[- 7 -] 不为人知的网络编程(七)：如何让不可靠的UDP变的可靠？

[链接] http://www.52im.net/thread-1293-1-1.html

[摘要] 在 UDP 之上做一层可靠，很多朋友认为这是很不靠谱的事情，也有朋友认为这是一个大杀器，可以解决实时领域里大部分问题。涉及到实时传输我们都会先考虑 RUDP，RUDP 应用在我们APP核心传输体系的各个方面，但不同的系统场景我们设计了不同的 RUDP 方式，所以基于那些激烈的讨论和我们使用的经验，我决定扒一扒 RUDP，来给大家分享如何让UDP变的可靠的实践经验。

[- 8 -] 不为人知的网络编程(八)：从数据传输层深度解密HTTP

[链接] http://www.52im.net/thread-2456-1-1.html

[摘要] 市面上讲HTTP协议的文章很多，但深入到传输层从2进制的角度来解析，则相当少见。保证全篇读完之后，你对HTTP的理解会上升一个台阶！

[- 9 -] 不为人知的网络编程(九)：理论联系实际，全方位深入理解DNS

[链接] http://www.52im.net/thread-2740-1-1.html

[摘要] 当我们发现可以上QQ但不能浏览网页时，我们会想到可能是域名服务器挂掉了；当我们用别人提供的hosts文件浏览到一个“不存在”的网页时，我们会了解到域名解析系统的脆弱。然而关于DNS还有一大堆故事值得我们去倾听，去思考。

[- 10 -] 不为人知的网络编程(十)：深入操作系统，从内核理解网络包的接收过程(Linux篇)

[链接] http://www.52im.net/thread-3247-1-1.html

[摘要] 这篇文章将用图解的方式，从操作系统这一层来深度理解一下网络包的接收过程。

[- 11 -] 不为人知的网络编程(十一)：从底层入手，深度分析TCP连接耗时的秘密

[链接] http://www.52im.net/thread-3265-1-1.html

[摘要] TCP的开销到底有多大，能否进行量化。一条TCP连接的建立需要耗时延迟多少，是多少毫秒，还是多少微秒？能不能有一个哪怕是粗略的量化估计？我今天只分享我在工作实践中遇到的比较高发的各种情况。

[- 12 -] 不为人知的网络编程(十二)：彻底搞懂TCP协议层的KeepAlive保活机制

[链接] http://www.52im.net/thread-3506-1-1.html

[摘要] 次借本文想把TCP协议的KeepAlive保活机制给详细的整理出来，以便大家能深入其中一窥究竟。

[- 13 -] 不为人知的网络编程(十三)：深入操作系统，彻底搞懂127.0.0.1本机网络通信

[链接] http://www.52im.net/thread-3590-1-1.html

[摘要] 今天咱们就把 127.0.0.1 本机网络通信相关问题搞搞清楚！

[- 14 -] 不为人知的网络编程(十四)：拔掉网线再插上，TCP连接还在吗？一文即懂！

[链接] http://www.52im.net/thread-3846-1-1.html

[摘要] 本篇文章，我们就从系统层面深入地探讨一个有趣的TCP技术问题：拔掉网线后，再插上，原本的这条TCP连接还在吗？或者说它还“好”吗？

我是Jack Jiang，我为自已带盐！
https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2022-11-01 12:14 Jack Jiang 阅读(99) | 评论 (0) | 编辑收藏

IM跨平台技术学习(六)：网易云信基于Electron的IM消息全文检索技术实践

本文作者网易云信高级前端开发工程师李宁，本文有修订。

1、引言

在IM客户端的使用场景中，基于本地数据的全文检索功能扮演着重要的角色，最常用的比如：查找聊天记录、联系人等。

类似于IM中的聊天记录查找、联系人搜索这类功能，有了全文检索能力后，确实能大大提高内容查找的效率，不然，让用户手动翻找，确实降低了用户体验。

本文将要分享的是，网易云信基于Electron的PC端是如何实现IM客户端全文检索能力的。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4065-1-1.html）

2、关于作者

李宁：网易云信高级前端开发工程师，负责音视频 IM SDK 的应用开发、组件化开发及解决方案开发，对 React、PaaS 组件化设计、多平台的开发与编译有丰富的实战经验。

3、系列文章

本文是系列文章中的第6篇，本系列总目录如下：

4、什么是全文检索

所谓全文检索，就是要在大量内容中找到包含某个单词出现位置的技术。

在传统的关系型数据库中，只能通过LIKE条件查询来实现，这样有几个弊端：

1）无法使用数据库索引，需要遍历全表，性能较差；
2）搜索效果差，只能首尾位模糊匹配，无法实现复杂的搜索需求；
3）无法得到内容与搜索条件的相关性。

我们在 IM 的 iOS、安卓以及桌面端中都实现了基于 SQLite 等库的本地数据全文检索功能，但是在 Web 端和基于Electron的PC端上缺少了这部分功能。

因为在 Web 端，由于浏览器环境限制，能使用的本地存储数据库只有 IndexDB，暂不在讨论的范围内。但在基于Electron的PC端上，虽然也是内置了 Chromium 的内核，但是因为可以使用 Node.js 的能力，于是乎选择的范围就多了一些。本文内容我们具体以基于Electron的IM客户端为例，来讨论全文检索技术实现。

PS：如果你不了解什么是Electron技术，读一下这篇《快速了解Electron：新一代基于Web的跨平台桌面技术》。

我们先来具体看下该如何实现全文检索。

要实现全文检索，离不开以下两个知识点：

1）倒排索引；
2）分词。

这两个技术是实现全文检索的技术以及难点，其实现的过程相对比较复杂，在聊全文索引的实现前，我们具体学习一下这两个技术的原理。

5、什么是倒排索引

先简单介绍下倒排索引，倒排索引的概念区别于正排索引：

1）正排索引：是以文档对象的唯一 ID 作为索引，以文档内容作为记录的结构；
2）倒排索引：是以文档内容中的单词作为索引，将包含该词的文档 ID 作为记录的结构。

以倒排索引库 search-index 举个实际的例子：

在我们的 IM 中，每条消息对象都有 idClient 作为唯一 ID，接下来我们输入「今天天气真好」，将其每个中文单独分词（分词的概念我们在下文会详细分享），于是输入变成了「今」、「天」、「天」、「气」、「真」、「好」。再通过 search-index 的 PUT 方法将其写入库中。

最后看下上述例子存储内容的结构：

如是图所示：可以看到倒排索引的结构，key 是分词后的单个中文、value 是包含该中文消息对象的 idClient 组成的数组。

当然：search-index 除了以上这些内容，还有一些其他内容，例如 Weight、Count 以及正排的数据等，这些是为了排序、分页、按字段搜索等功能而存在的，本文就不再细细展开了。

6、什么是分词

6.1基本概念

分词就是将原先一条消息的内容，根据语义切分成多个单字或词句，考虑到中文分词的效果以及需要在 Node 上运行，我们选择了Nodejieba作为基础分词库。

以下是 jieba 分词的流程图：

以“去北京大学玩”为例，我们选择其中最为重要的几个模块分析一下。

6.2加载词典

jieba 分词会在初始化时先加载词典，大致内容如下：

6.3构建前缀词典

接下来会根据该词典构建前缀词典，结构如下：

其中：“北京大”作为“北京大学”的前缀，它的词频是0，这是为了便于后续构建 DAG 图。

6.4构建 DAG 图

DAG 图是 Directed Acyclic Graph 的缩写，即有向无环图。

基于前缀词典，对输入的内容进行切分。

其中：

1）“去”没有前缀，因此只有一种切分方式；
2）对于“北”，则有“北”、“北京”、“北京大学”三种切分方式；
3）对于“京”，也只有一种切分方式；
4）对于“大”，有“大”、“大学”两种切分方式；
5）对于“学”和“玩”，依然只有一种切分方式。

如此，可以得到每个字作为前缀词的切分方式。

其 DAG 图如下图所示：

6.5最大概率路径计算

以上 DAG 图的所有路径如下：

去/北/京/大/学/玩
去/北京/大/学/玩
去/北京/大学/玩
去/北京大学/玩

因为每个节点都是有权重（Weight）的，对于在前缀词典里的词语，它的权重就是它的词频。因此我们的问题就是想要求得一条最大路径，使得整个句子的权重最高。

这是一个典型的动态规划问题，首先我们确认下动态规划的两个条件。

1）重复子问题：

对于节点 i 和其可能存在的多个后继节点 j 和 k：

1）任意通过i到达j的路径的权重 = 该路径通过i的路径权重 + j的权重，即 R(i -> j) = R(i) + W(j)；
2）任意通过i到达k的路径的权重 = 该路径通过i的路径权重 + k的权重，即 R(i -> k) = R(i) + W(k)。

即对于拥有公共前驱节点 i 的 j 和 k，需要重复计算到达 i 路径的权重。

2）最优子结构：

设整个句子的最优路径为 Rmax，末端节点为 x，多个可能存在的前驱节点为 i、j、k。

得到公式如下：

Rmax = max(Rmaxi, Rmaxj, Rmaxk) + W(x)

于是问题变成了求解 Rmaxi、Rmaxj 以及 Rmaxk，子结构里的最优解即是全局最优解的一部分。

如上，最后计算得出最优路径为“去/北京大学/玩”。

6.6HMM 隐式马尔科夫模型

对于未登陆词，jieba 分词采用 HMM（Hidden Markov Model 的缩写）模型进行分词。

它将分词问题视为一个序列标注问题，句子为观测序列，分词结果为状态序列。

jieba 分词作者在 issue 中提到，HMM 模型的参数基于网上能下载到的 1998 人民日报的切分语料，一个 MSR 语料以及自己收集的 TXT 小说、用 ICTCLAS 切分，最后用 Python 脚本统计词频而成。

该模型由一个五元组组成，并有两个基本假设。

五元组：

1）状态值集合；
2）观察值集合；
3）状态初始概率；
4）状态转移概率；
5）状态发射概率。

基本假设：

1）齐次性假设：即假设隐藏的马尔科夫链在任意时刻 t 的状态只依赖于其前一时刻 t-1 的状态，与其它时刻的状态及观测无关，也与时刻 t 无关；
2）观察值独立性假设：即假设任意时刻的观察值只与该时刻的马尔科夫链的状态有关，与其它观测和状态无关。

状态值集合即{ B: begin, E: end, M: middle, S: single }，表示每个字所处在句子中的位置，B 为开始位置，E 为结束位置，M 为中间位置，S 是单字成词。

观察值集合就是我们输入句子中每个字组成的集合。

状态初始概率表明句子中的第一个字属于 B、M、E、S 四种状态的概率，其中 E 和 M 的概率都是0，因为第一个字只可能 B 或者 S，这与实际相符。

状态转移概率表明从状态 1 转移到状态 2 的概率，满足齐次性假设，结构可以用一个嵌套的对象表示：

P = {
    B: {E: -0.510825623765990, M: -0.916290731874155},
    E: {B: -0.5897149736854513, S: -0.8085250474669937},
    M: {E: -0.33344856811948514, M: -1.2603623820268226},
    S: {B: -0.7211965654669841, S: -0.6658631448798212},
}

P['B']['E'] 表示从状态 B 转移到状态 E 的概率（结构中为概率的对数，方便计算）为 0.6，同理，P['B']['M'] 表示下一个状态是 M 的概率为 0.4，说明当一个字处于开头时，下一个字处于结尾的概率高于下一个字处于中间的概率，符合直觉，因为二个字的词比多个字的词要更常见。

状态发射概率表明当前状态，满足观察值独立性假设，结构同上，也可以用一个嵌套的对象表示：

P = {
    B: {'突': -2.70366861046, '肃': -10.2782270947, '适': -5.57547658034},
    M: {'要': -4.26625051239, '合': -2.1517176509, '成': -5.11354837278},
    S: {……},
    E: {……},
}

P['B']['突'] 的含义就是状态处于 B，观测的字是“突”的概率的对数值等于 -2.70366861046。

最后，通过Viterbi算法，输入观察值集合，将状态初始概率、状态转移概率、状态发射概率作为参数，输出状态值集合（即最大概率的分词结果）。关于Viterbi算法，本文不再详细展开，有兴趣的读者可以自行查阅。

7、技术实现

上节中介绍的全文检索这两块技术，是我们架构的技术核心。基于此，我们对IM 的 Electron 端技术架构做了改进。以下将详细介绍之。

7.1架构图详解

考虑到全文检索只是 IM 中的一个功能，为了不影响其他 IM 的功能，并且能更快的迭代需求，所以采用了如下的架构方案。

架构图如下：

如上图所示，右边是之前的技术架构，底层存储库使用了 indexDB，上层有读写两个模块。

读写模块的具体作用是：

1）当用户主动发送消息、主动同步消息、主动删除消息以及收到消息的时候，会将消息对象同步到 indexDB；
2）当用户需要查询关键字的时候，会去 indexDB 中遍历所有的消息对象，再使用 indexOf 判断每一条消息对象是否包含所查询的关键字（类似 LIKE）。

那么，当数据量大的时候，查询的速度是非常缓慢的。

左边是加入了分词以及倒排索引数据库的新的架构方案，这个方案不会对之前的方案有任何影响，只是在之前的方案之前加了一层。

现在，读写模块的工作逻辑：

1）当用户主动发送消息、主动同步消息、主动删除消息以及收到消息的时候，会将每一条消息对象中的消息经过分词后同步到倒排索引数据库；
2）当用户需要查询关键字的时候，会先去倒排索引数据库中找出对应消息的 idClient，再根据 idClient 去 indexDB 中找出对应的消息对象返回给用户。

7.2架构优点

该方案有以下4个优点：

1）速度快：通过 search-index 实现倒排索引，从而提升了搜索速度；
2）跨平台：因为 search-index 与 indexDB 都是基于 levelDB，因此 search-index 也支持浏览器环境，这样就为 Web 端实现全文检索提供了可能性；
3）独立性：倒排索引库与 IM 主业务库 indexDB 分离；
4）灵活性：全文检索以插件的形式接入。

针对上述第“3）”点：当 indexDB 写入数据时，会自动通知到倒排索引库的写模块，将消息内容分词后，插入到存储队列当中，最后依次插入到倒排索引数据库中。当需要全文检索时，通过倒排索引库的读模块，能快速找到对应关键字的消息对象的 idClient，根据 idClient 再去 indexDB 中找到消息对象并返回。

针对上述第“4）”点：它暴露出一个高阶函数，包裹 IM 并返回新的经过继承扩展的 IM，因为 JS 面向原型的机制，在新的 IM 中不存在的方法，会自动去原型链（即老的 IM）当中查找，因此，使得插件可以聚焦于自身方法的实现上，并且不需要关心 IM 的具体版本，并且插件支持自定义分词函数，满足不同用户不同分词需求的场景

7.3使用效果

使用了如上架构后，经过我们的测试，在数据量 20W 的级别上，搜索时间从最开始的十几秒降到一秒内，搜索速度快了 20 倍左右。

8、本文小结

本文中，我们便基于Nodejieba和search-index在 Electron 上实现了IM聊天消息的全文检索，加快了聊天记录的搜索速度。

当然，后续我们还会针对以下方面做更多的优化，比如以下两点：

1）写入性能：在实际的使用中，发现当数据量大了以后，search-index 依赖的底层数据库 levelDB 会存在写入性能瓶颈，并且 CPU 和内存的消耗较大。经过调研，SQLite 的写入性能相对要好很多，从观测来看，写入速度只与数据量成正比，CPU 和内存也相对稳定，因此，后续可能会考虑用将 SQLite 编译成 Node 原生模块来替换 search-index。

2）可扩展性：目前对于业务逻辑的解耦还不够彻底。倒排索引库当中存储了某些业务字段。后续可以考虑倒排索引库只根据关键字查找消息对象的 idClient，将带业务属性的搜索放到 indexDB 中，将倒排索引库与主业务库彻底解耦。

以上，就是本文的全部分享，希望我的分享能对大家有所帮助。

9、参考资料

[1]微信移动端的全文检索优化之路

[2]微信移动端的全文检索多音字问题解决方案

[3]微信iOS端的最新全文检索技术优化实践

[4]蘑菇街基于Electron开发IM客户端的技术实践

[5]融云基于Electron的IM跨平台SDK改造实践总结

[6]闲鱼IM基于Flutter的移动端跨端改造实践

（本文已同步发布于：http://www.52im.net/thread-4065-1-1.html）

posted @ 2022-10-27 11:18 Jack Jiang 阅读(90) | 评论 (0) | 编辑收藏

即时通讯技术文集（第3期）：高性能网络编程系列 [共14篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第3 期。

第 1 篇

[标题] 高性能网络编程(一)：单台服务器并发TCP连接数到底可以有多少

[链接] http://www.52im.net/thread-561-1-1.html

[摘要] 到底一台服务器能够支持多少TCP并发连接呢？这就是本文要讨论的问题。

第 2 篇

[标题] 高性能网络编程(二)：上一个10年，著名的C10K并发连接问题

[链接] http://www.52im.net/thread-566-1-1.html

[摘要] 了解C10K问题及其解决思路，通过举一反三，或许可以为你以后面对类似问题提供更多可借鉴的思想和解决问题的实践思路。

第 3 篇

[标题] 高性能网络编程(三)：下一个10年，是时候考虑C10M并发问题了

[链接] http://www.52im.net/thread-568-1-1.html

[摘要] 本文将讨论单机服务器实现C10M（即单机千万并发连接）的可能性及其思路。

第 4 篇

[标题] 高性能网络编程(四)：从C10K到C10M高性能网络应用的理论探索

[链接] http://www.52im.net/thread-578-1-1.html

[摘要] 本文内容由京东的资深架构师闫国旗分享，以分享者多年的实践和总结，进一步探讨解决C10M问题的理论可行性。

第 5 篇

[标题] 高性能网络编程(五)：一文读懂高性能网络编程中的I/O模型

[链接] http://www.52im.net/thread-1935-1-1.html

[摘要] 本文旨在为大家提供有用的高性能网络编程的I/O模型概览以及网络服务进程模型的比较，以揭开设计和实现高性能网络架构的神秘面纱。

第 6 篇

[标题] 高性能网络编程(六)：一文读懂高性能网络编程中的线程模型

[链接] http://www.52im.net/thread-1939-1-1.html

[摘要] 限于篇幅原因，请将本文与《高性能网络编程(五)：一文读懂高性能网络编程中的I/O模型》连起来读，这样会让知识更连贯。

第 7 篇

[标题] 高性能网络编程(七)：到底什么是高并发？一文即懂！

[链接]http://www.52im.net/thread-3120-1-1.html

[摘要] 在面视即时通讯相关工作的时候，高并发也是必谈问题，那到底什么是高并发？嗯，真要说出个所以然来，还真有点懵...本文就与大家一起探讨学习一下。

第 8 篇

[标题] 从根上理解高性能、高并发(一)：深入计算机底层，理解线程与线程池

[链接] http://www.52im.net/thread-3272-1-1.html

[摘要] 返璞归真、回归本质，这些技术特征背后的底层原理到底是什么？如何能通俗易懂、毫不费力真正透彻理解这些技术背后的原理，正是《从根上理解高性能、高并发》系列文章所要分享的。

第 9 篇

[标题] 从根上理解高性能、高并发(二)：深入操作系统，理解I/O与零拷贝技术

[链接] http://www.52im.net/thread-3280-1-1.html

[摘要] 对于即时通讯IM这种系统的开发来说，网络通信知识确实非常重要，但回归到技术本质，实现网络通信本身的这些技术特征：包括上篇提到的线程池、零拷贝、多路复用、事件驱动等等，它们的本质是什么？底层原理又是怎样？这就是整理本系列文章的目的，希望对你有用。

第 10 篇

[标题] 从根上理解高性能、高并发(三)：深入操作系统，彻底理解I/O多路复用

[链接] http://www.52im.net/thread-3287-1-1.html

[摘要] 本篇将以更具象的文件这个话题入手，带你一步步理解高性能、高并发服务端编程时无法回避的I/O多路复用及相关技术。

第 11 篇

[标题] 从根上理解高性能、高并发(四)：深入操作系统，彻底理解同步与异步

[链接] http://www.52im.net/thread-3296-1-1.html

[摘要] 本篇将从基础着眼，为你讲解什么是同步和异步，以及这两个极为重要的概念在高并发、高性能技术中编程中到底意味着什么。

第 12 篇

[标题] 从根上理解高性能、高并发(五)：深入操作系统，理解高并发中的协程

[链接] http://www.52im.net/thread-3306-1-1.html

[摘要] 了解和掌握协程技术对于很多程序员（尤其海量网络通信应用的后端程序员）来说是相当有必要的，本文正是为你解惑协程技术原理而写。

第 13 篇

[标题] 从根上理解高性能、高并发(六)：通俗易懂，高性能服务器到底是如何实现的

[链接] http://www.52im.net/thread-3315-1-1.html

[摘要] 本篇是本系列文章的完结篇，你将能了解到，一个典型的服务器端是如何利用前5篇中讲解的各单项技术从而实现高性能高并发的。

第 14 篇

[标题] 从根上理解高性能、高并发(七)：深入操作系统，一文读懂进程、线程、协程

[链接]http://www.52im.net/thread-3357-1-1.html

[摘要] 本篇是本系列文章的临时续篇，本篇将由浅入深，总结进程、线程、协程这3个技术概念，将3者的技术原理、用途、关系进行了系统梳理和总结，希望有助于解决你这方面的技术困惑。

我是Jack Jiang，我为自已带盐！
https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2022-10-24 12:04 Jack Jiang 阅读(102) | 评论 (0) | 编辑收藏

IM跨平台技术学习(五)：融云基于Electron的IM跨平台SDK改造实践总结

本文由融云技术团队分享，有修订和改动。

1、引言

Electron 凭借其相对更低的研发成本投入、强大的跨平台支持、拥有基数庞大的 Javascript 开发者受众等优势，在 PC 端跨平台桌面开发领域异军突起，大受欢迎。

本文分享的是融云基于Electron的IM跨平台PC端SDK改造过程中所总结的一些实践经验，希望对你有用。

* 友情提示：如果您对Electron的基础概念还不太了解，建议您先从本系列文章的首篇《快速了解新一代跨平台桌面技术——Electron》和第2篇《Electron初体验(快速开始、跨进程通信、打包、踩坑等)》开始阅读，否则可能难以理解本文的有关内容。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4060-1-1.html）

2、系列文章

本文是系列文章中的第5篇，本系列总目录如下：

《IM跨平台技术学习(一)：快速了解新一代跨平台桌面技术——Electron》
《IM跨平台技术学习(二)：Electron初体验(快速开始、跨进程通信、打包、踩坑等)》
《IM跨平台技术学习(三)：vivo的Electron技术栈选型、全方位实践总结》
《IM跨平台技术学习(四)：蘑菇街基于Electron开发IM客户端的技术实践》
《IM跨平台技术学习(五)：融云基于Electron的IM跨平台SDK改造实践总结》（* 本文）
《IM跨平台技术学习(六)：网易云信基于Electron的IM消息全文检索技术实践》（稍后发布.. ）

3、本次改造的技术目标

针对本次改造，我们需要达到以下4个技术目标：

1）需提供与传统桌面通讯软件相匹配的能力支持；
2）需实现浏览器与Electron不同运行时代码的高度复用；
3）便于开发者构建多窗口、多进程的复杂桌面端应用；
4）需同步适配同一IM端SDK的多个版本。

以下，我们将逐条讨论这4个目标所有实现的具体技术内容。

4、技术目标1：需提供与传统桌面通讯软件相匹配的能力支持

相较于 B/S 架构的 Web 网页应用，我们期望能够在 Electron 环境下向开发者提供更为丰富的本地化能力，以及比 Websocket（或Comet）更高效的Socket实时双工通信通道。

借助这些原本在浏览器环境下不便实现的技术能力，来整体提高用户对于桌面端产品的使用体验，将 Electron 作为一个 C/S 架构软件运行平台的潜力发挥到最大。（白话就是，我们希望借助Electron这个框架，将原本Web端的一些鸡肋能力，做到像原生富客户端一样）

5、技术目标2：浏览器与Electron不同运行时代码的高度复用

由于 Electron 与标准 Web 应用拥有几乎相同的技术生态，因此多数产品会要求前端代码工程兼顾浏览器与 Electron。

也就是说，一套代码既要打包为传统桌面端应用（利用Electron），又可发布为浏览器中运行的 Web 网页应用。

基于此，我们提供的 IM SDK 需要在两种不同的运行时环境下做到差异最小化，避免开发者编写冗余的平台兼容代码。（白话就是，尽可能在基于Electron的桌面端和纯Web网页端之间重用更多的代码，不然又得多撸一个全新的Electron端，这得多费劲）

6、技术目标3：便于开发者构建多窗口、多进程的复杂桌面端应用

Electron 通过对 IPC 能力的封装为桌面端应用开发提供了较完善的跨进程通讯方案，借助此能力，开发者构建的桌面端应用也逐渐趋于复杂。

比较典型的如桌面端IM产品：通常用一个独立窗口做基础的 IM 聊天业务，一个窗口做历史聊天记录查询业务。

当有音视频会议业务场景时，还需要再开一个窗口做会议业务。

甚至有开发者提出了与每个聊天对象都保持一个独立聊天窗口的需求（产品形态如 QQ）。

在这类需求下，长连接状态维持、消息同步变得异常复杂，原因在于以下3个方面。

1）若每个进程窗口都维持独立长连接，难免会出现某一进程连接与其他进程连接状态不同步。且开发者需在各进程同时维护连接状态，复杂度较高。同时还会造成服务的并发能力下降。
2）若仅有单一主窗口进行连接维持，其他窗口通过 IPC 能力将主窗口作为连接代理，则需要在主进程、各渲染进程中维护复杂的跨进程通讯业务代码，从而推高项目整体的复杂度。
3）目前的 Electron 开发者绝大多数来自于 Web 开发者，既有编程思维是建立在浏览器页面内单进程单线程的应用模型下构建起来的，对于处理此类多进程模型的产品开发缺乏相关的经验积累。

为降低类似需求场景的业务实现复杂度，我们需要在 PaaS 能力层面上解决多进程连接共享、多进程消息同步问题，让开发者在既有编程思维模式下将每个业务实现的更为顺畅。

7、技术目标4：需同步适配同一IM端SDK的多个版本

我们的既有Web端 IM SDK 存在一个端多个不同版本的情况（主要是为了兼容老用户，旧版本很难一刀切直接扔掉，只能新老版末同时并存）。

各版本都有不同数量的客户积累，且各版本 API 接口设计迥异，跨版本升级成本较高。

考虑到使用不同版本的客户未来将业务向 Electron 迁移的可能性，我们期望通过架构设计的改进来避免既有客户做过多的集成代码修改，在确保既有客户不因版本升级而流失的前提下降低 Web 研发团队自身的多版本 SDK 维护成本。

8、本次改造的落地实践

针对上面章节中确定的技术目标，我们将从以下3个方向着手落地实践：

1）剥离各版本的共同业务与对外差异性 API 定义；
2）Electron 与浏览器平台下 IM SDK 的区分；
3）解决多进程消息同步、多进程连接共享问题。
以下，我们将逐条分享这3个方面的具体实践内容。

9、落地实践1：剥离各版本的共同业务与对外差异性API定义

我们的 IM SDK 各版本分别为不同的代码仓库独立维护，互无干系。（白话就是，所有端的IM SDK都是独立开发，从头造轮子）

这导致所有的功能（包括即将开发的 Electron 桌面解决方案）都可能要在各个版本仓库上单独实现，不仅开发成本高，还会导致实现质量无法保证、或代码实现不统一，同时也推高了产研后续流程的测试、上线等环节的成本。

▲ IM SDK 不同版本独立维护

基于前述技术目标4的要求，在既有现状下继续开发，就意味着需要在两个版本的基础上做不同实现，既不符合程序员的代码审美，也影响团队整体的研发效率。（白话就是，如果又要从头造轮子实在太难受）

为更好地达成技术目标4，团队决定优先通过重构将既有业务分层，即各个版本所必须的业务代码抽象下沉为 IM Engine 包，并为各个版本 IM SDK 分别实现不同的API Layer以便与既有线上版本接口对齐，这样既可以降低团队的研发成本，也可以满足既有线上客户后续的升级需求。

▲ 重构代码实现业务分层

完成业务分层后，对于 IM SDK 有依赖的其他产品如 RTC SDK，也都可以摆脱对 IM SDK 接口的依赖而直接调用 Engine 层接口，业务层在拓展 RTC 业务时，也就无需再考虑 IM SDK 的版本问题。

▲ 业务分层后的结构将保证拓展性

做分层的另一个考虑还为了达成技术目标2，将与业务层的交互限制在 API 层，在 Engine 中处理 Electron 与浏览器两种运行时下的代码差异，业务层只需关心 IM SDK 的接口调用而无需关心底层差异，确保业务层在两种运行时下只需要维护极少甚至无需维护兼容代码，便于业务层更专注于业务开发。

10、落地实践2：Electron 与浏览器平台下 IM SDK 的区分

在将 Engine 与业务层隔离后（见上一节），需要考虑 Engine 在不同的运行时下的关键能力差异，并依据能力差异落实 Engine 的底层设计。

Electron 环境下的连接、消息存储等能力由 c++ 模块编写提供（即后面提到的 CppProto.node）：

在浏览器与 Electron 平台下，从连接管理、到消息收发等实现方式迥异，团队需要对 Engine 包继续分层，通过 AEngine 抽象类来定义 IM Engine 的能力接口，并抽象 APIContext 类用来管理 AEngine 的能力调用。

考虑到纯 Web 应用构建尺寸问题，Electron 的能力实现代码不应被打包到标准 Web 页面内，因此还需要将 Electron 平台下的实现代码单独抽离出来作为一个独立包（即ElectronSolution），作为可选模块由开发者选择安装使用。

▲ Electron相关的代码抽离为可选模块

如上图所示，CppEngine 在 ElectronSolution 包中定义，其需要由开发者在 Electron 应用创建 BrowserWindow 实例时通过 webPreferences.preload 配置属性向渲染进程窗口预挂载。

APIContext 在初始化 AEngine 实例时，优先检测 CppEngine 是否已定义。当发现有 CppEngine 定义时，则初始化 CppEngine 提供更丰富的本地化能力，否则初始化 JSEngine。

就像下面的代码的展现的逻辑：

const engine: AEngine = typeofCppEngine !== 'undefined'
? newCppEngine()
: newJSEngine()

11、落地实践3：解决多进程消息同步、多进程连接共享问题

ElectronSolution 包截止目前的设计中，所有代码都运行在渲染进程内。

这意味着每个进程彼此独立，都在维护独立的进程状态，无法满足目标 3 中多进程状态同步、连接共享的需求。

为了解决该问题，需要将 CppProto.node 模块放到主进程，在主进程中实现连接管理、消息收发等能力，多个渲染进程通过 IPC 通信共享主进程状态。

▲ 多个渲染进程通过 IPC 通信共享主进程状态

为了达成技术目标3的要求，ElectronSolution 需要拆分为两个子包，即Main 与 Renderer。

具体就是：

1）Main 包运行在主进程内，负责维持 CppProto.node 模块的调用，实现底层连接管理、消息管理等功能，同时通过 Electron 提供的 ipcMain 与各渲染进程维持通信；
2）Renderer 包中定义 CppEngine 类，继承自 Engine 包内的 AEngine 抽象类，依然通过 webPreferences.preload 用来作为主进程的代理，通过 ipcRenderer 与主进程维持通信。

▲ 拆分为Main与Renderer两个子包

修改完成后，ElectronSolution 包的整体结构基本确定。

以下列出 ElectronSolution 包关键目录结构供参考：

node_modules/@rongcloud/electron-solution
├── index.js
├── main
│   ├── addon
│   │   ├── binding
│   │   │   └── electron-v{electron-version}-{platform}-{arch}.node
│   │   └── index.js
│   ├── dist
│   │   └── index.js
│   ├── index.js
│   └── package.json
└── renderer
│   ├── dist
│   │   └── index.js
│   ├── index.js
│   └── package.json
└── package.json

基于上述架构变动，当业务层需要在多个渲染进程中实现 IM 能力时，仅需要关注在各个进程中的 IM SDK 接口调用，由 ElectronSolution 处理多进程之间的状态同步问题。

当开发者期望由既有 Web 业务向 Electron 平台迁移时，开发者也无需修改既有的 Web 业务代码，仅需要增量编写主进程代码相关功能实现，将 ElectronSolution 安装并集成到 Electron 桌面端应用中即可。

最终，我们形成了以下这样的IM SDK整体结构：

12、未来的规划

除了上述IM相关业务，后续我们还打算在Electron平台下提升RTC的场景能力。

目前，Electron 平台下由 Chromium 原始提供的 WebRTC 能力对于开发桌面级音视频应用软件来说相对薄弱，我们有计划探索借助 node.js 的拓展能力，提供更为底层的 WebRTC 能力拓展如音效、音质、视频特效等。

13、参考资料

[1] 快速了解新一代跨平台桌面技术——Electron

[2] Electron初体验(快速开始、跨进程通信、打包、踩坑等)

[3] WebSocket从入门到精通，半小时就够！

[4] Comet技术详解：基于HTTP长连接的Web端实时通信技术

[6] Web端即时通讯技术盘点：短轮询、Comet、Websocket、SSE

[7] 搞懂现代Web端即时通讯技术一文就够：WebSocket、socket.io、SSE

（本文已同步发布于：http://www.52im.net/thread-4060-1-1.html）

posted @ 2022-10-20 11:53 Jack Jiang 阅读(78) | 评论 (0) | 编辑收藏

即时通讯技术文集（第2期）：脑残式网络编程系列 [共12篇]

为了更好地分类阅读52im.net 总计1000多篇精编文章，我将在每周三推送新的一期技术周刊，本次是第2 期。

第 1 篇

[标题] 脑残式网络编程入门(一)：跟着动画来学TCP三次握手和四次挥手

[链接] http://www.52im.net/thread-1729-1-1.html

[摘要]网络编程中TCP协议的三次握手和四次挥手的问题，在面试中是最为常见的知识点之一。本篇文章尝试使用动画图片的方式，来对这个知识点进行“脑残式”讲解（哈哈），期望读者们可以更加简单、直观地理解TCP网络通信交互的本质。

第 2 篇

[标题] 脑残式网络编程入门(二)：我们在读写Socket时，究竟在读写什么？

[链接] http://www.52im.net/thread-1732-1-1.html

[摘要] 套接字socket是大多数程序员都非常熟悉的概念，它是计算机网络编程的基础，TCP/UDP收发消息都靠它。本篇文章依然尝试使用动画图片的方式，来对这个知识点进行“脑残式”讲解（哈哈），期望读者们可以更加简单、直观地理解Socket通信的数据读写本质。

第 3 篇

[标题] 脑残式网络编程入门(三)：HTTP协议必知必会的一些知识

[链接] http://www.52im.net/thread-1751-1-1.html

[摘要]无论是即时通讯应用还是传统的信息系统，Http协议都是我们最常打交道的网络应用层协议之一，它的重要性可能不需要再强调。但是实际上很多人（包括我自己），虽然每天都会跟http的代码打交道，但对http了解的并不够深入。本文就我自己的学习心得，分享一下我认为需要知道的http常见的相关知识点。

第 4 篇

[标题] 脑残式网络编程入门(四)：快速理解HTTP/2的服务器推送(Server Push)

[链接] http://www.52im.net/thread-1795-1-1.html

[摘要] 服务器推送（server push）是 HTTP/2 协议里面唯一一个需要开发者自己配置的功能。其他功能都是服务器和浏览器自动实现，不需要开发者关心。本文详细介绍新一代HTTP/2服务器推送技术（server push）的原理和配置方法等。

第 5 篇

[标题] 脑残式网络编程入门(五)：每天都在用的Ping命令，它到底是什么？

[链接] http://www.52im.net/thread-1973-1-1.html

[摘要] Ping命令很简单，但作为为数不多的网络检测工具，却非常有用，是开发网络应用时最常用到的命令。虽然“Ping”这个动作这么简单，但你知道Ping命令背后后的逻辑吗？这就是本文要告诉你！

第 6 篇

[标题] 脑残式网络编程入门(六)：什么是公网IP和内网IP？NAT转换又是什么鬼？

[链接] http://www.52im.net/thread-2082-1-1.html

[摘要] 搞网络通信应用开发的程序员，可能会经常听到外网IP（即互联网IP地址）和内网IP（即局域网IP地址），但他们的区别是什么？又有什么关系呢？另外，内行都知道，提到外网IP和内网IP就不得不提NAT路由转换这种东西，那这又是什么鬼？本文就来简单讲讲这些到底都是怎么回事。

第 7 篇

[标题] 脑残式网络编程入门(七)：面视必备，史上最通俗计算机网络分层详解

[链接] http://www.52im.net/thread-2851-1-1.html

[摘要] 输入URL，到页面呈现出来，其中经历了什么？这道面试题的背后，涉及到了很多网络原理的知识，我们这篇文章不会全部分享到，而是先把由来和网络层次划分弄清楚，就完成了这篇文章的目的。

第 8 篇

[标题] 脑残式网络编程入门(八)：你真的了解127.0.0.1和0.0.0.0的区别？

[链接] http://www.52im.net/thread-2928-1-1.html

[摘要] 对于后端程序员来说，127.0.0.1和0.0.0.0这两个IP地址再熟悉不过了，看起来好像就那么回事，但真正较起真来，这两个IP地址到底有什么作用以及到底有什么不同？貌似谁可以轻松回答，但张嘴却又不知从何说起。本文将系统地总结127.0.0.1和0.0.0.0这两个IP地址的作用，以及它们之间的区别，希望能为你解惑。

第 9 篇

[标题] 脑残式网络编程入门(九)：面试必考，史上最通俗大小端字节序详解

[链接] http://www.52im.net/thread-3101-1-1.html

[摘要] 程序员在写应用层程序时，一般不需要考虑字节序问题，因为字节序跟操作系统和硬件环境有关，而我们编写的程序要么不需要跨平台（比如只运行在windows），要么需要跨平台时会由Java这种跨平台语言在虚拟机层屏蔽掉了。但典型情况，当你编写网络通信程序，比如IM聊天应用时，就必须要考虑字节序问题，因为你的数据在这样的场景下要跨机器、跨网络通信，必须解决不同系统、不同平台的字节序问题。

第 10 篇

[标题] 网络编程入门从未如此简单(一)：假如你来设计网络，会怎么做？

[链接] http://www.52im.net/thread-3330-1-1.html

[摘要] 本篇主要以通俗易懂的文风，引导你理解计算机网络是如何演化成今日的样子，文中穿插了集线器、交换杨、路由器等设备的使用背景以及技术原理，由浅入深，非常适合入门者阅读。

第 11 篇

[标题] 网络编程入门从未如此简单(二)：假如你来设计TCP协议，会怎么做？

[链接] http://www.52im.net/thread-3339-1-1.html

[摘要] 本篇将运用通俗易懂的语言，配上细致精确的图片动画，循序渐进地引导你理解TCP协议的主要特性和技术原理，让TCP协议的学习不再如此枯燥和生涩，非常适合入门者阅读。

第 12 篇

[标题] 网络编程入门从未如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！

[链接] http://www.52im.net/thread-3868-1-1.html

[摘要] 本篇文章将利用简洁生动的文字，配上轻松幽默的漫画，助你从零开始快速建立起对IPv6技术的直观理解，非常适合入门者阅读。

我是Jack Jiang，我为自已带盐！
https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2022-10-18 13:06 Jack Jiang 阅读(120) | 评论 (0) | 编辑收藏

移动端IM产品RainbowChat[专业版] iOS端 v6.0版已发布！

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v6.0 版更新内容

此版更新内容【新增“一键已读、搜索”等功能！】（更多历史更新日志）：

1）[新增] 搜索功能（支持好友、群聊、聊天记录搜索(与微信逻辑一样)）；
2）[新增] “聊天信息”界面中新增“查找聊天记录”功能；
3）[新增] “群聊信息”界面中新增“查找聊天记录”功能；
4）[新增] 首页消息界面中，增加了“一键已读”功能；
5）[bug] 解决了iOS16+“灵动岛”手机下，聊天界面功能面板和输入法显示的冲突；
6）[优化] 优化了聊天界面中查看位置、名片消息回来时会自动滚动到最后一行的问题。

此版主要新增功能运行截图（更多截图点此查看）：

posted @ 2022-10-12 15:01 Jack Jiang 阅读(91) | 评论 (0) | 编辑收藏

IM跨平台技术学习(三)：vivo的Electron技术栈选型、全方位实践总结

摘要: 本文由vivo技术团队Yang Kun分享，原题“electron 应用开发优秀实践”，即时通讯网有修订。1、引言在上篇《Electron初体验(快速开始、跨进程通信、打包、踩坑等)》的分享中，我们已经对Electron跨端框架的开发有了大概的了解。本篇将基于vivo技术团队的技术实践，详细阐述了vivo在使用Electron进行跨端桌面开发时的技术栈选型考量，同时分享了在... 阅读全文

posted @ 2022-10-08 10:16 Jack Jiang 阅读(141) | 评论 (0) | 编辑收藏

即时通讯技术周刊（第1期）：懒人网络编程系列 [共14篇]

为了更好地分类阅读总计1000多篇精编文章，我将在每周三推送新的一期技术文集，本次是第1 期。

第1 篇

[标题] 网络编程懒人入门(一)：快速理解网络通信协议（上篇）

[链接] http://www.52im.net/thread-1095-1-1.html

[摘要] 互联网的核心是一系列协议，总称为"互联网协议"（Internet Protocol Suite）。它们对电脑如何连接和组网，做出了详尽的规定。理解了这些协议，就理解了互联网的原理。本篇将带你从理论上快速理解这些协议。

第2 篇

[标题] 网络编程懒人入门(二)：快速理解网络通信协议（下篇）

[链接] http://www.52im.net/thread-1103-1-1.html

[摘要] 接上篇，本篇将以普通人实际上网为例子，通俗易懂地讲解网络通信协议到底是什么。本篇带了有些基础的计网理论知识，但力求通俗不枯燥。

第3 篇

[标题]网络编程懒人入门(三)：快速理解TCP协议一篇就够

[链接]http://www.52im.net/thread-1107-1-1.html

[摘要] TCP 是互联网的核心协议之一，鉴于它的重要性，本文将单独介绍它的基础知识，希望能加深您对TCP协议的理解。

第4 篇

[标题]网络编程懒人入门(四)：快速理解TCP和UDP的差异

[链接]http://www.52im.net/thread-1160-1-1.html

[摘要] 对于即时通讯开者新手来说，在开始着手编写IM或消息推送系统的代码前，最头疼的问题莫过于到底该选TCP还是UDP作为传输层协议。本文延续《网络编程懒人入门》系列文章的风格，通过快速对比分析 TCP 和 UDP 的区别，来帮助即时通讯初学者快速了解这些基础的知识点，从而在IM、消息推送等网络通信应用场景中能准确地选择合适的传输层协议。

第5 篇

[标题]网络编程懒人入门(五)：快速理解为什么说UDP有时比TCP更有优势

[链接]http://www.52im.net/thread-1277-1-1.html

第6 篇

[标题]网络编程懒人入门(六)：史上最通俗的集线器、交换机、路由器功能原理入门

[链接]http://www.52im.net/thread-1629-1-1.html

[摘要] 本文旨在简单地说明集线器、交换机与路由器的区别，因而忽略了很多细节，三者实际的发展过程和工作原理并非文中所写的这么简单。如果你看完本文能大概了解到三者的异同，本文的目的就达到了。

第7 篇

[标题] 网络编程懒人入门(七)：深入浅出，全面理解HTTP协议

[链接] http://www.52im.net/thread-1677-1-1.html

[摘要] 对于移动端即时通讯（尤其IM应用）来说，现今主流的数据通信总结下来无外乎就是长连接+短连接的方式，而短连接在应用上讲就是本文将要介绍的HTTP协议的应用，而正确地理解HTTP协议对于写好IM来说，是相当有益的（关于移动端的HTTP具体应用情况，可以阅读《现代移动端网络短连接的优化手段总结：请求速度、弱网适应、安全保障http://www.52im.net/thread-1413-1-1.html》）。

第8 篇

[标题] 网络编程懒人入门(八)：手把手教你写基于TCP的Socket长连接

[链接] http://www.52im.net/thread-1722-1-1.html

[摘要] TCP 是互联网的核心协议之一，鉴于它的重要性，希望通过阅读上面介绍的几篇理论文章，再针对本文的动手实践，能真正加深您对TCP协议的理解。

第9 篇

[标题] 网络编程懒人入门(九)：通俗讲解，有了IP地址，为何还要用MAC地址？

[链接] http://www.52im.net/thread-2067-1-1.html

[摘要] 标题虽然是为了解释有了 IP 地址，为什么还要用 MAC 地址，但是本文的重点在于理解为什么要有 IP 这样的东西。本文对读者的定位是知道 MAC 地址是什么，IP 地址是什么。

第10 篇

[标题] 网络编程懒人入门(十)：一泡尿的时间，快速读懂QUIC协议

[链接]http://www.52im.net/thread-2816-1-1.html

[摘要] 一般的稳定网络传输都是通过TCP，但是在网络基建本身就已经越来越完善的情况下，TCP设计本身的问题便暴露了出来，特别是在弱网环境下，让我们不得不考虑一些新的可能性。

第11 篇

[标题] 网络编程懒人入门(十一)：一文读懂什么是IPv6

[链接]http://www.52im.net/thread-2979-1-1.html

[摘要] 本文将用浅显易懂的文字，带你了解到底什么是IPv6。

第12 篇

[标题]网络编程懒人入门(十二)：快速读懂Http/3协议，一篇就够！

[链接]http://www.52im.net/thread-3020-1-1.html

[摘要] 多年来，为了跟上互联网的发展，以及WWW上交换的内容种类增加，HTTP进行了几次重大升级，而HTTP/3就是目前的最新版本。本文将从HTTP/3的基本概念、技术原理、应用场景和如何使用它等方面进行介绍，确保在有限的篇幅内，能让你通俗地理解它。

第13 篇

[标题]网络编程懒人入门(十三)：一泡尿的时间，快速搞懂TCP和UDP的区别

[链接]http://www.52im.net/thread-3793-1-1.html

[摘要] 不同于其它长篇大论，本文尽量以简洁精炼的文字，帮你总结归纳TCP和UDP协议的主要区别，方便那些想掌握这方面知识又不愿意耗费太多时间去系统地学习网络理论基础的同学快速理解！

第14 篇

[标题]网络编程懒人入门(十四)：到底什么是Socket？一文即懂！

[链接] http://www.52im.net/thread-3821-1-1.html

[摘要] 本系列文章前面那些主要讲解的是计算机网络的理论基础，但对于即时通讯IM这方面的应用层开发者来说，跟计算机网络打道的其实是各种API接口。本篇文章就来聊一下网络应用程序员最熟悉的Socket这个东西，抛开生涩的计算机网络理论，从应用层的角度来理解到底什么是Socket。

我是Jack Jiang，我为自已带盐！
https://github.com/JackJiang2011/MobileIMSDK/

posted @ 2022-10-08 10:16 Jack Jiang 阅读(101) | 评论 (0) | 编辑收藏

IM跨平台技术学习(二)：Electron初体验(快速开始、跨进程通信、打包、踩坑等）

摘要: 本文由蘑菇街前端技术团队分享，原题“Electron 从零到一”，有修订和改动。1、引言在上篇《快速了解新一代跨平台桌面技术——Electron》，我们已经对Electron跨端框架有了基本的认识。本篇将带你简单上手Electron框架开发跨平台桌面端，内容包括一个快速开始例子、跨进程通信原理、打包和分发、以及一些典型的技术踩坑等。希望能带给你启发。... 阅读全文

posted @ 2022-09-22 11:10 Jack Jiang 阅读(171) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat-iOS端v5.0版已发布

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v5.0 版更新内容

此版更新内容【新增“扫一扫”等功能】（更多历史更新日志）：

1）[新增] “扫一扫”界面及功能逻辑；
2）[新增] “我的二维码”界面及功能逻辑；
3）[新增] “群聊二维码”界面及功能逻辑；
4）[优化] 相关界面中的弹出菜单UI细节优化。

此版主要新增功能运行截图（更多截图点此查看）：

posted @ 2022-09-14 22:59 Jack Jiang 阅读(94) | 评论 (0) | 编辑收藏

微信Windows端IM消息数据库的优化实践：查询慢、体积大、文件损坏等

摘要: 本文由微信客户端技术团队工程师“Jon”分享，原题“Windows微信：消息数据库架构演进”，有较多修订。1、引言本文分享的是，微信客户端团队基于对微信用户日常使用场景和数据分析，通过分离重要和非重要数据、采用可靠的分库策略等，对微信Windows端IM本地数据库的架构进行的优化和改造，并最终得到一个具备良好实践效果的技术改造方案。以下是... 阅读全文

posted @ 2022-09-05 11:50 Jack Jiang 阅读(131) | 评论 (0) | 编辑收藏

即时通讯安全篇（十一）：IM聊天系统安全手段之传输内容端到端加密技术

本文由融云技术团队分享，原题“互联网通信安全之端到端加密技术”，内容有较多修订和改动。

1、引言

在上篇《IM聊天系统安全手段之通信连接层加密技术》中，分享了关于通信连接层加密的相关技术和实践，包括在传输即时通信消息时启用 TLS 链路加密（保证消息在到达服务器前无法被窃听和篡改）、使用 CA 认证机制（杜绝中间人攻击）等。

本篇将围绕IM传输内容的安全问题，以实践为基础，为你分享即时通讯应用中的“端到端”加密技术。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4026-1-1.html）

2、系列文章

本文是IM通讯安全知识系列文章中的第11篇，此系列总目录如下：

3、为什么需要端到端加密？

上篇中提到的连接层加密技术，这是提升IM客户端到服务器之间数据传输的安全性手段，但是这并不能解决用户间的通信隐私性以及安全性风险。

因为在将数据传输到服务器之后，所有有权访问此服务器的人，包括员工、供应商及其他有关人员（甚至黑客），都有可能读取到用户的数据。

有鉴于此，端到端加密技术在即时通讯IM领域被广泛应用，包括WhatsApp、Signal、Telegram 等国外即时通信软件中都有使用。

PS：有关端到端加密的基础知识，可以从这两篇里得到，建议详读：

4、端到端加密的技术设计思路

4.1 简化版思路

说到端到端加密，我们首先想到的解决方案是：在发送端发送消息前对整个消息进行加密，接收端接收到消息后进行解密。

如上这样：消息中转服务器就无法获取我们的消息内容了。

事实上：这确实是端到端加密中消息收发的简化版解决方案，只是我们在实际应用中要更加复杂，效果也更加安全。

4.2 如何安全地传递用于消息加解密的密钥

对于端到端加密，我们需要先解决的前置安全问题是：如何安全地传递用于消息加解密的密钥。

答案是：用非对称加密的方式传输密钥（与 SSL / TLS 中安全交换密钥的方式类似）。

非对称加密传输对称加密密钥的算法，一般归结两种方式：

1）一种是以 RSA、ECC 等为主（公钥加密私钥解密的方式，本质是加解密的算法）；
2）另一种是以 DH、ECDH 为主的生成共享密钥的方式（本质是通过计算协商一个共同的密钥而不是加解密算法）。

实际上：大部分即时通信软件中的端到端加密都采用生成共享密钥的方式来传输会话密钥。这是为什么呢？

这就涉及到 DH 算法（即 Diffie-Hellman 密钥交换算法），关于DH算法的资料，有兴趣可以详读《Diffie-Hellman密钥协商算法》，限于篇幅，这里不专门讨论。

Diffie-Hellman 密钥交换算法的安全性依赖于这样一个事实：虽然计算以一个素数为模的指数相对容易，但计算离散对数却很困难。对于大的素数，计算出离散对数几乎是不可能的。

这里简要描述一下 DH 共享密钥的过程如下：

（其中“密钥 S”即为最终的共享密钥）

4.3 采用共享密钥的原因

端到端加密采用共享密钥的方式来传输会话密钥有如下几个原因：

1）如果采用 RSA、ECC 等公钥加密私钥解密的方式传输密钥，需要在创建会话时生成临时密钥，并通过对方公钥加密后传输到接收端。

这就需要完全保证消息的可靠性，如果该消息在任何一个环节中丢失或损坏，则后续通信都无法进行。或者，需要采用更为可靠的传输方案，通常做法为需要接收端在线，通过各种确认来保证这个可靠性。

而采用共享密钥的方式则只需要知道对方的公钥，就可以完成生成共享密钥，并不一定需要对方在线。

2）如果已经生成的临时对称密钥丢失，则需要重新协商密钥。而采用共享密钥的方式则只需要知道对方的公钥，就可以完成生成共享密钥，不需要重新协商。

3）采用公钥加密私钥解密的方式至少会比生成共享密钥方式多一次交换对称密钥的通信过程。

4）密钥协商方式，不仅仅可以完成两个点之间的密钥协商，还可以延展到多人之间的共同协商出相同的密钥，这样能满足多人群体沟通的需求。

5、端到端加密的初步实践方案

我们结合对于 DH 算法（即 Diffie-Hellman 密钥交换算法）这种共享密钥方式的认知（即公钥可随意公开），先设计一个简单的端到端消息加密的过程。

这个过程的逻辑流程如下：

1）在客户端 APP 首次安装时，基于服务器公开的两个全局的参数，生成自己的 DH 公钥和私钥；
2）将自己的公钥上传证书服务器，证书服务器上保存用户标识与其公钥的关系。私钥则保存在客户端上；
3）首次给对方发送消息或首次接收到对方消息时，便到证书服务器查询对方的公钥；
4）根据对方公钥和自己的私钥计算出共享密钥；
5）后续与对方所有的消息都基于这个密钥和相同的对称加解密算法进行加密解密操作。

端到端消息加密过程示意：

至此：我们完成了一个简单的端到端消息加密方案，在这个方案中我们引入了一个第三方的用于存储用户公钥的角色，这个角色的存在可以让任何一方都不用关心对方的在线状态，随时给对方发送加密过消息，而消息转发服务器无法解密消息。

接下来，我们针对这个简单方案存在的各种安全隐患问题，进行逐步分析和优化。

6、端到端加密实践方案的进一步优化和演进

6.1 使用HMAC作为消息完整性认证算法

在消息传输过程中，双方需要确认彼此消息的完整性，简单的做法就是将消息进行 Hash，得到的 Hash 值附加到消息后，随消息一起发送；对端接收后，同样进行 Hash，来验证消息是否被篡改。

关键点在于不同数据得到的 Hash 值一定不同，其中带密钥的 Hash 值就是 MAC算法。

另外，为了避免使用同样的 Hash 函数对相同数据进行操作总是得出同样的值，额外加入一个密钥，这样使用不同密钥就可以得出不同的 MAC。当然，这个密钥是两个对端都知道的。

这样，我们就得到了基于加密 Hash 的消息完整性认证的算法——Hash-based MAC（简称HMAC）。

基础知识1：什么是MAC算法？

全称Message Authentication Code，即消息认证码（带密钥的Hash函数）。在密码学中，MAC是通信实体双方使用的一种验证机制，是保证消息数据完整性的一种工具。

MAC算法的安全性依赖于Hash函数，故也称带密钥的Hash函数。消息认证码是基于密钥和消息摘要“hash”所获得的一个值，可用于数据源发认证和完整性校验。

使用 MAC 验证消息完整性的具体过程是：

1）假设通信双方 A 和 B 共享密钥 K，A用消息认证码算法将 K 和消息 M 计算出消息验证码 Mac，然后将 Mac 和 M 一起发送给 B；
2）B 接收到 Mac 和 M 后，利用 M 和 K 计算出新的验证码 Mac*，若 Mac*和Mac 相等则验证成功，证明消息未被篡改。

由于攻击者没有密钥 K，攻击者修改了消息内容后无法计算出相应的消息验证码，因此 B 就能够发现消息完整性遭到破坏。

简而言之就是：

1）发送者通过MAC算法计算出消息的MAC值，并和消息一起发给收信者；
2）收信者用同样的MAC算法计算收到的消息的MAC值，并对比两者。

下图是原理示意：

基础知识2：什么是HMAC算法？

HMAC是MAC算法中的一种，其基于加密HASH算法实现。任何加密HASH, 比如MD5、SHA256等，都可以用来实现HMAC算法，其相应的算法称为HMAC-MD5、HMAC-SHA256等。

6.2 使用ECDH算法替换DH算法

DH 算法是以离散对数的数学难题为基础的，随着计算机计算能力逐步增强，我们要不停地使用更大的数以增加破解难度，目前业界普遍认为至少需要使用 2048 位 DH 算法才具备更好的安全性。

在此我们引入 ECDH 算法替换 DH 算法。ECDH 密钥协商算法是 ECC 算法和 DH 密钥交换原理结合使用。ECC 是建立在基于椭圆曲线的离散对数问题上的密码体制。在相同破解难度下，ECC 具有更小长度的密钥和更快的正向计算速度优势。

我们系统上的 ECDH 可以直接采用目前公开的 sepc256kl 和 Curve25519 曲线，而无需服务再提供公开大数参数。

6.3 提升前向安全性

在消息传输过程中，如果协商好的密钥泄露了，就意味着所有信息都将暴露于风险之下。

为了防止这种情况发生，我们需要每次加密使用的密钥都与上一次不同，且不可以反向推导得出之前的密钥。

此处引入一个 Hash 算法：这个 Hash 算法可以通过输入一个密钥导出另外一个离散性更大的密钥，每次发送消息时都是用上次的消息密钥进行 Hash 运算得出本次密钥，由于 Hash 算法具有单向不可逆的特性，因此就无法通过本次的密钥推导之前的密钥。

从感观上，这就像一个棘轮，棘轮就是一种特殊的齿轮，他只能往一个方向转下去，而不能往回转。

我们先来感性认识一下棘轮：

在技术上，做到"只能往一个方向转下去，而不能往回转"，是达到前向安全的关键。这就保证了，如果某一轮的密钥被破解出来，但前面的密钥是无法计算出来的，也就是前面的消息无法被解密。

6.4 同时保证前向安全和后向安全性

出于极致的安全性要求，我们会同时考虑前向安全和后向安全。如何保证在某次通信中，被破解出来的密钥，不能破解出之前的消息，而且在一定周期内，这个破解出来的密钥将不会再起作用。

介于此我们再引入另外一个棘轮来保证其向后的安全性。这就是大名鼎鼎的 Signal protocol 中的双棘轮算法。

Signal protocol 是真正的端到端的通讯加密协议，号称是世界上最安全的通讯协议，任何第三方包括服务器都无法查看通讯内容。

双棘轮算法包含一个 KDF 棘轮和一个 DH 棘轮。

KDF 全称（Key derivation function）密钥导出函数，用于从一个原始的密钥导出一个或多个密钥。本质上就是 Hash 函数，通常用来将短密码变成长密码。另外 KDF 需要加“盐”（salt），用于防彩虹表，出于 Hash 的特性，这个“盐”的长度至少要大于 Hash 结果长度。
KDF (原密钥，盐) = 导出密钥

KDF 棘轮就是运用 KDF 算法，设计出一种密钥不断变化的效果，流程如下：

首先：将初始密钥使用 KDF 算法导出新的密钥，新密钥被切成两部分，前半部分作为下一次 KDF 计算的输入，后半部分作为消息密钥。

每迭代一次（也可以说棘轮步进一次），就会生成新的消息密钥。

由于 KDF 算法的单向性，通过这条消息的密钥无法倒推出上一条消息密钥，这就保证了密钥的前向安全。但是如果 KDF 中的盐被掌握，那么它就可以按照这种算法计算出以后所有的消息密钥。

为了保证后向安全，就要设计一种方法，使每次迭代时引入的盐是随机的，从而保证每次的消息密钥是不可以向后推算的。

由前面介绍的 DH 算法得知：两对密钥对可以通过 DH 协议生成一个安全的协商密钥，如果更换其中一个密钥对，新的协商密钥也会变化。

根据这个方法：我们可以设计出一个安全更新盐的方法。我们在证书服务器增加一个临时公钥证书，这个临时证书是按照接收双方标识构建的临时公钥对，即每个人的每个单人会话都具备一个临时公钥。每进行一个消息轮回，就更新一次己方的临时公钥，同时根据另外一方的临时公钥和己方的私钥进行协商，并将协商出的密钥作为盐，使得 KDF 棘轮算法生成的消息密钥具有后向安全性。

在初始时我们无法预测出每个人所有的新二人会话：那么我们就可以规定创建新的二人会话时，发起方首先生成一个新的临时 DH 公私钥对，并向服务器上传自己的临时 DH 公钥；其次发送方用接收方公布的长期公钥与自己的临时私钥协商出密钥作为消息加密的密钥，对消息进行加密；最后接收方首次接收到消息后用自己的长期公钥和发送方的临时私钥计算得出消息密钥，并在首次回复消息时生成临时公私钥，同时上传临时公钥。

问题是：如果接收端不在线，而发送端每条消息都去更新己方的临时公钥证书，就会导致发出去的这些消息，在接收端上线并收取后无法被正常解密。

为了解决这个问题，我们需要规定：只有在发出消息并得到对方回复后才更新临时证书，若对方不回复消息则不去更新临时证书。接收端能回复消息就表示其已经上线并接收完消息，这样就可以保证离线消息或者消息乱序也可以被对方正常解析。这种方法就是双棘轮算法中的另外一个 DH 棘轮。

6.5 更安全的密钥交换协议—— X3DH

对比最初的方案，为了满足消息的前向安全和后向安全，我们增加了双棘轮算法，在原基础方案上为每个人增加了一组会话级别临时 DH 密钥，每个人都拥有一个长期密钥和一组临时密钥。

但是：由于长期密钥无法被更换，所以方案依然存在着安全隐患。

因此：Signal protocol 设计了一种更为复杂和安全的 DH 密钥交换过程，称之为 X3DH（即 DH 协议的 3 倍扩展版）。

在 X3DH 协议里，每个人都要创建 3 种密钥对，分别如下：

1）身份密钥对（Identity Key Pair）：一个长期的符合 DH 协议的密钥对，用户注册时创建，与用户身份绑定；
2）已签名的预共享密钥（Signed Pre Key）：一个中期的符合 DH 协议的密钥对，用户注册时创建，由身份密钥签名，并定期进行轮换，此密钥可能是为了保护身份密钥不被泄露；
3）一次性预共享密钥（One-Time Pre Keys）：一次性使用的 Curve25519 密钥对队列，安装时生成，不足时补充。

所有人都要将这 3 种密钥对的公钥上传到服务器上，以便其他人发起会话时使用。

假如 Alice 要给 Bob 发送消息，首先要和 Bob 确定消息密钥，流程大致如下：

1）Alice 要创建一个临时密钥对（ephemeral key），我们设成 EPK-A，此密钥对是为了后面棘轮算法准备，在此处作用不大；
2）Alice 从服务器获取 Bob 的三种密钥对的公钥：身份密钥对IPK-B、已签名的预共享密钥 SPK-B、一次性预共享密钥 OPK-B；
3）Alice 开始使用 DH 协议计算协商密钥，要引入参数包括：自己创建的两个密钥对的私钥，以及 Bob 的三个公钥。然后用类似排列组合的方式，将自己的私钥与对方的公钥分别带入 DH 算法计算。

DH1 = DH(IPK-A, SPK-B)
DH2 = DH(EPK-A, IPK-B)
DH3 = DH(EPK-A, SPK-B)
DH4 = DH(IPK-A, OPK-B)

如图所示：

然后将计算得到的四个值，前后连接起来，就得到了初始密钥，如下：

DH = DH1 || DH2 || DH3 || DH4

注：“||”代表连接符，比如 456 || 123 = 456123

但是 DH 这个密钥太长，不适合作为消息密钥，所以对这个初始密钥进行一次 KDF 计算，以衍生出固定长度的消息密钥 S：

S = KDF（DH1 || DH2 || DH3 || DH4）

这一步，Alice 终于计算出了消息密钥 S。

于是：

1）Alice 使用消息密钥 S 对消息进行加密，连同自己的身份公钥 IPK-A 和临时公钥 EPK-A 一同发给 Bob；
2）Bob 收到 Alice 的信息后，取出 Alice 的 2 个公钥，连同自己的密钥，使用与 Alice 相同的算法计算消息密钥 S；
3）Bob 和 Alice 使用消息密钥进行加密通讯。

由上可知：X3DH 实际是复杂版的 DH 协议。

至此：我们简单介绍了 Signal Protocol 中最为核心的 X3DH 协议与双棘轮算法，基本上可以满足前向安全和后向安全。当然，真实的处理过程会更为复杂和安全。

7、IM群聊的端到端加密方案

在即时通讯场景中，除了二人之间的聊天以外，还有一个重要的场景就是群聊，那么群聊时的多人消息如何做端到端加密呢？

我们再次回到 DH 密钥协商算法上的推导过程：显然，多方情况下依然可以继续使用 DH 密钥协商算法，这就是群聊中端到端加密的基础。

而 Signal Protocol 在群组聊天中的设计与二人聊天又有所不同，由于群聊的保密性要求相对低一些，只采用了 KDF 链棘轮+公钥签名来进行加密通讯以保障加密的前向安全。

群组聊天的加解密通讯流程如下：

1）每个群组成员都要首先生成随机 32 字节的 KDF 链密钥(Chain Key)，用于生成消息密钥，以保障消息密钥的前向安全性，同时还要生成一个随机 Curve25519 签名密钥对，用于消息签名；
2）每个群组成员用向其它成员单独加密发送链密钥(Chain Key)和签名公钥。此时每一个成员都拥有群内所有成员的链密钥和签名公钥；
3）当一名成员发送消息时，首先用 KDF 链棘轮算法生成的消息密钥加密消息，然后使用私钥签名，再将消息发给服务器，由服务器发送给其它成员；
4）其它成员收到加密消息后，首先使用发送人的签名公钥验证，验证成功后，使用相应的链密钥生成消息密钥，并用消息密钥解密；
5）当群组成员离开时，所有的群组成员都清除自己链密钥和签名公钥并重新生成，再次单独发给每一位成员。这样操作，离开的成员就无法查看群组内的消息了。

由上可知：一个人在不同的群组里，会生成不同的链密钥和签名密钥对，以保障群组之间的隔离。在每个群组中，每个成员还要存储其它成员的 KDF 链和签名公钥，如果群组成员过多，加解密运算量非常大，会影响发送和接收速度，同时密钥管理数据库也会非常大，读取效率也会降低。

所以：群组聊天使用 Signal Protocol 协议，群人数不宜太多。

8、端到端加密方案的补充说明

上面我们介绍了即时通信中二人聊天和群组聊天的端到端加密全部过程。但是正常情况下端到端消息加密只是加密消息的实际负载部分（即只加密消息“体”部分），而消息的控制层则不会被加密，因为消息转发服务器需要根据控制信息进行消息转发或路由（否则肯定大大影响IM底层的路由和通信效率，因为需要反复加密解密）。

为了防止消息被定向分析（分析用户什么时间向谁发送了消息，或接收了谁的消息），我们依然需要对整体即时通信的长连接链路进行加密保护（这说的就是上篇文章里的通信连接层加密技术了），防止信息被中间网络设备截获并分析。而且为了防止密钥服务器被中间人攻击，也需要开启链路加密保护。

9、参考资料

[1] 移动端安全通信的利器——端到端加密（E2EE）技术详解

[2] 简述实时音视频聊天中端到端加密（E2EE）的工作原理

[3] HASH、MAC、HMAC学习

[4] 一文了解加解密、哈希函数、MAC、数字签名、证书、CA等

[5] 双棘轮算法：端对端加密安全协议，原理以及流程详解

[6] Signal protocol 开源协议理解

[7] X25519（Curve25519）椭圆曲线参考资料

（本文已同步发布于：http://www.52im.net/thread-4026-1-1.html）

posted @ 2022-08-29 16:13 Jack Jiang 阅读(92) | 评论 (0) | 编辑收藏

即时通讯安全篇（十）：IM聊天系统安全手段之通信连接层加密技术

本文由融云技术团队分享，原题“互联网通信安全之端到端加密技术”，内容有修订和改动。

1、引言

随着移动互联网的普及，IM即时通讯类应用几乎替代了传统运营商的电话、短信等功能。得益于即时通讯技术的实时性优势，使得人与人之间的沟通和交流突破了空间、时间等等限制，让信息的传递变的无处不在。

但互联网为我们的生活带来极大便利的同时，用户的隐私和通信安全问题也随之而来。

对于IM应用开发者来说，信息沟通的开放性也意味着风险性，用户与网络和移动设备的高度依赖，也为不法之徒提供了可乘之机。因此，提升即时通讯应用的安全性尤其重要。

本篇文章将围绕IM通信连接层的安全问题及实现方案，聚焦IM网络“链路安全”，希望能带给你启发。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-4015-1-1.html）

2、系列文章

本文是IM通讯安全知识系列文章中的第10篇，此系列总目录如下：

《即时通讯安全篇（一）：正确地理解和使用Android端加密算法》
《即时通讯安全篇（二）：探讨组合加密算法在IM中的应用》
《即时通讯安全篇（三）：常用加解密算法与通讯安全讲解》
《即时通讯安全篇（四）：实例分析Android中密钥硬编码的风险》
《即时通讯安全篇（五）：对称加密技术在Android平台上的应用实践》
《即时通讯安全篇（六）：非对称加密技术的原理与应用实践》
《即时通讯安全篇（七）：如果这样来理解HTTPS原理，一篇就够了》
《即时通讯安全篇（八）：你知道，HTTPS用的是对称加密还是非对称加密？》
《即时通讯安全篇（九）：为什么要用HTTPS？深入浅出，探密短连接的安全性》
《即时通讯安全篇（十）：IM聊天系统安全手段之通信连接层加密技术》（* 本文）
《即时通讯安全篇（十一）：IM聊天系统安全手段之传输内容端到端加密技术》（稍后发布...）

3、即时通讯面临的安全问题

1）窃取内容：如果在整个即时通讯的通信过程中，其数据内容是未加密或弱加密的，那么其信息被截获后就可以直接被读取出来。

那么，这就会导致用户数据（包括个人隐私数据）的泄露，甚至可能危害用户的财产安全（比如微信这类IM中，红包、钱包都会涉及财产安全）。如果在办公场景下，被窃取的还可能是公司商业机密，那势必将会造成更大的经济损失。

2）篡改内容：如果通信内容被截获后，对其进行修改再发送，会破坏信息的正确性和完整性（此消息已非彼消息）。

3）伪造内容：如果用户通信凭证（比如token）被窃取或在通信过程中穿插其他信息，就可能为冒用用户身份骗取与之通信者的信任创造可能，埋下更大的安全隐患。

4）传播不法内容：基于即时通讯系统的消息推送能力，不法分子除了可能传播涉黄、涉赌、暴恐或危害国家安全的信息外，还可能传播计算机木马病毒等，可能带来的危害范围将进一步扩大。

4、常用的互联网攻击手段

网络通信过程中常见的攻击手段：

1）移植木马：过在终端移植木马，截获或篡改信息。

2）伪造应用：通过伪造 APP 或在 APP 中添加后门等方式，使终端用户误以为是正常应用进行使用，从而达到其不法目的。

3）网络抓包：通过在网络设备上进行抓包，获取用户通信内容。

4）中间人攻击：通过劫持 DNS 等手段，使用户通信连接经过攻击者的设备，从而达到窃取、篡改等目的。

5）漏洞挖掘：服务端或终端除了自有的程序以外还包含了各种三方组件或中间件，通过挖掘其上的漏洞，达到不法目的。

从上图和手段可知，聊天信息从应用经过网络到达服务端，这期间的任何一个环节都有可能被人利用。所以，在“危机四伏”的互联网络通信中，“安全”必须重视。

5、密码学在即时通讯系统中的应用

5.1 基本常识

针对前述的安全问题和攻击手段，将密码学应用在即时通讯系统连接上，对通信数据进行加密就变得尤为重要。

密码学解决信息安全的三要素（CIA）即：

1）机密性（Confidentiality）：保证信息不泄露给未经授权的用户；
2）完整性（Integrity）：保证信息从真实的发信者传送到真实的收信者手中，传送过程中没有被非法用户添加、删除、替换等；
3）可用性（Availability）：保证授权用户能对数据进行及时可靠的访问。

以上表述，好像有点绕口，我们换个通俗一点的表述。。。

密码学在网络通信中的三大作用就是：

1）加密：防止坏人获取你的数据；
2）认证：防止坏人修改了你的数据而你却并没有发现；
3）鉴权：防止坏人假冒你的身份。

除 CIA 外，还有一些属性也是要求达到的，如可控性（Controllability）和不可否认性（Non-Repudiation）。

5.2 在即时通讯中的应用

作为即时通讯中的关键组成，IM即时通讯系统为了实现消息的快速、实时送达，一般需要客户端与服务器端建立一条socket长连接，用以快速地将消息送达到客户端。

通常即时通讯客户端会以 TCP 或 UDP 的方式与服务器建立连接，同时某些场景下也会使用 HTTP 的方式从服务器获取或提交一些信息。

整个过程中所有的数据都需进行加密处理，简单的数据加密和解密过程可以归纳为：发送方输入明文 -> 加密 -> 生成密文 -> 传输密文 -> 接收方解密 -> 得到明文。

这其中，会涉及：

1）对称加密算法（详见《对称加密技术在Android平台上的应用实践》）
2）非对称加密算法（详见《非对称加密技术的原理与应用实践》）；
3）信息摘要算法（详见《常用加解密算法与通讯安全讲解》）。

这其中，我国也有一套自有的密码算法（国密算法）：国密算法，即国家商用密码算法，是由国家密码管理局认定和公布的密码算法标准及其应用规范，其中部分密码算法已经成为国际标准。如 SM 商用系列密码：对称加密算法 SM4、非对称加密算法 SM2、信息摘要算法 SM3。

6、通信连接层的会话加密

对于连接层面（链路层面）面的加密，应最先考虑的是基于 SSL/TLS 协议进行链路加密（比如微信的作法：《微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解》），这是现代网络通信安全的基石。

很多人认为 SSL/TLS 协议是附加在 HTTP 协议上的，是 HTTPS 的一部分（详见《为什么要用HTTPS？深入浅出，探密短连接的安全性》）。

其实这种理解不完全正确，SSL/TLS 是独立于应用层协议的，高层协议可以透明地分布在 SSL/TLS 协议上面。因此基于socket长连接的IM即时消息通讯协议也可以构建在 SSL/TLS 协议上面。

SSL/TLS 是独立于应用层协议：

SSL/TLS 可以被简单地归纳为：利用基于公私钥体系的非对称加密算法，传输对称加解密算法的密钥，并将后续通讯的数据包基于双方相同的对称加解密算法和密钥进行加密并传输，从而达到保证数据安全通讯的目的。

非对称加密算法里面的公钥和私钥在数学上是相关的，这样才能用一个加密、用另一个解密。不过，尽管是相关的，但以现有的数学算法，是没有办法从一个密钥算出另一个密钥。

另外需要着重强调的是：在系统中不要使用自签证书，而要使用具备 CA 认证的证书，这样可以有效的防止中间人攻击。

7、基于SSL/TLS的通信连接层如何实现会话的快速恢复

7.1 概述

客户端和服务器端建立 SSL/TLS 握手时，需要完成很多步骤：密钥协商出会话密钥、数字签名身份验证、消息验证码 MAC 等。

整个握手阶段比较耗时的是密钥协商，需要密集的 CPU 处理。当客户端和服务器断开了本次会话连接，那么它们之前连接时协商好的会话密钥就消失了。在下一次客户端连接服务器时，便要进行一次新的完整的握手阶段。

这似乎没什么问题，但是当系统中某一时间段里有大量的连接请求提交时，就会占用大量服务器资源，导致网络延迟增加。

为了解决上面的问题，TLS/SSL 协议中提供了会话恢复的方式，允许客户端和服务器端在某次关闭连接后，下一次客户端访问时恢复上一次的会话连接。

会话恢复有两种：

1）一种是基于 Session ID 的恢复；
2）一种是使用 Session Ticket TLS 扩展。

下面来看看两种方式的优劣。

7.2 基于Session ID的SSL/TLS长连接会话恢复

一次完整的握手阶段结束后，客户端和服务器端都保存有这个 Session ID。

在本次会话关闭，下一次再次连接时：客户端在 Client Hello 子消息中附带这个 Session ID 值，服务器端接收到请求后，将 Session ID 与自己在 Server Cache 中保存的 Session ID 进行匹配。

如果匹配成功：服务器端就会恢复上一次的 TLS 连接，使用之前协商过的密钥，不重新进行密钥协商，服务器收到带 Session ID 的 Client Hello 且匹配成功后，直接发送 ChangeCipherSpec 子协议，告诉 TLS 记录层将连接状态切换成可读和可写，就完成会话的恢复。

基于Session ID 会话恢复原理：

虽然使用 Session ID 进行会话恢复可以减少耗时的步骤，但由于 Session ID 主要保存在服务器 Server Cache 中，若再次连接请求时由于负载均衡设定将请求重定位到了其他服务器上，此时新的服务器 Server Cache 中没有缓存与客户端匹配的 Session ID，会导致会话无法恢复无法进行，因此不建议选用 Session ID 方式进行会话恢复。

7.3 基于SessionTicket的SSL/TLS长连接会话恢复

一次完整的握手过程后，服务器端将本次的会话数据（会话标识符、证书、密码套件和主密钥等）进行加密，加密后生成一个 ticket ，并将 ticket 通过 NewSessionTicket 子消息发送给客户端，由客户端来保存，下一次连接时客户端就将 ticket 一起发送给服务器端，待服务器端解密校验无误后，就可以恢复上一次会话。

基于SessionTicket 会话恢复原理：

由于加解密都是在服务端闭环进行，多服务只需要共享密钥就可以完成此过程，相较于 Session ID 的方式，可以不依赖 Server Cache，因此 SessionTicket 会话恢复方式更有利于大型分布式系统使用。

8、本文小结

本文分享了IM即时通讯的通信连接层安全知识和加密技术等。

并着重强调了两方面内容。首先，在IM即时通讯系统中使用具备 CA 认证的 SSL/TLS 证书可以保证传输安全，防止传输过程被监听、防止数据被窃取，确认连接的真实性。其次，利用 SessionTicket 快速地进行会话恢复可以提高整体系统性能，降低连接延时。

本文的下篇《即时通讯安全篇（十一）：IM聊天系统安全手段之传输内容端到端加密技术》，将继续分享基于IM传输内容的端到端加密技术，敬请关注。

9、参考资料

[1] TCP/IP详解 - 第11章·UDP：用户数据报协议

[2] TCP/IP详解 - 第17章·TCP：传输控制协议

[4] 网络编程懒人入门(四)：快速理解TCP和UDP的差异

[5] 零基础IM开发入门(二)：什么是IM系统的实时性？

[6] 对称加密技术在Android平台上的应用实践

[7] 非对称加密技术的原理与应用实践

[8] 常用加解密算法与通讯安全讲解

[9]微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解

[10] 为什么要用HTTPS？深入浅出，探密短连接的安全性

[11] 探讨组合加密算法在IM中的应用

（本文已同步发布于：http://www.52im.net/thread-4015-1-1.html）

posted @ 2022-08-22 11:35 Jack Jiang 阅读(122) | 评论 (0) | 编辑收藏

阿里IM技术分享(八)：深度解密钉钉即时消息服务DTIM的技术设计

摘要: 本文引用自InfoQ社区“5亿用户如何高效沟通？钉钉首次对外揭秘即时消息服务DTIM”一文，作者陈万红等、策划褚杏娟，有修订和改动。一、引言本文是国内企业IM的事实王者钉钉首次对外深度解密其即时消息服务（即DingTalk IM，简称DTIM）的技术设计实践。本篇文章内容将从模型设计原理到具体的技术架构、最底层的存储模型到跨地域的单元化等，全方位展现了 DTIM 在实际生产... 阅读全文

posted @ 2022-08-15 12:32 Jack Jiang 阅读(223) | 评论 (0) | 编辑收藏

vivo手机上的系统级消息推送平台的架构设计实践

摘要: 本文由vivo互联网服务器团队李青鑫分享，有较多修订和改动。1、引言本文内容来自vivo互联网服务器团队李青鑫在“2021 vivo开发者大会”现场的演讲内容整理而成（现场演讲稿可从本文末附件中下载）。本文将要分享的是手机厂商vivo的系统级推送平台在架构设计上的技术实践和总结。这也是目前为止首次由手机厂商分享的自建系统级推送平台的技术细节，我们也得以借此机会一窥厂商ROO... 阅读全文

posted @ 2022-08-09 12:11 Jack Jiang 阅读(120) | 评论 (0) | 编辑收藏

Web网页端IM产品RainbowChat-Web的v4.1版已发布

一、关于RainbowChat-Web

RainbowChat-Web是一套Web网页端IM系统，是RainbowChat的姊妹产品（RainbowChat是一套基于开源IM聊天框架 MobileIMSDK(Github地址) 的产品级移动端IM系统）。

不同于市面上某些开源或淘宝售卖的demo级代码，RainbowChat-Web的产品级代码演化自真正运营过的商业产品，其所依赖的通信层核心SDK（即MobileIMSDK-Web）已在数年内经过大量客户及其辐射的最终用户的使用和验证。

► 详细产品介绍：http://www.52im.net/thread-2483-1-1.html

► 版本更新记录：http://www.52im.net/thread-2480-1-1.html

► 全部运行截图：http://www.52im.net/thread-2470-1-1.html

► 全部运行视频：http://www.52im.net/thread-2491-1-1.html

二、v4.1 版更新内容

此版更新内容（更多历史更新日志）：

1）[bug][前端]解决了掉线后发出的消息，在被判定未送达的情况下，重连成功时会再次重发的问题（这是MobileIMSDK-Web的bug）；
2）[优化][前端]解决了发送的html等内容，对方显示正常，而自已这边显示不正常的问题（没被转义）；
3）[优化][服务端-独立交付版]解决了log4j2的两个jar包冲突导致在linux下不能正常输出log的问题；
4）[优化][服务端-RainbowChatMQserver]优化了使用mysql8.0驱动时，不能正确读取SQL异常信息的问题（会报空指针异常）；
5）[优化][前端]解决了位置消息发送功能无法正常使用的问题（高德地图官方API升级，已适配并升级完成）；
6）[优化][前端]解决了位置消息查看时的地图控制工具不正常的问题（高德地图官方API升级，已适配并升级完成）。

升级后的位置消息相关功能截图（更多截图点此查看）：

三、关于兼容性

截止目前：RainbowChat-Web努力保证在各主流系统、主流浏览器、不同分辨率屏幕上的一致体验，包括但不限于：Chrome、Safari、FireFox、Edge、360浏览器、世界之窗浏览器等▼

▲ 在各种主流浏览器上的运行情况（更多截图点此进入、更多演示视频点此进入）

▲ 超宽屏上的显示情况（更多截图点此进入、更多演示视频点此进入）

▲ 不同系统、不同分辨率屏幕的真机运行情况（更多截图点此进入、更多演示视频点此进入）

四、主要界面截图概览

▲ 主界面（更多截图点此进入、更多演示视频点此进入）

▲ 主界面(聊天窗全屏时)（更多截图点此进入、更多演示视频点此进入）

▲ 主界面(聊天窗关闭时)（更多截图点此进入、更多演示视频点此进入）

posted @ 2022-08-06 12:14 Jack Jiang 阅读(119) | 评论 (0) | 编辑收藏

直播系统聊天技术(八)：vivo直播系统中IM消息模块的架构实践

摘要: 本文由vivo互联网技术团队LinDu、Li Guolin分享，有较多修订和改动。1、引言IM即时消息模块是直播系统的重要组成部分，一个稳定、有容错、灵活的、支持高并发的消息模块是影响直播系统用户体验的重要因素。本文针对秀场直播，结合我们一年以来通过处理不同的业务线上问题，进行了技术演进式的IM消息模块架构的升级与调整，并据此进行了技术总结、整理成文，希望借此机会分享给大家。在目前大部分主流的直播... 阅读全文

posted @ 2022-08-01 12:37 Jack Jiang 阅读(132) | 评论 (0) | 编辑收藏

基于Netty，从零开发IM(四)：编码实践篇（系统优化）

本文由作者“大白菜”分享，有较多修订和改动。注意：本系列是给IM初学者的文章，IM老油条们还望海涵，勿喷！

1、引言

前两篇《编码实践篇（单聊功能）》、《编码实践篇（群聊功能）》分别实现了控制台版本的IM单聊和群聊的功能。

通过前两篇这两个小案例来体验的只是Netty在IM系统这种真实的开发实践，但对比在真实的Netty应用开发当中，本系列的案例是非常的简单的，主要目的其实是让大家可以更好地了解其原理，从而写出更高质量的 Netty 代码。

不过，虽然 Netty 的性能很高，但是也不能保证随意写出来的项目就是性能很高的，所以本篇将主要讲解几个基于Netty的IM系统的优化实战技术点。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文同步发布于：http://www.52im.net/thread-3988-1-1.html）

2、写在前面

建议你在阅读本文之前，务必先读本系列的前三篇《IM系统设计篇》、《编码实践篇（单聊功能）》、《编码实践篇（群聊功能）》。

最后，在开始本文之前，请您务必提前了解Netty的相关基础知识，可从本系列首篇《IM系统设计篇》中的“知识准备”一章开始。

3、系列文章

本文是系列文章的第3篇，以下是系列目录：

4、基于Netty的IM系统常见优化方向

常见优化方向脑图：

我们逐条详细解释一下这些优化的目的：

1）心跳检测：主要是避免连接假死现象；
2）连接断开：则删除通道绑定属性、删除对应的映射关系，这些信息都是保存在内存当中的，如果不删除则造成资源浪费；
3）性能问题：用户 ID 和 Channel 的关系绑定存在内存当中，比如：Map，key 是用户 ID，value 是 Channel，如果用户量多的情况（客户端数量过多），那么服务端的内存将被消耗殆尽；
4）性能问题：每次服务端往客户端推送消息，都需从Map里查找到对应的Channel，如果数量较大和查询频繁的情况下如何保证查询性能；
5）安全问题：HashMap 是线程不安全的，并发情况下，我们如何去保证线程安全；
6）身份校验：如何 LoginHandler 是负责登录认证的业务 Handler，AuthHandler 是负责每次请求时校验该请求是否已经认证了，这些 Handler 在链接就绪时已经被添加到 Pipeline 管道当中，其实，我们可以采用热插拔的方式去把一些在做业务操作时用不到的 Handler 给剔除掉。

以上是基于Netty的IM系统开发当中，需要去注意的技术优化点，当然还有很多其他的细节，比如：线程池这块，需要大家慢慢去从实战中积累。

5、本篇优化方向

本篇主要的优化内容主要是在第二篇单聊功能和第三篇群聊功能的基础上继续完善几点。

具体的优化方向如下：

1）无论客户端还是服务端都分别只有一个 Handler，这样的话，业务越来越多，Handler 里面的代码就会越来越臃肿，我们应该想办法把 Handler 拆分成各个独立的 Handler；
2）如果拆分的 Handler 很多，每次有连接进来，那么都会触发 initChannel () 方法，所有的 Handler 都得被 new 一遍，我们应该把这些 Handler 改成单例模式（不需要每次都 new，提高效率）；
3）发送消息时，无论是单聊还是群聊，对方不在线，则把消息缓存起来，等待其上线再推送给他；
4）连接断开时，无论是主动和被动，需要删除 Channel 属性、删除用户和 Channel 映射关系。

6、业务拆分以及单例模式优化

6.1 概述

主要优化细节如下：

1）自定义 Handler 继承 SimpleChannelInboundHandler，那么解码的时候，会自动根据数据格式类型转到相应的 Handler 去处理；
2）@Shareable 修饰 Handler，保证 Handler 是可共享的，避免每次都创建一个实例。

6.2 登录Handler优化

@ChannelHandler.Sharable
public class ClientLogin2Handler extends SimpleChannelInboundHandler<LoginResBean> {
    //1.构造函数私有化，避免创建实体
    private ClientLogin2Handler(){}
    //2.定义一个静态全局变量
    public static ClientLogin2Handler instance=null;
    //3.获取实体方法
    public static ClientLogin2Handler getInstance(){
        if(instance==null){
            synchronized(ClientLogin2Handler.class){
                if(instance==null){
                    instance=new ClientLogin2Handler();
                }
            }
        }
        return instance;
    }

    protected void channelRead0(
        ChannelHandlerContext channelHandlerContext,
        LoginResBean loginResBean) throws Exception {

        //具体业务代码，参考之前
    }
}

6.3 消息发送Handler优化

@ChannelHandler.Sharable
public class ClientMsgHandler extends SimpleChannelInboundHandler<MsgResBean> {
    //1.构造函数私有化，避免创建实体
    private ClientMsgHandler(){}
    //2.定义一个静态全局变量
    public static ClientMsgHandler instance=null;
    //3.获取实体方法
    public static ClientMsgHandler getInstance(){
        if(instance==null){
            synchronized(ClientMsgHandler.class){
                if(instance==null){
                    instance=new ClientMsgHandler();
                }
            }
        }
        return instance;
    }

    protected void channelRead0(
        ChannelHandlerContext channelHandlerContext,
        MsgResBean msgResBean) throws Exception {

        //具体业务代码，参考之前
    }
}

6.4 initChannel方法优化

.handler(newChannelInitializer<SocketChannel>() {
    @Override
    public void initChannel(SocketChannel ch) {
        //1.拆包器
        ch.pipeline().addLast(new LengthFieldBasedFrameDecoder(Integer.MAX_VALUE,5,4));
        //2.解码器
        ch.pipeline().addLast(new MyDecoder());
        //3.登录Handler，使用单例获取
        ch.pipeline().addLast(ClientLogin2Handler.getInstance());
        //4.消息发送Handler,使用单例获取
        ch.pipeline().addLast(ClientMsgHandler.getInstance());
        //5.编码器
        ch.pipeline().addLast(new MyEncoder());
    }
});

6.5 小结

这种业务拆分以及单例模式优优化是Netty开发当中很常用的，可以更好的维护基于Netty的代码并提高应用性能。

7、数据缓存优化

为了提高用户体验，在发送消息（推送消息）时，如果接收方不在线，则应该把消息缓存起来，等对方上线时，再推送给他。

7.1 数据缓存到集合

//1.定义一个集合存放数据（真实项目可以存放数据库或者redis缓存），这样数据比较安全。
private List<Map<Integer,String>> datas=new ArrayList<Map<Integer,String>>();

//2.服务端推送消息
private void pushMsg(MsgReqBean bean,Channel channel){
    Integer touserid=bean.getTouserid();
    Channel c=map.get(touserid);

    if(c==null){//对方不在线
        //2.1存放到list集合
        Map<Integer,String> data=new HashMap<Integer, String>();
        data.put(touserid,bean.getMsg());
        datas.add(data);

        //2.2.给消息“发送人”响应
        MsgResBean res=new MsgResBean();
        res.setStatus(1);
        res.setMsg(touserid+">>>不在线");
        channel.writeAndFlush(res);

    }else{//对方在线
        //2.3.给消息“发送人”响应
        MsgResBean res=new MsgResBean();
        res.setStatus(0);
        res.setMsg("发送成功);
        channel.writeAndFlush(res);

        //2.4.给接收人推送消息
        MsgRecBean res=new MsgRecBean();
        res.setFromuserid(bean.getFromuserid());
        res.setMsg(bean.getMsg());
        c.writeAndFlush(res);
    }
}

7.2 上线推送

private void login(LoginReqBean bean, Channel channel){
    Channel c=map.get(bean.getUserid());
    LoginResBean res=new LoginResBean();
    if(c==null){
        //1.添加到map
        map.put(bean.getUserid(),channel);
        //2.给通道赋值
        channel.attr(AttributeKey.valueOf("userid")).set(bean.getUserid());
        //3.登录响应
        res.setStatus(0);
        res.setMsg("登录成功");
        res.setUserid(bean.getUserid());
        channel.writeAndFlush(res);

        //4.根据user查找是否有尚未推送消息
        //思路：根据userid去lists查找.......

    }else{
        res.setStatus(1);
        res.setMsg("该账户目前在线");
        channel.writeAndFlush(res);
    }
}

8、连接断开事件处理优化

如果客户端网络故障导致连接断开了（非主动下线），那么服务端就应该能监听到连接的断开，且此时应删除对应的 map 映射关系。但是映射关系如果没有删除掉，将导致服务器资源没有得到释放，进而影响客户端的下次同一个账号登录以及大量的客户端掉线时性能。

8.1 正确写法

实例：

public class ServerChatGroupHandler extends ChannelInboundHandlerAdapter {
    //映射关系
    private static Map<Integer, Channel> map=new HashMap<Integer, Channel>();
    //连接断开，触发该事件
    @Override
    public void channelInactive(ChannelHandlerContext ctx) throws Exception {
        //1.获取Channel
        Channel channel=ctx.channel();

        //2.从map里面，根据Channel找到对应的userid
        Integer userid=null;
        for(Map.Entry<Integer, Channel> entry : map.entrySet()){
            Integer uid=entry.getKey();
            Channel c=entry.getValue();
            if(c==channel){
                userid=uid;
            }
        }
        //3.如果userid不为空，则需要做以下处理
        if(userid!=null){
            //3.1.删除映射
            map.remove(userid);
            //3.2.移除标识
            ctx.channel().attr(AttributeKey.valueOf("userid")).remove();
        }
    }
}

8.2 错误写法

Channel 断开，服务端监听到连接断开事件，但是此时 Channel 所绑定的属性已经被移除掉了，因此这里无法直接获取的到 userid。

实例：

public class ServerChatGroupHandler extends ChannelInboundHandlerAdapter {
    //映射关系
    private static Map<Integer, Channel> map=new HashMap<Integer, Channel>();

    //连接断开，触发该事件
    @Override
    public void channelInactive(ChannelHandlerContext ctx) throws Exception {
        //1.获取Channel绑定的userid
        Object userid=channel.attr(AttributeKey.valueOf("userid")).get();

        //2.如果userid不为空
        if(userid!=null){
            //1.删除映射
            map.remove(userid);
            //2.移除标识
            ctx.channel().attr(AttributeKey.valueOf("userid")).remove();
        }
    }
}

9、本篇小结

本篇内容还是相对容易理解的，主要是优化前面两篇实现的IM聊天功能，优化内容是业务 Handler 的拆分以及使用单例模式、接受人不在线则缓存数据、等其上线再推送、监听连接断开删除对应的映射关系。

限于篇幅，本系列文章文章没办法真正讲解开发一个完整IM系统所涉及的方方面面，如果有兴趣，可以继续阅读更有针对性的IM开发文章，比如IM架构设计、IM通信协议、IM通信安全、群聊优化、弱网优化、网络保活等。

10、参考资料

[1] 新手入门：目前为止最透彻的的Netty高性能原理和框架架构解析

[2] 理论联系实际：一套典型的IM通信协议设计详解

[3] 浅谈IM系统的架构设计

[4] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[6] 一套原创分布式即时通讯(IM)系统理论架构方案

[7] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[9] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[10] 基于实践：一套百万消息量小规模IM系统技术要点总结

[11] 探探的IM长连接技术实践：技术选型、架构设计、性能优化

[12] 拿起键盘就是干，教你徒手开发一套分布式IM系统

[13] 万字长文，手把手教你用Netty打造IM聊天

[14] 基于Netty实现一套分布式IM系统

[15] SpringBoot集成开源IM框架MobileIMSDK，实现即时通讯IM聊天功能

（本文同步发布于：http://www.52im.net/thread-3988-1-1.html）

posted @ 2022-07-25 12:02 Jack Jiang 阅读(129) | 评论 (0) | 编辑收藏

开源轻量级 IM 框架 MobileIMSDK v6.2 发布

一、更新内容简介

二、MobileIMSDK简介

MobileIMSDK 是一套专为移动端开发的原创IM通信层框架：

历经8年、久经考验；
超轻量级、高度提炼，lib包50KB以内；
精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准Java、H5、小程序(开发中..)、Uniapp(开发中..)；
服务端基于Netty，性能卓越、易于扩展；
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

MobileIMSDK工程始于2013年10月，起初用作某产品的即时通讯底层实现，完全从零开发，技术自主可控！

您可能需要：查看关于MobileIMSDK的详细介绍。

三、代码托管同步更新

OsChina.net

代码托管： http://git.oschina.net/jackjiang/MobileIMSDK
项目资料：点击查看更多资料

GitHub.com

代码托管： https://github.com/JackJiang2011/MobileIMSDK
项目资料：点击查看更多资料

四、MobileIMSDK设计目标

让开发者专注于应用逻辑的开发，底层复杂的即时通讯算法交由SDK开发人员，从而解偶即时通讯应用开发的复杂性。

五、MobileIMSDK框架组成

整套MobileIMSDK框架由以下5部分组成：

Android客户端SDK：用于Android版即时通讯客户端，支持Android 2.3及以上，查看API文档；
iOS客户端SDK：用于开发iOS版即时通讯客户端，支持iOS 8.0及以上，查看API文档；
Java客户端SDK：用于开发跨平台的PC端即时通讯客户端，支持Java 1.6及以上，查看API文档；
H5客户端SDK：暂无开源版，查看精编注释版；
服务端SDK：用于开发即时通讯服务端，支持Java 1.7及以上版本，查看API文档。

整套MobileIMSDK框架的架构组成：

另外：MobileIMSDK可与姊妹工程 MobileIMSDK-Web 无缝互通，从而实现Web网页端聊天或推送等。

六、MobileIMSDK v6.2更新内容

【重要说明】：

MobileIMSDK v6.2 为次要版本，进行了若干优化！查看详情

【新增的特性】：

[服务端] 新增两个聊天消息前置处理回调，方便开发者进行内容鉴黄、过滤、修改等运营管理；
[服务端] 新增新增了一个与 Web 互通情况下的 C2C 模式回调，用于开发者在互通模式下实现离线消息 Push 逻辑；

【其它优化和提升】：

[Andriod] 支持最新的 Andriod 12，解决了 Demo 工程中的 Andriod12 兼容问题；
[Andriod] 解决了 Demo 工程在最新 Android Studio 编译时报方法数超过 65535 的经典问题；
[服务端] 升级 log4j2 至 2.17.0，解决 Log4j2 远程代码执行高危漏洞；
[服务端] 为 ServerEventListener 类中的 onUserLogout 回调增加 beKickoutCode 参数；
[服务端] [优化] 尝试解决与 Web 互通情况下，MQProvider 中的 work 方法会因异步消息导致的 AlreadCloseException 问题；

【版本地址】：

https://gitee.com/jackjiang/MobileIMSDK/releases/6.2

posted @ 2022-07-20 10:29 Jack Jiang 阅读(95) | 评论 (0) | 编辑收藏

基于Netty，从零开发IM(三)：编码实践篇（群聊功能）

摘要: 本文由作者“大白菜”分享，有较多修订和改动。注意：本系列是给IM初学者的文章，IM老油条们还望海涵，勿喷！1、引言接上两篇《IM系统设计篇》、《编码实践篇（单聊功能）》，本篇主要讲解的是通过实战编码实现IM的群聊功能，内容涉及群聊技术实现原理、编码实践等知识。学习交流：- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》- 开源IM框架源码：https://... 阅读全文

posted @ 2022-07-18 15:06 Jack Jiang 阅读(107) | 评论 (0) | 编辑收藏

基于Netty，从零开发IM(二)：编码实践篇（im单聊功能）

摘要: 本文由作者“大白菜”分享，个人博客 cmsblogs.cn，有较多修订和改动。注意：本系列是给IM初学者的文章，IM老油条们还望海涵，勿喷！1、引言接上篇《IM系统设计篇》，本篇主要讲解的是通过实战编码实现IM的单聊功能，内容涉及技术原理、编码实践。补充说明：因为本系列文章主要目的是引导IM初学者在基于Netty的情况下，如何一步一步从零写出IM的逻辑和思维能力，因而为了简... 阅读全文

posted @ 2022-07-11 11:39 Jack Jiang 阅读(103) | 评论 (0) | 编辑收藏

基于Netty，徒手撸IM(一)：IM系统设计篇

本文收作者“大白菜”分享，有改动。注意：本系列是给IM初学者的文章，IM老油条们还望海涵，勿喷！

1、引言

这又是一篇基于Netty的IM编码实践文章，因为合成一篇内容太长，读起来太累，所以也就顺着作者的思路分开成4篇，读起来心理压力也就没那么大了。

这个系列的几篇文章分享的是：假设在没有任何成型的第3方IM库或SDK的情况下，以网络编程的基础技术视野，思考和实践如何基于Netty网络库从零写一个可以聊天的IM系统的过程，没有眼花缭乱的架构设计、也没有高端大气的模式设计方法论，有的只是从IM入门者的角度的思路和实战，适合IM初学者阅读。

本篇主要是徒手撸IM系列的开篇，主要讲解的是的IM设计思路，不涉及实践编码，希望给你带来帮助。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-3963-1-1.html）

2、知识准备

* 重要提示：本系列文章主要是代码实战分享，如果你对即时通讯（IM）技术理论了解的不多，建议先详细阅读：《零基础IM开发入门：什么是IM系统？》、《新手入门一篇就够：从零开发移动端IM》。

不知道 Netty 是什么？这里简单介绍下：

Netty 是一个 Java 开源框架。Netty 提供异步的、事件驱动的网络应用程序框架和工具，用以快速开发高性能、高可靠性的网络服务器和客户端程序。
也就是说，Netty 是一个基于 NIO 的客户、服务器端编程框架，使用Netty 可以确保你快速和简单的开发出一个网络应用，例如实现了某种协议的客户，服务端应用。
Netty 相当简化和流线化了网络应用的编程开发过程，例如，TCP 和 UDP 的 Socket 服务开发。

Netty的基础入门好文章：

如果你连Java的NIO都不知道是什么，下面的文章建议优先读：

Netty源码和API的在线查阅地址：

1）Netty-4.1.x 完整源码（在线阅读版）（* 推荐）
2）Netty-4.1.x API文档（在线版）

3、系列文章

本文是系列文章的第1篇，以下是系列目录：

《基于Netty，徒手撸IM(一)：IM系统设计篇》（* 本文）
《基于Netty，徒手撸IM(二)：编码实践篇（单聊功能）》
《基于Netty，徒手撸IM(三)：编码实践篇（群聊功能）》
《基于Netty，徒手撸IM(一)：编码实践篇（系统优化）》

4、需求分析

业务场景： 本次实战就是模拟微信的IM聊天，每个客户端和服务端建立连接，并且可以实现点对点通信（单聊），点对多点通信（群聊）。

设计思路： 我们要实现的是点（客户端）对点（客户端）的通讯，但是我们大部分情况下接触的业务都是客户端和服务端之间的通讯（所谓的C/S模式？），客户端只需要知道服务端的 IP 地址和端口号即可发起通讯了。那么客户端和客户端应该怎么去设计呢？

技术思考：难道是手机和手机之间建立通讯连接（所谓的P2P），互相发送消息吗？

这种方案显然不是很好的方案：

1）首先：客户端和客户端之间通讯，首先需要确定对方的 IP 地址和端口号，显然不是很现实；
2）其次：即使有办法拿到对方的 IP 地址和端口号，那么每个点（客户端）既作为服务端还得作为客户端，无形之中增加了客户端的压力。

其实：我们可以使用服务端作为IM聊天消息的中转站，由服务端主动往指定客户端推送消息。如果是这种模式的话，那么 Http 协议是无法支持的（因为Http 是无状态的，只能一请求一响应的模式），于是就只能使用 TCP 协议去实现了。

Jack Jiang注：此处作者表述不太准确，因为虽然HTTP是无状态的，但一样可以实现即时通讯能力，有兴趣的读者可以阅读以下几篇文章，了解一下这些曾经利用HTTP实现即时通讯聊天的技术方法：

5、IM单聊思路设计

5.1 通讯架构原理

以下是通讯架构原理图：

如上图所示，通讯流程解析如下：

1）实现客户端和客户端之间通讯，那么需要使用服务端作为通讯的中转站，每个客户端都必须和服务端建立连接；
2）每个客户端和服务端建立连接之后，服务端保存用户 ID 和通道的映射关系，其中用户 ID 作为客户端的唯一标识；
3）客户端 A 往客户端 B 发送消息时，先把消息发送到服务端，再有服务端往客户端 B 进行推送。

针对上述第“3）”点，服务端如何找到客户端 B 呢？

客户端 A 往服务端发送消息时，消息携带的信息有：“客户端 A 用户 ID”、“客户端 B 用户 ID”、“消息内容”。这样服务端就能顺利找到服务端 B 的通道并且进行推送消息了。

5.2 消息推送流程

每个客户端和服务端建立连接的时候，必须把个人用户信息上传到服务端，由服务端统一保存映射关系。如果某个客户端下线了，则服务端监听到连接断开，删除对应的映射关系。

其次：发起群聊的时候，需要传递 touser 字段，服务端根据该字段在映射表里面查找到对应的连接通道并发起消息推送。

上述逻辑原理如下图所示：

5.3 更多的细节

其实在真正要做IM之前，要考虑的技术细节还是很多的，以下这几篇文章就步及到了典型的几个IM热门技术点，有兴趣的一定要读一读：

6、IM群聊思路设计

群聊指的是一个组内多个用户之间的聊天，一个用户发到群组的消息会被组内任何一个成员接收。

具体架构思路如下所示：

如上图所示，群聊通讯流程解析如下。

1）群聊其实和单聊整体上思路都是一致的，都是需要保存每个用户和通道的对应关系，方便后期通过用户 ID 去查找到对应的通道，再跟进通道推送消息。

2）如何把消息发送给多个组内的成员呢？

其实很简单，服务端再保存另外一份映射关系，那就是聊天室和成员的映射关系。发送消息时，首先根据聊天室 ID 找到对应的所有成员，然后再跟进各个成员的 ID 去查找到对应的通道，最后由每个通道进行消息的发送。

3）成员加入某个群聊组的时候，往映射表新增一条记录，如果成员退群的时候则删除对应的映射记录。

通过上面的架构图可以发现，群聊和单聊相比，其实就是多了一份映射关系而已。

其实群聊是IM里相对来说技术难度较高的功能，有兴趣的读者可以阅读下面这几篇：

另外，对于超大规模群聊，技术难度更是指数上升：

7、本文小结

本篇主要是帮助读者掌握单聊和群聊的核心设计思路。

单聊： 主要是服务器保存了一份用户和通道之间的映射关系，发送消息的时候，根据接收人 ID 找到其对应的通道 Channel，Channel 的 write () 可以给客户端发送消息。

群聊： 保存两份关系，分别是用户 ID 和 Channel 之间的关系、群组 ID 和用户 ID 的关系。推送消息的时候，首先根据聊天组 ID 找到其对应的成员，遍历每个成员再进行找出其对应的通道即可。

整体来说，思路还是很简单的，掌握了该设计思路以后，你会发现设计一款 IM 聊天软件其实也不是很复杂。

8、相关文章

如果你觉得对本系列文章还不够详细，可以系统学习以下系列文章：

9、参考资料

[1] 新手入门：目前为止最透彻的的Netty高性能原理和框架架构解析

[2] 理论联系实际：一套典型的IM通信协议设计详解

[3] 浅谈IM系统的架构设计

[4] 简述移动端IM开发的那些坑：架构设计、通信协议和客户端

[6] 一套原创分布式即时通讯(IM)系统理论架构方案

[7] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[9] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[10] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[11] 基于实践：一套百万消息量小规模IM系统技术要点总结

[12] 探探的IM长连接技术实践：技术选型、架构设计、性能优化

（本文已同步发布于：http://www.52im.net/thread-3963-1-1.html）

posted @ 2022-07-04 18:38 Jack Jiang 阅读(164) | 评论 (0) | 编辑收藏

一套十万级TPS的IM综合消息系统的架构实践与思考

本文由作者jhon_11分享，有大量修订和改动。

1、引言

如何设计一款高性能、高并发、高可用的im综合消息平台是很多公司发展过程中会碰到且必须要解决的问题。比如一家公司内部的通讯系统、各个互联网平台的客服咨询系统，都是离不开一款好用且维护的方便im综合消息系统。

那么，我们应该怎么样来设计一款三高特性的im系统，并能同时支持各个业务线的接入（比如：内部OA通讯、客服咨询、消息推送等等功能）有呢？

下面就由我来介绍一下我所负责的公司IM综合消息系统所经历的架构设计历程，以及架构设计过程中的一些思路和总结，希望能给你带来启发。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-3954-1-1.html）

2、初版IM架构

2.1 概述

im第一版设计的初衷是公司需要一款im消息中间件用于支撑客服咨询业务。

但是，考虑到为了方便日后其他业务线也能接入消息沟通平台，所以一开始就将整个消息中心的能力需求给到中间件团队进行开发，以便除客服外的各业务线接入综合消息中心，从而实现多元的消息实时触达能力。

2.2 初版架构介绍

初版架构图如下图所示：

针对上面的架构图，我们逐个解释一下各模块的作用。

1）存储端：

在初版的架构下，存储端我们使用tidb、redis作为主要存储：

[1] redis用于存储消息已读未读，缓存连接信息等功能；
[2] tidb作为开源的分布式数据库，选择它是为了方便消息的存储。

2）mq消息总线：

我们使用rocketmq来实现消息总线（PS：即分布式情况下，不同im实例间通过MQ进行消息交互）。

消息总线是整个im的核心，使用rocketmq能支持十万级别的tps。基本所有服务都要从消息总线中消费消息进行业务处理。

3）zookeeper注册中心：各个服务会注册到zk中，方便服务之间内部进行调用，同样也可以暴露服务给外部进行调用。

4）link服务：

link服务主要用于接收客户端的ws（WebSocket协议）、tcp、udp等协议的连接。

同时调用用户服务进行认证，并投递连接成功的消息给位置服务进行消费，存储连接信息。

ws（WebSocket协议）过来的消息先到link再投递到消息总线。

5）消息分发服务：

消息分发服务主要用于接收消息总线推过来的消息进行处理，按照im内部消息协议构造好消息体后，又推送到消息总线中（比如会推给会话服务、消息盒子、link服务）。

6）位置服务：

存储link的（WebSocket协议）连接、tcp连接等信息，并使用redis进行缓存（key为userId），方便根据UserId查询到该用户所登录的客户端连接在哪个link上。

一个用户在相同设备只能登录一个，但可以支持多端登录。

7）用户服务：用于存储所有用户，提供认证查询接口。

8）消息盒子：存储所有消息，提供消息查询、消息已读未读、消息未读数、消息检索等功能。

9）会话服务：管理会话、群聊会话、单聊会话等功能。

2.3 整体时序图

整体架构的时序图如下：

3、初版IM架构存在的问题及思考

在上节的架构设计介绍中，我们详细分享了初版IM系统架构的设计思路以及具体流程。

那么在初版IM架构设计中还存在什么样的问题，又该如何优化呢？我们一条条来看看。

3.1 使用MQ消息总线的问题

正如上节所分享的那样，我们初版IM架构中，link服务到消息分发服务的消息使用的MQ消息总线。

初版架构设计中，link服务将消息下推给消息分发服务进行处理时，使用的是mq消息总线（通俗了说，IM集群内不同IM实例间的通信是依赖于MQ进行的消息传递），而mq消息总线必然做对有一定的时延（而且时延受制于MQ本身的系统实现和技术策略）。

举个例子：

当两个处于不同IM实例的客户端A和B聊天时，A用户发送消息到link --> 消息总线 --> 消息分发服务 --> 消息总线 --> link --> B用户。

正如上面这个例子，im消息投递流程太长了，并且这样也会大大降低系统的吞吐量。

3.2 消息落库为写扩散的问题

其实现阶段我们使用的是跟微信一样的写扩散策略（详见《企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等》）。

那么为啥微信使用写扩散不是缺陷，而对于我们的IM架构来说确是缺陷呢？

微信的技术特性：

1）微信号称没有存储用户的聊天记录，全是实时推送；
2）微信聊天记录全部会在我们手机端存储一份，两台手机终端上的聊天记录并不互通，并且互不可见。

我们的IM综合消息中心技术特性：

1）综合消息中心是会有拉取历史聊天记录（服务端拉取）的功能，存储了全量消息；
2）综合消息中心的客户端，需要支持网页版本。

综上所述：

1）写扩散对微信这样有移动端的富客户端版本的即时通讯产品十分友好，每个消息在消息分发的时候给处于这个会话（单聊，群聊）下的所有用户所在客户端先推送消息，没找到连接就针对这个用户写一个离线缓存消息，那么下次该用户登录进来，可以从缓存中拉取到该消息，并且清掉缓存；
2）写扩散对于我们这类通用综合消息平台并不友好，由于接入方大部分是网页版的客户端，所以没有缓存消息的能力，浏览器刷新就没有了任何消息，所以需要实时去服务端拉取历史消息。假设我是写扩散，在一个群聊中有五百个用户，针对这五百个用户在这个会话，我需要去写五百条消息，大大的增加了写io，并且还不能写缓存（得写数据库）。

3.3 tidb存在不稳定性和事务并发的问题

tidb是目前主流的开源分布式数据库，查询效率高、无需分库分表。

但同样的，tidb存在一些隐藏的问题：

1）tidb在高并发情况下，并发事务会导致事务失败，具体原因不知；
2）tidb排错成本高，公司很少有tidb专业运维，经常遇到不走索引的情况。

3.4 群聊、单聊冗余在同一个服务的问题

在我们初版的IM架构设计中，单聊和群聊是冗余在会话服务中的，并且冗余在同一张表的。

其实单聊、群聊从数据角度来说，还是会有些不同（比如业务属性）虽然都是会话，我们还是需要将这两个服务拆分开，细粒度的服务拆分能更好的把控整体的逻辑。

4、升级版IM架构

4.1 初始架构问题

正如前面两节分享的那样，渐渐的我们发现初版im架构有很大的不足之处。

在生产上暴露出了以下问题：

1）tps没达到预期，吞吐量不能满足公司业务的发展；
2）使用的存储中间件难以维护（主要是tidb），试错成本高，经常在生产暴露问题，并且速度越来越慢；
3）消息写扩散没有太大必要，并大大增加了系统io次数（原因见上一节）；
4）一些特性无法支持，比如消息图文检索，消息已读未读。

4.2 升级版im架构介绍

本次升级后的im架构如下图所示：

如上图所示，改版后的各模块情况如下：

1）存储端：存储端我们改用了mysql，针对消息服务单独使用了主从mysql集群（主节点用于写消息、从节点用于消息检索）——；
2）mq消息总线：与第一版相比没有改动；
3）link服务：与第一版相比，改动了link服务到消息分发服务的消息推送方式（由MQ总线方式变更为tcp实时推送）；
4）消息分发服务：集成了消息处理能力、路由能力，每台消息分发服务拥有所有link服务的tcp连接；
5）单聊服务：负责单聊会话的管理能力；
6）群聊服务：负责群聊会话的管理能力；
7）用户服务：提供用户认证，登录\注册能力。

5、详细对比针对初版IM架构的改动

升级版的IM架构，对比初始初始，具体主要是下面这些改动。

5.1 改进了不同im实例间的消息分发方式

针对初版MQ消息总结的问题，升级版架构中，我们将link到消息分发服务改为tcp实时连接，百万客户端连接同一台link机器，消息实时触达能力tps达到16万。

link到消息分发服务的改版是本次设计的亮点之一，完全消除了mq推送的时延性，并且路由简单，几乎实时触达。

举个例子：（当两个处于不同IM实例的客户端A和B聊天时）

1）初版架构中是：A用户发送消息到link --> 消息总线 --> 消息分发服务 --> 消息总线 --> link --> B用户；
2）升级版架构是：用户A --> link --> 消息分发 --> link --> 用户B。

而且：link服务到消息分发服务集群的消息推送使用轮询负载均衡的方式，保证公平，不会导致个别机器负载过高。

5.2 取消了位置服务

取消了位置服务（这里的位置不是指的IM消息里的地理位置消息哦），消息分发服务集成位置服务的能力。

消息分发服务本身业务简单，不需要再单独划分位置服务，因为会增加网络io，并且消息分发服务直连link，而让它负责路由则更加方便。

5.3 存储由tidb改成了mysql

存储端由tidb改成了mysql，增强了可维护性，消息服务使用mysql主从读写分离方式，提高了消息落库速度与检索速度的同时，也减轻数据库压力。

前面有提到过使用tidb这样维护成本高，排查问题难的分布式数据库是一件很痛苦的事情。

而我们使用mysql更加稳定，大家对mysql的学习成本相对较低。针对消息服务使用读写分离的方式，能大大提高消息的吞吐量。

5.4 实现了初版无法实现的特性功能

升级版架构中，我们实现了初版无法实现的特性功能，比如消息已读未读、红包推送、商品链接推送等功能。

新版综合消息中心加入了消息已读未读、发送红包、链接推送等功能，但这些功能带有一定的业务特性，毕竟不是所有Im都需要，可通过配置取消这些功能。

5.5 消息由写扩散改为读扩散

升级版IM架构中，消息存储由写扩散改为了读扩散。

前面我们有提到写扩散和读扩散的利弊，对于网页端IM我们更适合使用读扩散，只需要落一条消息，大大提高消息服务的吞吐量.

5.6 增加了门面服务

升级版IM架构中，我们增加门面服务 im-logic，用于暴露给第三方业务线接口调用。

初版架构中，都是im的各个服务各自暴露接口给到外部进行调用，而升级版架中我们统一使用logic服务暴露给外部调用。

在logic服务针对调用可以做一些处理，这样不会影响到整体im的通用，不会增加im底层代码的复杂度，从而将业务逻辑与底层进行解耦。

6、优化后的效果对比

针对升级版和初版IM架构，我们也做了一些对比测试，具体的测试过程就是详细展开了。

以下是测试结果：

7、业务线接入im综合消息系统的业务划分思考

7.1 到底该如何设计高性能通用im综合消息系统

关于业务线接入im综合消息系统的业务划分，我也做了一些总结和思考，为了更形象和易于理解，我这里以客服系统以及企业微信为例来进行分析。

假如我开发了一款通用的im综合消息系统，现在有很多业务方需要接入我们，我们该如何进行业务域的清晰划分就显得尤为重要，需要在妥协与不妥协中进行平衡。

就像当前市面上开源的im消息平台来说，存在的问题主要是：要么是集成了很多的业务逻辑，要么就只是一款单纯的客服系统，再或者就是一款IM好友聊天系统，中间的业务划分并不明确。当然，这也有好处，拿来就能用，并不需要进行二次业务封装。

那么，到底如何将im设计为一款真正的高性能通用im综合消息系统呢？

通用的综合消息消息平台只需要有通用的底层能力：

以下案例假设在我已经按照上述架构设计了一版im综合消息中心。

7.2 以客服系统为例

客服系统：

客服系统不光需要实现自身业务，还需要整合im的消息能力（消费im的消息），来进行场景分析，实现会话变更、信令消息推送等逻辑。

客服系统内部需要根据im的底层支持能力进行相应的业务封装以及客服系统的客服用户池，c端用户池如何初始化到im的用户中心这些问题都是需要考虑进去的。

7.3 内部OA通信为例

内部OA通信：

员工内部OA通信系统需要集成IM好友功能，需要根据im的用户中心封装组织架构，用户权限等功能。

同时，内部通信系统需要根据im实现消息已读未读，群聊列表，会话列表拉取等功能。

8、本文小结

im的综合消息平台是一款需要高度结合业务的中间件系统，它直接与业务打交道，跟普通的中间件有根本的区别。

一款好用的im综合消息平台，直接取决于你的通用性，可扩展性以及系统吞吐能力。

希望这篇文章所分享的内容，能对大家开发im时候的思路有所启迪。

9、参考资料

[1] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[2] 从游击队到正规军(一)：马蜂窝旅游网的IM系统架构演进之路

[3] 瓜子IM智能客服系统的数据架构设计（整理自现场演讲，有配套PPT）

[4] 阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处

[5] 新手入门一篇就够：从零开发移动端IM

[6] 零基础IM开发入门(一)：什么是IM系统？

[7] 基于实践：一套百万消息量小规模IM系统技术要点总结

[9] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[10] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[11] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[12] 阿里IM技术分享(三)：闲鱼亿级IM消息系统的架构演进之路

[13] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

（本文已同步发布于：http://www.52im.net/thread-3954-1-1.html）

posted @ 2022-06-28 10:40 Jack Jiang 阅读(130) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v8.2版已发布

关于MobileIMSDK

工程开源地址是：

1）Gitee码云地址：https://gitee.com/jackjiang/MobileIMSDK
2）Github托管地址：https://github.com/JackJiang2011/MobileIMSDK

关于RainbowChat

v8.2 版更新内容

此版更新内容（更多历史更新日志）：

（1）Android端主要更新内容【新增“扫一扫”等功能及优化！】：

1）[bug]解决了客户端被踢掉后，再次登陆时提示socket错误的问题；
2）[优化]优化了扫码加群界面中，群头像加载失败时的默认显示样式；
3）[优化]优化了切换账号和被踢时跳转到登陆界面的切换性能；
4）[优化]重构了主要类代码，更方便集成；
5）[新增]搜索功能（支持好友、群聊、聊天记录搜索(与微信逻辑一样)）；
6）[新增]“聊信信息”界面中新增“查找聊天记录”功能；
7）[新增]“群聊信息”界面中新增“查找聊天记录”、“清空聊天记录”功能。

（2）服务端主要更新内容：

1）[优化][服务端]升级了MobileIMSDK至v6.2beta(改动了onUserLoginout方法参数)；
2）[优化][服务端]解决了log4j2的两个jar包冲突导致在linux下不能正常输出log的问题.

此版主要新增功能运行截图（更多截图点此查看）：

posted @ 2022-06-25 22:37 Jack Jiang 阅读(101) | 评论 (0) | 编辑收藏

社交软件红包技术解密(十二)：解密抖音春节红包背后的技术设计与实践

摘要: 本文由字节跳动技术团队开发工程师王浩分享，即时通讯网收录时有较多修订。1、引言对于移动互联网时代的用户来说，短视频应用再也不是看看视频就完事，尤其抖音这种头部应用，已经是除了传统IM即时通讯软件以外的新型社交产品了。对于中国人一年一度最重的节日——春节来说，红包是必不可少的节日特定社交元素，而抖音自然不会被错过。在2022年的春节活动期间，抖音将视频和春节红包相结合，用户可... 阅读全文

posted @ 2022-06-20 17:12 Jack Jiang 阅读(165) | 评论 (0) | 编辑收藏

长连接网关技术专题(八)：B站基于微服务的API网关从0到1的演进之路

本文由B站微服务技术团队资深开发工程师周佳辉原创分享。

1、引言

如果你在 2015 年就使用 B 站，那么你一定不会忘记那一年 B 站工作日选择性崩溃，周末必然性崩溃的一段时间。

也是那一年 B 站投稿量激增，访问量随之成倍上升，而过去的 PHP 全家桶也开始逐渐展露出颓势，运维难、监控难、排查故障难、调用路径深不见底。

也就是在这一年，B 站开始正式用 Go 重构 B 站，从此B站的API网关技术子开始了从0到1的持续演进。。。

* 补充说明：本次 API 网关演进也以开源形式进行了开发，源码详见本文“12、本文源码”。

PS：本文分享的API网关涉及到的主要是HTTP短连接，虽然跟长连接技术有些差异，但从架构设计思路和实践上是一脉相承的，所以也就收录到了本《长连接网关技术专题》系列文章中。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-3941-1-1.html）

2、关于作者

周佳辉：哔哩哔哩资深开发工程师。始终以简单为核心的技术设计理念，追求极致简单有效的后端架构。

2017 年加入 B 站，先后从事账号、网关、基础库等开发工作。编码 C/V 技能传授者，技术文档背诵者。开源社区爱好者，安全技术爱好者，云计算行业活跃用户，网络工程熟练工。史诗级 bug 生产者，熟练掌握 bug 产生的各类场景。

3、专题目录

本文是专题系列文章的第8篇，总目录如下：

4、正式用Go重构B站

鉴于引言中所列举的各种技术问题，也是在2015年，财队开始正式用 Go 重构 B 站。

B站第一个 Go 项目——bilizone，由冠冠老师（郝冠伟）花了一个周末时间编码完成。

commit 4ccb1497ca6d94cec0ea1b2555dd1859e6f4f223
Author: felixhao <g******[url=mailto:1@gmail.com]1@gmail.com[/url]>
Date:   Wed Jul 1 18:55:00 2015 +0800
    project init
commit 6e338bc0ee638621e01918adb183747cf2a9e567
Author: 郝冠伟 <h*******@bilibili.com>
Date:   Wed Jul 1 11:21:18 2015 +0800
    readme

▲ 郝冠伟：哔哩哔哩主站技术中心架构师

bilizone 其实还是一个大而全的应用，bilizone 在当时重构的主要意义是将谁也理不清的 PHP 逻辑梳理成了一个比较标准的 Go 应用。

bilizone 在当时最大的意义就是为用户终端提供了基本稳定的数据结构、相对可靠的接口和比较有效的监控。

但因 bilizone 依旧是一个单体应用，所以它依旧继承了单体应用所具有的缺点：

1）代码复杂度高：方法被滥用、超时设置混乱、牵一发而动全身；
2）一挂全挂：最常见的比如，超时设置不合理、goroutine 大量堆积、雪崩；
3）测试及维护成本高：小改动都需要测试所有 case，运维发布胆战心惊。

所以此时B站的崩溃频率虽然已经有所降低，但一炸全炸的问题依旧是一个心腹大患。

5、基于微服务的B站架构初具雏形

鉴于bilizone所面临的单体应用技术缺点，接下来的一次重构，让B站基于微服务的全局架构面貌就将初具雏形。

为了实现微服务模式下的 bilibili，我们将一个 bilizone 应用拆分成多个独立业务应用，如账号、稿件、广告等等，这些业务通过 SLB 直接对外提供 API。

当时的调用模式如下图所示：

但是随着功能拆分后，我们对外暴露了一批微服务，但是因为缺乏统一的出口而面临了不少困难。

这些困难主要是：

1）客户端与微服务直接通信，强耦合；
2）需要多次请求，客户端聚合数据，工作量巨大，延迟高；
3）协议不利于统一，各个部门间有差异，反而需要通过客户端来兼容；
4）面向“端”的 API 适配，耦合到了内部服务；
5）多终端兼容逻辑复杂，每个服务都需要处理；
6）统一逻辑无法收敛，比如安全认证、限流。

6、基于BFF模式的微服务架构

基于上节的初阶微服务架构带来的技术问题，以及我们想要将对端的处理进行内聚的想法，我们自然的而然的就想到在客户端与后端服务之间加一个 app-interface 的组件，这就是接下来的 BFF（Backend for Frontend）模式。

app-interface 的工作模式如下图所示：

有了这个 BFF 之后，我们可以在该服务内进行大量的数据聚合，按照业务场景来设计粗粒度的 API。

这样，后续服务的演进也带来了很多优势：

1）轻量交互：协议精简、聚合；
2）差异服务：数据裁剪以及聚合、针对终端定制化 API；
3）动态升级：原有系统兼容升级，更新服务而非协议；
4）沟通效率提升：协作模式演进为移动业务和网关小组。

BFF 可以认为是一种适配服务，将后端的微服务为客户端的需要进行适配（主要包括聚合裁剪和格式适配等逻辑），向终端设备暴露友好和统一的 API，方便无线设备接入访问后端服务，在其中可能还伴随有埋点、日志、统计等需求。

然而，这个时期的 BFF 还有一个致命的一个问题是——整个 app-interface 属于 single point of failure，严重代码缺陷或者流量洪峰可能引发集群宕机所有接口不可用。

7、基于多套BFF模式的微服务架构

针对上节中BFF模式下架构的技术问题，于是我们在上述基础上进一步迭代，将 app-interface 进行业务拆分。

进而多套 BFF 的模式横空出世：

由此模式开始，基本确定了 B 站微服务接口的对接模式，这套模式也随之在全公司内推广开来。

8、垂直BFF模式时代（2016年至2019年）

接上节，当 B 站网关的架构发展为多套垂直 BFF 之后，开发团队围绕该模式平稳迭代了相当长的一段时间。

而后随着B站业务的发展，团队人员的扩充和几次组织架构调整，此时开始出现直播、电商等独立业务，这些业务的发展我们之后再细说。

而在这些调整之后，有一个团队的职责越来越清晰：主站网关组。

主站网关组的主要职责就是维护上述各类功能的 BFF 网关，此时 bilibili 的主要流量入口为粉板 App。这里可以简单细说一下粉板 App 上的所有业务组成。

主站业务：

1）网关组维护的 BFF，如推荐、稿件播放页等；
2）业务层自行维护的 BFF，如评论、弹幕、账号等。

独立业务：

1）电商服务；
2）直播服务；
3）动态服务。

主站业务的 BFF 其实被分为两类：

1）一类是由网关组负责的 BFF；
2）另一类是业务自行维护的 BFF。

而这两类 BFF 的技术栈其实基本一致，基本功能职责也相差不多。如此划分的原因是让网关组可以更专注于迭代客户端特性功能，免去理解部分独立业务场景的接口，如登陆页应该让对安全更专业账号的同学自行维护。

在这里我们也可以简述一下，一个新需求应该如何决定参与的 BFF ：

1）如果这个功能能由业务层的业务 BFF 独立完成，则网关组不需介入；
2）如果该功能是一个客户端特性需求，如推荐流等复合型业务，需要对接公司大量部门时，则由网关同学参与开发 BFF。

当时主站技术部的后端同学遵循以上两个规则，基本能够满足业务的快速开发和迭代。

我把这段时间称为垂直 BFF 时代，因为基本主站每个业务或多或少都有各种形式的网关存在，大家通过这个网关向外提供接口，该网关和 SLB 进行直接交互。

9、基于业务的统一API网关架构

接上节，我们再来谈一谈几项重要的业务：电商、直播和动态。

电商和直播其实并不是同一时期衍生的，直播在主站 PHP 时期就诞生了，而电商相对更晚一些。

当时直播的技术栈组成有 C++、PHP、Go，其中早期大部分业务逻辑由 PHP 和 C++ 实现，稍晚一些也开始逐步试用主站的 Go 实现部分业务逻辑。其中 PHP 负责对终端提供接口，C++ 主要实现核心业务功能。因此我们可以简单理解为直播使用由 PHP 编写的 BFF 网关。

动态团队其实派生自直播团队，因此技术栈和直播当时基本一致，这里可以简单省略。

而众所周知，大部分电商团队的技术栈都是 Java 和 Spring 或 Dubbo。

因这几个业务实现上几乎没有相似的地方，且大家对 gRPC 协议逐渐地认同，因此技术栈上大家基本没有大一统的想法，互相能调通即可。

而随着 B 站团队进一步的壮大、流量持续的增长，进而经历了诸多线上故障、事故分析之后，大家慢慢发现了这套架构下的各种问题。

这些问题主要是：

1）单个复杂模块也会导致后续业务集成的高难度，根据康威法则，复杂聚合型 BFF 和多团队之间就出现不匹配问题，团队之间沟通协调成本高，交付效率低下；
2）很多跨横切面逻辑，比如安全认证，日志监控，限流熔断等。随着时间的推移，功能的迭代，代码变得越来越复杂，技术债越堆越多。

此时：我们可能还需要一个能协调横跨切面的组件，将路由、认证、限流、安全等组件全部上提，能够统一更新发布，把业务集成度高的 BFF 层和通用功能服务层进行分层，进而大家开始引入基于业务的“统一API网关”架构（如下图所示）。

在新的架构中：统一网关承担了重要的角色，它是解耦拆分和后续升级迁移的利器。

在统一网关的配合下：单块 BFF 实现了解耦拆分，各业务线团队可以独立开发和交付各自的微服务，研发效率大大提升。

另外：把跨横切面逻辑从 BFF 剥离到网关上去以后，BFF 的开发人员可以更加专注业务逻辑交付，实现了架构上的关注分离（Separation of Concerns）。

10、从基于业务的多网关到全局统一网关（2022年至今）

在这两三年的时间里，各个业务团队或多或少都有自己业务网关组建独立的维护团队，也为网关的功能作出过相当多的投入。

但随着 B 站业务的发展，公司级中间件功能的不断更替演进，如果将对接各个中间件的工作在每个网关上都实现一次的话带来的人力投入和沟通成本会相当巨大，且实现标准不统一、运营方式不统一无法起到 API 网关所带来的最佳收益。

因此微服务团队开发了一款 B 站内部意义上的标准 API 网关（全局统一API网关），该 API 网关汇集以往各型网关中流量治理的优秀经验，对相关功能做出完善设计改进。

该 API 网关的目前的主要功能除了常规的限流、熔断、降级、染色外，还会基于这些基础功能和公司各类中间件的基础上，提供各种额外能力。

这些额外进阶型AP 质量治理的相关功能主要是：

1）全链路灰度；
2）流量采样分析、回放；
3）流量安全控制；
...

业务团队在接入 API 网关后都可以一并获得这些功能，为业务的迅速迭代做出力所能及的保障。

11、不仅仅是 API 网关

在开发 API 网关的同时，我们也会更进一步关注业务团队开发、对接 API 时的体验，我们将以网关作为统一标准 API 规范的起点，为业务团队提供更有效的 API 开发生态。

这些API 开发生态可能是：

1）规划 API 业务域，简化 SRE 运维；
2）标准 API 元信息平台；
3）精确的 API 文档和调试工具；
4）类型安全的 API 集成 SDK；
5）API 兼容性保障服务。

API 网关是我们 API 治理生态中的一个标志性里程碑，我们希望在 API 网关的开发中能够多多倾听大家的意见，希望能有更多的声音来帮助我们理清思路。

本次 API 网关演进也以开源形式进行了开发，在这里欢迎大家指导（本次源码详见本文“12、本文源码”）。

12、本文源码

主地址：https://github.com/go-kratos/gateway

备地址：https://github.com/52im/gateway

或从原文链接中下载附件：http://www.52im.net/thread-3941-1-1.html

13、参考资料

[1] 喜马拉雅自研亿级API网关技术实践

[2] 手淘亿级移动端接入层网关的技术演进之路

[3] 从100到1000万高并发的架构演进之路

[4] 一文读懂大型分布式系统设计的方方面面

[5] 零基础理解大型分布式架构的演进历史、技术原理、最佳实践

（本文已同步发布于：http://www.52im.net/thread-3941-1-1.html）

posted @ 2022-06-14 11:56 Jack Jiang 阅读(143) | 评论 (0) | 编辑收藏

微信团队分享：微信后台在海量并发请求下是如何做到不崩溃的

本文引用了文章“月活 12.8 亿的微信是如何防止崩溃的？”和论文“Overload Control for Scaling WeChat Microservices”的内容，有大量改动、优化和修订。

1、引言

微信是一款国民级的即时通讯IM应用，月活用户早就超过10亿，而且经常过年过节会遇到聊天消息量暴增的情况，服务是很容易出现过载的，但事实是微信的后台服务一直比较稳定，那么他们是怎么做到的呢？

本文以微信发表的论文《Overload Control for Scaling Wechat Microservices》为基础（论文PDF原文下载见文末附件），分享了微信基于大规模微服务架构的后台过载管控和保护策略，以及微信根据IM业务特点的一些独特的架构设计做法，其中很多方法很有借鉴意义，值得一读。

（本文已同步发布于：http://www.52im.net/thread-3930-1-1.html）

2、微信所面临的并发压力

截止论文《Overload Control for Scaling Wechat Microservices》发表前，微信后端有超过3000多个服务（包括即时聊天、社交关系、移动支付和第三方授权等），占用20000多台机器（随着微信的广泛普及，这些数字仍在不断增加）。

面向前端请求的入口服务每天需要处理10亿到100亿级别的请求，而每个这样的请求还会触发更多内部的关联服务，从整体来看，微信后端需要每秒处理数亿个请求。

随着微信的不断发展，这些服务子系统一直在快速进行更新迭代。以2018 年的3月到5月为例，在短短的两个月时间里，微信的各服务子系统平均每天发生近千次的变更，运维压力可想而之。

另外：微信每天请求量的分布很不平均，高峰期请求量能达到平时的3倍。而在特殊日子里（比如过年的时候），高峰期的流量能飙升到平时的10倍。有时朋友圈里有什么刷屏的活动，流量肯定也会突增。由此可见，微信后端系统的并发压力相当之大。

而且：微信后端的这些服务所处的环境也是不断变化的，包括硬件故障、代码bug、系统变更等，都会导致服务可承受的容量动态变化。

3、微信的后端服务架构

微信后端采用的也是微服务架构。说是微服务，其实我理解就是采用统一的 RPC 框架搭建的一个个独立的服务，服务之间互相调用，实现各种各样的功能，这也是现代服务的基本架构。毕竟谁也不希望看到我朋友圈崩了，导致跟我聊天也不行了，这也是微信的典型好处。

微信后端的微服务架构一般分为3层：

如上图所示，这3层服务分别是：

1）“入口跳板”服务（接收外部请求的前端服务）；
2）“共享跳板”服务（中间层协调服务）；
3）“基础服务”（不再向其他服务发出请求的服务，也就是充当请求的接收器）。

微信后端的大多数服务属于“共享跳板”服务，“入口跳板”服务比如登录、发送聊天消息、支付服务等。“基础服务”也就是日常最好理解的这些信息数据接口类，比如账户数据、个人信息、好友/联系人信息等。

按照微信后端服务的请求量（每日在十亿到百亿之间），入口协议触发对“共享跳板”服务和“基础服务”更多的请求，核心服务每秒要处理上亿次的请求，也就是显而易见的了。

4、什么是过载保护

1）什么是服务过载?

服务过载就是服务的请求量超过服务所能承受的最大值，从而导致服务器负载过高，响应延迟加大。

用户侧表现就是无法加载或者加载缓慢，这会引起用户进一步的重试，服务一直在处理过去的无效请求，导致有效请求跌 0，甚至导致整个系统产生雪崩。

2）为什么会发生服务过载？

互联网天生就会有突发流量、秒杀、抢购、突发大事件、节日甚至恶意攻击等，都会造成服务承受平时数倍的压力，比如微博经常出现某明星官宣结婚或者离婚导致服务器崩溃的场景，这就是服务过载。

3）过载保护的好处

过载保护主要是为了提升用户体验，保障服务质量，在发生突发流量时仍然能够提供一部分服务能力，而不是整个系统瘫痪。

系统瘫痪就意味着用户流失、口碑变差、夫妻吵架，甚至威胁生命安全（假如腾讯文档崩溃，这个文档正好用于救灾）。

而微信团队在面对这种量级的高并发请求挑战，做法是精细化的服务过载控制。我们继续往下学习。

5、微信面临的过载控制技术挑战

过载控制对于大规模在线应用程序来说至关重要，这些应用程序需要在不可预测的负载激增的情况下实现 24×7 服务可用性。

传统的过载控制机制是为具有少量服务组件、相对狭窄的“前门”和普通依赖关系的系统而设计的。

而微信这种现代即时通讯im应用的全时在线服务特性，在架构和依赖性方面正变得越来越复杂，远远超出了传统过载控制的设计目标。

这些技术痛点包括：

1）由于发送到微信后端的服务请求没有单一的入口点，因此传统的全局入口点（网关）集中负载监控方法并不适用；
2）特定请求的服务调用图可能依赖于特定于请求的数据和服务参数，即使对于相同类型的请求也是如此（因此，当特定服务出现过载时，很难确定应该限制哪些类型的请求以缓解这种情况）；
3）过多的请求中止浪费了计算资源，并由于高延迟而影响了用户体验；
4）由于服务的调用链极其复杂，而且在不断演化，导致有效的跨服务协调的维护成本和系统开销过高。

由于一个服务可能会向它所依赖的服务发出多个请求，并且还可能向多个后端服务发出请求，因此我们必须特别注意过载控制。我们使用一个专门的术语，叫作“后续过载”，用于描述调用多个过载服务或多次调用单个过载服务的情况。

“后续过载”给有效的过载控制带来了挑战。当服务过载时随机执行减载可以让系统维持饱和的吞吐量，但后续过载可能会超预期大大降低系统吞吐量 …

即：在大规模微服务场景下，过载会变得比较复杂，如果是单体服务，一个事件只用一个请求，但微服务下，一个事件可能要请求很多的服务，任何一个服务过载失败，就会造成其他的请求都是无效的。如下图所示。

比如：在一个转账服务下，需要查询分别两者的卡号，再查询 A 时成功了，但查询 B 失败，对于查卡号这个事件就算失败了。比如查询成功率只有 50%，那对于查询两者卡号这个成功率只有 50% * 50% = 25% 了，一个事件调用的服务次数越多，那成功率就会越低。

6、微信的过载控制机制

微信的微服务过载控制机制叫“DAGOR”（因为微信把它的服务间关系模型叫“directed acyclic graph ”，简称DAG）。

显然这种微服务底层的机制必须是和具体的业务实现无关的。DAGOR还必须是去中心化的，否则的话在微信这么大且分布不均的流量下，过载控制很难做到实时和准确。同时也无法适应微服务快速的功能迭代发布（平均每天要发生近1000次的微服务上下线）。

此外，DAGOR还需要解决一个问题：服务调用链很长，如果底层服务因为过载保护丢弃了请求，上层服务耗费的资源全浪费了，而且很影响用户体验（想想进度条走到99%告诉你失败了）。所以过载控制机制在各服务之间必须有协同作用，有时候需要考虑整个调用链的情况。

首先我们来看怎么检测到服务过载。

7、微信如何判断过载

通常判断过载可以使用吞吐量、延迟、CPU 使用率、丢包率、待处理请求数、请求处理事件等等。

微信使用在请求在队列中的平均等待时间作为判断标准。平均等待时间就是从请求到达，到开始处理的时间。

为啥不使用响应时间？因为响应时间是跟服务相关的，很多微服务是链式调用，响应时间是不可控的，也是无法标准化的，很难作为一个统一的判断依据。

那为什么也不使用 CPU 负载作为判断标准呢？因为 CPU 负载高不代表服务过载，因为一个服务请求处理及时，CPU 处于高位反而是比较良好的表现。实际上 CPU 负载高，监控服务是会告警出来，但是并不会直接进入过载处理流程。

腾讯微服务默认的超时时间是 500ms，通过计算每秒或每 2000 个请求的平均等待时间是否超过 20ms，判断是否过载，这个 20ms 是根据微信后台 5 年摸索出来的门槛值。

采用平均等待时间还有一个好处是：独立于服务，可以应用于任何场景，而不用关联于业务，可以直接在框架上进行改造。

当平均等待时间大于 20ms 时，以一定的降速因子过滤调部分请求，如果判断平均等待时间小于 20ms，则以一定的速率提升通过率，一般采用快降慢升的策略，防止大的服务波动，整个策略相当于一个负反馈电路。

8、微信的过载控制策略

微信后台一旦检测到服务过载，就需要按照一定的过载保户策略对请求进行过滤控制，来决定哪些请求能被过载服务处理，哪些是需要丢弃的。

前面我们分析过，对于链式调用的微服务场景，随机丢弃请求会导致整体服务的成功率很低。所以请求是按照优先级进行控制的，优先级低的请求会优先丢弃。

那么从哪些维度来进行优化级的分级呢？

8.1 基于业务的优先级控制

对于微信来说，不同的业务场景优先级是不同的，比如：

1）登录场景是最重要的业务（不能登录一切都白瞎）；
2）支付消息比普通im聊天消息优先级高（因为用户对金钱是更敏感的）；
3）普通消息又比朋友圈消息优先级高（必竟微信的本质还是im聊天）。

所以在微信内是天然存在业务优先级的。

微信的做法是，预先定义好所有业务的优先级并保存在一个Hash Table里：

没有定义的业务，默认是最低优先级。

业务优先级在各个业务的入口服务（Entry Services）中找到请求元信息里。由于一个请求成功与否依赖其下游服务所有的后续请求，所以下游服务的所有后续请求也会带上相同的业务优先级。当服务过载时，会处理优先级更高的请求，丢弃优先级低的请求。

然而，只用业务优先级决定是否丢弃请求，容易造成系统颠簸，比如：

1）支付请求突然上涨导致过载，消息请求被丢弃；
2）丢弃消息请求后，系统负载降低了，又开始处理消息请求；
3）然而，处理消息请求又导致服务过载，又会在下一个窗口抛弃消息请求。

这样反复调整服务请求管制，整体体验非常不好。所以微信需要更精细化的服务请求管制。

PS：微信尝试过提供API让服务提供方自己修改业务优先级，后来在实践中发现这种做法在不同的团队中极难管理，且对于过载控制容易出错，最终放弃了。

8.2 基于用户的优先级控制

很明显，正如上节内容所述，只基于业务优先级的控制是不够的：

1）首先不可能因为负载高，丢弃或允许通过一整个业务的请求，因为每个业务的请求量很大，那一定会造成负载的大幅波动；
2）另外如果在业务中随机丢弃请求，在过载情况下还是会导致整体成功率很低。

为了解决这个问题，微信引入用户优先级。

微信在每个业务优先级内按用户ID计算出的128个优先级：

首先用户优先级也不应该相同，对于普通人来说通过 hash 用户唯一 ID计算用户优先级（这个hash函数每小时变一次，让所有用户都有机会在相对较长的时间内享受到高优先级，保证“公平”）。跟业务优先级一样，单个用户的访问链条上的优先级总是一致的。

这里有个疑问：为啥不采用会话 ID 计算优先级呢？

从理论上来说采用会话 ID 和用户 ID 效果是一样的，但是采用会话 ID 在用户重新登录时刷新，这个时候可能用户的优先级可能变了。在过载的情况下，他可能因为提高了优先级就恢复了。
这样用户会养成坏习惯，在服务有问题时就会重新登录，这样无疑进一步加剧了服务的过载情况。

于是，因为引入了用户优先级，那就和业务优先级组成了一个二维控制平面。根据负载情况，决定这台服务器的准入优先级(B,U)，当过来的请求业务优先级大于 B，或者业务优先级等于 B，但用户优先级高于 U 时，则通过，否则决绝。

下图就是这个“优先级(B,U)”控制逻辑（我们会在后面再具体讨论）：

8.3 自适应优先级调整

在大规模微服务场景下，服务器的负载变化是非常频繁的。所以服务器的准入优先级是需要动态变化的，微信分了几十个业务优先级，每个业务优先级下有 128 个用户优先级，所以总的优先级是几千个。

如何根据负载情况调整优先级呢？

最简单的方式是从右到左遍历：每调整一次判断下负载情况。这个时间复杂度是 O(n), 就算使用二分法，时间复杂度也为 O(logn)，在数千个优先级下，可能需要数十次调整才能确定一个合适的优先级，每次调整好再统计优先级，可能几十秒都过去了，这个方法无疑是非常低效的。

微信提出了一种基于直方图统计的方法快速调整准入优先级：服务器上维护者目前准入优先级下，过去一个周期的（1s 或 2000 次请求）每个优先级的请求量。当过载时，通过消减下一个周期的请求量来减轻负载。假设上一个周期所有优先级的通过的请求总和是 N，下一个周期的请求量要减少 N*a，怎么去减少呢？每提升一个优先级就减少一定的请求量，一直提升到减少的数目大于目标量，恢复负载使用相反的方法，只不是系数为 b ，比 a 小，也是为了快降慢升。根据经验值 a 为 5%，b 为 1%。

为了进一步减轻过载机器的压力，能不能在下游过载的情况下不把请求发到下游呢？否则下游还是要接受请求、解包、丢弃请求，白白的浪费带宽，也加重了下游的负载。

为了实现这个能力：在每次请求下游服务时，下游把当前服务的准入优先级返回给上游，上游维护下游服务的准入优先级，如果发现请求优先级达不到下游服务的准入门槛，直接丢弃，而不再请求下游，进一步减轻下游的压力。

9、实验数据

微信的这套服务过载控制策略（即DAGOR）在微信的生产环境已经运作多年，这是对它的设计可行性的最好证明。

但并没有为学术论文提供必要的图表，所以微信同时进行了一组模拟实验。

下面的图表突出显示了基于排队时间而非响应时间的过载控制的好处。在发生后续过载的情况下，这些好处最为明显（图右）。

10、小结一下

微信的整个过载控制逻辑流程如下图所示：

针对上面这张图，我们来解读一下：

1）当用户从微信发起请求，请求被路由到接入层服务，分配统一的业务和用户优先级，所有到下游的字请求都继承相同的优先级；
2）根据业务逻辑调用 1 个或多个下游服务，当服务收到请求，首先根据自身服务准入优先级判断请求是接受还是丢弃（服务本身根据负载情况周期性的调整准入优先级）；
3）当服务需要再向下游发起请求时，判断本地记录的下游服务准入优先级（如果小于则丢弃，如果没有记录或优先级大于记录则向下游发起请求）；
4）下游服务返回上游服务需要的信息，并且在信息中携带自身准入优先级；
5）上游接受到返回后解析信息，并更新本地记录的下游服务准入优先级。

微信的整个过载控制策略有以下三个特点：

1）业务无关的：使用请求等待时间而不是响应时间，制定用户和业务优先级，这些都与业务本身无关；
2）高效且公平：请求链条的优先级是一致的，并且会定时改变 hash 函数调整用户优先级，过载情况下，不会总是影响固定的用户；
3）独立控制和联合控制结合：准入优先级取决于独立的服务，但又可以联合下游服务的情况，优化服务过载时的表现。

11、写在最后

微信团队的分享只提到过载控制，但我相信服务调用方应该还有一些其他机制，能够解决不是因为下游服务过载，而是因为网络抖动导致的请求超时问题。

微信的这套微服务过载控制机制（即DAGOR）提供的服务无关、去中心化、高效和公平等特性很好地在微信后端跑了很多年。

最后，微信团队还分享了他们设计和运维DAGOR宝贵经验：

1）大规模微服务架构中的过载控制必须在每个服务中实现分散和自治；
2）过载控制应该要考虑到各种反馈机制（例如 DAGOR 的协作准入控制），而不是仅仅依赖于开环启发式；
3）应该通过分析实际工作负载来了解过载控制设计。

12、参考资料

[1] Overload Control for Scaling WeChat Microservices

[2] 罗神解读“Overload Control for Scaling WeChat Microservices”

[3] 2W台服务器、每秒数亿请求，微信如何不“失控”？

[4] DAGOR：微信微服务过载控制系统

[5] 月活 12.8 亿的微信是如何防止崩溃的？

[6] 微信朋友圈千亿访问量背后的技术挑战和实践总结

[7] QQ 18年：解密8亿月活的QQ后台服务接口隔离技术

[8] 微信后台基于时间序的海量数据冷热分级架构设计实践

[9] 架构之道：3个程序员成就微信朋友圈日均10亿发布量[有视频]》

[10] 快速裂变：见证微信强大后台架构从0到1的演进历程（一）

[11] 一份微信后台技术架构的总结性笔记》

13、论文原文

论文PDF请下载此附件：

（因无法上传附件，请从此链接：http://www.52im.net/thread-3930-1-1.html文末的“参考资料”附件中下载）

论文PDF全部内容概览：

（本文已同步发布于：http://www.52im.net/thread-3930-1-1.html）

posted @ 2022-06-06 16:31 Jack Jiang 阅读(603) | 评论 (0) | 编辑收藏

视频直播技术干货：一文读懂主流视频直播系统的推拉流架构、传输协议等

本文由蘑菇街前端开发工程师“三体”分享，原题“蘑菇街云端直播探索——启航篇”，有修订。

1、引言

随着移动网络网速的提升与资费的降低，视频直播作为一个新的娱乐方式已经被越来越多的用户逐渐接受。特别是最近这几年，视频直播已经不仅仅被运用在传统的秀场、游戏类板块，更是作为电商的一种新模式得到迅速成长。

本文将通过介绍实时视频直播技术体系，包括常用的推拉流架构、传输协议等，让你对现今主流的视频直播技术有一个基本的认知。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（备用地址点此）

（本文已同步发布于：http://www.52im.net/thread-3922-1-1.html）

2、蘑菇街的直播架构概览

目前蘑菇街直播推拉流主流程依赖于某云直播的服务。

云直播提供的推流方式有两种：

1）一是通过集成SDK的方式进行推流（用于手机端开播）；
2）另一种是通过RTMP协议向远端服务器进行推流（用于PC开播端或专业控台设备开播）。

除去推拉流，该云平台也提供了云通信（IM即时通讯能力）和直播录制等云服务，组成了一套直播所需要的基础服务。

3、推拉流架构1：厂商SDK推拉流

如上题所示，这一种推拉流架构方式需要依赖腾讯这类厂商提供的手机互动直播SDK，通过在主播端APP和用户端APP都集成SDK，使得主播端和用户端都拥有推拉流的功能。

这种推拉流架构的逻辑原理是这样的：

1）主播端和用户端分别与云直播的互动直播后台建立长连接；
2）主播端通过UDT私有协议向互动直播后台推送音视频流；
3）互动直播后台接收到音视频流后做转发，直接下发给与之建立连接的用户端。

这种推拉流方式有几点优势：

1）只需要在客户端中集成SDK：通过手机就可以开播，对于主播开播的要求比较低，适合直播业务快速铺开；
2）互动直播后台仅做转发：没有转码，上传CDN等额外操作，整体延迟比较低；
3）主播端和用户端都可以作为音视频上传的发起方：适合连麦、视频会话等场景。

4、推拉流架构2：旁路推流

之前介绍了通过手机SDK推拉流的直播方式，看起来在手机客户端中观看直播的场景已经解决了。

那么问题来了：如果我想要在H5、小程序等其他场景下观看直播，没有办法接入SDK，需要怎么处理呢？

这个时候需要引入一个新的概念——旁路推流。

旁路推流指的是：通过协议转换将音视频流对接到标准的直播 CDN 系统上。

目前云直播开启旁路推流后，会通过互动直播后台将音视频流推送到云直播后台，云直播后台负责将收到音视频流转码成通用的协议格式并且推送到CDN，这样H5、小程序等端就可以通过CDN拉取到通用格式的音视频流进行播放了。

目前蘑菇街直播旁路开启的协议类型有HLS、FLV、RTMP三种，已经可以覆盖到所有的播放场景，在后续章节会对这几种协议做详细的介绍。

5、推拉流架构3：RTMP推流

随着直播业务发展，一些主播逐渐不满足于手机开播的效果，并且电商直播需要高保真地将商品展示在屏幕上，需要通过更加高清专业的设备进行直播，RTMP推流技术应运而生。

我们通过使用OBS等流媒体录影程序，对专业设备录制的多路流进行合并，并且将音视频流上传到指定的推流地址。由于OBS推流使用了RTMP协议，因此我们称这一种推流类型为RTMP推流。

我们首先在云直播后台申请到推流地址和秘钥，将推流地址和秘钥配置到OBS软件当中，调整推流各项参数，点击推流以后，OBS就会通过RTMP协议向对应的推流地址推送音视频流。

这一种推流方式和SDK推流的不同之处在于音视频流是直接被推送到了云直播后台进行转码和上传CDN的，没有直接将直播流转推到用户端的下行方式，因此相比SDK推流延迟会长一些。

总结下来RTMP推流的优势和劣势比较明显。

优势主要是：

1）可以接入专业的直播摄像头、麦克风，直播的整体效果明显优于手机开播；
2）OBS已经有比较多成熟的插件，比如目前蘑菇街主播常用YY助手做一些美颜的处理，并且OBS本身已经支持滤镜、绿幕、多路视频合成等功能，功能比手机端强大。

劣势主要是：

1）OBS本身配置比较复杂，需要专业设备支持，对主播的要求明显更高，通常需要一个固定的场地进行直播；
2）RTMP需要云端转码，并且本地上传时也会在OBS中配置GOP和缓冲，延时相对较长。

6、高可用架构方案：云互备

业务发展到一定阶段后，我们对于业务的稳定性也会有更高的要求，比如当云服务商服务出现问题时，我们没有备用方案就会出现业务一直等待服务商修复进度的问题。

因此云互备方案就出现了：云互备指的是直播业务同时对接多家云服务商，当一家云服务商出现问题时，快速切换到其他服务商的服务节点，保证业务不受影响。

直播业务中经常遇到服务商的CDN节点下行速度较慢，或者是CDN节点存储的直播流有问题，此类问题有地域性，很难排查，因此目前做的互备云方案，主要是备份CDN节点。

目前蘑菇街整体的推流流程已经依赖了原有云平台的服务，因此我们通过在云直播后台中转推一路流到备份云平台上，备份云在接收到了直播流后会对流转码并且上传到备份云自身的CDN系统当中。一旦主平台CDN节点出现问题，我们可以将下发的拉流地址替换成备份云拉流地址，这样就可以保证业务快速修复并且观众无感知。

7、视频直播数据流解封装原理

介绍流协议之前，先要介绍我们从云端拿到一份数据，要经过几个步骤才能解析出最终需要的音视频数据。

如上图所示，总体来说，从获取到数据到最终将音视频播放出来要经历四个步骤。

第一步：解协议。

协议封装的时候通常会携带一些头部描述信息或者信令数据，这一部分数据对我们音视频播放没有作用，因此我们需要从中提取出具体的音视频封装格式数据，我们在直播中常用的协议有HTTP和RTMP两种。

第二步：解封装。

获取到封装格式数据以后需要进行解封装操作，从中分别提取音频压缩流数据和视频压缩流数据，封装格式数据我们平时经常见到的如MP4、AVI，在直播中我们接触比较多的封装格式有TS、FLV。

第三步：解码音视频。

到这里我们已经获取了音视频的压缩编码数据。

我们日常经常听到的视频压缩编码数据有H.26X系列和MPEG系列等，音频编码格式有我们熟悉的MP3、ACC等。

之所以我们能见到如此多的编码格式，是因为各种组织都提出了自己的编码标准，并且会相继推出一些新的议案，但是由于推广和收费问题，目前主流的编码格式也并不多。

获取压缩数据以后接下来需要将音视频压缩数据解码，获取非压缩的颜色数据和非压缩的音频抽样数据。颜色数据有我们平时熟知的RGB，不过在视频的中常用的颜色数据格式是YUV，指的是通过明亮度、色调、饱和度确定一个像素点的色值。音频抽样数据通常使用的有PCM。

第四步：音视频同步播放。

最后我们需要比对音视频的时间轴，将音视频解码后的数据交给显卡声卡同步播放。

PS：如果你对上述流程还不太理解，建议进一步阅读以下系列文章：

另外：有关音视频编解码技术的文章，也可以详细学习以下文章：

视频编解码之：《理论概述》、《数字视频介绍》、《编码基础》、《预测技术介绍》
《认识主流视频编码技术H.264》
《如何开始音频编解码技术的学习》
《音频基础及编码原理入门》
《常见的实时语音通讯编码标准》
《实时视频编码H.264的特点与优势》、《视频编码H.264、VP8的前世今生》
《详解音频编解码的原理、演进和应用选型》、《零基础，史上最通俗视频编码技术入门》

8、视频直播传输协议1：HLS

首先介绍一下HLS协议。HLS是HTTP Live Streaming的简写，是由苹果公司提出的流媒体网络传输协议。

从名字可以明显看出：这一套协议是基于HTTP协议传输的。

说到HLS协议：首先需要了解这一种协议是以视频切片的形式分段播放的，协议中使用的切片视频格式是TS，也就是我们前文提到的封装格式。

在我们获取TS文件之前：协议首先要求请求一个M3U8格式的文件，M3U8是一个描述索引文件，它以一定的格式描述了TS地址的指向，我们根据M3U8文件中描述的内容，就可以获取每一段TS文件的CDN地址，通过加载TS地址分段播放就可以组合出一整段完整的视频。

使用HLS协议播放视频时：首先会请求一个M3U8文件，如果是点播只需要在初始化时获取一次就可以拿到所有的TS切片指向，但如果是直播的话就需要不停地轮询M3U8文件，获取新的TS切片。

获取到M3U8后：我们可以看一下里面的内容。首先开头是一些通用描述信息，比如第一个分片序列号、片段最大时长和总时长等，接下来就是具体TS对应的地址列表。如果是直播，那么每次请求M3U8文件里面的TS列表都会随着最新的直播切片更新，从而达到直播流播放的效果。

HLS这种切片播放的格式在点播播放时是比较适用的，一些大的视频网站也都有用这一种协议作为播放方案。

首先：切片播放的特性特别适用于点播播放中视频清晰度、多语种的热切换。比如我们播放一个视频，起初选择的是标清视频播放，当我们看了一半觉得不够清晰，需要换成超清的，这时候只需要将标清的M3U8文件替换成超清的M3U8文件，当我们播放到下一个TS节点时，视频就会自动替换成超清的TS文件，不需要对视频做重新初始化。

其次：切片播放的形式也可以比较容易地在视频中插入广告等内容。

在直播场景下，HLS也是一个比较常用的协议，他最大的优势是苹果大佬的加持，对这一套协议推广的比较好，特别是移动端。将M3U8文件地址喂给video就可以直接播放，PC端用MSE解码后大部分浏览器也都能够支持。但是由于其分片加载的特性，直播的延迟相对较长。比如我们一个M3U8有5个TS文件，每个TS文件播放时长是2秒，那么一个M3U8文件的播放时长就是10秒，也就是说这个M3U8播放的直播进度至少是10秒之前的，这对于直播场景来说是一个比较大的弊端。

HLS中用到的TS封装格式，视频编码格式是通常是H.264或MPEG-4，音频编码格式为AAC或MP3。

一个ts由多个定长的packtet组成，通常是188个字节，每个packtet有head和payload组成，head中包含一些标识符、错误信息、包位置等基础信息。payload可以简单理解为音视频信息，但实际上下层还有还有两层封装，将封装解码后可以获取到音视频流的编码数据。

9、视频直播传输协议2：HTTP-FLV

HTTP-FLV协议，从名字上就可以明显看出是通过HTTP协议来传输FLV封装格式的一种协议。

FLV是Flash Video的简写，是一种文件体积小，适合在网络上传输的封包方式。FlV的视频编码格式通常是H.264，音频编码是ACC或MP3。

HTTP-FLV在直播中是通过走HTTP长连接的方式，通过分块传输向请求端传递FLV封包数据。

在直播中，我们通过HTTP-FLV协议的拉流地址可以拉取到一段chunked数据。

打开文件后可以读取到16进制的文件流，通过和FLV包结构对比，可以发现这些数据就是我们需要的FLV数据。

首先开头是头部信息：464C56转换ASCII码后是FLV三个字符，01指的是版本号，05转换为2进制后第6位和第8位分别代表是否存在音频和视频，09代表头部长度占了几个字节。

后续就是正式的音视频数据：是通过一个个的FLV TAG进行封装，每一个TAG也有头部信息，标注这个TAG是音频信息、视频信息还是脚本信息。我们通过解析TAG就可以分别提取音视频的压缩编码信息。

FLV这一种格式在video中并不是原生支持的，我们要播放这一种格式的封包格式需要通过MSE对影视片的压缩编码信息进行解码，因此需要浏览器能够支持MSE这一API。由于HTTP-FLV的传输是通过长连接传输文件流的形式，需要浏览器支持Stream IO或者fetch，对于浏览器的兼容性要求会比较高。

FLV在延迟问题上相比切片播放的HLS会好很多，目前看来FLV的延迟主要是受编码时设置的GOP长度的影响。

这边简单介绍一下GOP：在H.264视频编码的过程中，会生成三种帧类型：I帧、B帧和P帧。I帧就是我们通常说的关键帧，关键帧内包括了完整的帧内信息，可以直接作为其他帧的参考帧。B帧和P帧为了将数据压缩得更小，需要由其他帧推断出帧内的信息。因此两个I帧之间的时长也可以被视作最小的视频播放片段时长。从视频推送的稳定性考虑，我们也要求主播将关键帧间隔设置为定长，通常是1-3秒，因此除去其他因素，我们的直播在播放时也会产生1-3秒的延时。

10、视频直播传输协议3：RTMP

RTMP协议实际可以与HTTP-FLV协议归做同一种类型。

他们的封包格式都是FlV，但HTTP-FLV使用的传输协议是HTTP，RTMP拉流使用RTMP作为传输协议。

RTMP是Adobe公司基于TCP做的一套实时消息传输协议，经常与Flash播放器匹配使用。

RTMP协议的优缺点非常明显。

RTMP协议的优点主要是：

1）首先和HTTP-FLV一样，延迟比较低；
2）其次它的稳定性非常好，适合长时间播放（由于播放时借用了Flash player强大的功能，即使开多路流同时播放也能保证页面不出现卡顿，很适合监控等场景）。

但是Flash player目前在web端属于墙倒众人推的境地，主流浏览器渐渐都表示不再支持Flash player插件，在MAC上使用能够立刻将电脑变成烧烤用的铁板，资源消耗很大。在移动端H5基本属于完全不支持的状态，兼容性是它最大的问题。

11、视频直播传输协议4：MPEG-DASH

MPEG-DASH这一协议属于新兴势力，和HLS一样，都是通过切片视频的方式进行播放。

他产生的背景是早期各大公司都自己搞自己的一套协议。比如苹果搞了HLS、微软搞了 MSS、Adobe还搞了HDS，这样使用者需要在多套协议封装的兼容问题上痛苦不堪。

于是大佬们凑到一起，将之前各个公司的流媒体协议方案做了一个整合，搞了一个新的协议。

由于同为切片视频播放的协议，DASH优劣势和HLS类似，可以支持切片之间多视频码率、多音轨的切换，比较适合点播业务，在直播中还是会有延时较长的问题。

12、如何选择最优的视频直播传输协议

视频直播协议选择非常关键的两点，在前文都已经有提到了，即低延时和更优的兼容性。

首先从延时角度考虑：不考虑云端转码以及上下行的消耗，HLS和MPEG-DASH通过将切片时长减短，延时在10秒左右；RTMP和FLV理论上延时相当，在2-3秒。因此在延时方面HLS ≈ DASH > RTMP ≈ FLV。

从兼容性角度考虑：HLS > FLV > RTMP，DASH由于一些项目历史原因，并且定位和HLS重复了，暂时没有对其兼容性做一个详尽的测试，被推出了选择的考虑范围。

综上所述：我们可以通过动态判断环境的方式，选择当前环境下可用的最低延迟的协议。大致的策略就是优先使用HTTP-FLV，使用HLS作为兜底，在一些特殊需求场景下通过手动配置的方式切换为RTMP。

对于HLS和HTTP-FLV：我们可以直接使用 hls.js 和 flv.js 做做解码播放，这两个库内部都是通过MSE做的解码。首先根据视频封装格式提取出对应的音视频chunk数据，在MediaSource中分别对音频和视频创建SourceBuffer，将音视频的编码数据喂给SourceBuffer后SourceBuffer内部会处理完剩下的解码和音视频对齐工作，最后MediaSource将Video标签中的src替换成MediaSource 对象进行播放。

在判断播放环境时我们可以参照flv.js内部的判断方式，通过调用MSE判断方法和模拟请求的方式判断MSE和StreamIO是否可用：

// 判断MediaSource是否被浏览器支持，H.264视频编码和Acc音频编码是否能够被支持解码
window.MediaSource && window.MediaSource.isTypeSupported('video/mp4; codecs="avc1.42E01E,mp4a.40.2"');

如果FLV播放不被支持的情况下：需要降级到HLS，这时候需要判断浏览器环境是否在移动端，移动端通常不需要 hls.js 通过MSE解码的方式进行播放，直接将M3U8的地址交给video的src即可。如果是PC端则判断MSE是否可用，如果可用就使用hls.js解码播放。

这些判读可以在自己的逻辑里提前判断后去拉取对应解码库的CDN，而不是等待三方库加载完成后使用三方库内部的方法判断，这样在选择解码库时就可以不把所有的库都拉下来，提高加载速度。

13、同层播放如何解决

电商直播需要观众操作和互动的部分比起传统的直播更加多，因此产品设计的时候很多的功能模块会悬浮在直播视频上方减少占用的空间。这个时候就会遇到一个移动端播放器的老大难问题——同层播放。

同层播放问题：是指在移动端H5页面中，一些浏览器内核为了提升用户体验，将video标签被劫持替换为native播放器，导致其他元素无法覆盖于播放器之上。

比如我们想要在直播间播放器上方增加聊天窗口，将聊天窗口通过绝对定位提升z-index置于播放器上方，在PC中测试完全正常。但在移动端的一些浏览器中，video被替换成了native播放器，native的元素层级高于我们的普通元素，导致聊天窗口实际显示的时候在播放器下方。

要解决这个问题，首先要分多个场景。

首先在iOS系统中：正常情况下video标签会自动被全屏播放，但iOS10以上已经原生提供了video的同层属性，我们在video标签上增加playsinline/webkit-playsinline可以解决iOS系统中大部分浏览器的同层问题，剩下的低系统版本的浏览器以及一些APP内的webview容器（譬如微博），用上面提的属性并不管用，调用三方库iphone-inline-video可以解决大部分剩余问题。

在Android端：大部分腾讯系的APP内置的webview容器用的都是X5内核，X5内核会将video替换成原生定制的播放器已便于增强一些功能。X5也提供了一套同层的方案（该方案官方文档链接已无法打开），给video标签写入X5同层属性也可以在X5内核中实现内联播放。不过X5的同层属性在各个X5版本中表现都不太一样（比如低版本X5中需要使用X5全屏播放模式才能保证MSE播放的视频同层生效），需要注意区分版本。

在蘑菇街App中，目前集成的X5内核版本比较老，在使用MSE的情况下会导致X5同层参数不生效。但如果集成新版本的X5内核，需要对大量的线上页面做回归测试，成本比较高，因此提供了一套折中的解决方案。通过在页面URL中增加一个开关参数，容器读取到参数以后会将X5内核降级为系统原生的浏览器内核，这样可以在解决浏览器视频同层问题的同时也将内核变动的影响范围控制在单个页面当中。

14、相关文章

[1] 移动端实时音视频直播技术详解（四）：编码和封装

[2] 移动端实时音视频直播技术详解（五）：推流和传输

[3] 实现延迟低于500毫秒的1080P实时音视频直播的实践分享

[4] 浅谈开发实时视频直播平台的技术要点

[5] 直播系统聊天技术(七)：直播间海量聊天消息的架构设计难点实践

[6] 从0到1：万人在线的实时音视频直播技术实践分享(视频+PPT) [附件下载]

[7] 实时视频编码H.264的特点与优势

[8] 视频编码H.264、VP8的前世今生

[9] 零基础，史上最通俗视频编码技术入门

[10] 视频编解码之编码基础

[11] 零基础入门：实时音视频技术基础知识全面盘点

[12] 实时音视频面视必备：快速掌握11个视频技术相关的基础概念

[13] 写给小白的实时音视频技术入门提纲

（本文已同步发布于：http://www.52im.net/thread-3922-1-1.html）

posted @ 2022-05-31 15:26 Jack Jiang 阅读(299) | 评论 (0) | 编辑收藏

不为人知的网络编程(十一)：从底层入手，深度分析TCP连接耗时的秘密

摘要: 本文作者张彦飞，原题“聊聊TCP连接耗时的那些事儿”，有少许改动。1、引言对于基于互联网的通信应用（比如IM聊天、推送系统），数据传递时使用TCP协议相对较多。这是因为在TCP/IP协议簇的传输层协议中，TCP协议具备可靠的连接、错误重传、拥塞控制等优点，所以目前在应用场景上比UDP更广泛一些。相信你也一定听闻过TCP也存在一些缺点，能常都是老生常谈的开销要略大。但是各路技... 阅读全文

posted @ 2022-05-26 16:10 Jack Jiang 阅读(165) | 评论 (0) | 编辑收藏

万字长文：手把手教你实现一套高效的IM长连接自适应心跳保活机制

摘要: 本文作者“Carson”，现就职于腾讯公司，原题“高效保活长连接：手把手教你实现自适应的心跳保活机制”，有较多修订和改动。1、引言当要实现IM即时通讯聊天、消息推送等高实时性需求时，我们一般会选择长连接的通信方式。而真正当实现长连接方式时，会遇到很多技术问题，比如最常见的长连接保活问题。今天，我将通过本篇文章，手把手教大家实现一套可自适应的心跳保活机... 阅读全文

posted @ 2022-05-18 15:09 Jack Jiang 阅读(217) | 评论 (0) | 编辑收藏

即时通讯安全篇（九）：为什么要用HTTPS？深入浅出，探密短连接的安全性

本文由ELab技术团队分享，原题“探秘HTTPS”，有修订和改动。

1、引言

对于IM开发者来说，IM里最常用的通信技术就是Socket长连接和HTTP短连接（通常一个主流im会是这两种通信手段的结合）。从通信安全的角度来说，Socket长连接的安全性，就是基于SSL/TLS加密的TCP协议来实现的（比如微信的mmtls，见《微信新一代通信安全解决方案：基于TLS1.3的MMTLS详解》）；而对于HTTP短连接的安全性，也就是HTTPS了。

到底什么是HTTPS？为什么要用HTTPS？今天就借此机会，跟大家一起深入学习一下HTTPS的相关知识，包括HTTP的发展历程、HTTP遇到的问题、对称与非对称加密算法、数字签名、第三方证书颁发机构等概念。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文已同步发布于：http://www.52im.net/thread-3897-1-1.html）

2、系列文章

本文是IM通讯安全知识系列文章中的第9篇，此系列总目录如下：

3、写在前面

说到HTTPS，那就得回到HTTP协议。

对于HTTP协议，大家肯定都熟得不能再熟了。那么HTTPS和HTTP的区别大家了解吗？

对于这个经典的面试题，大部分人会这么回答：

1）HTTPS比HTTP多了一个S(Secure)：也就是说HTTPS是安全版的HTTP；
2）端口号不同：HTTP使用80端口，HTTPS使用443端口；
3）加密算法：HTTPS用的是非对称加密算法。

上面的回答能给几分？等看完本文我们可以再回头来看下这个回答。

那么，HTTPS是如何实现安全的短连接数据传输呢？想彻底搞明白这个问题，还是要从HTTP的发展历程说起 ......

4、HTTP协议回顾

4.1 基础常识

HTTP是Hypertext Transfer Protocal 的缩写，中文全称是超文本传输协议（详见《深入浅出，全面理解HTTP协议》）。

通俗了解释就是：

1）超文本是指包含但不限于文本外的图片、音频、视频等多媒体资源；
2）协议是通信双方约定好的数据传输格式以及通信规则。

HTTP是TCP/IP协议簇的最高层——应用层协议：

▲ 上图引用自《深入浅出，全面理解HTTP协议》

浏览器和服务器在使用HTTP协议相互传递超文本数据时，将数据放入报文体内，同时填充首部（请求头或响应头）构成完整HTTP报文并交到下层传输层，之后每一层加上相应的首部（控制部分）便一层层的下发，最终由物理层将二进制数据以电信号的形式发送出去。

HTTP的请求如下图所示：

▲ 上图引用自《深入浅出，全面理解HTTP协议》

HTTP报文结构如下：

4.2 发展历程

HTTP的发展历程如下：

由HTTP的发展历程来看，最开始版本的HTTP(HTTP1.0)在每次建立TCP连接后只能发起一次HTTP请求，请求完毕就释放TCP连接。

我们都知道TCP连接的建立需要经过三次握手的过程，而每次发送HTTP请求都需要重新建立TCP连接，毫无疑问是很低效的。所以HTTP1.1改善了这一点，使用长连接的机制，也就是“一次TCP连接，N次HTTP请求”。

HTTP协议的长连接和短连接，实质上是 TCP 协议的长连接和短连接。

在使用长连接的情况下，当一个网页打开完成后，客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭，客户端再次访问这个服务器时，会继续使用这一条已经建立的连接。Keep-Alive不会永久保持连接，它有一个保持时间，可以在不同的服务器软件（如Apache）中设定这个时间。实现长连接需要客户端和服务端都支持长连接。

PS：对于IM开发者来说，为了与Socket长连接通道区分，通常认为HTTP就是“短连接”（虽然这个“短连接”不一定真的“短”）。

HTTP1.0若要开启长连接，需要加上Connection: keep-alive请求头。有关HTTP协议的详细发展历程可阅读《一文读懂HTTP协议的历史演变和设计思路》一文。

4.3 安全问题

随着HTTP越来越广泛的使用，HTTP的安全性问题也逐渐暴露。

回忆一下多年前遍地都是的运营商劫持，当你访问一个本来很正常的网页，但页面上却莫名其妙出现了一些广告标签、跳转脚本、欺骗性的红包按钮，甚至有时候本来要下载一个文件，最后下载下来却变成了另外一个完全不同的东西，这些都是被运营商劫持了HTTP明文数据的现象。

下图就是似曾相识的运营商劫持效果图：

PS：关于运营商劫持问题，可以详细阅读《全面了解移动端DNS域名劫持等杂症：原理、根源、HttpDNS解决方案等》。

HTTP主要有以下3点安全性问题：

归纳一下就是：

1）数据保密性问题：因为HTTP无状态，而且又是明文传输，所有数据内容都在网络中裸奔，包用户括身份信息、支付账号与密码。这些敏感信息极易泄露造成安全隐患；
2）数据完整性问题：HTTP数据包在到达目的主机前会经过很多转发设备，每一个设备节点都可能会篡改或调包信息，无法验证数据的完整性；
3）身份校验问题：有可能遭受中间人攻击，我们无法验证通信的另一方就是我们的目标对象。

因此，为了保证数据传输的安全性，必须要对HTTP数据进行加密。

5、常见的加密方式

5.1 基本情况

常见的加密方式分为三种：

1）对称加密；
2）非对称加密；
3）数字摘要。

前两种适合数据传输加密，而数字摘要不可逆的特性常被用于数字签名。

接下来，我们逐一简要学习一下这三种常见的加密方法。

5.2 对称加密

对称加密也称为密钥加密或单向加密，就是使用同一套密钥来进行加密和解密。密钥可以理解为加密算法。

对称加密图示如下：

广泛使用的对称加密有：

对称加密算法的优缺点和适用场景：

1）优点：算法公开、简单，加密解密容易，加密速度快，效率高；
2）缺点：相对来说不算特别安全，只有一把钥匙，密文如果被拦截，且密钥也被劫持，那么，信息很容易被破译；
3）适用场景：加解密速度快、效率高，因此适用于大量数据的加密场景。由于如何传输密钥是较为头痛的问题，因此适用于无需进行密钥交换的场景，如内部系统，事先就可以直接确定密钥。

PS：可以在线体验对称加密算法，链接是：http://www.jsons.cn/textencrypt/

小知识：base64编码也属于对称加密哦！

5.3 非对称加密

非对称加密使用一对密钥（公钥和私钥）进行加密和解密。

非对称加密可以在不直接传递密钥的情况下，完成解密，具体步骤如下：

1）乙方生成两把密钥（公钥和私钥）。公钥是公开的，任何人都可以获得，私钥则是保密的；
2）甲方获取乙方的公钥，然后用它对信息加密；
3）乙方得到加密后的信息，用私钥解密。

以最典型的非对称加密算法RSA为例，举个例子：

想要彻底搞懂RSA，需要了解数论的知识，全部推导过程RSA加密算法。简单介绍思路：使用两个超大质数以及其乘积作为生成公钥和私钥的材料，想要从公钥推算出私钥是非常困难的（需要对超大数因式分解为两个很大质数的乘积）。目前被破解的最长RSA密钥是768个二进制位。也就是说，长度超过768位的密钥，还无法破解（至少没人公开宣布）。因此可以认为，1024位的RSA密钥基本安全，2048位的密钥极其安全。

非对称加密算法的优缺点和适用场景：

1）优点：强度高、安全性强于对称加密算法、无需传递私钥导致没有密钥泄露风险；
2）缺点：计算量大、速度慢；
3）适用场景：适用于需要密钥交换的场景，如互联网应用，无法事先约定密钥。

实践应用过程中，其实可以与对称加密算法结合：

1）利用非对称加密算法安全性较好的特点来传递对称加密算法的密钥。
2）利用对称加密算法加解密速度快的特点，进行数据内容比较大的加密场景的加密（如HTTPS）。

PS：对于IM开发者来说，《探讨组合加密算法在IM中的应用》一文值得一读。

5.4 如何选择？

1）如果选择对称加密：

HTTP请求方使用对称算法加密数据，那么为了接收方能够解密，发送方还需要把密钥一同传递到接收方。在传递密钥的过程中还是可能遭到嗅探攻击，攻击者窃取密钥后依然可以解密从而得到发送的数据，所以这种方案不可行。

2）如果选择非对称加密：

接收方保留私钥，把公钥传递给发送方。发送方用公钥来加密数据，接收方使用私钥解密数据。攻击者虽然不能直接获取这些数据（因为没有私钥），但是可以通过拦截传递的公钥，然后把自己的公钥传给发送方，再用自己的私钥对发送方发送数据进行解密。

整个过程通信双方都不知道中间人的存在，但是中间人能够获得完整的数据信息。

3）两种加密方法的混合：

先使用非对称加密算法加密并传递对称加密的密钥，然后双方通过对称加密方式加密要发送的数据。看起来没什么问题，但事实是这样吗？

中间人依然可以拦截公钥的传递，并以自己的公钥作为替换，治标不治本。

想要治本，就要找到一个第三方公证人来证明公钥没有被替换，因此就引出了数字证书的概念，这也是下一节将分享的内容。

6、数字证书

6.1 CA机构

CA就是 Certificate Authority，即颁发数字证书的机构。

作为受信任的第三方，CA承担公钥体系中公钥的合法性检验的责任。

证书就是源服务器向可信任的第三方机构申请的数据文件。这个证书除了表明这个域名是属于谁的，颁发日期等，还包括了第三方证书的私钥。

服务器将公钥放在数字证书中，只要证书是可信的，公钥就是可信的。

下面两图是飞书域名的证书中部分内容的信：

6.2 数字签名

摘要算法：一般用哈希函数来实现，可以理解成一种定长的压缩算法，它能把任意长度的数据压缩到固定长度。这好比是给数据加了一把锁，对数据有任何微小的改动都会使摘要变得截然不同。

通常情况下：数字证书的申请人（服务器）将生成由私钥和公钥以及证书请求文件（Certificate Signing Request，CSR）组成的密钥对。CSR是一个编码的文本文件，其中包含公钥和其他将包含在证书中的信息（例如：域名、组织、电子邮件地址等）。密钥对和CSR生成通常在将要安装证书的服务器上完成，并且 CSR 中包含的信息类型取决于证书的验证级别。与公钥不同，申请人的私钥是安全的，永远不要向 CA（或其他任何人）展示。

生成 CSR 后：申请人将其发送给 CA，CA 会验证其包含的信息是否正确，如果正确，则使用颁发的私钥对证书进行数字签名，然后将签名放在证书内随证书一起发送给申请人。

在SSL握手阶段：浏览器在收到服务器的证书后，使用CA的公钥进行解密，取出证书中的数据、数字签名以及服务器的公钥。如果解密成功，则可验证服务器身份真实。之后浏览器再对数据做Hash运算，将结果与数字签名作对比，如果一致则可以认为内容没有收到篡改。

对称加密和非对称加密是公钥加密、私钥解密，而数字签名正好相反——是私钥加密（签名）、公钥解密（验证），如下图所示。

限于篇幅，关于数字证书的内容本文就不再赘述，想详细了解的可以阅读：

7、为什么要使用HTTPS

《图解HTTP》一书中提到HTTPS就是身披SSL外壳的HTTP。

7.1 SSL

SSL 在1999年被更名为TLS。

所以说：HTTPS 并不是一项新的应用层协议，只是 HTTP 通信接口部分由 SSL 和 TLS 替代而已。

具体就是：HTTP 会先直接和 TCP 进行通信，而HTTPS 会演变为先和 SSL 进行通信，然后再由 SSL 和 TCP 进行通信。

SSL是一个独立的协议，不只有 HTTP 可以使用，其他应用层协议也可以使用，比如FTP、SMTP都可以使用SSL来加密。

7.2 HTTPS请求流程

HTTPS请求全流程如下图：

如上图所示：

1）用户在浏览器发起HTTPS请求，默认使用服务端的443端口进行连接；
2）HTTPS需要使用一套CA 数字证书，证书内会附带一个服务器的公钥Pub，而与之对应的私钥Private保留在服务端不公开；
3）服务端收到请求，返回配置好的包含公钥Pub的证书给客户端；
4）客户端收到证书，校验合法性，主要包括是否在有效期内、证书的域名与请求的域名是否匹配，上一级证书是否有效（递归判断，直到判断到系统内置或浏览器配置好的根证书），如果不通过，则显示HTTPS警告信息，如果通过则继续；
5）客户端生成一个用于对称加密的随机Key，并用证书内的公钥Pub进行加密，发送给服务端；
6）服务端收到随机Key的密文，使用与公钥Pub配对的私钥Private进行解密，得到客户端真正想发送的随机Key；
7）服务端使用客户端发送过来的随机Key对要传输的HTTP数据进行对称加密，将密文返回客户端；
8）客户端使用随机Key对称解密密文，得到HTTP数据明文；
9）后续HTTPS请求使用之前交换好的随机Key进行对称加解密。

7.3 HTTPS到底解决了什么问题

HTTPS确实解决了HTTP的三个安全性问题：

1）保密性：结合非对称加密和对称加密实现保密性。用非对称加密方式加密对称加密的秘钥，再用对称加密方式加密数据；
2）完整性：通过第三方CA的数字签名解决完整性问题；
3）身份校验：通过第三方CA的数字证书验证服务器的身份。

7.4 HTTPS优缺点

最后我们总结一下HTTPS的优缺点：

可以看到：HTTPS的确是当今安全传输HTTP的最优解，但他并不是完美的，仍会有漏洞。

8、参考资料

[1] 深入浅出，全面理解HTTP协议

[2] HTTP协议必知必会的一些知识

[3] 从数据传输层深度解密HTTP

[4] 一文读懂HTTP协议的历史演变和设计思路

[5] 你知道一个TCP连接上能发起多少个HTTP请求吗？

[6] 如果这样来理解HTTPS，一篇就够了

[7] 一分钟理解 HTTPS 到底解决了什么问题

[8] 你知道，HTTPS用的是对称加密还是非对称加密？

[9] HTTPS时代已来，打算更新你的HTTP服务了吗？

[10] 一篇读懂HTTPS：加密原理、安全逻辑、数字证书等

[11] 全面了解移动端DNS域名劫持等杂症：原理、根源、HttpDNS解决方案等

（本文已同步发布于：http://www.52im.net/thread-3897-1-1.html）

posted @ 2022-05-13 16:27 Jack Jiang 阅读(133) | 评论 (0) | 编辑收藏

基于开源IM即时通讯框架MobileIMSDK：RainbowChat v8.1版已发布

关于MobileIMSDK

MobileIMSDK 是一套专为移动端开发的原创开源IM通信层框架：
历经8年、久经考验；
超轻量级、高度提炼，lib包50KB以内；
精心封装，一套API同时支持UDP、TCP、WebSocket三种协议（可能是全网唯一开源的）；
客户端支持 iOS、Android、标准Java、H5、小程序(开发中..)、Uniapp(开发中..)；
服务端基于Netty，性能卓越、易于扩展；
可与姊妹工程 MobileIMSDK-Web 无缝互通实现网页端聊天或推送等；
可应用于跨设备、跨网络的聊天APP、企业OA、消息推送等各种场景。

关于RainbowChat

v8.1 版更新内容

此版更新内容：

（1）Android端主要更新内容【新增“扫一扫”等功能及优化！】：

1）[新增]“扫一扫”界面及完整功能（支持扫码加好友、加群）；
2）[新增]“我的二维码”界面及完整功能；
3）[新增]“群聊二维码”界面及完整功能；
4）[升级]升级okhttp库至4.9.3；
5）[优化]其它小优化。

（2）服务端主要更新内容：

1）[优化]针对扫码加群等功能的相关修改。

此版主要新增功能运行截图（更多截图点此查看）：

posted @ 2022-05-11 17:49 Jack Jiang 阅读(138) | 评论 (0) | 编辑收藏

SpringBoot集成开源IM框架MobileIMSDK，实现即时通讯IM聊天功能

摘要: 一、前言MobileIMSDK 是什么？MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架，超轻量级、高度提炼，一套API优雅支持UDP 、TCP 、WebSocket 三种协议，支持iOS、Android、H5、标准Java平台，服务端基于Netty编写。工程地址是：1）Gitee码云地址：https://www.oschina.net/p/mobilei... 阅读全文

posted @ 2022-05-05 15:15 Jack Jiang 阅读(191) | 评论 (0) | 编辑收藏

IM开发干货分享：浅谈IM系统中离线消息、历史消息的最佳实践

本文由融云技术团队原创分享，原题“IM 消息数据存储结构设计”，内容有修订。

1、引言

在如今的移动互联网时代，IM类产品已是我们生活中不可或缺的组成部分。像微信、钉钉、QQ等是典型的以 IM 为核心功能的社交产品。另外也有一些应用虽然IM功能不是核心，但IM能力也是其整个应用极其重要的组成部分，比如在线游戏、电商直播等应用。

在IM技术应用场景越来越广泛的前提下，对即时通讯IM技术的学习和掌握就显的越来越有必要。

在IM庞大的技术体系中，消息系统无疑是最核心的，而消息系统中，最关键的部分是消息的分发和存储，而离线消息和历史消息又是这个关键环节中不可回避的技术要点。

本文将基于IM消息系统的技术实践，分享关于离线消息和历史消息的正确理解，以及具体的技术配合和实践，希望能为你的离线消息和历史消息技术设计带来最佳实践灵感。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文同步发布于：http://www.52im.net/thread-3887-1-1.html）

2、相关文章

技术相关文章：

融云技术团队分享的其它文章：

3、IM消息投递的一般做法

在通常的IM消息系统中，对于实时消息、离线消息、历史消息大概都是下面这样的技术思路。

对于在线用户：消息会直接实时发送到在线的接收方，消息发送完成后，服务器端并不会对消息进行落地存储。

而对于离线的用户：服务器端会将消息存入到离线库，当用户登录后，从离线库中将离线消息拉走，然后服务器端将离线消息删除。

这样实现的缺点就是消息不持久化，导致消息无法支持消息漫游，降低了消息的可靠性。

（PS：实际上，这其实也不能算是缺点，因为一些场景下存储历史消息并不是必须的，所谓的消息漫游能力也不是必备的，比如微信。）

而在我们设计的消息系统中，服务器只要接收到了发送方发上来的消息，在转发给接收方的同时也会在离线数据库及历史消息库中进行消息的落地存储，而历史消息的落地也就能支持消息漫游等相关功能了。

4、什么是离线消息和历史消息？

关于离线消息和历史消息，在技术上，我们是这样定义。

1）离线消息：

离线消息就是用户（即接收方）在离线过程中收到的消息，这些消息大多是用户比较关心的消息，具有一定的时效性。

以我们的系统经验来说，我们的离线消息默认只保存最近七天的消息。

用户（即接收方）在下次登录后会全量获取这些离线消息，然后在客户端根据聊天会话进行离线消息的UI展示（比如显示一个未读消息气泡等）。

（PS：用户离线的可能性在技术上其实是由很多种情况组成的，比如对方不在线、对方网络断掉了、对方手机崩溃了、服务器发送时出错了等等，严格来讲——只要无法实时发送成的消息，都算“离线消息”。）

2）历史消息：

历史消息存储了用户所有的聊天消息，这些消息包括发出的消息以及接收到的消息。

在客户端获取历史消息时，通常是按照会话进行分页获取的。

以我们的系统经验来说，历史消息的存储时间我们设计默认为半年，当然这个时间可以按实际的产品运营规则来定，没有硬性规定。

5、IM消息的发送及存储流程

以下是我们系统整体的消息发送及存储流程：

如上图所示：当用户发送聊天消息到服务器端后，首先会进入到消息系统中，消息系统会对消息进行分发以及存储。

这个过程中：对于在线的接收方，会选择直接推送消息。但是遇到接收方不在线或者是消息推送失败的情况下，也会有另外的消息获取方式，比如接收方会主动向服务器拉取未收到的消息。但是接收方何时来服务器拉取消息以及从哪里拉取是未知的，所以消息存入到离线库的意义也就在这里。

消息系统存储离线的过程中，为了不影响整个系统的更为平稳，我们使用了MQ消息队列进行IO解偶，所以聊天消息实际上是异步存入到离线库中的（通过MQ进行慢IO解偶，这其实也是惯常做法）。

在分发完消息后：消息服务会同步一份消息数据到历史消息服务中，历史消息服务同样会对消息进行落地存储。

对于新的客户端设备：会有同步消息的需求（所谓的消息漫游能力），而这也正是历史消息的主要作用。在历史消息库中，客户端是可以拉取任意会话的全量历史消息的。

6、IM离线消息、历史消息在存储逻辑上的区别

6.1 概述

通过上面的图中能清晰的看到：

1）离线消息我们存储介质选用的是 Redis；
2）历史消息我们选用的是 HBase。

对于为什么选用不同的存储介质，其实我们考虑的是离线消息和历史消息不同的业务场景和读写模式。

下面我们重点介绍一下离线消息和历史消息存储的区别。

6.2 离线消息存储模式——“扩散写”

离线消息的存储模式我们用的是扩散写。

如上图所示：每个用户都有自己单独的收件箱和发件箱：

1）收件箱存放的是需要向这个接收端同步的所有消息；
2）发件箱里存放的是发送端发出的所有消息。

以单聊为例：聊天中的两人会话中，消息会产生两次写，即发送者的发件箱和接收端的收件箱。

而在群的场景下：写入会被更加的放大（扩散），如果群里有 N 个人，那一条群消息就会被扩散写 N 次。

小结一下：

1）扩散写的优点是：接收端的逻辑会非常清晰简单，只需要从收件箱里读取一次即可，大大降低了同步消息所需的读的压力；
2）扩散写的缺点是：写入会被成指数地放大，特别是针对群这种场景。

6.3 历史消息存储模式——“扩散读”

历史消息的存储模式我们用的是扩散读。

因为历史消息中，每个会话都保存了整个会话的全量消息。在扩散读这种模式下，每个会话的消息只保存一次。

对比扩散写模式，扩散读的优点和缺点如下：

1）优点是：写入次数大大降低，特别是针对群消息，只需要存一次即可；
2）缺点是：接收端接收消息非常的复杂和低效，因为这种模式客户端想拉取到所有消息就只能每个会话同步一次，读就会被放大，而且可能会产生很多次无效的读，因为有些会话可能根本没有新消息。

6.4 小结

在 IM 这种应用场景下，通常会用到扩散写这种消息同步模型，一条消息产生一条，但是可能会被读多次，是典型的读多写少的场景。

一个优化好的IM系统，必须从设计上平衡读写压力，避免读或者写任意一个维度达到天花板。

当然扩散写这种模式也有其弊端，比如万人群，会导致一条消息，写入了一万次。

综合来讲：我们需要根据自己的业务场景做相应设计选择，以我们的IM系统为例，就是是根据了离线和历史消息的不同场景选择了写扩散和读扩散的组合模式。适合的才是最好的，没有必要死搬硬套理论。

7、IM客户端的拉取消息逻辑

7.1 离线消息拉取逻辑

对于IM客户端而言，离线消息的获取针对的是自己的整个离线消息，包括所有的会话（直白了说，就是上线时拉取此次离线过程中的所有未收取的离线消息）。

离线消息的获取是自上而下的方式（按时间序），我们的经验是一次获取 200 条（PS：如果离线消息过多，会分页多次拉取，拉取1“次”可以理解为拉取1“页”）。

在客户端拉取离线消息的信令中，需要带上当前客户端缓存的消息的最大时间戳。

通过上节的图我们应该知道，离线消息我们存储的是一个线性结构（指的是按时间顺序），Server 会根据这个时间戳向下查找离线消息。当重装或者新安装 App 时，客户端的“当前客户端缓存的消息的最大时间戳”可以传 0 上来。

Server 也会缓存客户端拉取到的最后一条消息的时间戳，然后根据业务场景，客户端类型等因素来决定从哪里开始拉取，如果没有拉取完 Server 会在拉取消息的应答中带相应的标记位，告诉客户端继续拉取，客户端循环拉取，直到所有离线消息拉完。

7.2 历史消息拉取逻辑

历史消息的获取通常针对的是单一会话。

在拉取过程中，需要向服务端提交两个参数：

1）对方的 ID（如果是单聊的话就是对方的 UserID，如果是群则是群组ID）；
2）当前会话的最前面消息的时间戳（即当前会话最老一条消息的时间戳）。

Server据这两个参数，可以定位到这个客户端的此会话，然后一次获取 20 条历史消息。

消息的拉取时序上采用的是自下而上的方式（也就是时间序逆序），即从最后面往前翻。只要有消息，客户端可以一直向前翻，手动触发获取会话的历史消息。

上面的拉取逻辑，在IM界面功能上通常对应的是下拉或点击“加载更多”，比如这样：

8、本文小结

本文主要分享了IM中有关离线消息和历史消息的正确，主要包括离线消息和历史消息的区别，以及二者在存储、分发、拉取逻辑方面的最佳践等。如对文中内容有异议，欢迎留言讨论。

9、参考资料

[1] 一套海量在线用户的移动端IM架构设计实践分享(含详细图文)

[2] 一套原创分布式即时通讯(IM)系统理论架构方案

[3] 从零到卓越：京东客服即时通讯系统的技术架构演进历程

[4] 一套亿级用户的IM架构技术干货(上篇)：整体架构、服务拆分等

[5] 闲鱼亿级IM消息系统的架构演进之路

[6] 闲鱼亿级IM消息系统的可靠投递优化实践

[7] 闲鱼亿级IM消息系统的及时性优化实践

[8] 基于实践：一套百万消息量小规模IM系统技术要点总结

[9] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递

[10] 理解IM消息“可靠性”和“一致性”问题，以及解决方案探讨

[11] 零基础IM开发入门(一)：什么是IM系统？

（本文同步发布于：http://www.52im.net/thread-3887-1-1.html）

posted @ 2022-04-19 14:56 Jack Jiang 阅读(233) | 评论 (0) | 编辑收藏

直播技术干货分享：千万级直播系统后端架构设计的方方面面

本文由网易云信技术团队分享，原题“如何保障一场千万级大型直播？”，有修订和改动。

1、引言

本文以TFBOYS“日光旅行”七周年这场直播演唱会为案例，为你分享大型直播系统后端架构设计的方方面面，包括：基本架构、稳定性保障、安全性障、监控报警、应急预案等技术范畴。

案例中的这次演唱会采用了在线实时互动及演唱会现场的多场景导播切换，提供了主机位和三个艺人专属机位流，同时每个机位流实时转码四个清晰度档位，用户可以根据喜好选择自己想看的内容。这场演唱会最高同时在线人数达78.6万，打破线上付费演唱会世界记录。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文同步发布于：http://www.52im.net/thread-3875-1-1.html）

2、本文作者

费曼：网易智企服务端开发工程师。硕士毕业于华中科技大学电信系，2016年加入网易云信，热衷于大规模分布式系统和音视频相关技术，爱好文学、体育和电影。

3、架构方面

3.1 基本

上图是该次TFBOYS在线演唱会的直播媒体架构简图。

可以看出一场大型活动直播涵盖的技术方案点非常庞杂，本节接下来的内容我们将以推拉流链路、全局智能调度、流量精准调度以及单元化部署，对这套直播方案做一个展开介绍。

3.2 推拉流链路

如上图所示，直播技术架构，分为几大部分：

1）视频直播中心（LMS——Live Manage Service）：负责直播流的逻辑管理和操作控制，包括存储和下发实时转码、加密等媒体处理的配置信息；
2）实时互动直播服：由连麦互动和直播两部分组成，主播和连麦者的音视频数据在互动直播高性能服务器合成为一道流后推流到直播流媒体服务器；
3）直播源站服务（LSS——Live Source Service）：网易云信自建的直播流媒体服务器节点，结合全局智能调度系统，提供第一公里的最佳链路选择，同时融合支持接入多家CDN厂商；
4）媒体处理服务（MPS——Media Processing Service）：提供实时水印、实时转码、媒体数据加密等强大的流媒体处理能力；
5）融合CDN与全局智能调度（GSLB——Golabal Server Load Balancing）：提供敏捷智能的CDN调度策略和分配算法，结合全链路、端到端的流媒体控制，来达到最终端侧优良的用户体验；
6）客户端SDK：提供推流、拉流以及上下行的调度能力，便于用户快速接入使用网易云信平台一站式的音视频解决方案。

3.3 融合CDN与智能调度

这是一个端到端的服务，通过平台的SDK执行一个类似HTTPDNS的调度，来做到真正根据用户IP做就近的接入。

针对国内相对复杂的运营商网络环境，在直播上行方面通过BGP网络以及与相关运营商在网络接入方面的合作，能够更加精准地控制网络链路的选择。

而对于下行，也提供了播放端的SDK接入，通过端到端的调度策略就近选择合适的下行链路。

调度的准确性以及最终效果，依赖及时准确的数据支撑。

我们有一个全链路、立体的数据监控体系，一方面利用CDN上的一些实时日志，另一方面结合自建节点、客户端侧上报收集链路上探测的数据，然后整合做一个实时计算来支撑整个调度的策略。

融合CDN方案，通过调度、监控、高可用等技术和手段来解决CDN网络方面的问题。但是对于技术人员来说，就和在使用一个传统的CDN网络一样没有大的差异，这些技术细节对技术人员透明无感知。

3.4 流量精准调度

大型演唱会直播活动，尤其是正式开播时的进场阶段，突发流量峰值会非常高，这就需要实时精准的智能调度策略。

融合CDN的智能调度包含两大部分：CDN分配调度和节点调度。

节点调度：比较常见的是DNS协议解析调度和IP调度（302/HTTPDNS）。前者由于DNS协议原因，调度生效时间较慢，而后者则可以做到请求级别的调度，也就是支持任意比例的负载均衡，更加及时精准。在我们的智能调度的场景里，正常情况下会遵循IP调度，在IP调度解析失败时，客户端上会启动loacl DNS解析逻辑，两者的结合确保了调度的精准和稳定可靠。

Don't put all your eggs in one basket.

“永远不要将鸡蛋放在同一个篮子里”。

从风险管控的角度来说：大型活动保障的CDN厂商资源，通常没法通过一家CDN资源进行满足。融合CDN方案则是将多家CDN厂商进行整合与流量分配调度。

通常在一次大型直播中，多家CDN厂商提供的容量（区域带宽、最高带宽）、质量会各不相同。我们则是通过动态调整调度比例，在确保不超过最大带宽的前提下，精确化按比例分配流量，以及尽可能地确保体验。

我们设计了一套针对CDN厂商的打分算法：影响因子包含当前带宽、保底带宽、最大带宽、带宽预测、带宽质量。

算法遵循以下原则：

1）没超保底的带宽，比超过保底的带宽，得分更高；
2）没超保底的时候，剩余保底和剩余总带宽越大，得分更高；
3）超过保底的时候，剩余总带宽越大、质量越好，得分更高。

各CDN的分数之比决定了调度比例，CDN打分算法是在持续地迭代更新计算，最大化分配使用各家CDN的带宽，然后再分配各家CDN厂商的保障之外的资源。同时优先选择质量较好的厂家，避免单价CDN厂商超分配。

3.5 单元化部署

上面所说，在大型直播活动中，短时间大量涌入的用户请求，对以全局智能调度服务为主的相关非媒体流链路应用，也提出了更高的并发处理挑战。

除了上行的推流链路我们做了主备两个单元的部署，非媒体数据链路上的服务也采用了单元化的部署方案。

在此部署方案下，可用性做到任意单元机房故障，不影响整体可用性，即异地多活。

单元化部署遵循以下原则：

1）单元化的依赖也必须单元化（核心业务）；
2）单元化粒度为应用，非api；
3）单元化技术栈对应用尽量避免产生侵入性。

如上图所示：非单元化的业务部署在主机房，单元化的业务则部署在主机房和单元机房。

4、稳定性保障

4.1 上行链路稳定

超大型直播方案最核心的诉求就是直播稳定性，下面我们将以该次在线演唱会为案例，重点阐述一下直播的全链路稳定性架构。

上图是我们直播的媒体流链路示意简图：整体方案可以承受任何单节点、单线路、单机房网络出口的故障。

如直播源站部分：采用了多线策略收流，包含机房专线和4G背包方案，一主一备两个线路。同时每个单元的源站集群都有4层负载均衡，一台机器宕机不会影响整体可用性。LMS、LSS、MPS都是跨机房部署，所有服务模块都可配置专有资源池供使用，保证不会受其他租户影响。

整个推流链路：采用双路热流、互为主备，且部署上是互相独立的两个单元，能做到支持Rack级别的故障灾备。双路热流实现了自动主备切换，端上无需专门添加应用层的线路切换逻辑。当任何一个链路出现问题的时候，观众的直播流不会受到影响，端上平均卡顿感知时间在1s以内。

除了推流链路的整体主备单元容灾，每个单元的服务本身也会有容灾手段。比如UPS接入，可以接受30min的供电故障，比如当实时互动流出现问题时，导播台会推垫片流以保证链路数据不中断。

4.2 下行链路稳定

在访次直播活动中，全局智能调度服务会承受较大的峰值压力，在单元化部署的基础上，我们经过多轮压测和性能调优，模型上可支撑千万级用户在半分钟内全部进入直播间。

除了上述关于推流链路的高可用，下行链路也有相关的容灾策略。当GSLB智能调度服务整体不可用，在客户端SDK预埋了融合CDN的local DNS灾备逻辑与比例配置，将云端的全局智能调度fail-over到客户端的本地兜底调度，并保持大数据统计层面的各CDN厂商的流量分配均衡。

同时：客户端也会有播放体验方面的容灾策略，诸如清晰度降级、线路调整等。

5、安全性保障

除了直播全链路的稳定之外，直播安全也很重要。

该次直播活动中，为TFBOYS活动链路多环节都提供了安全保障机制（如防盗链鉴权、IP黑白名单、HTTPS等能力），以及地区、运营商等下行调度的动态限制，实现全链路安全保障。

在此基础上：此次活动采用了端到端的视频流数据加密。

直播场景的加密有几点基本要求：压缩比不变、实时性和低计算复杂度。

除此之外：在融合多cdn的方案背景下，视频流的加密必须考虑到CDN厂商的兼容性。

比如须满足以下要求：

1）不破坏流媒体协议格式、视频容器格式；
2）metadata/video/audio tag的header部分不加密；
3）对于avcSequenceHeader和aacSequenceHeader tag整体不加密。

具体加密算法，可以采用一些流式加密算法，这里我们不再赘述。

6、监控与报警

6.1 概述

一场大型直播将会有大量的计算节点参与，除了媒体数据处理与分发的各个服务器节点，还有分布在国内外的海量客户端。

我们对网络链路、服务节点、设备端的健康与质量感知，都离不开数据监控系统。

同时：我们在现有系统无法自动fail-over的故障场景下，需要人工预案介入，而后者的决策判断，也强依赖于完善的全链路数据质量监控与报警系统。

6.2 全链路监控

整个直播链路的监控包含了：

1）上行推流链路的流质量；
2）媒体流实时转码处理；
3）端上播放质量；
4）智能调度系统的可用性；
5）业务量水位等相关监控数据。

上行链路常见的QoS指标有：帧率、码率、RTT等，其维度包含主备线路、出口运营商、CDN厂商节点等。

端上的QoS指标则包含了：拉流成功率、首帧时长、卡顿率、httpdns缓存命中率，维度则覆盖包含CDN厂商、国家、省份、运营商、直播流、清晰度档位、客户端等。

此次直播中：内容上支持了多种机位流以及多个清晰度的转码输出流，同时通过多个CDN厂商进行分发，我们把上行链路中节点的码率、帧率，直观地通过N个指标卡集中展示在单个大盘页面上，并且通过增加预警值进行异常显示和弹窗消息告警。活动作战室现场，我们采用了多个大屏展示，非常直观地展现当前主备双推流链路的实时帧率、码率等情况，为现场地指挥保障提供了强大的数据决策支撑。

以下图为例：蓝色表示上行帧率，绿色表示正常的上行码率，红色表示码率值过低，N/A表示当前没有上行推流数据。

而在下行播放链路中，比较常用的指标就是卡顿率。

下面是我们对卡顿相关的描述：

1）一次卡顿：播放器持续2s发生缓冲区空，即播放器2s没有拉到流；
2）一分钟用户卡顿：1分钟窗口内，用户只要卡顿一次，则该用户计作卡顿用户；
3）一分钟用户卡顿率：1分钟窗口内，卡顿用户数/总的用户数；
4）一分钟用户零卡顿率：1分钟窗口内，(总的用户数 - 卡顿用户数)/总的用户数。

为什么会选择用户卡顿率这个指标，而不是使用整体的卡顿采样点/总采样数呢？

是因为：我们更想看到有多少用户没有出现过卡顿现象，这更能直观体现优质网络的整体占比。通过对各省份用户零卡顿率、用户数排行，以及各省用户卡顿率的观察，我们可以非常直观地找到卡顿严重的地区，以便重点关注，进行资源调度优化。

7、应急预案

任何一个系统，无论你号称它被设计得多么健壮，它仍然会有故障时间的存在。

硬件故障、软件bug、人为操作失误等等，这些都无可避免地存在着。他们未必是一个必须多少时间内将其彻底解决的问题，他们是我们必须认清并接受共存的一个事实。

所以：预案管理是大型直播活动保障中不可缺少的一环。

我们遵循以下的预案原则：

1）预案信息明确：大盘自动监控不具备二义性，确保预案信息来源正确，触发执行预案的条件明确且有数值化约束；
2）预案操作简洁：所有的预案操作都有有简洁明确(开关型)的操作输入；
3）预案操作安全：所有预案要经过充分预演，同时预演操作本身需要有明确的确认机制，以确保在正常情况下不会被误触发；
4）预案影响验证：明确理清预案操作的影响，QA在预演阶段需要对相关影响进行充分验证。

此次活动的前期筹备中，我们总计进行了3次直播全链路的拟真演练，以及2次联合互动现场、导播台现场的活动全流程级别的彩排，另外进行了大大小小总计数十次的各类风险预案演练。所有演练过程中发现的问题，都会进行专项解决。

风险预案这块，包含了各类资源故障、上下行链路质量、地区性网络故障、CDN异常流量水位等在内的场景应对。其中资源故障包含了机器宕机、机架整体断电、堆叠交换机宕机、机房外网出口不可用，我们均进行了风险预案演练覆盖。

下面列举几点直播解决方案中的部分预案机制：

1）如果因为误操作等导致非正常解密等，可在推流不中断的情况下，动态中止流加密，客户端无任何感知影响；
2）某家cdn在某地区运营商出现大面积故障瘫痪，该地区相应运营商线路的QoS指标会大幅度下降并触发报警，将故障cdn在该地区运营商进行黑名单处理，动态停止对其的调度，将流量调度至正常提供服务的cdn厂商；
3）在两路热流均正常的情况下，但是正在分发的一路出现质量问题，方案可支持手动触发主备切换，让监控数据质量更好的另一路流参与分发，客户端感知时间在1s以内；
4）因为一些不可抗因素，某机房出现大面积故障整体不可用，触发链路报警，此时我们会紧急将流切至另一机房，故障感知与恢复的时间在一分钟内。

8、相关文章

[1] 移动端实时音视频直播技术详解（一）：开篇

[2] 移动端实时音视频直播技术详解（二）：采集

[3] 移动端实时音视频直播技术详解（三）：处理

[4] 移动端实时音视频直播技术详解（四）：编码和封装

[5] 移动端实时音视频直播技术详解（五）：推流和传输

[6] 移动端实时音视频直播技术详解（六）：延迟优化

[7] 淘宝直播技术干货：高清、低延时的实时视频直播技术解密

[8] 爱奇艺技术分享：轻松诙谐，讲解视频编解码技术的过去、现在和将来

[9] 零基础入门：实时音视频技术基础知识全面盘点

[10] 实时音视频面视必备：快速掌握11个视频技术相关的基础概念

[11] 网易云信实时视频直播在TCP数据传输层的一些优化思路

[12] 浅谈实时音视频直播中直接影响用户体验的几项关键技术指标

[13] 首次披露：快手是如何做到百万观众同场看直播仍能秒开且不卡顿的？

[14] 直播系统聊天技术(一)：百万在线的美拍直播弹幕系统的实时推送技术实践之路

[15] 直播系统聊天技术(二)阿里电商IM消息平台，在群聊、直播场景下的技术实践

[16] 直播系统聊天技术(三)：微信直播聊天室单房间1500万在线的消息架构演进之路

[17] 直播系统聊天技术(四)：百度直播的海量用户实时消息系统架构演进实践

[18] 直播系统聊天技术(五)：微信小游戏直播在Android端的跨进程渲染推流实践

[19] 直播系统聊天技术(六)：百万人在线的直播间实时聊天消息分发技术实践

[20] 直播系统聊天技术(七)：直播间海量聊天消息的架构设计难点实践

（本文同步发布于：http://www.52im.net/thread-3875-1-1.html）

posted @ 2022-04-13 10:58 Jack Jiang 阅读(234) | 评论 (0) | 编辑收藏

网络编程入门从未如此简单(三)：什么是IPv6？漫画式图文，一篇即懂！

本文由小枣君分享，文案：小枣君、漫画：杨洋，来自鲜枣课堂，有少许改动，原文链接见文末。

1、引言

网络编程能力对于即时通讯技术开发者来说是基本功，而计算机网络又是网络编程的理论根基，因而深刻准确地理解计算机网络知识显然能夯实你的即时通讯应用的实践品质。

本文风格延续了社区里的《网络编程懒人入门》、《脑残式网络编程入门》两个系列，没有更多的理论堆砌，通俗而不失内涵，非常适合希望轻松快乐地学习计算机网络知识的网络编程爱好者们阅读，希望能给你带来不一样的网络知识入门视角。

本篇文章将利用简洁生动的文字，配上轻松幽默的漫画，助你从零开始快速建立起对IPv6技术的直观理解，非常适合入门者阅读。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文同步发布于：http://www.52im.net/thread-3868-1-1.html）

2、系列文章

本文是该系列文章中的第3篇：

本文是IPv6的轻松入门文章，希望你能喜欢。

* 推荐阅读：本文作者的另一篇也同样优秀：网络编程懒人入门(十一)：一文读懂什么是IPv6，感兴趣的建议一并阅读。

3、技术背景

随着移动网络的不断建设和普及，加速了我们迈入万物互联时代的步伐。

我们的整个互联网络，正在发生翻天覆地的变化。急剧增加的网络连接数和流量，对网络的承载和传送能力，提出了前所未有的挑战。

除了速率和带宽之外，5G在垂直行业的落地，也要求网络能够提供灵活的差异化定制服务能力。

也就是说，面对不同的行业应用场景，网络需要能够提供套餐式的服务，支持不同的QoS（Quality of Service，服务质量），支持端到端的切片。

4、IP协议

众所周知，我们现在形影不离的互联网，最早诞生于上世纪60年代。它的核心基础，就是大名鼎鼎的IP协议（Internet Protocol，网际互连协议，见《技术往事：改变世界的TCP/IP协议（珍贵多图、手机慎点）》）。

如果没有IP协议，以及基于它的IP地址，我们就没办法刷剧、网购、吃鸡、聊微信。

说白了，互联网就是一套“快递系统”。IP地址是你的快递地址，而IP协议，则是快递公司的“工作流程和制度”。

所有我们需要传递的信息，包括文字、图片、音频、视频等，都需要被打包成一个个的“快递包裹”，然后经过快递系统的运输，送到最终目的地。

5、第一、第二代“快递系统”：IPv4

互联网诞生后，长期使用的是v4版本的IP协议，也就是大家熟知的IPv4。

我们可以把它理解为第一代快递系统，它为互联网的早期发展奠定了坚实基础。

后来，随着互联网的迅速发展扩张，原始的IPv4系统暴露出了很多的问题，进行了一些技术上的升级改进。尤其是MPLS（Multi-Protocol Label Switching，多协议标签交换）技术的引入，将这个快递系统升级到了第二代。

到了最近这几年，因为前面我们提到的网络挑战，远远超过了第二代快递系统的能力范围。

6、第三代“快递系统”：IPv6

于是，IPv6以及IPv6+，作为第三代快递系统，正式闪亮登场。

IPv6，是v6版本的IP协议。而IPv6+，则是IPv6的升级加强版。

具体来说，IPv6+基于IPv6，实现了更多的创新。

这些创新，既包括以IPv6分段路由、网络切片、随流检测、新型组播和应用感知网络等协议为代表的协议创新，又包括以网络分析、自动调优、网络自愈等网络智能化为代表的技术创新。

凭借这些创新，IPv6+更适合行业用户，更能够有力支撑行业的数字化转型和发展。

接下来，我们仔细看看，IPv6+究竟带来了哪些变化和升级。

7、IPv6优势1：IP地址大幅增加

首先，IPv6最广为人知的优点就是IP地址的大幅增加。具体来说，IPv6的地址数量是IPv4的2的96次方倍（详见《一文读懂什么是IPv6》的第6节内容）。

这么说吧，如果采用IPv6，即便是给地球上的每粒沙子都赋予一个IP地址，都绰绰有余。

传统的IPv4快递系统，邮箱地址不够，快递员往往需要将快速送到门卫处或快递柜，然后再二次派送给用户（在IPv4时代，这就是NAT路由技术啦，详见《NAT详解——详细原理、P2P简介》、《什么是公网IP和内网IP？NAT转换又是什么鬼？》）。

在IPv6快速系统下，每个用户都有属于自己的邮箱地址，快递员可以直接将快递送到用户手中。

很显然，这样不仅提升了快递的收发速度，也节省了门卫或快递柜的开支，简化了维护，减少了能耗，降低了成本。

其实，IP地址数量的压力，主要来自物联网场景。因为物的数量远远超过人的数量。而且，物联网的控制，更需要端到端的直达。这样才能有更低的时延，实现更精准的控制。

8、IPv6优势2：“快递包装”的升级

IPv6的第二个重大改进，在于“快递包装”的升级。IPv6的数据报文结构变得更加丰富，里面可以记录更多的内容和信息。

简单来说，就是运输快递的纸箱变得更高级了。

传统的快递系统，包装很简单，我们并不知道里面到底是什么物品。

IPv6的快递系统，纸箱上可以贴更多的标签，标识纸箱里的货物属性，例如重货、易碎品、紧急文件等。系统根据标签，可以快速判断这个快递包裹所需的服务，例如需要加急、需要小心轻放等。

这样一来，快递公司可以根据包裹显示的信息，为不同的客户提供更精细化的服务，采用差异化的收费标准。

快递公司还可以走精品路线，提供专属的快递通道，实现高端用户的资源独享。

IPv6+对数据包属性的精准识别，也可以帮助运营商更好地掌握整个网络中数据业务的流动趋势，更好地调动和分配资源。

例如，从A地到B地的视频大颗粒传输需求很多，那么，就可以建立视频大颗粒业务专线，更好地满足传输需求。

这就好像从A地到B地的海鲜运输需求很多，那快递公司就采购更多的冷链运输车，专门投入到这条线路上，赚取更多的利润。

9、IPv6优势3：升级了“导航能力”

传统快递系统的运输路径，是相对固定和死板的。运输车从起点到终点，经过每一个路口，都由路口指定下一步前进的方向。

而IPv6+的话，通过与SR（Segment Routing，分段路由）技术、SDN（Software Defined Network，软件定义网络）技术进行结合，具有更强的路径选择能力。

快递包裹在出发时，就已经从管理中心获得了从起点到终点的最佳路径。每一次选路，都按照规划进行，可以避开拥堵，也可以避免绕路。

换言之，IPv6+超强的路径编排能力，可以实现数据报文的一跳入云，大幅提升效率。

10、IPv6优势4：降低运维成本

因为网络的管理功能集中，可以更方便地将配置意图转换成脚本，自动部署给各个网络节点。

引入AI之后，更能够对故障现象进行自动分析，更快地找到原因。

甚至说，AI还可以根据对故障模型的学习，主动提前识别网络中潜在的故障风险，实现事故预防。

集中管理+AI管理，大幅降低了网络的维护难度，提升了运维效率，减少了维护成本。

11、IPv6优势5：更安全

IPv6+的安全防御能力相比IPv4有了很大的提升，真正实现了云、网、安一体化防御。

传统网络中，因为大量私网的存在，恶意行为很难溯源。也就是说，很多坏人躲在暗处，发出有问题的包裹，对快递系统造成破坏。

在IPv6+网络中，节点采用公网地址取代私网地址，这就意味着，在快递系统中运输的每一个包裹，都有真实可溯源的寄件人信息。失去了私网的伪装，破坏行为将无所遁形。

升级后的快递包装（数据报文结构），也大幅增加了破坏分子对包裹进行恶意伪造和窃听的难度，增强了包裹的安全性和私密性。

12、写在最后

总而言之，IPv6+是一个高速、高效、灵活、智能的先进“快递系统”。

它可以提供满足千行百业应用需求的差异化服务能力，适配不同行业的业务承载需求，支撑各个行业的数字化转型，助力消费互联网向产业互联网升级，推动整个社会数字经济的发展。

目前，IPv6在我国已经取得了显著的成果。截至今年8月，我国IPv6地址资源储备位居世界第一。IPv6活跃用户数达5.51亿，占我国全部网民数的54.52%。

IPv6+的黄金时代，已然到来！

13、参考资料

[1] TCP/IP详解卷1 - 第3章 IP:网际协议

[2] 网络编程懒人入门(十一)：一文读懂什么是IPv6

[3] IPv6技术详解：基本概念、应用现状、技术实践（上篇）

[4] IPv6技术详解：基本概念、应用现状、技术实践（下篇）

[5] Java对IPv6的支持详解：支持情况、相关API、演示代码等

[6] NAT详解——详细原理、P2P简介

[7] 什么是公网IP和内网IP？NAT转换又是什么鬼？

（本文同步发布于：http://www.52im.net/thread-3868-1-1.html）

posted @ 2022-03-30 12:56 Jack Jiang 阅读(312) | 评论 (0) | 编辑收藏

长连接网关技术专题(七)：小米小爱单机120万长连接接入层的架构演进

本文由小米技术团队分享，原题“小爱接入层单机百万长连接演进”，有修订。

1、引言

小爱接入层是小爱云端负责设备接入的第一个服务，也是最重要的服务之一，本篇文章介绍了小米技术团队2020至2021年在这个服务上所做的一些优化和尝试，最终将单机可承载长连接数从30w提升至120w+，节省了机器30+台。

提示：什么是“小爱”？

小爱（全名“小爱同学”）是小米旗下的人工智能语音交互引擎，搭载在小米手机、小米AI音箱、小米电视等设备中，在个人移动、智能家庭、智能穿戴、智能办公、儿童娱乐、智能出行、智慧酒店、智慧学习共八大类场景中使用。

（本文同步发布于：http://www.52im.net/thread-3860-1-1.html）

2、专题目录

本文是专题系列文章的第7篇，总目录如下：

3、什么是小爱接入层

整个小爱的架构分层如下：

接入层主要的工作在鉴权授权层和传输层，它是所有小爱设备和小爱大脑交互的第一个服务。

由上图我们知道小爱接入层的重要功能有如下几个：

1）安全传输和鉴权：维护设备和大脑的安全通道，保障身份认证有效和传输数据安全；
2）维护长连接：维持设备和大脑的长连接（Websocket等），做好连接状态存储，心跳维护等工作；
3）请求转发：针对每一次小爱设备的请求做好转发，保障每一次请求的稳定。

4、早期接入层的技术实现

小爱接入层最早的实现是基于Akka和Play，我们使用它们搭建了第一个版本，该版本特点如下：

1）基于Akka我们基本做到了初步的异步化，保障核心线程不被阻塞，性能尚可。
2）Play框架天然支持Websocket，因此我们在有限的人力下能够快速搭建和实现，且能够保障协议实现的标准性。

5、早期接入层的技术问题

随着小爱长连接的数量突破千万大关，针对早期的接入层方案，我们发现了一些问题。

主要的问题如下：

1）长连接数量上来后，需要维护的内存数据越来越多，JVM的GC成为不可忽略的性能瓶颈，且一旦代码写的不好有GC风险。经过之前事故分析，Akka+Play版的接入层其单实例长连接数量的上限在28w左右。

2）老版本的接入层实现比较随意，其Akka Actor之间存在非常多的状态依赖而不是基于不可变的消息传递这样使得Actor之间的通信变成了函数调用，导致代码可读性差且维护很困难，没有发挥出Akka Actor在构建并发程序的优势。

3）作为接入层服务，老版本对协议的解析是有很强的依赖的，这导致它要随着版本变动而频繁上线，其上线会引起长连接重连，随时有雪崩的风险。

4）由于依赖Play框架，我们发现其长连接打点有不准确的问题（因为拿不到底层TCP连接的数据），这个会影响我们每日巡检对服务容量的评估，且依赖其他框架在长连接数量上来后我们没有办法做更细致的优化。

6、新版接入层的设计目标

基于早期接入层技术方案的种种问题，我们打算重构接入层。

对于新版接入层我们制定的目标是：

1）足够稳定：上线尽可能不断连接且服务稳定；
2）极致性能：目标单机至少100w长连接，最好不要受GC影响；
3）最大限度可控：除了底层网络I/O的系统调用，其他所有代码都要是自己实现/或者内部实现的组件，这样我们有足够的自主权。

于是，我们开始了单机百万长连接的漫漫实践之路。。。

7、新版接入层的优化思路

7.1 接入层的依赖关系

接入层与外部服务的关系理清如下：

7.2 接入层的功能划分

接入层的主要功能划分如下：

1）WebSocket解析：收到的客户端字节流，要按照WebSocket协议要求解析出数据；
2）Socket状态保持：存储连接的基本状态信息；
3）加密解密：与客户端通讯的所有数据都是加密过的，而与后端模块之间传输是json明文的；
4）顺序化：同一个物理连接上，先后两个请求A、B到达服务器，后端服务中B可能先于A得到了应答，但是我们收到B不能立刻发送给客户端，必须等待A完成后，再按照A,B的顺序发给客户端；
5）后端消息分发：接入层后面不止对接单个服务，可能根据不同的消息转发给不同的服务；
6）鉴权：安全相关验证，身份验证等。

7.3 接入层的拆分思路

把之前的单一模块按照是否有状态，拆分为两个子模块。

具体如下：

1）前端：有状态，功能最小化，尽量少上线；
2）后端：无状态，功能最大化，上线可做到用户无感知。

所以，按照上面的原则，理论上我们会做出这样的功能划分，即前端很小、后端很大。示意图如下图所示。

8、新版接入层的技术实现

8.1 总览

模块拆分为前后端：

1）前端有状态，后端无状态；
2）前后端是独立进程，同机部署。

补充：前端负责建立与维护设备长连接的状态，为有状态服务；后端负责具体业务请求，为无状态服务。后端服务上线不会导致设备连接断开重连及鉴权调用，避免了长连接状态因版本升级或逻辑调整而引起的不必要抖动；

前端使用CPP实现：

1）Websocket协议完全自己解析：可以从Socket层面获取所有信息，任何Bug都可以处理；
2）更高的CPU利用率：没有任何额外JVM代价，无GC拖累性能；
3）更高的内存利用率：连接数量变大后与连接相关的内存开销变大，自己管理可以极端优化。

后端暂时使用Scala实现：

1）已实现的功能直接迁移，比重写代价要低得多；
2）依赖的部分外部服务（比如鉴权）有可直接利用的Scala（Java）SDK库，而没有C++版本，若用C++重写代价非常大；
3）全部功能无状态化改造，可以做到随时重启而用户无感知。

通讯使用ZeroMQ：

进程间通讯最高效的方式是共享内存，ZeroMQ基于共享内存实现，速度没问题。

8.2 前端实现

整体架构：

如上图所示，由四个子模块组成：

1）传输层：Websocket协议解析，XMD协议解析；
2）分发层：屏蔽传输层的差异，不管传输层使用的什么接口，在分发层转化成统一的事件投递到状态机；
3）状态机层：为了实现纯异步服务，使用自研的基于Actor模型的类Akka状态机框架XMFSM，这里面实现了单线程的Actor抽象；
4）ZeroMQ通讯层：由于ZeroMQ接口是阻塞实现，这一层通过两个线程分别负责发送和接收。

8.2.1）传输层：

WebSocket 部分使用 C++ 和 ASIO 实现 websocket-lib。小爱长连接基于WebSocket协议，因此我们自己实现了一个WebSocket长连接库。

这个长连接库的特点是：

a. 无锁化设计，保障性能优异；
b. 基于BOOST ASIO 开发，保障底层网络性能。

压测显示该库的性能十分优异的：

这一层同时也承担了除原始WebSocket外，其他两种通道的的收发任务。

目前传输层一共支持以下3种不同的客户端接口：

a. websocket(tcp)：简称ws；
b. 基于ssl的加密websocket(tcp)：简称wss；
c. xmd(udp)：简称xmd。

8.2.2）分发层：

把不同的传输层事件转化成统一事件投递到状态机，这一层起到适配器的作用，确保无论前面的传输层使用哪种类型，到达分发层变都变成一致的事件向状态机投递。

8.2.3）状态机处理层：

主要的处理逻辑都位于这一层中，这里非常重要的一个部分是对于发送通道的封装。

对于小爱应用层协议，不同的通道处理逻辑是完全一致的，但是在处理和安全相关逻辑上每个通道又有细节差异。

比如：

a. wss 收发不需要加解密，加解密由更前端的Nginx做了，而ws需要使用AES加密发送；
b. wss 在鉴权成功后不需要向客户端下发challenge文本，因为wss不需要做加解密；
c. xmd 发送的内容与其他两个不同，是基于protobuf封装的私有协议，且xmd需要处理发送失败后的逻辑，而ws/wss不用考虑发送失败的问题，由底层Tcp协议保证。

针对这种情况：我们使用C++的多态特性来处理，专门抽象了一个Channel接口，这个接口中提供的方法包含了一个请求处理的一些关键差异步骤，比如如何发送消息到客户端，如何stop连接，如何处理发送失败等等。对于3种(ws/wss/xmd)不同的发送通道，每个通道有自己的Channel实现。

客户端连接对象一创建，对应类型的具体Channel对象就立刻被实例化。这样状态机主逻辑中只实现业务层的公共逻辑即可，当在有差异逻辑调用时，直接调用Channel接口完成，这样一个简单的多态特性帮助我们分割了差异，确保代码整洁。

8.2.4）ZeroMQ 通讯层：

通过两个线程将ZeroMQ的读写操作异步化，同时负责若干私有指令的封装和解析。

8.3 后端实现

8.3.1）无状态化改造：

后端做的最重要改造之一就是将所有与连接状态相关的信息进行剔除。

整个服务以 Request（一次连接上可以传输N个Request）为核心进行各种转发和处理，每次请求与上一次请求没有任何关联。一个连接上的多次请求在后端模块被当做独立请求处理。

8.3.2）架构：

Scala 服务采用 Akka-Actor 架构实现了业务逻辑。

服务从 ZeroMQ 收到消息后，直接投递到 Dispatcher 中进行数据解析与请求处理，在 Dispatcher 中不同的请求会发送给对应的 RequestActor进行 Event 协议解析并分发给该 event 对应的业务 Actor 进行处理。最后将处理后的请求数据通过XmqActor 发送给后端 AIMS&XMQ 服务。

一个请求在后端多个 Actor 中的处理流程：

8.3.3）Dispatcher 请求分发：

前端与后端之间通过 Protobuf 进行交互，避免了Json 解析的性能消耗，同时使得协议更加规范化。

后端服务从 ZeroMQ 收到消息后，会在 DispatcherActor 中进行PB协议解析并根据不同的分类（简称CMD）进行数据处理，分类包括如下几种。

* BIND 命令：

鉴权功能，由于鉴权功能逻辑复杂，使用C++语言实现起来较为困难，目前依然放在 scala 业务层进行鉴权。该部分对设备端请求的 HTTP Headers 进行解析，提取其中的 token 进行鉴权，并将结果返回前端。

* LOGIN 命令：

设备登入，设备鉴权通过后当前连接已成功建立，此时会进行 Login 命令的执行，用于将该长连接信息发送至AIMS并记录于Varys服务中，方便后续的主动下推等功能。在 Login 过程中，服务首先将请求 Account 服务获取长连接的 uuid（用于连接过程中的路由寻址），然后将设备信息+uuid 发送至AIMS进行设备登入操作。

* LOGOUT 命令：

设备登出，设备在与服务端断开连接时需要进行 Logout 操作，用于从 Varys 服务中删除该长连接记录。

* UPDATE 与 PING 命令：

a. Update 命令，设备状态信息更新，用于更新该设备在数据库中保存的相关信息；

b. Ping 命令，连接保活，用于确认该设备处于在线连接状态。

* TEXT_MESSAGE 与 BINARY_MESSAGE：

文本消息与二进制消息，在收到文本消息或二进制消息时将根据 requestid 发送给该请求对应的RequestActor进行处理。

8.3.4）Request 请求解析：

针对收到的文本和二进制消息，DispatcherActor 会根据 requestId 将其发送给对应的RequestActor进行处理。

其中：文本消息将会被解析为Event请求，并根据其中的 namespace 和 name 将其分发给指定的业务Actor。二进制消息则会根据当前请求的业务场景被分发给对应的业务Actor。

8.4 其他优化

在完成新架构 1.0 调整过程中，我们也在不断压测长连接容量，总结几点对容量影响较大的点。

8.4.1）协议优化：

a. JSON替换为Protobuf: 早期的前后端通信使用的是 json 文本协议，后来发现 json 序列化、反序列化这部分对CPU的占用较大，改为了 protobuf 协议后，CPU占用率明显下降。

b. JSON支持部分解析：业务层的协议是基于json的，没有办法直接替换，我们通过"部分解析json"的方式，只解析很小的 header 部分拿到 namespace 和 name，然后将大部分直接转发的消息转发出去，只将少量 json 消息进行完整反序列化成对象。此种优化后CPU占用下降10%。

8.4.2）延长心跳时间：

在第一次测试20w连接时，我们发现在前后端收发的消息中，一种用来保持用户在线状态的心跳PING消息占了总消息量的75%，收发这个消息耗费了大量CPU。因此我们延长心跳时间也起到了降低CPU消耗的目的。

8.4.3）自研内网通讯库：

为了提高与后端服务通信的性能，我们使用自研的TCP通讯库，该库是基于Boost ASIO开发的一个纯异步的多线程TCP网络库，其卓越的性能帮助我们将连接数提升到120w+。

9、未来规划

经过新版架构1.0版的优化，验证了我们的拆分方向是正确的，因为预设的目标已经达到：

1）单机承载的连接数 28w => 120w+（普通服务端机器 16G内存 40核峰值请求QPS过万），接入层下线节省了50%+的机器成本；
2）后端可以做到无损上线。

再重新审视下我们的理想目标，以这个为方向，我们就有了2.0版的雏形：

具体就是：

1）后端模块使用C++重写，进一步提高性能和稳定性。同时将后端模块中无法使用C++重写的部分，作为独立服务模块运维，后端模块通过网络库调用；
2）前端模块中非必要功能尝试迁移到后端，让前端功能更少，更稳定；
3）如果改造后，前端与后端处理能力差异较大，考虑到ZeroMQ实际是性能过剩的，可以考虑使用网络库替换掉ZeroMQ，这样前后端可以从1:1单机部署变为1:N多机部署，更好的利用机器资源。

2.0版目标是：经过以上改造后，期望单前端模块可以达到200w+的连接处理能力。

10、参考资料

[1] 上一个10年，著名的C10K并发连接问题

[2] 下一个10年，是时候考虑C10M并发问题了

[3] 一文读懂高性能网络编程中的线程模型

[4] 深入操作系统，一文读懂进程、线程、协程

[5] Protobuf通信协议详解：代码演示、详细原理介绍等

[6] WebSocket从入门到精通，半小时就够！

[7] 如何让你的WebSocket断网重连更快速？

[8] 从100到1000万高并发的架构演进之路

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文同步发布于：http://www.52im.net/thread-3860-1-1.html）

posted @ 2022-03-22 17:00 Jack Jiang 阅读(618) | 评论 (0) | 编辑收藏

阿里IM技术分享(七)：闲鱼IM的在线、离线聊天数据同步机制优化实践

本文由阿里闲鱼技术团队书闲分享，原题“如何有效缩短闲鱼消息处理时长”，有修订和改动。

1、引言

闲鱼技术团队围绕IM这个技术范畴，已经分享了好几篇实践性总结文章，本篇将要分享的是闲鱼IM系统中在线和离线聊天消息数据的同步机制上所遇到的一些问题，以及实践性的解决方案。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文已同步发布于：http://www.52im.net/thread-3856-1-1.html）

2、系列文章

本文是系列文章的第7篇，总目录如下：

3、问题背景

随着用户数的快速增长，闲鱼IM系统也迎来了前所未有的挑战。

历经多年的业务迭代，客户端侧IM的代码已经因为多年的迭代层次结构不足够清晰，之前一些隐藏起来的聊天数据同步问题，也随着用户数的增大而被放大。

这里面的具体流程在于：后台需要同步到用户端侧的数据包，后台会根据数据包的业务类型划分成不同的数据域，数据包在对应域里面存在唯一且连续的编号，每一个数据包发送到端侧并且被成功消费后，端侧会记录当前每一个数据域已经同步过的版本编号，下一次数据同步就以本地数据域的编号开始，不断的同步到客户端。

当然用户不会一直在线等待消息，所以之前端侧采用了推拉结合的方式保证数据的同步。

具体就是：

1）客户端在线时：使用ACCS实时的将最新的数据内容推送到客户端（ACCS是淘宝无线向开发者提供全双工、低延时、高安全的通道服务）；
2）客户端从离线状态启动后：根据本地的数据域编号，拉取不在线时候的数据差；
3）当数据获取出现黑洞时：触发数据同步拉取（“黑洞”即指数据包Version不连续的状态）。

4、问题分析

当前的聊天数据同步策略确实是可以基本保障IM的数据同步的，但是也伴随着一些隐含的问题。

这些隐含的问题主要有：

1）短时间密集数据推送时，会快速的触发多次数据域同步。域同步回来的数据如果存在问题，又会触发新一轮的同步，造成网络资源的浪费。冗余数据包/无效的数据内容会占用有效内容的处理资源，又对CPU和内存资源造成浪费；
2）数据域中的数据包客户端是否正常消费，服务端侧无感知，只能被动地根据当前数据域信息返回数据；
3）数据收取/消息数据体解析/存储落库逻辑拆分不够清晰，无法针对性的对某一层的代码拆分替换进行ABTest。

针对上述问题，我们对闲鱼IM进行了分层改造——即抽离数据同步层。这样优化，除了希望以后这个数据的同步内容可以用在IM之外，也希望随着稳定性的增加，赋能其他的业务场景。

接下来的内容，我们重点来看下解决客户端侧闲鱼IM聊天数据同步问题的一些实践思路。

5、优化思路

5.1 分层拆分

对于服务端来说：业务侧产出数据包后，会拼接上当前的数据域信息，然后通过数据同步层将数据推送到端侧。

对于客户端来说：接收到数据包后，会根据当前的数据域信息，来确定需要消费数据包的业务方，确保数据包在数据域内完整连续后，将数据体脱壳后交于业务侧消费，并且应答消费的状况。

数据同步层的抽取：把数据同步中的加壳、脱壳、校验、重试流程封装到一起，可以让上层业务只需要关心自己需要监听的数据域信息，然后当这些数据域更新数据的时候，可以获取到这些数据进行消费，而不再需要关心数据包是否完整。

这样做的话：

1）业务侧只需要关心业务侧对接的协议；
2）数据侧只需要关心数据侧包装的协议；
3）网络层负责真实的数据传输。

整体的架构原理如下：

总结一下就是：

1）对齐数据层数据传输协议、描述当前数据包体数据域信息；
2）将消息的处理/合并/落库抽离成数据消费者；
3）上下楼依赖抽象化，去除对于具体实现的依赖。

5.2 数据层结构模型

基于对于数据模型剥离和对当下遇见问题的解决方案规整，将数据同步层拆分为下图这样的架构。

具体的实施思路就是：

1）App启动时建立ACCS长链接服务，保证推推送信道链接，并且根据当前本地数据域信息触发一次数据拉取；
2）数据消费者注册消费者信息和需要监听的数据域信息，这里是一对多的关系；
3）新的数据抵达端侧后，将数据包放到指定的数据域的缓冲池，批量数据归纳结束后，重新出发数据的读取；
4）根据当前数据域优先级弹出最高优的数据包，判断数据域版本是否符合消费者要求，符合则将数据包脱壳后丢给消费者消费，不符合则根据上一次正确的数据包的域信息触发增量的数据域同步拉取；
5）触发数据域同步拉取时，block数据读取，此时通过ACCS触达的数据依旧会在继续归纳到指定的数据域队列中，等待数据域同步拉取结果，将数据包进行排序、去重，合并到对应的数据域队列中。然后重新激活数据读取；
6）数据包体被消费者正确消费后，更新域信息并且通过上行信道告知服务端已经正确处理的数据域信息。

* 数据域同步协议：

Region中携带的数据不必过多，但需将数据包的内容描述清楚，具体是：

1）目标用户的ID，用以确定目标数据包是否正确；
2）数据域ID和优先级信息；
3）当前数据包的域优先级版本。

* 排序策略：

针对于域数据归纳，无论是在写入数据的时候进行排序还是在读取的时候进行查找都需要进行一次排序的操作，时间复杂度最优也是O(logn)级别的。

在实际coding中发现由于在一个数据域里面，数据包的Version信息是连续唯一并且不存在断层的，上一个稳定消费的数据体的Version信息自增就是下一个数据包的Version，所以这里采用了以Versio为主键的Map存储，既降低了时间复杂度，也使得唯一标识的数据包后抵达端侧的包内容可以覆盖之前的包内容。

6、新的问题及解决策略

6.1 多数据来源和唯一数据消费的平衡

每当产生一条针对于当前用户的数据包：

1）如果当前ACCS长链接存在，就会通过ACCS将数据包推送到客户端；
2）如果App切换到后台一段时间，或者直接被杀死，ACCS链接断开，那么只能通过离线推送到用户的通知面板。

所以：每当App切换到活跃状态，都需要根据当前本地存储的数据域信息从后台触发一次数据同步。

数据包触达到客户端侧的来源主要是ACCS长链接的推送和域同步时的拉取，但是数据包的消费是根据数据域的监听划分的唯一消费者，也就是同一时间内只能消费一个数据包。

在压力测试中：当后台短时间内密集的将数据包通过ACCS推送到端侧时，端侧接收到的数据包并不有序，不连续的数据包域版本又会触发新的数据域同步，导致同样的一份数据包会通过两个不同的渠道多次的触达到端侧，浪费了不必要的流量。

当数据域同步时：这个时间节点产生的新数据包也会推送到端侧，数据体有效，并且需要被正确的消费。

针对上述这些问题的解决策略：

即在数据消费和数据获取中间装载一个数据中间层，当触发数据域同步的时候block数据的读取并且ACCS推送下来的数据包会被存放在一个数据的中转站里面，当数据域同步拉取的数据回来后，对数据进行合并后再重启数据读取流程。

6.2 数据域优先级

需要推送到客户端侧的数据包，根据业务的不同优先级也有不同的划分。

用户和用户的聊天产生的数据包会比运营类的消息的数据包优先级要高一些，所以要当多优先级的数据包快速的抵达端侧时，高优先级数据域的数据包需要被优先消费，而数据域的优先级也是需要动态调整，需要不断变换的优先级策略。

针对这个问题的解决策略：

不同的数据域，产生不同的数据队列，高优队列里面的数据包会被优先读取消费。

每一个数据包体中带回的数据域信息，都可以标注当前的数据域优先级，当数据域优先级发生变化的时候，调整数据包消费优先级策略。

7、优化后的效果

除去结构上分层梳理，使得数据同步层和依赖的服务内容可便捷解耦/每一个环节可插拔之外，数据同步中对于消息消费时长/流量节省，压力测试场景下优化效果更加明显。

在“500ms内100条全乱序数据包推送”压力测试场景下：

1）消息处理时长（接收-上屏）缩短 31%；
2）流量损耗（最终拉取到端侧数据包累积大小）降低35%。

8、后续的优化计划

8.1 数据同步层能力提升

数据同步侧的目标，既要保证数据包完整的到达端侧，又要在保证稳定性的前提下尽可能的减少数据的拉取，使得每一次数据的获取都有效。

后续数据同步层会着手于有效数据率和到达率进行更进一步的优化。

针对不同的场景，动态智能调整数据同步的优先级策略。

阻塞式长链接推送，保证同一时间只存在推模式或者拉模式，进一步减少冗余数据包的推送。

8.2 IM端侧整体架构升级

升级数据同步层策略主要还是要提升IM的能力，将数据同步分层后，接下来就是将消息的处理流程化，对每一个流程都可监控可回溯，提升IM数据包的正确解析存储和落库率。

细化一下就是：

1）在数据来源侧剥离开后，后续对IM的整改也会逐步的将消息的处理分层剥离；
2）消息处理关键节点的流程式上报、建立完整的监控体系，让问题发现先于用户舆情；
3）消息完整性的动态自检，最小化数据补偿补全。

9、参考资料

[1] IM单聊和群聊中的在线状态同步应该用“推”还是“拉”？

[2] IM群聊消息如此复杂，如何保证不丢不重？

[3] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[4] 一套亿级用户的IM架构技术干货(下篇)：可靠性、有序性、弱网优化等

[5] 从新手到专家：如何设计一套亿级消息量的分布式IM系统

[6] 融云技术分享：全面揭秘亿级IM消息的可靠投递机制

[7] 移动端IM中大规模群消息的推送如何保证效率、实时性？

[8] 现代IM系统中聊天消息的同步和存储方案探讨

[9] 新手入门一篇就够：从零开发移动端IM

[10] IM消息送达保证机制实现(一)：保证在线实时消息的可靠投递

[11] IM消息送达保证机制实现(二)：保证离线消息的可靠投递

[12] 零基础IM开发入门(四)：什么是IM系统的消息时序一致性？

[13] IM开发干货分享：我是如何解决大量离线消息导致客户端卡顿的

（本文已同步发布于：http://www.52im.net/thread-3856-1-1.html）

posted @ 2022-03-15 17:32 Jack Jiang 阅读(424) | 评论 (0) | 编辑收藏

不为人知的网络编程(十四)：拔掉网线再插上，TCP连接还在吗？一文即懂！

本文由作者小林coding分享，来自公号“小林coding”，有修订和改动。

1、引言

说到TCP协议，对于从事即时通讯/IM这方面应用的开发者们来说，再熟悉不过了。随着对TCP理解的越来越深入，很多曾今碰到过但没时间深入探究的TCP技术概念或疑问，现在是时候回头来恶补一下了。

本篇文章，我们就从系统层面深入地探讨一个有趣的TCP技术问题：拔掉网线后，再插上，原本的这条TCP连接还在吗？或者说它还“好”吗？

可能有的人会说：网线都被拔掉了，那说明物理层（也叫实体层）被断开了（关于网络协议分层模型请见《快速理解网络通信协议（上篇）》），那在物理层之上的传输层理应也会断开，所以原本的 TCP 连接就不会存在的了。就好像我们拨打有线电话的时候，如果某一方的电话线被拔了，那么本次通话就彻底断了。

答案真的是这样吗？可能并非你理解的这样哦，一起跟随笔者来深入探讨一下。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文同步发布于：http://www.52im.net/thread-3846-1-1.html）

2、系列文章

本文是系列文章中的第14篇，本系列文章的大纲如下：

3、比较笼统的答案

3.1 答案

引言里我们说到：有人认为，网线都被拔掉了，那说明物理层被断开，那么物理层之上的传输层肯定也会断开，所以原来的 TCP 连接自然也就不存在了。（PS：计算机网络分层详解请见《史上最通俗计算机网络分层详解》）

上面这个逻辑是有问题的。

问题在于：错误的认为拔掉网线这个动作会影响传输层，事实上并不会影响！

实际上：TCP 连接在 Linux 内核中是一个名为 struct socket 的结构体，该结构体的内容包含 TCP 连接的状态等信息。

所以：当拔掉网线的时候，操作系统并不会变更该结构体的任何内容，所以 TCP 连接的状态也不会发生改变。

3.2 实验验证一下

我做了个小实验：我用 ssh 终端连接了我的云服务器，然后我通过断开 wifi 的方式来模拟拔掉网线的场景，此时查看 TCP 连接的状态没有发生变化，还是处于 ESTABLISHED 状态（如下图所示）。

通过上面实验结果可以验证我的结论：拔掉网线这个动作并不会影响 TCP 连接的状态。

不过，这个答案还是有点笼统。实际上，我们应该在更具体的场景中来看待这个问题，答案才更准确一些。

这个具体场景就是：

1）当拔掉网线后，有数据传输时；
2）当拔掉网线后，没有数据传输时。

针对上面这两种具体的场景，我来更具体地来分析一下。我们继续往下阅读。

4、具体场景1：拔掉网线后，有数据传输时

4.1 数据传输过程中，恰好又把网线插回去了

如果是客户端被拔掉网线后，服务端向客户端发送的数据报文会得不到任何的响应，在等待一定时长后，服务端就会触发TCP协议的超时重传机制（详见：《TCP/IP详解 - 第21章·TCP的超时与重传》），然而此时重传并不能得到响应的数据报文。

如果在服务端重传报文的过程中，客户端恰好把网线插回去了，由于拔掉网线并不会改变客户端的 TCP 连接状态，并且还是处于 ESTABLISHED 状态，所以这时客户端是可以正常接收服务端发来的数据报文的，然后客户端就会回 ACK 响应报文。

此时：客户端和服务端的 TCP 连接将依然存在且工作状态不会受到影响，给应用层的感觉就像什么事情都没有发生。。。

4.2 数据传输过程中，网线一直没有插回去

上面这种情况下，如果在服务端TCP协议重传报文的过程中，客户端一直没有将网线插回去，那么服务端超时重传报文的次数达到一定阈值后，内核就会判定出该 TCP 有问题。然后就会通过 Socket 接口告诉应用程序该 TCP 连接出问题了，于是服务端的 TCP 连接就会断开。

接下来，如果客户端再插回网线，如果客户端向服务端发送了数据，由于服务端已经没有与客户端匹配的 TCP 连接信息了，因此服务端内核就会回复 RST 报文，客户端收到后就会释放该 TCP 连接。

此时：客户端和服务端的 TCP 连接已经明确被断开，原本的这个连接也就不存在了。

4.3 刨根问底：TCP数据报文到底重传几次？

本着知其然更应知其所以然的精神，我们来刨根问底一下：TCP 的数据报文到底有重传几次呢？

在 Linux 系统中，提供了一个叫 tcp_retries2 配置项，默认值是 15（如下图所示）。

如上图所示：这个内核参数是控制 TCP 连接建立的情况下，超时重传的最大次数。

不过 tcp_retries2 设置了 15 次，并不代表 TCP 超时重传了 15 次才会通知应用程序终止该 TCP 连接，内核还会基于“最大超时时间”来判定。

每一轮的超时时间都是倍数增长的，比如第一次触发超时重传是在 2s 后，第二次则是在 4s 后，第三次则是 8s 后，以此类推。

内核会根据 tcp_retries2 设置的值，计算出一个最大超时时间。

在重传报文且一直没有收到对方响应的情况时，先达到“最大重传次数”或者“最大超时时间”这两个的其中一个条件后，就会停止重传，然后就会断开 TCP 连接。

PS：有关TCP超时重传机制的详细情况，可以阅读《浅析TCP协议中的疑难杂症(下篇)》。

5、具体场景2：拔掉网线后，有数据传输时

5.1 场景分析

针对拔掉网线后，没有数据传输的场景，还得具体看看是否开启了 TCP KeepAlive 机制（详见《彻底搞懂TCP协议层的KeepAlive保活机制》）。

1）如果没有开启 TCP KeepAlive 机制：

在客户端拔掉网线后，并且双方都没有进行数据传输，那么客户端和服务端的 TCP 连接将会一直保持存在。

2）如果开启了 TCP KeepAlive 机制：

在客户端拔掉网线后，即使双方都没有进行数据传输，在持续一段时间后，TCP 就会发送KeepAlive探测报文。

根据KeepAlive探测报文响应情况，会有以下两种可能：

1）如果对端正常工作：当探测报文被对端收到并正常响应， TCP 保活时间将被重置，等待下一个 TCP 保活时间的到来；
2）如果对端主机崩溃或对端由于其他原因导致报文不可达：当探测报文发送给对端后，石沉大海、没有响应，连续几次，达到保活探测次数后，TCP 会报告该连接已经死亡。

所以：TCP 保活机制可以在双方没有数据交互的情况，通过TCP KeepAlive 机制的探测报文，来确定对方的 TCP 连接是否存活。

5.2 刨根问底：TCP KeepAlive 机制具体是什么样的？

TCP KeepAlive 机制的原理是这样的：

定义一个时间段，在这个时间段内，如果没有任何连接相关的活动，TCP 保活机制会开始作用，每隔一个时间间隔，发送一个探测报文。该探测报文包含的数据非常少，如果连续几个探测报文都没有得到响应，则认为当前的 TCP 连接已经死亡，系统内核将错误信息通知给上层应用程序。

在 Linux 内核可以有对应的参数可以设置保活时间、保活探测的次数、保活探测的时间间隔。

以下是 Linux 中的默认值：

net.ipv4.tcp_keepalive_time=7200
net.ipv4.tcp_keepalive_intvl=75
net.ipv4.tcp_keepalive_probes=9

解释一下：

1）tcp_keepalive_time=7200：表示保活时间是 7200 秒（2小时），也就 2 小时内如果没有任何连接相关的活动，则会启动保活机制；
2）tcp_keepalive_intvl=75：表示每次检测间隔 75 秒；
3）tcp_keepalive_probes=9：表示检测 9 次无响应，认为对方是不可达的，从而中断本次的连接。

也就是说在 Linux 系统中，最少需要经过 2 小时 11 分 15 秒才可以发现一个“死亡”连接。

计算公式是：

注意：应用程序若想使用 TCP 保活机制需要通过 socket 接口设置 SO_KEEPALIVE 选项才能够生效，如果没有设置，那么就无法使用 TCP 保活机制。

PS：关于TCP协议的KeepAlive 机制详见《彻底搞懂TCP协议层的KeepAlive保活机制》、《一文读懂即时通讯应用中的网络心跳包机制：作用、原理、实现思路等》。

5.3 刨根问底：TCP KeepAlive 机制的探测时间也太长了吧？

没错，确实有点长。

TCP KeepAlive 机制是 TCP 层（内核态）实现的，它是给所有基于 TCP 传输协议的程序一个兜底的方案。

实际上：我们通常在应用层自己实现一套探测机制，可以在较短的时间内，探测到对方是否存活。

比如：一般Web 服务器都会提供 keepalive_timeout 参数，用来指定 HTTP 长连接的超时时间。如果设置了 HTTP 长连接的超时时间是 60 秒，Web 服务软件就会启动一个定时器，如果客户端在完后一个 HTTP 请求后，在 60 秒内都没有再发起新的请求，定时器的时间一到，就会触发回调函数来释放该连接。

再比如：IM、消息推送系统里的心跳机制，通过应用层的心跳机制（由客户端发出，服务端回复响应包），来灵活控制和探测长连接的健康度。

《为何基于TCP协议的移动端IM仍然需要心跳保活机制？》这篇文章解释了IM这类应用中应用层心跳保活的必要性，有兴趣可以读一读。

如果对应用层心跳的具体应用没什么概念，可以看看微信的这两篇文章：

下面有几个针对im这类应用的心跳实现代码，可以具体感受学习一下：

6、本文小结

下面简单总结一下文中的内容，本文开头的问题并不是简单一句话能够准确说清楚的，需要分情况对待。

也就是：客户端拔掉网线后，并不会直接影响 TCP 的连接状态。所以拔掉网线后，TCP 连接是否还会存在，关键要看拔掉网线之后，有没有进行数据传输。

1）有数据传输的情况：

在客户端拔掉网线后：如果服务端发送了数据报文，那么在服务端重传次数没有达到最大值之前，客户端恰好插回网线的话，那么双方原本的 TCP 连接还是能存在并正常工作，就好像什么事情都没有发生。

在客户端拔掉网线后：如果服务端发送了数据报文，在客户端插回网线之前，服务端重传次数达到了最大值时，服务端就会断开 TCP 连接。等到客户端插回网线后，向服务端发送了数据，因为服务端已经断开了与客户端相同四元组的 TCP 连接，所以就会回 RST 报文，客户端收到后就会断开 TCP 连接。至此，双方的 TCP 连接都断开了。

2）没有数据传输的情况：

a. 如果双方都没有开启 TCP keepalive 机制，那么在客户端拔掉网线后，如果客户端一直不插回网线，那么客户端和服务端的 TCP 连接状态将会一直保持存在；
b. 如果双方都开启了 TCP keepalive 机制，那么在客户端拔掉网线后，如果客户端一直不插回网线，TCP keepalive 机制会探测到对方的 TCP 连接没有存活，于是就会断开 TCP 连接。而如果在 TCP 探测期间，客户端插回了网线，那么双方原本的 TCP 连接还是能正常存在。

除了客户端拔掉网线的场景，还有客户端“宕机和杀死进程”的两种场景。

第一个场景：客户端宕机这件事跟拔掉网线是一样无法被服务端的感知的，所以如果在没有数据传输，并且没有开启 TCP keepalive 机制时，，服务端的 TCP 连接将会一直处于 ESTABLISHED 连接状态，直到服务端重启进程。

所以：我们可以得知一个点——在没有使用 TCP 保活机制，且双方不传输数据的情况下，一方的 TCP 连接处在 ESTABLISHED 状态时，并不代表另一方的 TCP 连接还一定是正常的。

第二个场景：杀死客户端的进程后，客户端的内核就会向服务端发送 FIN 报文，与客户端进行四次挥手（见《跟着动画来学TCP三次握手和四次挥手》）。

所以：即使没有开启 TCP KeepAlive，且双方也没有数据交互的情况下，如果其中一方的进程发生了崩溃，这个过程操作系统是可以感知的到的，于是就会发送 FIN 报文给对方，然后与对方进行 TCP 四次挥手。

7、参考资料

[1] TCP/IP详解 - 第21章·TCP的超时与重传

[2] 通俗易懂-深入理解TCP协议（上）：理论基础

[4] 脑残式网络编程入门(一)：跟着动画来学TCP三次握手和四次挥手

[5] 脑残式网络编程入门(七)：面视必备，史上最通俗计算机网络分层详解

[6] 技术大牛陈硕的分享：由浅入深，网络编程学习经验干货总结

[7] 网络编程入门从未如此简单(二)：假如你来设计TCP协议，会怎么做？

[8] 不为人知的网络编程(十)：深入操作系统，从内核理解网络包的接收过程(Linux篇)

[9] 为何基于TCP协议的移动端IM仍然需要心跳保活机制？

[10] 一文读懂即时通讯应用中的网络心跳包机制：作用、原理、实现思路等

[11] Web端即时通讯实践干货：如何让你的WebSocket断网重连更快速？

（本文同步发布于：http://www.52im.net/thread-3846-1-1.html）

posted @ 2022-03-07 18:15 Jack Jiang 阅读(258) | 评论 (0) | 编辑收藏

IM全文检索技术专题(四)：微信iOS端的最新全文检索技术优化实践

摘要: 本文由微信开发团队工程师“ qiuwenchen”分享，发布于WeMobileDev公众号，有修订。1、引言全文搜索是使用倒排索引进行搜索的一种搜索方式。倒排索引也称为反向索引，是指对输入的内容中的每个Token建立一个索引，索引中保存了这个Token在内容中的具体位置。全文搜索技术主要应用在对大量文本内容进行搜索的场景。微信终端涉及到大量文本搜索的业务场景主要包括：im联... 阅读全文

posted @ 2022-02-28 17:48 Jack Jiang 阅读(141) | 评论 (0) | 编辑收藏

直播系统聊天技术(七)：直播间海量聊天消息的架构设计难点实践

本文由融云技术团队原创分享，有修订和改动。

1、引言

在视频直播场景中，弹幕交互、与主播的聊天、各种业务指令等等，组成了普通用户与主播之间的互动方式。

从技术的角度来看，这些实时互动手段，底层逻辑都是实时聊天消息或指令的分发，技术架构类比于IM应用的话，那就相当于IM聊天室功能。

本系列文章的上篇《百万人在线的直播间实时聊天消息分发技术实践》主要分享的是消息分发和丢弃策略。本文将主要从高可用、弹性扩缩容、用户管理、消息分发、客户端优化等角度，分享直播间海量聊天消息的架构设计技术难点的实践经验。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文已同步发布于：http://www.52im.net/thread-3835-1-1.html）

2、系列文章

本文是系列文章中的第7篇：

《直播系统聊天技术(一)：百万在线的美拍直播弹幕系统的实时推送技术实践之路》

《直播系统聊天技术(二)：阿里电商IM消息平台，在群聊、直播场景下的技术实践》

《直播系统聊天技术(三)：微信直播聊天室单房间1500万在线的消息架构演进之路》

《直播系统聊天技术(四)：百度直播的海量用户实时消息系统架构演进实践》

《直播系统聊天技术(五)：微信小游戏直播在Android端的跨进程渲染推流实践》

《直播系统聊天技术(六)：百万人在线的直播间实时聊天消息分发技术实践》

《直播系统聊天技术(七)：直播间海量聊天消息的架构设计难点实践》（* 本文）

3、直播间的主要功能和技术特征

如今的视频直播间早已不单纯是视频流媒体技术问题，它还包含了用户可感知的多类型消息发送和管理、用户管理等任务。在万物皆可直播的当下，超大型直播场景屡见不鲜，甚至出现了人数无上限的场景，面对如此海量实时消息和指令的并发挑战，带来的技术难度已非常规手段所能解决。

我们先来归纳一下如今的典型视频直播间，相较于传统直播间所包含的主要功能特征、技术特征等。

丰富的消息类型和进阶功能：

1）可发送文字、语音、图片等传统聊天功能；
2）可实现点赞、礼物等非传统聊天功能的消息类型；
3）可管理内容安全，包括敏感词设置，聊天内容反垃圾处理等。

聊天管理功能：

1）用户管理：包括创建、加入、销毁、禁言、查询、封禁（踢人）等；
2）用户白名单：白名单用户处于被保护状态不会被自动踢出，且发送消息优先级别最高；
3）消息管理：包括消息优先级、消息分发控制等；
4）实时统计及消息路由等能力。

人数上限和行为特征：

1）人数没有上限：一些大型直播场景，如春晚、国庆大阅兵等，直播间累计观看动辄上千万人次，同时观看人数也可达数百万；
2）用户进退行为：用户进出直播间非常频繁，高热度直播间的人员进出秒并发可能上万，这对服务支撑用户上下线以及用户管理的能力提出了非常大的挑战。

海量消息并发：

1）消息并发量大：直播聊天室人数没有明显上限，带来了海量并发消息的问题（一个百万人数的聊天室，消息的上行已是巨量，消息分发量更是几何级上升）；
2）消息实时性高：如果服务器只做消息的消峰处理，峰值消息的堆积会造成整体消息延时增大。

针对上述第 2）点，延时的累积效应会导致消息与直播视频流在时间线上产生偏差，进而影响用户观看直播时互动的实时性。所以，服务器的海量消息快速分发能力十分重要。

4、直播间聊天室的架构设计

高可用系统需要支持服务故障自动转移、服务精准熔断降级、服务治理、服务限流、服务可回滚、服务自动扩容 / 缩容等能力。

以服务高可用为目标的直播间聊天室系统架构如下：

如上图所示，系统架构主要分三层：

1）连接层：主要管理服务跟客户端的长链接；
2）存储层：当前使用的是 Redis，作为二级缓存，主要存储聊天室的信息（比如人员列表、黑白名单、封禁列表等，服务更新或重启时，可以从 Redis 中加载出聊天室的备份信息）；
3）业务层：这是整个聊天室的核心，为了实现跨机房容灾，将服务部署在多个可用区，并根据能力和职责，将其分为聊天室服务和消息服务。

聊天室服务和消息服务的具体职责：

1）聊天室服务：主要负责处理管理类请求，比如聊天室人员的进出、封禁 / 禁言、上行消息处理审核等；
2）消息服务：主要缓存本节点需要处理的用户信息以及消息队列信息，并负责聊天室消息的分发。

在海量用户高并发场景下，消息分发能力将决定着系统的性能。以一个百万级用户量的直播间聊天室为例，一条上行消息对应的是百万倍的分发。这种情况下，海量消息的分发，依靠单台服务器是无法实现的。

我们的优化思路是：将一个聊天室的人员分拆到不同的消息服务上，在聊天室服务收到消息后向消息服务扩散，再由消息服务分发给用户。

以百万在线的直播间聊天室为例：假设聊天室消息服务共 200 台，那平均每台消息服务管理 5000 人左右，每台消息服务在分发消息时只需要给落在本台服务器上的用户分发即可。

服务落点的选择逻辑：

1）在聊天室服务中：聊天室的上行信令是依据聊天室 ID 使用一致性哈希算法来选择节点的；
2）在消息服务中：依据用户 ID 使用一致性哈希算法来决定用户具体落在哪个消息服务。

一致性哈希选择的落点相对固定，可以将聊天室的行为汇聚到一个节点上，极大提升服务的缓存命中率。

聊天室人员进出、黑 / 白名单设置以及消息发送时的判断等处理直接访问内存即可，无须每次都访问第三方缓存，从而提高了聊天室的响应速度和分发速度。

最后：Zookeeper 在架构中主要用来做服务发现，各服务实例均注册到 Zookeeper。

5、直播间聊天室的扩缩容能力

5.1 概述

随着直播这种形式被越来越多人接受，直播间聊天室面对人数激增致使服务器压力逐步增大的情况越来越多。所以，在服务压力逐步增大 / 减少的过程中能否进行平滑的扩 / 缩容非常重要。

在服务的自动扩缩容方面，业内提供的方案大体一致：即通过压力测试了解单台服务器的瓶颈点 → 通过对业务数据的监控来判断是否需要进行扩缩 → 触发设定的条件后报警并自动进行扩缩容。

鉴于直播间聊天室的强业务性，具体执行中应该保证在扩缩容中整体聊天室业务不受影响。

5.2 聊天室服务扩缩容

聊天室服务在进行扩缩容时，我们通过 Redis 来加载成员列表、封禁 / 黑白名单等信息。

需要注意的是：在聊天室进行自动销毁时，需先判断当前聊天室是否应该是本节点的。如果不是，跳过销毁逻辑，避免 Redis 中的数据因为销毁逻辑而丢失。

聊天室服务扩缩容方案细节如下图所示：

5.3 消息服务扩缩容

消息服务在进行扩缩容时，大部分成员需要按照一致性哈希的原则路由到新的消息服务节点上。这个过程会打破当前的人员平衡，并做一次整体的人员转移。

1）在扩容时：我们根据聊天室的活跃程度逐步转移人员。

2）在有消息时：[消息服务会遍历缓存在本节点上的所有用户进行消息的通知拉取，在此过程中判断此用户是否属于这台节点（如果不是，将此用户同步加入到属于他的节点）。

3）在拉消息时：用户在拉取消息时，如果本机缓存列表中没有该用户，消息服务会向聊天室服务发送请求确认此用户是否在聊天室中（如果在则同步加入到消息服务，不在则直接丢掉）。

4）在缩容时：消息服务会从公共 Redis 获得全部成员，并根据落点计算将本节点用户筛选出来并放入用户管理列表中。

6、海量用户的上下线和管理

聊天室服务：管理了所有人员的进出，人员的列表变动也会异步存入 Redis 中。

消息服务：则维护属于自己的聊天室人员，用户在主动加入和退出房间时，需要根据一致性哈希算出落点后同步给对应的消息服务。

聊天室获得消息后：聊天室服务广播给所有聊天室消息服务，由消息服务进行消息的通知拉取。消息服务会检测用户的消息拉取情况，在聊天室活跃的情况下，30s 内人员没有进行拉取或者累计 30 条消息没有拉取，消息服务会判断当前用户已经离线，然后踢出此人，并且同步给聊天室服务对此成员做下线处理。

7、海量聊天消息的分发策略

直播间聊天室服务的消息分发及拉取方案如下图：

7.1 消息通知的拉取

在上图中：用户 A 在聊天室中发送一条消息，首先由聊天室服务处理，聊天室服务将消息同步到各消息服务节点，消息服务向本节点缓存的所有成员下发通知拉取（图中服务器向用户 B 和用户 Z 下发了通知）。

在消息分发过程中，server 做了通知合并。

通知拉取的详细流程为：

1）客户端成功加入聊天，将所有成员加入到待通知队列中（如已存在则更新通知消息时间）；
2）下发线程，轮训获取待通知队列；
3）向队列中用户下发通知拉取。

通过这个流程可保障下发线程一轮只会向同一用户发送一个通知拉取（即多个消息会合并为一个通知拉取），有效提升了服务端性能且降低了客户端与服务端的网络消耗。

7.2 消息的拉取

用户的消息拉取流程如下图：

如上图所示，用户 B 收到通知后向服务端发送拉取消息请求，该请求最终将由消息节点 1 进行处理，消息节点 1 将根据客户端传递的最后一条消息时间戳，从消息队列中返回消息列表（参考下图）。

客户端拉取消息示例：

用户端本地最大时间为 1585224100000，从 server 端可以拉取到比这个数大的两条消息。

7.3 消息控速

服务器应对海量消息时，需要做消息的控速处理。

这是因为：在直播间聊天室中，大量用户在同一时段发送的海量消息，一般情况下内容基本相同。如果将所有消息全部分发给客户端，客户端很可能出现卡顿、消息延迟等问题，严重影响用户体验。

所以服务器对消息的上下行都做了限速处理。

消息控速原理：

具体的限速控制策略如下：

1）服务器上行限速控制（丢弃）策略：针对单个聊天室的消息上行的限速控制，我们默认为 200 条 / 秒，可根据业务需要调整。达到限速后发送的消息将在聊天室服务丢弃，不再向各消息服务节点同步；
2）服务器下行限速（丢弃）策略：服务端的下行限速控制，主要是根据消息环形队列的长度进行控制，达到最大值后最“老”的消息将被淘汰丢弃。

每次下发通知拉取后服务端将该用户标记为拉取中，用户实际拉取消息后移除该标记。

如果产生新消息时用户有拉取中标记：

1）距设置标记时间在 2 秒内，则不会下发通知（降低客户端压力，丢弃通知未丢弃消息）；
2）超过 2 秒则继续下发通知（连续多次通知未拉取则触发用户踢出策略，不在此赘述）。

因此：消息是否被丢弃取决于客户端拉取速度（受客户端性能、网络影响）,客户端及时拉取消息则没有被丢弃的消息。

8、直播间聊天室的消息优先级

消息控速的核心是对消息的取舍，这就需要对消息做优先级划分。

划分逻辑大致如下：

1）白名单消息：这类消息最为重要，级别最高，一般系统类通知或者管理类信息会设置为白名单消息；
2）高优先级消息：仅次于白名单消息，没有特殊设置过的消息都为高优先级；
3）低优先级消息：最低优先级的消息，这类消息大多是一些文字类消息。

具体如何划分，应该是可以开放出方便的接口进行设置的。

服务器对三种消息执行不同的限速策略，在高并发时，低优先级消息被丢弃的概率最大。

服务器将三种消息分别存储在三个消息桶中：客户端在拉取消息时按照白名单消息＞高优先级消息＞低优先级消息的顺序拉取。

9、客户端针对大量消息的接收和渲染优化

9.1 消息的接收优化

在消息同步机制方面，如果直播间聊天室每收到一条消息都直接下发到客户端，无疑会给客户端带来极大性能挑战。特别是在每秒几千或上万条消息的并发场景下，持续的消息处理会占用客户端有限的资源，影响用户其它方面的互动。

考虑到以上问题，为聊天室单独设计了通知拉取机制，由服务端进行一系列分频限速聚合等控制后，再通知客户端拉取。

具体分为以下几步：

1）客户端成功加入聊天室；
2）服务端下发通知拉取信令；
3）客户端根据本地存储的消息最大时间戳，去服务端拉取消息。

这里需要注意的是：首次加入直播间聊天室时，本地并没有有效时间戳，此时会传 0 给服务拉取最近 50 条消息并存库。后续再次拉取时才会传递数据库里存储的消息的最大时间戳，进行差量拉取。

客户端拉取到消息后：会进行排重处理，然后将排重后的数据上抛业务层，以避免上层重复显示。

另外：直播间聊天室中的消息即时性较强，直播结束或用户退出聊天室后，之前拉取的消息大部分不需要再次查看，因此在用户退出聊天室时，会清除数据库中该聊天室的所有消息，以节约存储空间。

9.2 消息的渲染优化

在消息渲染方面，客户端也通过一系列优化保证在直播间聊天室大量消息刷屏的场景下仍有不俗的表现。

以Andriod端为例，具体的措施有：

1）采用 MVVM 机制：将业务处理和 UI 刷新严格区分。每收到一条消息，都在 ViewModel 的子线程将所有业务处理好，并将页面刷新需要的数据准备完毕后，才通知页面刷新；
2）降低主线程负担：精确使用 LiveData 的 setValue() 和 postValue() 方法：已经在主线程的事件通过 setValue() 方式通知 View 刷新，以避免过多的 postValue() 造成主线程负担过重；
3）减少非必要刷新：比如在消息列表滑动时，并不需要将接收到的新消息刷新出来，仅进行提示即可；
4）识别数据的更新：通过谷歌的数据对比工具 DiffUtil 识别数据是否有更新，仅更新有变更的部分数据；
5）控制全局刷新次数：尽量通过局部刷新进行 UI 更新。

通过以上机制：从压测结果看，在中端手机上，直播间聊天室中每秒 400 条消息时，消息列表仍然表现流畅，没有卡顿。

10、针对传统聊天消息外的自定义属性优化

10.1 概述

在直播间聊天室场景中，除了传统的聊天消息收发以外，业务层经常需要有自己的一些业务属性，如在语音直播聊天室场景中的主播麦位信息、角色管理等，还有狼人杀等卡牌类游戏场景中记录用户的角色和牌局状态等。

相对于传统聊天消息，自定义属性有必达和时效的要求，比如麦位、角色等信息需要实时同步给聊天室的所有成员，然后客户端再根据自定义属性刷新本地的业务。

10.2 自定义属性的存储

自定义属性是以 key 和 value 的形式进行传递和存储的。自定义属性的操作行为主要有两种：即设置和删除。

服务器存储自定义属性也分两部分：

1）全量的自定义属性集合；
2）自定义属性集合变更记录。

自定义属性存储结构如下图所示：

针对这两份数据，应该提供两种查询接口，分别是查询全量数据和查询增量数据。这两种接口的组合应用可以极大提升聊天室服务的属性查询响应和自定义分发能力。

10.3 自定义属性的拉取

内存中的全量数据，主要给从未拉取过自定义属性的成员使用。刚进入聊天室的成员，直接拉取全量自定义属性数据然后展示即可。

对于已经拉取过全量数据的成员来说，若每次都拉取全量数据，客户端想获得本次的修改内容，就需要比对客户端的全量自定义属性与服务器端的全量自定义属性，无论比对行为放在哪一端，都会增加一定的计算压力。

所以：为了实现增量数据的同步，构建一份属性变更记录集合十分必要。这样：大部分成员在收到自定义属性有变更来拉取时，都可以获得增量数据。

属性变更记录采用的是一个有序的 map 集合：key 为变更时间戳，value 里存着变更的类型以及自定义属性内容，这个有序的 map 提供了这段时间内所有的自定义属性的动作。

自定义属性的分发逻辑与消息一致：均为通知拉取。即客户端在收到自定义属性变更拉取的通知后，带着自己本地最大自定义属性的时间戳来拉取。比如：如果客户端传的时间戳为 4，则会拉取到时间戳为 5 和时间戳为 6 的两条记录。客户端拉取到增量内容后在本地进行回放，然后对自己本地的自定义属性进行修改和渲染。

11、多人群聊参考资料

[1] IM单聊和群聊中的在线状态同步应该用“推”还是“拉”？

[2] IM群聊消息如此复杂，如何保证不丢不重？

[3] 移动端IM中大规模群消息的推送如何保证效率、实时性？

[4] 现代IM系统中聊天消息的同步和存储方案探讨

[5] 关于IM即时通讯群聊消息的乱序问题讨论

[6] IM群聊消息的已读回执功能该怎么实现？

[7] IM群聊消息究竟是存1份(即扩散读)还是存多份(即扩散写)？

[8] 一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践

[9] IM群聊机制，除了循环去发消息还有什么方式？如何优化？

[10] 网易云信技术分享：IM中的万人群聊技术方案实践总结

[11] 阿里钉钉技术分享：企业级IM王者——钉钉在后端架构上的过人之处

[12] IM群聊消息的已读未读功能在存储空间方面的实现思路探讨

[13] 企业微信的IM架构设计揭秘：消息模型、万人群、已读回执、消息撤回等

[14] 融云IM技术分享：万人群聊消息投递方案的思考和实践

（本文已同步发布于：http://www.52im.net/thread-3835-1-1.html）

posted @ 2022-02-23 12:50 Jack Jiang 阅读(238) | 评论 (0) | 编辑收藏

网络编程懒人入门(十四)：到底什么是Socket？一文即懂！

本文由cxuan分享，原题“原来这才是 Socket”，有修订。

1、引言

本系列文章前面那些主要讲解的是计算机网络的理论基础，但对于即时通讯IM这方面的应用层开发者来说，跟计算机网络打道的其实是各种API接口。

本篇文章就来聊一下网络应用程序员最熟悉的Socket这个东西，抛开生涩的计算机网络理论，从应用层的角度来理解到底什么是Socket。

对于 Socket 的认识，本文将从以下几个方面着手介绍：

1）Socket 是什么；
2）Socket 是如何创建的；
3）Socket 是如何连接的；
4）Socket 是如何收发数据的；
5）Socket 是如何断开连接的；
6）Socket 套接字的删除等。

特别说明：本文中提到的“Socket”、“网络套接字”、“套接字”，如无特殊指明，指的都是同一个东西哦。

学习交流：

- 移动端IM开发入门文章：《新手入门一篇就够：从零开发移动端IM》
- 开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK

（本文已同步发布于：http://www.52im.net/thread-3821-1-1.html）

2、Socket 是什么

一个数据包经由应用程序产生，进入到协议栈中进行各种报文头的包装，然后操作系统调用网卡驱动程序指挥硬件，把数据发送到对端主机。

整个过程的大体的图示如下：

我们大家知道，协议栈其实是位于操作系统中的一些协议的堆叠，这些协议包括 TCP、UDP、ARP、ICMP、IP等。

通常某个协议的设计都是为了解决特定问题的，比如：

1）TCP 的设计就负责安全可靠的传输数据；
2）UDP 设计就是报文小，传输效率高；
3）ARP 的设计是能够通过 IP 地址查询物理（Mac）地址；
4）ICMP 的设计目的是返回错误报文给主机；
5）IP 设计的目的是为了实现大规模主机的互联互通。

应用程序比如浏览器、电子邮件、文件传输服务器等产生的数据，会通过传输层协议进行传输。而应用程序是不会和传输层直接建立联系的，而是有一个能够连接应用层和传输层之间的套件，这个套件就是 Socket。

在上面这幅图中，应用程序包含 Socket 和解析器，解析器的作用就是向 DNS 服务器发起查询，查询目标 IP 地址（关于DNS请见《理论联系实际，全方位深入理解DNS》）。

应用程序的下面：就是操作系统内部，操作系统内部包括协议栈，协议栈是一系列协议的堆叠。

操作系统下面：就是网卡驱动程序，网卡驱动程序负责控制网卡硬件，驱动程序驱动网卡硬件完成收发工作。

在操作系统内部有一块用于存放控制信息的存储空间，这块存储空间记录了用于控制通信的控制信息。其实这些控制信息就是 Socket 的实体，或者说存放控制信息的内存空间就是Socket的实体。

这里大家有可能不太清楚所以然，所以我用了一下 netstat 命令来给大伙看一下Socket是啥玩意。

我们在 Windows 的命令提示符中输入：

netstat-ano
# netstat 用于显示Socket内容 , -ano 是可选选项
# a 不仅显示正在通信的Socket，还显示包括尚未开始通信等状态的所有Socket
# n 显示 IP 地址和端口号
# o 显示Socket的程序 PID

我的计算机会出现下面结果：

如上图所示：

1）每一行都相当于一个Socket；
2）每一列也被称为一个元组。

所以，一个Socket就是五元组：

1）协议；
2）本地地址；
3）外部地址；
4）状态；
5）PID。

PS：有的时候也被叫做四元组，四元组不包括协议。

我们来解读一下上图中的数据，比如图中的第一行：

1）它的协议就是 TCP，本地地址和远程地址都是 0.0.0.0（这表示通信还没有开始，IP 地址暂时还未确定）。

2）而本地端口已知是 135，但是远程端口还未知，此时的状态是 LISTENING（LISTENING 表示应用程序已经打开，正在等待与远程主机建立连接。关于各种状态之间的转换，大家可以阅读《通俗易懂-深入理解TCP协议（上）：理论基础》）。

3）最后一个元组是 PID，即进程标识符，PID 就像我们的身份证号码，能够精确定位唯一的进程。

3、Socket 是如何创建的

通过上节的讲解，现在你可能对 Socket 有了一个基本的认识，先喝口水，休息一下，让我们继续探究 Socket。

现在我有个问题，Socket 是如何创建的呢？

Socket 是和应用程序一起创建的。

应用程序中有一个 socket 组件，在应用程序启动时，会调用 socket 申请创建Socket，协议栈会根据应用程序的申请创建Socket：首先分配一个Socket所需的内存空间，这一步相当于是为控制信息准备一个容器，但只有容器并没有实际作用，所以你还需要向容器中放入控制信息；如果你不申请创建Socket所需要的内存空间，你创建的控制信息也没有地方存放，所以分配内存空间，放入控制信息缺一不可。至此Socket的创建就已经完成了。

Socket创建完成后，会返回一个Socket描述符给应用程序，这个描述符相当于是区分不同Socket的号码牌。根据这个描述符，应用程序在委托协议栈收发数据时就需要提供这个描述符。

4、Socket 是如何连接的

Socket创建完成后，最终还是为数据收发服务的。但是，在数据收发之前，还需要进行一步“连接”（术语就是 connect），建立连接有一整套过程。

这个“连接”并不是真实的连接（用一根水管插在两个电脑之间？不是你想的这样。。。）。

实际上这个“连接”是应用程序通过 TCP/IP 协议标准从一个主机通过网络介质传输到另一个主机的过程。

Socket刚刚创建完成后，还没有数据，也不知道通信对象。

在这种状态下：即使你让客户端应用程序委托协议栈发送数据，它也不知道发送到哪里。所以浏览器需要根据网址来查询服务器的 IP 地址（做这项工作的协议是 DNS），查询到目标主机后，再把目标主机的 IP 告诉协议栈。至此，客户端这边就准备好了。

在服务器上：与客户端一样也需要创建Socket，但是同样的它也不知道通信对象是谁，所以我们需要让客户端向服务器告知客户端的必要信息：IP 地址和端口号。

现在通信双方建立连接的必要信息已经具备，可以开始“连接”过程了。

首先：客户端应用程序需要调用 Socket 库中的 connect 方法，提供 socket 描述符和服务器 IP 地址、端口号。

以下是connect的伪码调用：

connect(<描述符>、<服务器IP地址和端口号>)

这些信息会传递给协议栈中的 TCP 模块，TCP 模块会对请求报文进行封装，再传递给 IP 模块，进行 IP 报文头的封装，然后传递给物理层，进行帧头封装。

之后通过网络介质传递给服务器，服务器上会对帧头、IP 模块、TCP 模块的报文头进行解析，从而找到对应的Socket。

Socket收到请求后，会写入相应的信息，并且把状态改为正在连接。

请求过程完成后：服务器的 TCP 模块会返回响应，这个过程和客户端是一样的（如果大家不太清楚报文头的封装过程，可以阅读《快速理解TCP协议一篇就够》）。

在一个完整的请求和响应过程中，控制信息起到非常关键的作用：

1）SYN 就是同步的缩写，客户端会首先发送 SYN 数据包，请求服务端建立连接；
2）ACK 就是相应的意思，它是对发送 SYN 数据包的响应；
3）FIN 是终止的意思，它表示客户端/服务器想要终止连接。

由于网络环境的复杂多变，经常会存在数据包丢失的情况，所以双方通信时需要相互确认对方的数据包是否已经到达，而判断的标准就是 ACK 的值。

上面的文字不够生动，动画可以更好的说明这个过程：

▲ 上图引用自《跟着动画来学TCP三次握手和四次挥手》

（PS：这个“连接”的详细理论知识，可以阅读《理论经典：TCP协议的3次握手与4次挥手过程详解》、《跟着动画来学TCP三次握手和四次挥手》，这里不再赘述。）

当所有建立连接的报文都能够正常收发之后，此时套接字就已经进入可收发状态了，此时可以认为用一根管理把两个套接字连接了起来。当然，实际上并不存在这个管子。建立连接之后，协议栈的连接操作就结束了，也就是说 connect 已经执行完毕，控制流程被交回给应用程序。

另外：如果你对Socket代码更熟悉的话，可以先读读这篇《手把手教你写基于TCP的Socket长连接》。

5、Socket 是如何收发数据的

当控制流程上节中的连接过程回到应用程序之后，接下来就会直接进入数据收发阶段。

数据收发操作是从应用程序调用 write 将要发送的数据交给协议栈开始的，协议栈收到数据之后执行发送操作。

协议栈不会关心应用程序传输过来的是什么数据，因为这些数据最终都会转换为二进制序列，协议栈在收到数据之后并不会马上把数据发送出去，而是会将数据放在发送缓冲区，再等待应用程序发送下一条数据。

为什么收到数据包不会直接发送出去，而是放在缓冲区中呢？

因为只要一旦收到数据就会发送，就有可能发送大量的小数据包，导致网络效率下降（所以协议栈需要将数据积攒到一定数量才能将其发送出去）。

至于协议栈会向缓冲区放多少数据，这个不同版本和种类的操作系统有不同的说法。

不过，所有的操作系统都会遵循下面这几个标准：

1）第一个判断要素：是每个网络包能够容纳的数据长度，判断的标准是 MTU，它表示的是一个网络包的最大长度。最大长度包含头部，所以如果单论数据区的话，就会用 MTU - 包头长度，由此的出来的最大数据长度被称为 MSS。

2）另一个判断标准：是时间，当应用程序产生的数据比较少，协议栈向缓冲区放置数据效率不高时，如果每次都等到 MSS 再发送的话，可能因为等待时间太长造成延迟。在这种情况下，即使数据长度没有到达 MSS，也应该把数据发送出去。

但协议栈并没有告诉我们怎样平衡这两个因素，如果数据长度优先，那么效率有可能比较低；如果时间优先，那又会降低网络的效率。

经过了一段时间。。。。。。

假设我们使用的是长度有限法则：此时缓冲区已满，协议栈要发送数据了，协议栈刚要把数据发送出去，却发现无法一次性传输这么大数据量（相对的）的数据，那怎么办呢？

在这种情况下，发送缓冲区中的数据就会超过 MSS 的长度，发送缓冲区中的数据会以 MSS 大小为一个数据包进行拆分，拆分出来的每块数据都会加上 TCP，IP，以太网头部，然后被放进单独的网络包中。

到现在，网络包已经准备好发往服务器了，但是数据发送操作还没有结束，因为服务器还未确认是否已经收到网络包。因此在客户端发送数据包之后，还需要服务器进行确认。

TCP 模块在拆分数据时，会计算出网络包偏移量，这个偏移量就是相对于数据从头开始计算的第几个字节，并将算好的字节数写在 TCP 头部，TCP 模块还会生成一个网络包的序号（SYN），这个序号是唯一的，这个序号就是用来让服务器进行确认的。

服务器会对客户端发送过来的数据包进行确认，确认无误之后，服务器会生成一个序号和确认号（ACK）并一起发送给客户端，客户端确认之后再发送确认号给服务器。

我们来看一下实际的工作过程：

首先：客户端在连接时需要计算出序号初始值，并将这个值发送给服务器。

接下来：服务器通过这个初始值计算出确认号并返回给客户端（初始值在通信过程中有可能会丢弃，因此当服务器收到初始值后需要返回确认号用于确认）。

同时：服务器也需要计算出从服务器到客户端方向的序号初始值，并将这个值发送给客户端。然后，客户端也需要根据服务器发来的初始值计算出确认号发送给服务器。

至此：连接建立完成，接下来就可以进入数据收发阶段了。

数据收发阶段中，通信双方可以同时发送请求和响应，双方也可以同时对请求进行确认。

请求 - 确认机制非常强大：通过这一机制，我们可以确认接收方有没有收到某个包，如果没有收到则重新发送，这样一来，但凡网络中出现的任何错误，我们都可以即使发现并补救。

上面的文字不够生动，动画可以更好的理解请求 - 确认机制：

▲ 上图引用自《跟着动画来学TCP三次握手和四次挥手》

网卡、集线器、路由器（见《史上最通俗的集线器、交换机、路由器功能原理入门》）都没有错误补救机制，一旦检测到错误就会直接丢弃数据包，应用程序也没有这种机制，起作用的只是 TCP/IP 模块。

由于网络环境复杂多变，所以数据包会存在丢失情况，因此发送序号和确认号也存在一定规则，TCP 会通过窗口管理确认号，我们这篇文章不再赘述，大家可以阅读《通俗易懂-深入理解TCP协议（下）：RTT、滑动窗口、拥塞处理》来寻找答案。

PS：另一篇《我们在读写Socket时，究竟在读写什么？》中用动画详细说明了这个过程，有兴趣可以读一读。

6、Socket 是如何断开连接的

当通信双方不再需要收发数据时，需要断开连接。不同的应用程序断开连接的时机不同。

以 Web 为例：浏览器向 Web 服务器发送请求消息，Web 服务器再返回响应消息，这时收发数据就全部结束了，服务器可能会首先发起断开响应，当然客户端也有可能会首先发起（谁先断开连接是应用程序做出的判断），与协议栈无关。

无论哪一方发起断开连接的请求，都会调用 Socket 库的 close 程序。

我们以服务器断开连接为例：服务器发起断开连接请求，协议栈会生成断开连接的 TCP 头部，其实就是设置 FIN 位，然后委托 IP 模块向客户端发送数据，与此同时，服务器的Socket会记录下断开连接的相关信息。

收到服务器发来 FIN 请求后：客户端协议栈会将Socket标记为断开连接状态，然后，客户端会向服务器返回一个确认号，这是断开连接的第一步，在这一步之后，应用程序还会调用 read 来读取数据。等到服务器数据发送完成后，协议栈会通知客户端应用程序数据已经接收完毕。

只要收到服务器返回的所有数据，客户端就会调用 close 程序来结束收发操作，这时客户端会生成一个 FIN 发送给服务器，一段时间后服务器返回 ACK 号。至此，客户端和服务器的通信就结束了。

上面的文字不够生动，动画可以更好的说明这个过程：

▲ 上图引用自《跟着动画来学TCP三次握手和四次挥手》

PS：断开连接的详细理论知识，可以阅读《理论经典：TCP协议的3次握手与4次挥手过程详解》、《跟着动画来学TCP三次握手和四次挥手》，这里不再赘述。

7、Socket的删除

上述通信过程完成后，用来通信的Socket就不再会使用了，此时我们就可以删除这个Socket了。

不过，这时候Socket不会马上删除，而是等过一段时间再删除。

等待这段时间是为了防止误操作，最常见的误操作就是客户端返回的确认号丢失，至于等待多长时间，和数据包重传的方式有关，这里我们就深入展开讨论了。

关于Socket操作的全过程，如果从系统的角度来看，可能会更深入一些，建议可以深入阅读张彦飞的《深入操作系统，从内核理解网络包的接收过程(Linux篇)》一文。

8、系列文章

本文是系列文章中的第14篇，本系列文章的大纲如下：

[1] 网络编程懒人入门(一)：快速理解网络通信协议（上篇）

[2] 网络编程懒人入门(二)：快速理解网络通信协议（下篇）