哔哩哔哩系统部网络团队
负责B站数据中心网络规划、设计、建设、运维与优化,为公司业务提供稳定且可靠的网络服务。整个团队专注于数据中心内外网、骨干网络、负载均衡、传输网络、虚拟化网络以及国际化网络的落地和应用,并根据业务的发展需求不断迭代更新底层基础网络设施。
01 引言根据2023年Q3财报数据,B站的MAU已经稳定增长至3.3亿。用户在闲暇之余刷刷视频、看看直播,给自己喜爱的UP主一键三连,已经成为了生活中不可缺少的一部分。B站基础网络团队本着社区优先的理念,持续优化互联网接入网络架构,近2年内根据IDC规模发展和业务需求,对公网架构进行了有序升级改造,从稳定性、经济性等方面为B站业务提供了坚实保障。
02 B站公网1.0结构在B站IDC公网1.0结构中,每个机房有独立的静态带宽线路,部分重要业务基于延迟要求配置BGP带宽提供服务。网络结构如图1所示:
图1 B站IDC公网1.0结构
B站公网1.0结构中,核心网络设备相当于整个网络枢纽,最大化的利用了核心网络设备硬件资源和转发能力。公网出口线路直连本机房核心网络设备,同时核心网络设备旁挂LB、NAT等基础组件,另外下挂机房内DCN网络。
控制层面:两台核心网络设备采用堆叠技术虚拟成一台。在提升单台设备硬件接入能力的同时,降低了整体运维成本。
线路资源:各家运营商资源至少冗余链路接入,提供静态带宽和BGP带宽接入,保证公网出口冗余能力。
服务组件:机房内LB(Load Balance)、NAT(Network Address Transfer)等基础网关服务采用One-Arm的方式旁挂核心网络设备,主动提供对外、对内的Internet服务访问能力。
路由策略:由于核心网络设备在网络中的角色特殊性,对于特定流量需要做特定的路由策略,才能进行正确转发,如:公网流量需要通过技术手段将流量先引入LB,再转发到机房内特定服务器。
该架构组网简单,涉及设备较少、网络层面配置简单,但是随着B站的业务发展,在长期的运维过程中,我们也发现了几个值得仔细考虑的问题。
问题一:网络故障域
在B站公网1.0的网络结构中,核心网络设备在网络中承担的角色非常重,所有流量都要经过核心设备转发,这就造成核心网络设备上任何一个故障,都会有较大的影响。比如单个端口器件异常,有可能会影响到公网和内网服务。长此以往网络运维将面临巨大挑战,该问题也成为了B站网络团队需要重点解决的问题之一。
问题二:网络可靠性
在B站1.0公网架构中,每个IDC都会引入静态三线带宽和BGP带宽。公网出口的可用性与运营商网络强耦合,