文/兴业银行信用卡中心 徐宁召 刘秋艳
随着金融行业市场的快速变化和信用卡业务的飞速发展,离线数据已难以覆盖信用卡运营、风险防控和营销开展等诸多复杂场景需求,当前对应用数据的时效性要求越来越高,实时数据的处理及应用迫在眉睫。建设一套稳定高效的实时数据应用架构体系,是支撑和保障信用卡业务数字化转型和高效发展的关键。
目前,实时数据应用架构在同业中已有较为成熟的实践。兴业银行信用卡中心近年来积极探索创新,借鉴同业经验,结合业务实际发展需要,基于大数据技术、微服务架构,构建了一套实时数据应用全流程的架构体系,涵盖实时数据采集及消费模块、实时数据加工处理模块、实时数据对接渠道端投入应用的模块,打通了业务数据从生产到消费使用的实时高效链路。兴业银行信用卡的实时数据应用架构体系为业务开展提供及时、新鲜、全面的经营数据,以数据不断驱动业务创新,推动精细化运营管理。
兴业银行信用卡实时数据应用架构体系(见图1和图2)从下到上一共四个模块,分别是实时数据采集层、实时数据处理层、实时数据存储分析层,以及实时数据应用层。首先,通过实时数据采集层的数据库实时采集、实时消息推送或者实时API采集等多种方式,采集获取数据源端的实时数据;再经由实时数据处理层通过Flink、SparkStreaming等流式计算引擎对数据进行实时加工处理;然后,将处理完的数据实时写入到Doris集群、HBase集群等,在实时数据存储分析层对数据进一步加工分析;最后,在实时数据应用层将加工出的实时数据成品通过数据API联机查询服务、实时消息推送服务,对接渠道端,投入业务应用。各层模块之间紧密联系、高效配合,极大缩短了数据从生产源头到最终成品数据服务的时效。
图1 兴业银行信用卡实时数据应用架构体系
图2 实时数据应用架构图
1. 实时数据采集层
兴业银行信用卡实时数据采集层的数据采集方式主要有三种:数据库实时采集、实时消息推送、实时API数据采集。数据库实时采集是基于Debezium组件搭建的分布式高度配置化实时采集模块,去采集数据源端数据库的变化数据,并放至信用卡Kafka消息中心;实时消息推送是数据源端将数据实时推送至信用卡Kafka消息中心;实时API采集是基于数据源端提供的数据API查询接口进行数据获取。
实时数据采集层的数据库实时采集模块支持对接多种类型源数据库,实时捕获数据库变更,同时保证数据的完整性和一致性。为了提升采集效率,数据库实时采集模块做了一些优化设计:(1)控制采集数据的精简必要性。对采集任务进行列筛选,只采集业务场景所需字段,同时校验数据变更前后的一致性,过滤变更前后一致的数据,以避免数据冗余,提高处理效率和准确性。(2)精细化管理补充日志功能。为了减少数据传输过程中网络带宽压力、提升数据传输速度,仅对业务流程中至关重要的字段开启补充日志功能。(3)配置化管理数据采集任务。建设配置管理模块来维护采集任务对应的采集库、采集表、采集字段等,提升数据采集的自动化和灵活性。
2. 实时数据处理及存储分析层
在数据处理及存储分析过程中,采用Flink、SparkStreaming流式计算引擎读取并处理Kafka中实时数据,处理完的数据实时更新写入Doris、HBase等数据库,再基于Doris等进行成品数据的计算加工,大幅提升信用卡业务应用数据的时效性。
根据实际使用场景,兴业银行信用卡中心对实时数据处理及存储分析做了些针对性优化设计:(1)采用流批结合的方式缓解资源压力并确保结果准确性。将数据分成小批次处理,将T+1日的日终离线数据与T日当天实时数据结合计算,平衡整体资源消耗,同时以日终离线数据做校准以保证数据准确性。(2)设置Kafka消费偏移量的异步提交机制,以确保数据完整性。在当前消费的数据处理完成后,再进行偏移量的提交,避免因系统故障等问题造成数据的重复消费或数据丢失。(3)配置合适的流式采样间隔和采样数据量保证高效数据处理。根据集群规模、服务器负载能力等综合估算及灵活配置流式采样间隔、单批次采样数据量,以保障实时计算任务的高效稳定运行。(4)利用Doris的聚合模型等功能高效计算实时指标标签等业务应用数据。基于Doris简洁的分布式架构、高效的聚合模型、快速的数据关联计算能力、迅捷的数据批次写入能力,来实现信用卡业务应用数据的实时计算。
3. 实时数据应用层
在实时数据应用层,数据API联机查询服务、实时消息推送服务将实时成品数据应用到渠道端。实时消息推送服务是将实时成品数据推送至信用卡Kafka消息中心,供多个渠道端订阅消费使用。数据API联机查询服务则是为渠道端提供实时成品数据的高速联机查询。实时数据应用层能有效提升业务应用数据的便捷性、时效性和数据共享统一性。
其中,数据API查询服务是基于信用卡数据API集成服务模块实现的。数据API集成服务模块支持对接多种类型数据库,支持通过高度配置化方式快速生成发布数据API,支持数万TPS的查询性能。主要设计功能点有以下3点:(1)适配多种主流数据库。可基于不同类型数据库提供统一的数据查询服务,屏蔽了不同数据源的差异化影响,便于数据的便捷统一使用。(2)高度配置化生成发布服务。建设灵活的配置管理模块,支持数据源的配置管理、支持通过请求参数、查询逻辑等配置生成及发布具体的数据API服务,缩短开发周期、快速响应业务场景变化。(3)健全服务的安全防控机制。通过服务安全协议控制、访问权限控制、流量并发控制、资源管控等方式建立全面的服务安全防控机制,确保数据应用的安全性、合规性、稳定性。
兴业银行信用卡实时数据应用架构体系在营销、决策、数据共享等方面得到了广泛的应用。基于实时数据应用架构体系,建设了实时标签体系以及实时指标体系,使得业务可以更加灵活、更加快速地构建实时场景。
1. 实时标签体系支持业务快速构建实时营销场景
为了适应快速变化的业务,不断完善实时标签体系,通过拖拉拽的方式实现实时营销场景的快速构建。根据不同的业务需求场景设计了不同的策略配置功能。实时业务场景包括两类:第一类通过标签进行实时圈选策略配置,支持标签的“或、且、非”逻辑运算,使得业务快速灵活地构建实时营销场景,并且通过配置渠道实现自动化营销推送;第二类基于实时参数配置及实时标签体系,动态化配置实时营销任务参数,实现在线调整实时营销参数,使业务策略调整更加灵活方便。例如,我行王牌活动“6积分”月月刷、周周刷实时营销场景,利用实时标签“当日实时消费总金额”“实时新户”等标签,通过托拉拽方式快速实现两个场景的构建。随着实时标签的丰富,业务可以基于实时标签体系配置更灵活的实时营销场景。通过配置实时场景,上线周期由原来的平均2个月缩短到1周,大大提升业务场景上线效率。
2. 实时指标体系为业务实时决策提供数据依据
以实时采集构建的实时数据作为基础,以大数据实时数据加工处理作为支柱,以实时大屏展示、移动化指标展示及实时化报表展示作为上层建筑,构建了一套完整的自动化、实时化、移动化的综合实时指标体系。各类经营指标、风险指标的全面落地,为业务的决策能力、营销能力、风险催收能力等方面的提升提供了重要的支撑。实时指标体系的推广,为营销、催收还款、风险预警等各个业务条线都起到了非常积极的指导作用。例如,透支余额指标大屏展示由原来的2小时更新一次,缩短到分钟级更新。催收还款指标实时化,业务人员实时监测催收效果,并可以根据指标变化进行实时策略调整,大大提升决策效率。
3. 实时联机API服务为系统提供便捷的数据共享能力
实时联机API服务,为实时标签体系、实时指标体系的应用提供了便捷的共享能力,各个渠道系统可以通过实时联机API服务,快速获取实时标签与实时指标数据。基于实时API联机服务,支持渠道系统只专注于业务流程的处理,大大提升了渠道的灵活性。另外,实时标签及实时指标加工,统一提供API服务,使得各个业务条线的标签及指标口径保持一致,避免早期的口径不一致的情况,提升数据支持能力。例如,新户逻辑,口径存在很多,且各不相同,不同系统加工的口径也不相同,很难复用,影响业务发展。通过实时标签进行统一加工处理并通过联机API接口提供服务,保证各个系统调用新户逻辑为同一个口径,避免歧义,不仅可以提升业务效率,而且大大节省科技成本。
信用卡业务经营过程中,对数据的一致性与准确性、数据时效,以及数据的可视化、移动化、智能化要求越来越高。为了满足日益增长的业务诉求,兴业银行信用卡中心积极探索,不断创新,探索实时场景,结合大模型、人工智能及机器学习,提供丰富的业务支持能力。总而言之,信用卡实时数据应用架构体系在实时化、标准化、智能化方面不断开拓创新,为新场景、新消费、新客群提供可靠的数据应用支撑能力,科技创新赋能业务创新,为信用卡数字化转型添砖加瓦。
(此文刊发于《金融电子化》2025年4月上半月刊)