大模型NL2SQL技术在商业银行的应用研究
创始人
2025-05-20 16:37:56
0

文/华夏银行首席信息官 吴永飞

华夏银行公司业务部副总经理 赵勇江

华夏银行科技开发与运行中心副总经理 王彦博

华夏银行科技开发与运行中心数据应用开发室 魏文术 李娜

随着人工智能技术的快速发展,各行各业不断推进数字化转型和智能化发展。2025年全国两会《政府工作报告》指出要“激发数字经济创新活力,持续推进‘人工智能+’行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用”,“加快完善数据基础制度,深化数据资源开发利用”。本文探索将大模型与大数据技术相融合,面向商业银行数字金融场景,应用大模型NL2SQL技术,在数据灵活提取、辅助数据分析、面向人工智能的数据准备、辅助应用开发等方面实现降本提质增效,促进金融领域大模型与大数据融合发展。

华夏银行首席信息官 吴永飞

NL2SQL技术发展

NL2SQL(Natural Language to Structured Query Language)技术通过将人类自然语言指令自动转化为结构化查询语言(SQL),实现对数据库的精准操作。作为数据智能领域的关键技术,其发展历程大致划分为五个阶段,每个阶段都标志着技术能力的显著提升与应用场景的有效拓展。

早期探索阶段(1970—1990年):基于语法解析将自然语言转换为SQL查询语句,虽然能够处理简单的查询任务,但由于缺乏灵活性,难以应对复杂的语言表达和多变的业务需求。

规则与模板驱动阶段(1990—2000年):通过结构化模板可高效应对常规查询任务,但由于模式固化难以解析复杂逻辑,很难匹配业务快速迭代中的灵活需求。

统计与机器学习阶段(2000—2010年):通过引入统计模型与机器学习方法,显著提升了基于标注数据的泛化能力,相关技术在中等复杂度查询任务中表现突出。然而,对标注数据的高度依赖成为其向更复杂场景拓展的主要瓶颈。

深度学习阶段(2010—2020年):通过引入Seq2Seq、Transformer等深度神经网络架构,使NL2SQL技术在复杂查询处理能力上得到显著提升。此类模型在精度与灵活性方面的突破性进展,为自然语言到SQL转换的大规模应用奠定了技术基础。

大模型阶段(2020年以来):随着大模型技术的发展,推动NL2SQL技术取得了显著突破。大模型能够深入理解自然语言查询和处理的语义及上下文,并将其转化为结构化的SQL语句。结合提示词工程和微调技术,能够使NL2SQL技术适配更多专业场景,生成准确且高效的SQL语句,有效应对复杂业务需求。

大模型NL2SQL技术流程

大模型NL2SQL技术流程可以概括为“5S”框架(如图1所示),包括:Schema链接(Schema Linking)、SQL候选生成(SQL Candidate Generation)、SQL错误修正(SQL Error Correction)、候选选择(Selection of Candidates)、服务验证及执行(Service Verification&Execution)。通过上述五个环节,能够高效、准确地将自然语言数据查询或处理需求转化为高质量的SQL语句,进而满足商业银行数字金融场景中海量数据查询、处理及复杂业务分析应用的需求。

图1 大模型NL2SQL“5S”技术流程框架

1. Schema链接

Schema链接环节负责将自然语言数据查询或处理需求中的金融术语,如“客户贷款余额”“利率优惠”等,与数据库中的表、列、值进行精准匹配,其工作流程包括关键实体提取、列检索、值检索、列选择等。大模型首先对用户问题进行深度解析,提取关键词与实体。随后,通过检索增强生成(RAG)技术,从数据库中筛选与问题语义最相关的Top-K候选列。在此基础上,大模型进一步发挥上下文语义匹配能力,将问题中的实体与候选列进行双向校验,一方面验证实体是否符合列的值域约束,另一方面评估列的语义是否精准覆盖问题需求。这种双阶段校验机制显著提升了自然语言需求与数据库结构的映射准确性。

2. SQL候选生成

SQL候选生成环节通过微调SQL生成器和示例学习SQL生成器的协同工作,产生高质量且多样化的SQL语句候选集。其中,微调SQL生成器是基于预训练大模型,采用大量金融领域样本进行SFT(Supervised Fine-Tuning)微调,使其理解金融业务中的特殊表达,同时通过多任务学习及人工标注的标准SQL数据,增强大模型对复杂语义和规范语法的适配能力;而示例学习SQL生成器通过大模型的语义解耦能力,剥离输入问题的具体实体,从训练集中筛选与输入问题逻辑骨架相似的Top-K实例,有效规避了实体干扰,并智能地支持商业银行中常见的多表查询问题。

3. SQL错误修正

SQL错误修正环节依托大模型思维链(Chain of Thought,CoT)能力,对SQL候选生成结果(可能含有语句错误)进行SQL语句的错误定位与修正。通过将SQL执行返回的错误信息与数据库Schema元数据集成,大模型能够进行深入思考,并通过多轮迭代生成多个修正后的SQL语句候选版本。随后,将这些修正后的候选版本与原始SQL语句进行对比评估,最终筛选出最优候选版本。通过这种多候选择优机制,持续提升大模型生成SQL语句的质量。

4. 候选选择

候选选择环节运用专门训练的SQL候选选择大模型,采用重排序(Reranker)技术,并结合商业银行制定的规则和业务逻辑,有效提升了文本语义理解能力,显著提高了排序准确率。同时,该模块的候选选择大模型所使用的训练数据经过商业银行适应性匹配,以应对候选SQL的多样句法风格,从而在复杂情况下也能确保决策的准确性。

5. 服务验证及执行

服务验证及执行环节通过商业银行数据专家的人工校验、执行结果比对及边界测试等方法,确保SQL语义准确无误并与业务逻辑相符。在该环节,商业银行数据专家也会进行SQL语句优化,以进一步提升SQL生成效果和执行效率,满足复杂业务需求、提升系统性能。

大模型NL2SQL应用研究

本文将大模型NL2SQL技术在数字金融领域的应用场景归纳为“4A”能力框架(如图2所示),具体包括:数据灵活提取(Ad-hoc Query)、辅助数据分析(Analysis of Data)、面向人工智能的数据准备(AI-driven Data Preparation)以及辅助应用开发(Application Development)。“4A”框架包含了商业银行数字金融从数据获取到价值转化的多类数据应用模式,为金融领域大模型与大数据技术融合发展提供了方法论框架。

图2 大模型NL2SQL技术在数字金融领域的“4A”方法论框架

1. 数据灵活提取

通过大模型NL2SQL技术,银行业务人员可以直接使用自然语言对数据提取需求进行描述,自动生成相应的SQL查询语句,从而快速获取所需数据。例如,在查询机构层级关系的业务场景中,业务人员输入“请查询机构编码为9999的所有上级机构”,大模型会快速定位到“机构编码”和“上级机构”关键实体,并与数据库中的表、字段进行准确映射,通过进一步理解递归查询中层级关系的逻辑,自动生成复杂的递归SQL查询语句,这种方式极大地降低了业务人员对SQL技术的依赖,减少了业务人员与数据人员的沟通成本,提升了数据获取效率。无论是简单的数据查询还是复杂的多表关联,NL2SQL技术都能高效处理,确保银行业务人员能够随时获取最新、最准确的数据信息。

2. 辅助数据分析

大模型的NL2SQL能力不局限于简单的数据提取,更能作为数据分析人员的得力助手,在数据统计分析方面发挥重要作用。例如,当数据分析人员希望掌握过去3个月中每月存款规模及其变化趋势时,只需输入“请查询过去3个月机构编码为9999的对公存款月日均”这类自然语言请求,随即会自动生成并执行相应的SQL查询语句,从数据库中精准提取相关数据。随后,支持数据分析人员基于相关数据进行深入业务剖析,迅速捕捉数据的变化趋势、识别出指标异常点,并据此生成数据分析报告。

3. 面向人工智能的数据准备

在人工智能机器学习与数据挖掘应用中,数据准备是至关重要的一环。大模型NL2SQL技术能够快速整合多表数据,自动生成机器学习与数据挖掘所需的指标和标签宽表,极大地提升了判别式AI在商业银行的应用效率。通过自然语言描述,系统可以自动生成复杂的SQL语句,将分散在不同表中的数据整合为适合机器学习与数据挖掘建模使用的结构化数据宽表。这种方式不仅减少了数据工程师的工作量,还保障了数据的准确性和一致性,为后续的模型训练和推理预测提供了高质量的数据准备。

4. 辅助应用开发

大模型NL2SQL技术在应用开发中也发挥着重要作用。用户只需输入应用需求,便能自动生成用于报表制作、应用开发等场景的数据库查询代码。这种方式显著提升了开发效率,减少了开发人员编写SQL代码的时间,尤其适用于需要频繁进行数据库操作的应用场景。无论是生成复杂的报表查询,还是为应用程序提供数据接口,NL2SQL技术都能快速生成高效的SQL代码,确保应用开发的敏捷性和可维护性。这种自动化的代码生成能力,使开发人员能够更专注于业务逻辑的实现,加速应用部署上线。

大模型NL2SQL应用成效

1. 提升数据获取效率

大模型NL2SQL技术通过自然语言与结构化数据查询语句的无缝转换,重构了数据处理的核心链路,显著提升了数据加工与查询效率,其核心价值在于将传统数据应用开发模式中的需求沟通、SQL编写、结果验证等多个流程环节,压缩为业务人员与大模型的直接对话,这一过程大大缩短了业务数据获取周期。

2. 增强决策支持能力

大模型NL2SQL技术能够迅速整合多维度数据,有效增强银行业务决策支持能力。基于自然语言生成的SQL查询,助力数据分析人员生成全面准确的业务分析报告,不仅为业务经营决策提供了有力的支持,还提高了决策的效率和质量,使商业银行能够更加精准地把握市场动态,及时优化资源配置、调整战略布局。

3. 推动数据应用普及

随着大模型NL2SQL技术在商业银行的广泛应用,数据应用的普及化程度将不断提升。该技术降低了数据查询、处理和分析应用的技术门槛,能够促进非技术人员的数据思维渗透与普及,激发银行业务板块对数据价值的深度挖掘和创新应用。未来,随着技术的不断成熟和应用的不断深入,以NL2SQL为代表的数据创新技术将在商业银行的业务发展中发挥更加重要的作用。

结语

本文面向大模型NL2SQL技术在商业银行中的应用研究,创新提出了“5S”技术流程框架以及“4A”数字金融应用框架,为大模型与大数据技术的融合发展提供理论支撑。大模型NL2SQL技术在数字金融场景应用中,有效提升了数据获取效率、增强了业务人员的数据探查和分析能力、推动了数据应用和数据文化的普及。在当前NL2SQL技术应用研究的基础上,未来,华夏银行将继续研发基于提示词工程、RAG知识库、模型微调、大小模型融合、大模型智能体等相关技术的NL2SQL及ChatBI应用提升,使大模型NL2SQL及ChatBI技术能够更好地服务于商业银行,并为金融领域广泛运用大模型与大数据融合技术实现降本提质增效提供有益借鉴。

本文受北京市科技计划项目(Z241100001324024)支持。

龙盈智达(北京)科技有限公司刘洁菲、唐晓虎、张军、刘曦子、陈建锋、陈生、张月、杨璇对本文亦有贡献。

(此文刊发于《金融电子化》2025年4月下半月刊)

相关内容

沪深300非银行金融指数上...
金融界5月20日消息,上证指数上涨0.38%,沪深300非银行金融...
2025-05-20 22:39:09
中证交银理财长三角指数上涨...
金融界5月20日消息,上证指数上涨0.38%,中证交银理财长三角指...
2025-05-20 22:39:09
中证城市商业银行及农村商业...
金融界5月20日消息,上证指数上涨0.38%,中证城市商业银行及农...
2025-05-20 22:39:09
中证0-3年银行50金融债...
金融界5月20日消息,上证指数上涨0.38%,中证0-3年银行50...
2025-05-20 22:39:09
中证0-5年高等级银行债指...
金融界5月20日消息,上证指数上涨0.38%,中证0-5年高等级银...
2025-05-20 22:39:08
中证香港300商业银行指数...
金融界5月20日消息,上证指数上涨0.38%,中证香港300商业银...
2025-05-20 22:39:08
中证ECPI ESG 80...
金融界5月20日消息,上证指数上涨0.38%,中证ECPI ESG...
2025-05-20 22:39:08
中证0-3年高等级银行债指...
金融界5月20日消息,上证指数上涨0.38%,中证0-3年高等级银...
2025-05-20 22:39:07
中证港股通银行综合指数报4...
金融界5月20日消息,上证指数上涨0.38%,中证港股通银行综合指...
2025-05-20 22:39:07

热门资讯

中证城市商业银行及农村商业银行... 金融界5月20日消息,上证指数上涨0.38%,中证城市商业银行及农村商业银行同业存单高等级指数 (城...
中证香港300商业银行指数报1... 金融界5月20日消息,上证指数上涨0.38%,中证香港300商业银行指数 (H300商业银行,931...
中证ECPI ESG 80指数... 金融界5月20日消息,上证指数上涨0.38%,中证ECPI ESG 80指数 (ESG 80,931...
LPR和大型商业银行存款挂牌利... 5月20日,1年期和5年期以上贷款市场报价利率(LPR)均同步下降10个基点,分别降至3.0%和3....
监管批复!周刚就任广州花都稠州... 2025年5月14日,根据国家金融监督管理总局消息,《广州花都稠州村镇银行关于周刚任职资格的请示》(...
中证银行保险指数报2157.4... 金融界5月20日消息,上证指数上涨0.38%,中证银行保险指数 (中证银保,931895)报2157...
中证0-5年银行债指数报146... 金融界5月20日消息,上证指数上涨0.38%,中证0-5年银行债指数 (0-5年银行债,931886...
紫牛AI生活|今年首次!多家银... 工行、农行、中行、建行、招行等多家银行20日下调存款挂牌利率,活期存款、定期存款利率均有下调。其中,...
中证内地银行主题指数报7383... 金融界5月20日消息,上证指数上涨0.38%,中证内地银行主题指数 (内地银行,000947)报73...
宝马获批20亿欧元股票回购计划... 观点网讯:5月20日,宝马宣布其规模高达20亿欧元的进一步股票回购计划已获批准,并计划于2025年5...