松鼠宽客

专享策略25 | 基于LightGBM的回测+实盘的机器学习策略

松鼠Quant

2025-08-08

量化策略开发，高质量社群，交易思路分享等相关内容

工具推荐

『正文』

在量化投资快速发展的今天，如何构建一个既能精准捕捉市场信号，又能在实盘中稳定盈利的交易系统，是每个量化投资者都在思考的核心问题。传统的技术分析依赖人工经验，而简单的统计模型又难以适应复杂多变的市场环境。

本次将详细在VIP21的基础上增加机器学习实盘模块，形成一个完整的LightGBM驱动的期货时序量化交易流程，通过172因子体系，实现了从数据获取到实盘交易的全流程自动化。本期不单单是一个策略，而是整个研究，回测，实盘的完整体系。

安装运行视频

，时长16:26

系统

1.1 核心模块功能

数据管理层（ml_train.py）

- 智能增量下载：基于松鼠数据库API，自动检测数据缺口，避免重复下载

- 多格式支持：松鼠数据库API数据下载自动转换VnPy交易格式

- 数据质量控制：内置缺失值处理、异常值检测、时间对齐验证

（1）数据下载并且自动加入到vnpy的alphalab工作流、并且自动划分训练集、验证集、测试集：

模型训练层（ml_train.py）

- 特征工程：基于AlphaDataset的172因子计算

- 自动特征选择：基于重要性阈值的智能筛选机制

- 模型优化：LightGBM参数自动调优和交叉验证

（2）特征计算以及特征选择：

信号生成层（ml_train.py）

- 实时预测：模型预测结果转换为标准化交易信号

- 信号后处理：Z-Score标准化、阈值过滤、滑动平均平滑

- 质量控制：信号分布分析、历史回测验证

策略执行层（ml_bt.py + ml_ctp.py）

- 回测引擎：历史数据上的策略验证和性能分析——基于vnpy

- 实盘交易：基于CTP接口的自动化交易执行——基于AlgoPlus

- 订单管理：智能下单、撤单重试、成交确认

技术创新：五大核心突破

2.1 创新一：智能增量数据管理

传统量化系统的数据更新往往需要全量重新下载，既耗时又容易出错。我们开发的智能数据管理器实现了：

自动化数据流程：

- 数据缺口智能检测：系统自动分析本地数据完整性

- 增量下载优化：仅下载缺失时间段的数据

- 双格式同步存储：CSV便于分析，Parquet高效存储

- 完整性自动验证：数据时间连续性、价格合理性检查

2.2 创新二：172因子体系

基于AlphaDataset框架和大量市场实践，我们构建了全面的因子体系：

价格动量因子（40+）：

- 多时间尺度收益率：1/2/3/5/10/20/30期收益率

- 价格相对位置：当前价格在历史区间中的位置

- 价格加速度：收益率的二阶导数，捕捉动量变化

成交量因子（30+）：

- 量价关系：成交量加权平均价格（VWAP）系列指标

- 资金流向：基于主动买卖盘的资金流估计

- 流动性指标：市场深度、买卖盘力量对比

波动率因子（35+）：

- 实现波动率：基于高频数据的波动率估计

- GARCH模型：条件异方差模型预测未来波动

- 波动率微观结构：买卖价差、价格跳跃分析

技术指标因子（25+）：

- 经典指标改进：RSI、MACD、布林带的自适应版本

- 趋势强度：ADX、DMI等趋势判断指标

- 超买超卖：威廉指标、随机指标等

2.3 创新三：自适应信号处理机制

原始的机器学习预测往往存在噪音多、信号不稳定等问题。我们设计了完整的信号处理流水线：

信号标准化处理：

- Z-Score标准化：基于240期滚动窗口的动态标准化

- 异常值裁剪：3倍标准差以外的信号进行裁剪处理

- 信号平滑：5期移动平均减少高频噪音

质量控制机制：

- 信号一致性检查：避免相互矛盾的交易信号

- 历史有效性验证：新信号必须通过历史回测验证

实时处理优化：

- 增量计算：仅对新数据进行特征更新

- 缓存机制：频繁使用的计算结果进行缓存

- 并行处理：特征计算与信号生成并行执行

2.4 创新四：双阈值交易机制

为了平衡交易频率与信号质量，我们设计了独特的双阈值交易机制：

开仓阈值：

- 较高的开仓门槛确保信号质量

- 减少假信号导致的无效交易

- 提高整体交易的胜率

平仓阈值：

- 较低的平仓门槛及时止损或止盈

- 避免错过最佳退出时机

- 保护既得利润

自适应调整：

- 根据市场波动率动态调整阈值

- 高波动期间提高阈值，低波动期间降低阈值

- 历史回测验证阈值设置的有效性

实战表现：数据验证效果

3.1 回测验证结果

在沪银期货(ag888)上进行了回测验证，绩效统计：

回测之后自动生成成交记录，机器学习信号可查：

核心技术栈选择

4.1 核心技术栈选择

数据处理技术：

- Polars：比Pandas快5-10倍的数据处理引擎

- Parquet格式：列式存储，压缩比高，读取速度快

- 增量计算：仅对新数据进行特征更新，大幅提升效率

机器学习技术：

- LightGBM：梯度提升决策树，在时序数据上表现优异

- 特征工程：基于AlphaDataset的标准化因子体系

- 模型优化：贝叶斯优化自动调参，交叉验证防过拟合

交易执行技术：

- VnPy框架：成熟的Python量化交易平台

- CTP接口：期货公司标准交易接口

- 异步处理：多线程处理提高系统响应速度

4.2 LightGBM模型优化

核心参数设计理念：

- 学习率（0.05）：较低的学习率配合更多训练轮数，提高泛化能力

- 叶子节点数（31）：平衡模型复杂度与过拟合风险

- 特征采样（0.8）：随机特征采样提高模型鲁棒性

- 正则化（L1=0.1, L2=0.1）：防止过拟合，提高模型稳定性

模型训练策略：

- 滚动验证：使用时间序列交叉验证，避免未来信息泄露

- 早停机制：监控验证集表现，避免过度训练

- 集成学习：多个模型集成提高预测稳定性

4.3 特征工程优化

特征计算优化：

- 向量化计算：利用Polars的向量化操作，大幅提升计算速度

- 缓存机制：对计算复杂的中间结果进行缓存

- 增量更新：仅对新数据点进行特征更新

特征选择策略：

- 重要性阈值：基于LightGBM重要性分数，阈值设为0.005

- 相关性去冗余：移除高度相关的特征，避免多重共线性

- 稳定性验证：确保特征在不同时间段的稳定性

机器学习成功要素：经验总结

5.1 技术层面关键因素

数据质量是基础：

- 高质量的数据源是策略成功的前提

- 数据清洗和预处理的重要性不容忽视

- 实时数据的稳定性直接影响策略表现

特征工程是核心：

- 深度的市场理解是特征设计的基础

- 特征的时效性和稳定性需要持续验证

- 特征选择比特征数量更重要

模型选择要适宜：

- LightGBM在时序数据上表现优异

- 模型复杂度要与数据量匹配

- 模型集成可以提高稳定性

5.2 工程层面核心要求

系统稳定性优先：

- 系统可用性要达到99%以上

- 异常处理机制要全面可靠

- 系统恢复能力要强

性能优化重要：

- 数据处理速度直接影响策略效果

- 内存和CPU使用要优化

- 并发处理能力要强

监控体系要全面：

- 实时监控系统运行状态

- 详细记录交易过程和异常情况

- 定期分析系统性能和策略效果

展望未来：持续优化方向

6.1 技术层面发展方向

模型技术升级：

- 探索深度学习模型在时序预测中的应用

- 研究强化学习在交易决策优化中的作用

数据能力增强：

- 集成更多替代数据源（新闻、情感、宏观等）

- 提高数据处理的实时性和准确性

- 建立更完善的数据质量监控体系

系统架构优化：

- 向云原生架构转型，提高系统弹性

- 实现更细粒度的微服务化

- 提升系统的自动化和智能化水平

6.2 策略层面可拓展方向：

品种扩展：

- 扩展到更多期货品种（有色金属、能源、农产品）

- 探索跨品种的套利策略

- 研究期货期权组合策略

策略优化：

- 开发多时间框架的策略组合

- 建立更精细的市场状态识别机制

- 实现策略参数的自适应调整

风控升级：

- 引入宏观经济因子的风险管控

- 建立基于机器学习的风险预警系统

- 实现更智能的资金管理算法

结语：

这套基于LightGBM的期货量化交易系统给出了机器学习在期货时序量化交易中的全流程。整个机器学习类的量化策略其实是一个很庞杂的体系，核心在于“数感”，也就是对数学的感觉，尤其是统计学；这点区别于规则类策略，我觉得规则类策略更偏向于“盘感”的规则化表达。

所以我认为要做好机器学习策略，本质上还是要做好统计学，重点围绕特征工程，做好对各品种数据的处理。本期策略也是搭建好一套体系流程应用。

量化投资的本质是用科学的方法来发现和利用市场中的规律。在这个过程中，技术是我们的工具，数据是我们的原料，而策略是我们的产品。但最终决定成败的，往往是我们对市场的理解深度、对风险的控制能力，以及持续学习和改进的坚持。

风险声明

本文内容仅供学术交流和技术分享，不构成任何投资建议。量化交易涉及较高风险，可能导致本金损失，投资者应根据自身风险承受能力谨慎决策。过往业绩不代表未来表现。

防迷路

微信｜小松鼠-松鼠Quant

微信号｜viquant01

25俱乐部源码《VIP25》

加入2025量化俱乐部

-------------往期精彩内容-------------