Sharpe2.41
Max DD-8.3%
Win Rate62.7%
Episodes1,240
cumulative return
● trainingepoch 847 / 1500
为什么用 TORCHALPHA
强化学习量化研究基础设施。从数据到上线,一站式完成。可追溯、可复现、可协作。
核心能力
RL 训练队列
内置 PPO、SAC、GRPO、DAPO 模板。新建即排队,GPU 资源自动调度,训练产物自动归档到策略库。研究员只需关注奖励函数设计。
✓PPO_momentum_v312m ago
●GRPO_multifactor_v1running
○SAC_crypto_arbqueued
统一行情数据
A 股 daily / minute / tick 与加密 K 线一次接入,格式统一、切分自动
回测与风控
净值、回撤、胜率、风控事件并列展示,上线决策有据可查
实验可追溯
每次配置、训练和验证都自然沉淀,完整实验链路可回放
典型场景
量化研究员训练多因子 RL 策略
配置因子篮、设计奖励函数、提交训练任务,全程留痕可回溯
团队协作共享策略库
训练成果落入策略库,账号隔离;分享时配置和指标一起带走
AI 助手辅助复盘异常
读取真实训练指标,回答训练异常和风险点,省下复盘时间
算法生态
powered by reinforcement learning_
从经典 PPO、SAC 到最新 GRPO、DAPO,算法模板持续扩展。工程化封装,研究员只需关注策略设计。
PPO
经典Proximal Policy Optimization — 稳定可靠的策略梯度基线
SAC
经典Soft Actor-Critic — 最大熵框架下的样本高效学习
GRPO
前沿Group Relative Policy Optimization — 消除价值网络的效率突破
DAPO
前沿Direct Advantage Policy Optimization — RLHF 时代的新范式
DQN
经典Deep Q-Network — 离散动作空间的标准解法
A2C
经典Advantage Actor-Critic — 同步更新的经典实现