1、-1-关关键键数数据据及及发发现现-3-4-1-关键数据及发现关键数据及发现KEY FINDINGS1.2023 年,A 股“冲高回落、震荡下跌”,量化进入存量博弈。私募规模扩张趋势放缓,新备案私募门槛增高,行业格局稳定性增强,已经形成了越来越快的“飞轮效应”:业绩好的机构形成口碑和规模,吸引了人才、资金、资源的大幅进入,同时算力、数据、投研等方面不断积累,资管规模不断扩大,而资源的增加又促成了良好业绩的产生。2023 年,规模 50 亿以上机构从 41 家增加至 50 家,占整个量化私募 5%。2.量化机构的投研趋势之一体现在多资产、多信号、多频段融合。机构横跨多个资产类别,高中低频多个信号
2、频段。3.TB 级别(41.07%)和 PB 级别(27.38%)是当前主流存储规模,PB 级别(27.38%)则使得量化开始进入真正的“大数据”机构。低频量价数据的使用覆盖度最高(72.62%),其次是基本面财务数据(66.67%)和高频量价数据(58.33%)。高频量价数据维度大、噪声高,数据及因子一般不直接使用,需要进行大量数据清洗和加工,包括利用增量行情自动拼接全量行情,用快照数据重构订单簿,高频因子平滑处理等。4.另类数据目前使用面最广的为分析师一致性预期数据及舆情数据,分析师一致性预期数据的分析主要有 Alpha-Capture卖方预期评价、情绪打分、知识图谱构建等使用方式。事件、
3、情绪维度的数据由于信息的滞后性则需要关注市场反身性避免形成反指。5.量化机构通过研究经验、买方灵感、卖方研报、前沿信息获取研究灵感生成因子,按照因子种类、预测周期、产生背景,当前多因子已经形成非常庞杂的体系,量化机构一般会根据 300、500、1000 指增、中性等各类产品分配不同的因子比重,最常见的为 70-80%量价类因子+20-30%(基本面因子舆情和另类因子),以追求因子之间的低相关性。人工挖掘(覆盖度77.38%)以逻辑性因子为主,依赖于研究人员的专业知识和直觉,机器挖掘(覆盖度 59.52%)以统计性因子为主,利用机器学习算法自动识别有预测能力的因子,发现人工方法难以识别的复杂模式
4、和关系。6.过往三年问卷调研数据显示,当前量化模型技术呈现多样性、复杂性,没有任何一种技术在所有环节中都占据绝对的优势,一个量化策略需要结合多种技术来处理不同问题。数据处理相关的环节模型应用较为集中(如数据清洗、特征提取、模型构建),而在直接的决策制定环节(如策略优化、高频交易)则较为分散。7.组合优化环节,目前量化机构的优化器呈现更快、更复杂的趋势。更复杂表现在:除了回报(79.17%)和风险预测(76.79%)是优化的核心常见功能,交易成本(60.12%)、组合限制(48.21%)、业绩基准(42.86%)等、融券利率(19.64%)及基差成本(29.17%)等也有机构纳入了优化器功能之中
5、。随着账户数量、投资标的和投资逻辑的不断增加,计算量更大,部分机构实现盘中分钟级别出交易清单。机构对市值、流动性、分散度、成分股等进行了风控,Barra 模型是目前国内的主流风险控制模型,但在实际使用中有许多局限性,例如预测周期偏长、没有考虑特异性股池,A 股的特点结合性有待提升等。所以很多机构除了根据其控制因子敞口,对标基准进行行业和风格约束之外,还会进行周期改动等优化调整。-2-8.量化机构会采用股指期货、融券、期权等多种方式或结合的方式进行对冲,持续跟踪成本差异,以求得对冲成本、对冲精度的最优解。寻常认知中,公众对高频与做空最容易产生误解,但样本池内数据显示,当前公众对做空策略有相对较为
6、成熟和均衡的看法,能够认识到做空(占比 83.84%)是市场正常机制的一部分,有助于发现价格泡沫和过高估值。只要不是恶意操纵市场,做空策略应该被允许(占比 65.5%)。9.不同的交易频率有其适应的市场行情,如果仅仅是擅长某一类因子或者某一个频段的预测,在多变的市场环境下可能会遭遇逆周期时出现回撤,所以机构需要捕捉市场不同周期收益来源,逐步丰富覆盖低、中、高多个频段,全频段覆盖及融合的挑战在于:1.无明显频段短板;2.平衡、分配不同预测周期的权重。有的从特征层面融合,有的从优化器层面融合,还有从组合层面融合。10.数据显示,目前机构认为业绩归因 Smart Beta 超越 Pure Alpha