精准预测市场?当多方安全计算遇到量化投研
3 Avatar的开幕式
“这个case不是为了证明第三方数据有多牛,是表演一下投研对数据的安全建模方案”。
研究标的:2019年8月5日-2020年8月4日创业板中所有股票
研究目标:该策略目标为利用历史数据,预测每只股票当天是否涨幅超8%,即样本集中日股票涨幅超8%,y值为1,否则y值为0。
研究变量
联邦学习中节点A数据:通过股票历史数据(公开数据),构建了当日星期、近三天平均收益率、近七天平均收益率、近三天绝对收益率、近七天绝对收益率、近三天标准差、近七天标准差、近三天平均换手率、近七天平均换手率、近三天平均成交量、近七天平均成交量、近三天上涨天数、近七天上涨天数、近三天涨幅大于5%次数、近七天涨幅大于5%次数、近三天跌幅大于5%次数、近七天跌幅大于5%次数,共17个指标。
联邦学习中节点B数据:通过百度搜索中关键词为“创业板”的搜索次数,构建了当日创业板搜索指数、近一天创业板搜索指数、近三天创业板搜索指数、近七天创业板搜索指数、近三天创业板指数上升天数、近七天创业板指数上升天数、创业板搜素指数涨幅,共7个指标,模拟外部非公开的数据源。
综上,该策略通过上述24个指标的构建,结合动量策略和反转策略原理,并通过百度搜索次数作为外部数据,作为反应市场情绪的变量,之后根据IV等指标筛选入参变量,构建逻辑回归模型,预测当日股票是否上涨超过8%。为验证百度指数作用,策略制定了四个模型作为对照,具体如下:
样本集为全部股票,未用到百度指数构建模型
样本集为全部股票,用到了百度指数构建模型(其他入参变量与对照组1一致)
样本集为华兴源创,未用到百度指数构建模型
样本集为华兴源创,用到百度指数构建模型
(备注,因为百度搜索数据进行了反爬虫的保护,无法爬取全部信息,故全量股票数据建模过程中,只用到了搜索“创业板”的搜索次数,未用到每只股票对应的股票名称搜索次数;仅在样本集为华兴源创的案例中,用到了华兴源创作为关键词的搜索次数。)
模型结论
1)通过IV值可推断百度指数数据对于预测y值有较为重要的作用,其中创业板搜索涨跌幅和近三天创业板搜索平均值效果较为显著,通过模型系数可知创业板搜索涨跌幅和近三天创业板搜索平均值和y值具有正相关关系,即数值越高,越容易涨幅超过8%。(具体信息见下图)
2)样本集为全部股票,用到百度指数构建模型,AUC为0.76,未用到百度指数构建模型(其他入参变量与对照组1一致),AUC为0.72,说明百度指数对应预测有明显提升效果。(具体信息见下图)
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论