问题描述
我正在努力利用新闻标题来预测股票趋势(日内交易)。此任务的目的是开发用于趋势预测的分类器。假设我们有一个包含 10 个新闻标题样本的数据集,该数据集的索引是每天的时间序列(例如 2020-01-01、2020-01-02、...)。假设我已经从语言模型(word2vec、GloVe、FastText 等)中获得了每个标题的向量表示。另一个数据集包含标签,其中 1 代表看涨趋势,-1 代表看跌趋势。供您参考,标签是通过固定时间范围方法或三重障碍方法生成的。挑战在于每天发布的新闻总是不止一个,而且每天的标签都不一样,我应该如何将两个dataframe结合起来?
例如,我有一个包含新闻标题和嵌入向量的 10 行数据框:
| | Headline | Embedding |
|------------|----------------------------------------------------------------------------|---------------------------|
| 2020-01-01 | Tencent games reinstated on Huawei app store | [0.1,0.2,0.7,0.4,0.8] |
| 2020-01-01 | Delta Air Lines CEO expects positive cash flow by spring | [0.5,0.6,0.9,0.1] |
| 2020-01-01 | Nissan Motor to reduce presence in Europe as part of turnaround plan | [0.5,0.1,0.2] |
| 2020-01-02 | China says it will take action against U.S. delisting of its telecom firms | [0.9,0.7] |
| 2020-01-02 | Deutsche Bank should play leading role in banking consolidation | [0.4,0.1] |
| 2020-01-02 | NYSE starts process of delisting three Chinese telco companies | [0.8,0.8,0.1] |
| 2020-01-03 | Investors bullish on stocks,hoping for a brighter 2021 | [0.5,0.9] |
| 2020-01-03 | Bitcoin rallies above $30,000 for first time | [0.8,0.7] |
| 2020-01-03 | OPEC sees oil outlook for first half of 2021 full of downside risks | [0.1,0.5] |
| 2020-01-03 | Quibi in talks to sell content catalog to Roku - WSJ | [0.9,0.5,0.3] |
我还在下面列出了价格数据框:
| | Open | High | Low | Close | Label |
|------------|------|------|-----|-------|-------|
| 2020-01-01 | 465 | 468 | 452 | 457 | 1 |
| 2020-01-02 | 456 | 456 | 413 | 424 | 1 |
| 2020-01-03 | 424 | 427 | 384 | 394 | -1 |
我的问题是,如果我将这两个数据帧合并到下面显示的另一个数据帧中,它仍然没有意义。尽管我在 2020-01-01 有标签 1,“日产汽车将减少在欧洲的存在作为周转计划的一部分”对价格趋势产生负面影响,“达美航空公司首席执行官预计春季现金流为正”可能会给对价格趋势的积极影响。
| | Combined Embedding | Label |
|------------|---------------------------|-------|
| 2020-01-01 | [0.1,0.9] | 1 |
| 2020-01-02 | [0.2,0.6] | 1 |
| 2020-01-03 | [0.6,0.7] | -1 |
总而言之,获得按同一天分组的聚合向量表示的最佳方法是什么?任何答复将不胜感激!提前致谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)