聚合按同一天分组并与金融数据框集成的文本表示的最佳方法是什么?

问题描述

我正在努力利用新闻标题来预测股票趋势(日内交易)。此任务的目的是开发用于趋势预测的分类器。假设我们有一个包含 10 个新闻标题样本的数据集,该数据集的索引是每天的时间序列(例如 2020-01-01、2020-01-02、...)。假设我已经从语言模型(word2vec、GloVe、FastText 等)中获得了每个标题的向量表示。另一个数据集包含标签,其中 1 代表看涨趋势,-1 代表看跌趋势。供您参考,标签是通过固定时间范围方法或三重障碍方法生成的。挑战在于每天发布的新闻总是不止一个,而且每天的标签都不一样,我应该如何将两个dataframe结合起来?

例如,我有一个包含新闻标题和嵌入向量的 10 行数据框:

|            | Headline                                                                   | Embedding                 |
|------------|----------------------------------------------------------------------------|---------------------------|
| 2020-01-01 | Tencent games reinstated on Huawei app store                               | [0.1,0.2,0.7,0.4,0.8] |
| 2020-01-01 | Delta Air Lines CEO expects positive cash flow by spring                   | [0.5,0.6,0.9,0.1] |
| 2020-01-01 | Nissan Motor to reduce presence in Europe as part of turnaround plan       | [0.5,0.1,0.2] |
| 2020-01-02 | China says it will take action against U.S. delisting of its telecom firms | [0.9,0.7] |
| 2020-01-02 | Deutsche Bank should play leading role in banking consolidation            | [0.4,0.1] |
| 2020-01-02 | NYSE starts process of delisting three Chinese telco companies             | [0.8,0.8,0.1] |
| 2020-01-03 | Investors bullish on stocks,hoping for a brighter 2021                    | [0.5,0.9] |
| 2020-01-03 | Bitcoin rallies above $30,000 for first time                               | [0.8,0.7] |
| 2020-01-03 | OPEC sees oil outlook for first half of 2021 full of downside risks        | [0.1,0.5] |
| 2020-01-03 | Quibi in talks to sell content catalog to Roku - WSJ                       | [0.9,0.5,0.3] |

我还在下面列出了价格数据框:

|            | Open | High | Low | Close | Label |
|------------|------|------|-----|-------|-------|
| 2020-01-01 | 465  | 468  | 452 | 457   | 1     |
| 2020-01-02 | 456  | 456  | 413 | 424   | 1     |
| 2020-01-03 | 424  | 427  | 384 | 394   | -1    |

我的问题是,如果我将这两个数据帧合并到下面显示的另一个数据帧中,它仍然没有意义。尽管我在 2020-01-01 有标签 1,“日产汽车将减少在欧洲的存在作为周转计划的一部分”对价格趋势产生负面影响,“达美航空公司首席执行官预计春季现金流为正”可能会给对价格趋势的积极影响。

|            | Combined Embedding        | Label |
|------------|---------------------------|-------|
| 2020-01-01 | [0.1,0.9] | 1     |
| 2020-01-02 | [0.2,0.6] | 1     |
| 2020-01-03 | [0.6,0.7] | -1    |

总而言之,获得按同一天分组的聚合向量表示的最佳方法是什么?任何答复将不胜感激!提前致谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...