如何使用 pandas 和 python 以及 ta-lib 从许多 csv 构建数据框以计算技术指标

问题描述

我可以使用下面的代码从单个文件（包含股票代码、日期、OHLC 和交易量）构建框架，然后使用 TA-lib 构建技术指标。工作正常。我还可以使用“glob”将数千个 csv 组合成一个 blob 并导入到 sql 中，然后针对 sql 运行 python 脚本（使用其他插件）来解析值并构建技术指标值，但是，正在发生的事情是移动平均值不是针对每个符号单独计算的，而是针对 sql 表（或 csv）中的所有符号计算的，从而把一切都搞砸了。换句话说，在第 11 行，股票代码从 A 变为 B，前 10 行都是股票代码 A，TA-lib 只是使用第 11 行的数据，好像它是股票代码 A 的数据的一部分，但现在，它是股票代码 B。它应该从每个唯一的股票代码开始。如果我能找到一种方法为每个 csv 文件构建单独的数据帧，运行计算，然后输出到数千个新创建的 csv 文件（每个唯一的股票行情一个）将解决问题。我也可以一起避免 sql。提前致谢。

import pandas as pd
import talib

csv_file = "C:\\Users\\Bob\\IBM.csv"
df = pd.read_csv(csv_file)

Symbol = df['Symbol']
Date = df['Date']
Open = df['Open']
High = df['High']
Low = df['Low']
Close = df['Close']
Volume = df['Volume']

from talib import SMA,T3

SMA = SMA(Close,timeperiod=5)
print(SMA)

T3 = T3(Close,timeperiod=5,vfactor=0)
print(T3)

total_df = pd.concat([Symbol,Date,Open,High,Low,Close,Volume,SMA,T3])
print(total_df)
total_df.to_csv("test.csv")

**************** 下面是我最新的代码****************

import pandas as pd
import talib
import glob,os
from talib import SMA,T3
import os

csv_file_list = glob.glob(r"H:\EOD_DATA_RECENT\TEST\\*.csv")

print(csv_file_list)

for csv_file in csv_file_list:
    df = pd.read_csv(csv_file)
    print(df)

df['SMA'] = SMA(df['AdjustedClose'],timeperiod=5)
# print(df['SMA'])

df['T3'] = T3(df['AdjustedClose'],vfactor=0)
# print(df['T3'])

print(df)
df.to_csv("test.csv")

解决方法

有两种方法，我相信，你可以做到这一点。如果您想要单独的文件，您只是在循环中读取 csv 文件，请执行操作并将文件写入磁盘。另外，我在这里做了一些假设......

from talib import SMA,T3 # move this up to the top with other modules

csv_file_list = [however you get list of files]

for csv_file in csv_file_list:
    df = pd.read_csv(csv_file)
    
    #I'm not sure why are reading these into series,I think you can call them directly
    #Symbol = df['Symbol']
    #Date = df['Date']
    #Open = df['Open']
    #High = df['High']
    #Low = df['Low']
    #Close = df['Close']
    #Volume = df['Volume']
    
    df['SMA'] = SMA(df['Close'],timeperiod=5) # create column in df automatically
    print(df['SMA'])
    
    df['T3'] = T3(df['Close'],timeperiod=5,vfactor=0) # create column in df automatically
    print(df['T3'])
    
    # df is already built from above,so don't need next line
    #total_df = pd.concat([Symbol,Date,Open,High,Low,Close,Volume,SMA,T3])
    print(df)
    Symbol = df.Symbol[0]
    fn = Symbol + '_indicators.csv
    df.to_csv(fn)

第二种方法是将所有 csv 文件读入 dfs 和 concat。如果愿意，您可以将此 df 保存到 csv 'master'，然后使用 groupby 通过代码获取 SMA 和 T3。如果您有数千个股票代码，这可能太麻烦了，但确实可以减轻阅读数千个文件的负担。我根据我正在运行的分析类型来执行这两种方法。从计算时间的角度来看，500 个股票的 df 是可以管理的，只要您正在做的事情编码正确。否则，我一次只看一个股票行情，然后转到更大的 df。

尝试第一个重新设计的建议代码，看看你想出了什么。

pandas python ta-lib