我有一些数据.在sqlite数据库中有224,000行.我想从中提取时间序列信息以提供数据可视化工具.从本质上讲,数据库中的每一行都是一个事件,它具有(除其他事项之外并不严格相关)一个自纪元以来的秒数的时间日期组和一个负责它的名称.我想提取db中每个名称每周有多少个事件.
这很简单:
SELECT COUNT(*),
name,
strf("%W:%Y", time, "unixepoch")
FROM events
GROUP BY strf("%W:%Y", time, "unixepoch"), name
ORDER BY time
我们得到大约六千行数据.
count name week:year
23............ fudge.......23:2009
etc...
但是我不想在每个星期为每个名称添加一行 – 我希望每个名称都有一行,每周需要一列,如下所示:
Name 23:2009 24:2009 25:2009
fudge........23............6............19
fish.........1.............0............12
etc...
现在,监控过程已经运行了69周,并且唯一名称的数量是502.很明显,我对任何涉及对所有列进行硬编码而不是更少行的解决方案都很敏感.对于任何涉及迭代的事情我都不那么松懈,比如使用python的executemany(),但我愿意在必要时接受它. sql本质上是固定的,该死的.
解决方法:
在这样的情况下,一个好的方法是不要将sql推到令人费解和难以理解和维护的程度.让sql做它方便的事情并在Python中对查询结果进行后处理.
这是我写的一个简单的交叉表生成器的简化版本.完整版提供行/列/总计.
您会注意到它内置了“分组依据” – 原始用例用于汇总使用Python和xlrd从Excel文件获取的数据.
您提供的row_key和col_key不需要像示例中那样是字符串;它们可以是元组 – 例如在你的情况下(年,周) – 或者它们可以是整数 – 例如您有一个字符串列名称到整数排序键的映射.
import sys
class Crosstab(object):
def __init__(
self,
missing=0, # what to return for an empty cell. Alternatives: '', 0.0, None, 'NULL'
):
self.missing = missing
self.col_key_set = set()
self.cell_dict = {}
self.headings_OK = False
def add_item(self, row_key, col_key, value):
self.col_key_set.add(col_key)
try:
self.cell_dict[row_key][col_key] += value
except KeyError:
try:
self.cell_dict[row_key][col_key] = value
except KeyError:
self.cell_dict[row_key] = {col_key: value}
def _process_headings(self):
if self.headings_OK:
return
self.row_headings = list(sorted(self.cell_dict.iterkeys()))
self.col_headings = list(sorted(self.col_key_set))
self.headings_OK = True
def get_col_headings(self):
self._process_headings()
return self.col_headings
def generate_row_info(self):
self._process_headings()
for row_key in self.row_headings:
row_dict = self.cell_dict[row_key]
row_vals = [row_dict.get(col_key, self.missing) for col_key in self.col_headings]
yield row_key, row_vals
def dump(self, f=None, header=None, footer='', ):
if f is None:
f = sys.stdout
alist = self.__dict__.items()
alist.sort()
if header is not None:
print >> f, header
for attr, value in alist:
print >> f, "%s: %r" % (attr, value)
if footer is not None:
print >> f, footer
if __name__ == "__main__":
data = [
['Rob', 'Morn', 240],
['Rob', 'Aft', 300],
['Joe', 'Morn', 70],
['Joe', 'Aft', 80],
['Jill', 'Morn', 100],
['Jill', 'Aft', 150],
['Rob', 'Aft', 40],
['Rob', 'aft', 5],
['Dozy', 'Aft', 1],
# Dozy doesn't show up till lunch-time
['Nemo', 'never', -1],
]
NAME, TIME, AMOUNT = range(3)
xlate_time = {'morn': "AM", "aft": "PM"}
print
ctab = Crosstab(missing=None, )
# ctab.dump(header='=== after init ===')
for s in data:
ctab.add_item(
row_key=s[NAME],
col_key= xlate_time.get(s[TIME].lower(), "XXXX"),
value=s[AMOUNT])
# ctab.dump(header='=== after add_item ===')
print ctab.get_col_headings()
# ctab.dump(header='=== after get_col_headings ===')
for x in ctab.generate_row_info():
print x
输出:
['AM', 'PM', 'XXXX']
('Dozy', [None, 1, None])
('Jill', [100, 150, None])
('Joe', [70, 80, None])
('Nemo', [None, None, -1])
('Rob', [240, 345, None])