提高数据预处理速度-Python中的正则表达式

问题描述

我在Python中使用以下类对字符串进行预处理，然后将其传递给机器学习分类模型以预测其情绪。

我将正则表达式与表情符号和tweet-预处理器之类的某些库一起用于大多数转换。该代码工作正常，但我认为它很慢。

您对如何提高速度有任何建议吗？

用法示例：

string  = "I am very happy with @easyjet #happy customer ?. Second sentence"
preprocessor = TextPreprocessing()
result = preprocessor.text_preprocessor(string)

结果将是：[“我对幸福的笑脸感到非常高兴”，“第二句话”，“我对幸福的笑脸感到高兴”第二句话”]

import re
import preprocessor as p   # this is the tweet-preprocessor library
import emoji
import os
import numpy as np
import pandas as pd

class TextPreprocessing:
    def __init__(self):
        p.set_options(p.OPT.MENTION,p.OPT.URL)

    # remove punctuation
    def _punctuation(self,val):
        val = re.sub(r'[^\w\s]',' ',val)
        val = re.sub('_',val)
        return val

    #remove white spaces
    def _whitespace(self,val):
        return " ".join(val.split())

    #remove numbers
    def _removenumbers(self,val):
        val = re.sub('[0-9]+','',val)
        return val

    #remove unicode
    def _remove_unicode(self,val):
        val = unidecode(val).encode("ascii")
        val = str(val,"ascii")
        return val

    #split string into sentenses
    def _split_to_sentences(self,body_text):
        sentences = re.split(
            r"(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s",body_text)
        return sentences

    # cleaning functions that combines all of the above functions
    def _clean_text(self,val):
        val = val.lower()
        val = self._removenumbers(val)
        val = p.clean(val)
        val = ' '.join(self._punctuation(emoji.demojize(val)).split())
        val = self._remove_unicode(val)
        val = self._whitespace(val)
        return val

    def text_preprocessor(self,body_text):
        body_text_df = pd.DataFrame({"body_text": body_text},index=[1])
        sentence_split_df = body_text_df.copy()
        sentence_split_df["body_text"] = sentence_split_df["body_text"].apply(
            self._split_to_sentences)

        lst_col = "body_text"
        sentence_split_df = pd.DataFrame(
            {
                col: np.repeat(
                    sentence_split_df[col].values,sentence_split_df[lst_col].str.len(
                    )
                )
                for col in sentence_split_df.columns.drop(lst_col)
            }
        ).assign(**{lst_col: np.concatenate(sentence_split_df[lst_col].values)})[
            sentence_split_df.columns
        ]

        final_df = (
            pd.concat([sentence_split_df,body_text_df])
            .reset_index()
            .drop(columns=["index"])
        )

        final_df["body_text"] = final_df["body_text"].apply(self._clean_text)

        return final_df["body_text"]

这个问题可能与所有想要将其NLP模型投入生产的数据科学家有关。

解决方法

由于我无法发表评论，因此我将尝试（在某种程度上）回答您的问题：

您应阐明如何衡量执行时间的改善。为此使用timeit及其重复功能：

import timeit
from functools import partial
...
if __name__ == "__main__":
    # http://25.io/toau/audio/sample.txt
    with open("sample.txt") as f:
        text = f.read()
        tp = TextPreprocessing()
        print(min(timeit.Timer(partial(tp.text_preprocessor,text)).repeat(repeat=10,number=1)))

您还可以在特定的方法上使用timeit来检查瓶颈。

不幸的是，由于L58和L64中的未定义np.，我无法运行您的代码示例所以我无法检验我的假设。另外，您没有提供示例数据。
一些一般想法：

使用re.compile()编译所有正则表达式
如果您不需要_remove *的模块化，则可以考虑组合这些正则表达式
.copy()操作要摆脱它们很昂贵
某些_remove *方法也有气味。请参阅替代链接：
- Remove zero width space unicode character from Python string
- Removing numbers from string

emoji pandas python regex