当前位置:首页 > 科技  > 软件

Python时间序列分析库介绍:statsmodels、tslearn、tssearch、tsfresh

来源: 责编: 时间:2023-10-30 17:23:21 241观看
导读时间序列分析在金融和医疗保健等领域至关重要,在这些领域,理解随时间变化的数据模式至关重要。在本文中,我们将介绍四个主要的Python库——statmodels、tslearn、tssearch和tsfresh——每个库都针对时间序列分析的不同方

时间序列分析在金融和医疗保健等领域至关重要,在这些领域,理解随时间变化的数据模式至关重要。在本文中,我们将介绍四个主要的Python库——statmodels、tslearn、tssearch和tsfresh——每个库都针对时间序列分析的不同方面进行了定制。这些库为从预测到模式识别的任务提供了强大的工具,使它们成为各种应用程序的宝贵资源。ZTw28资讯网——每日最新资讯28at.com

我们使用来自Kaggle的数据集,通过加速度计数为各种身体活动进行分析。这些活动被分为12个不同的类别,每个类别对应一个特定的身体动作,如站立、坐着、行走,或从事更有活力的活动,如慢跑和骑自行车。每个活动都记录了一分钟的持续时间,提供了丰富的时间序列数据源。ZTw28资讯网——每日最新资讯28at.com

用于此分析的库有:ZTw28资讯网——每日最新资讯28at.com

# statsmodels from statsmodels.tsa.seasonal import seasonal_decompose from statsmodels.tsa.stattools import adfuller from statsmodels.graphics.tsaplots import plot_acf  #tslearn from tslearn.barycenters import dtw_barycenter_averaging  # tssearch from tssearch import get_distance_dict, time_series_segmentation, time_series_search, plot_search_distance_result  # tsfresh from tsfresh import extract_features from tsfresh.feature_selection.relevance import calculate_relevance_table from tsfresh.feature_extraction import EfficientFCParameters from tsfresh.utilities.dataframe_functions import impute

Statsmodels

从statmodels库中,两个基本函数在理解从x, y和z方向收集的加速度数据的特征方面起着关键作用。ZTw28资讯网——每日最新资讯28at.com

adfuller函数是确定时间序列信号平稳性的有力工具。通过对我们的数据进行Augmented Dickey-Fuller检验,可以确定加速度信号是否表现出平稳的行为,这是许多时间序列分析技术的基本要求。这个测试帮助我们评估数据是否随时间而变化。ZTw28资讯网——每日最新资讯28at.com

def activity_stationary_test(dataframe, sensor, activity):  dataframe.reset_index(drop=True)  adft = adfuller(dataframe[(dataframe['Activity'] == activity)][sensor], autolag='AIC')  output_df = pd.DataFrame({'Values':[adft[0], adft[1], adft[4]['1%']], 'Metric':['Test Statistics', 'p-value', 'critical value (1%)']})  print('Statistics of {} sensor:/n'.format(sensor), output_df)  print()  if (adft[1] < 0.05) & (adft[0] < adft[4]['1%']):    print('The signal is stationary')  else:    print('The signal is non-stationary')

seasonal_decomposition函数提供了对时间序列数据结构的宝贵见解。它将时间序列分解为三个不同的组成部分:趋势、季节性和残差。这种分解使我们能够可视化和理解加速度数据中的潜在模式和异常。ZTw28资讯网——每日最新资讯28at.com

def activity_decomposition(dataframe, sensor, activity):     dataframe.reset_index(drop=True)  data = dataframe[(dataframe['Activity'] == activity)][sensor]  decompose = seasonal_decompose(data, model='additive', extrapolate_trend='freq', period=50)  fig = decompose.plot()  fig.set_size_inches((12, 7))  fig.axes[0].set_title('Seasonal Decomposition Plot')  fig.axes[3].set_xlabel('Indices')  plt.show()

ZTw28资讯网——每日最新资讯28at.com

Tslearn

如果使用tslearn库进行时间序列分析。可以采用分割方法,将连续的加速信号分解成特定长度的离散段或窗口(例如,150个数据点)。这些片段提供了行走过程中运动的颗粒视图,并成为进一步分析的基础。重要的是,我们在相邻部分之间使用了50个数据点的重叠,从而可以更全面地覆盖潜在的动态。ZTw28资讯网——每日最新资讯28at.com

template_length = 150 overlap = 50 # Adjust the overlap value as needed segments = [signal[i:i + template_length] for i in range(0, len(signal) - template_length + 1, overlap)]

ZTw28资讯网——每日最新资讯28at.com

为了从这些片段中获得一个封装行走典型特征的代表性模板,我们使用了dtw_barycenter_averaging函数。该方法采用动态时间规整(Dynamic Time Warping, DTW)对分割的时间序列进行对齐和平均,有效地创建了一个捕捉步行运动中心趋势的模板。ZTw28资讯网——每日最新资讯28at.com

template_signal = dtw_barycenter_averaging(segments) template_signal = template_signal.flatten()

生成的模板为后续的分类和比较任务提供了有价值的参考,有助于基于x轴加速度的步行活动识别和分析。ZTw28资讯网——每日最新资讯28at.com

ZTw28资讯网——每日最新资讯28at.com

Tssearch

对于tssearch库使用time_series_segmentation函数,通过动态时间规整(DTW)或其他相似性度量来识别输入时间序列中与所提供的模板信号最相似的片段。ZTw28资讯网——每日最新资讯28at.com

该函数的主要目标是定位和提取与模板信号密切匹配的输入时间序列片段。通过将模板信号与输入时间序列进行比较,可以找到这些片段,该函数返回输入时间序列中这些片段开始的位置或索引。ZTw28资讯网——每日最新资讯28at.com

segment_distance = get_distance_dict(["Dynamic Time Warping"])  segment_results = time_series_segmentation(segment_distance, template_signal, signal_np)  for k in segment_results:  plt.figure(figsize=(15, 3))  plt.plot(signal_np, color='gray')  plt.vlines(segment_results[k], np.min(signal_np)-1, np.max(signal_np) + 1, 'C1')  plt.xlabel('Indices')  plt.ylabel('Amplitude')  plt.title(k)

ZTw28资讯网——每日最新资讯28at.com

tssearch库中还有另一个用于发现时间序列数据中的相似性和差异性的方法。首先,我们配置了一个字典dict_distances来指定搜索的距离度量。定义了两种不同的方法。第一个,标记为“elastic”,采用动态时间规整(DTW)作为相似性度量。使用特定的参数定制DTW,例如dtw_type设置为“sub-dtw”,alpha设置为0.5,允许灵活的时间序列对齐和比较。然后是“lockstep”,它利用欧几里得距离以一种更严格的方式来衡量相似性。有了这些距离配置,就可以使用time_series_search函数执行时间序列搜索,将模板信号与目标信号(signal_np)进行比较,并指定前30个匹配项的输出。ZTw28资讯网——每日最新资讯28at.com

dict_distances = {    "elastic": {        "Dynamic Time Warping": {            "function": "dtw",            "parameters": {"dtw_type": "sub-dtw", "alpha": 0.5},        }    },    "lockstep": {        "Euclidean Distance": {            "function": "euclidean_distance",            "parameters": "",      }    } }  result = time_series_search(dict_distances, template_signal, signal_np, output=("number", 30)) plot_search_distance_result(result, signal_np)

ZTw28资讯网——每日最新资讯28at.com

ZTw28资讯网——每日最新资讯28at.com

这是一种时间序列聚类的简单的方法,并且可解释性很强。ZTw28资讯网——每日最新资讯28at.com

Tsfresh

tsfresh库则是一个很好的自动化特征提取过程的工具。effentfcparameters()定义了一组提取设置,它指定了特征提取参数和配置。这些设置可以控制在提取过程中计算哪些特征。然后就可以使用extract_features函数应用进行特征的提取。这里应该将“Activity”列作为标识符列,并提供了特征提取参数。重要的是,该库可以对缺失值(NaN)的特征进行自动删除,结果保存在x_extract中,是从时间序列数据中提取的大量特征集合。Tsfresh简化了通常复杂且耗时的特征工程过程,为时间序列分析提供了宝贵的资源。ZTw28资讯网——每日最新资讯28at.com

extraction_settings = EfficientFCParameters() X_extracted = extract_features(final_df, column_id='Activity',                      default_fc_parameters=extraction_settings,                      # we impute = remove all NaN features automatically                      impute_functinotallow=impute, show_warnings=False)  X_extracted= pd.DataFrame(X_extracted, index=X_extracted.index, columns=X_extracted.columns)  values = list(range(1, 13)) y = pd.Series(values, index=range(1, 13))  relevance_table_clf = calculate_relevance_table(X_extracted, y) relevance_table_clf.sort_values("p_value", inplace=True) relevance_table_clf.head(10)

ZTw28资讯网——每日最新资讯28at.com

top_features = relevance_table_clf["feature"].head(10) x_features = X_extracted[top_features]

ZTw28资讯网——每日最新资讯28at.com

总结

本文向您介绍了时间序列分析的四个基本Python库:statmodels、tslearn、tssearch和tsfresh。时间序列分析是金融和医疗保健等各个领域的重要工具,在这些领域,我们需要了解数据随时间的变化趋势,以便做出明智的决策和预测。ZTw28资讯网——每日最新资讯28at.com

每个库都专注于时间序列分析的不同方面,选择哪个库取决于具体问题。通过结合使用这些库,可以处理各种与时间相关的挑战,从预测财务趋势到对医疗保健中的活动进行分类。当要开始自己的时间序列分析项目时,请记住这些库,结合着使用它们可以帮助你解决很多的实际问题。ZTw28资讯网——每日最新资讯28at.com

kaggle数据集:https://www.kaggle.com/datasets/gaurav2022/mobile-health/discussion/375938ZTw28资讯网——每日最新资讯28at.com


ZTw28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-15854-0.htmlPython时间序列分析库介绍:statsmodels、tslearn、tssearch、tsfresh

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Git详细使用教程,你学会了吗?

下一篇: 可以提取图像文本的五大 Python 库

标签:
  • 热门焦点
  • 石头自清洁扫拖机器人G10S评测:多年黑科技集大成之作 懒人终极福音

    石头自清洁扫拖机器人G10S评测:多年黑科技集大成之作 懒人终极福音

    科技圈经常能看到一个词叫“缝合怪”,用来形容那些把好多功能或者外观结合在一起的产品,通常这样的词是贬义词,但如果真的是产品缝合的好、缝合的实用的话,那它就成了中性词,今
  • 6月iOS设备好评榜:第一蝉联榜首近一年

    6月iOS设备好评榜:第一蝉联榜首近一年

    作为安兔兔各种榜单里变化最小的那个,2023年6月的iOS好评榜和上个月相比没有任何排名上的变化,仅仅是部分设备好评率的下降,长年累月的用户评价和逐渐退出市场的老款机器让这
  • K8S | Service服务发现

    K8S | Service服务发现

    一、背景在微服务架构中,这里以开发环境「Dev」为基础来描述,在K8S集群中通常会开放:路由网关、注册中心、配置中心等相关服务,可以被集群外部访问;图片对于测试「Tes」环境或者
  • 微信语音大揭秘:为什么禁止转发?

    微信语音大揭秘:为什么禁止转发?

    大家好,我是你们的小米。今天,我要和大家聊一个有趣的话题:为什么微信语音不可以转发?这是一个我们经常在日常使用中遇到的问题,也是一个让很多人好奇的问题。让我们一起来揭开这
  • 中国家电海外掘金正当时|出海专题

    中国家电海外掘金正当时|出海专题

    作者|吴南南编辑|胡展嘉运营|陈佳慧出品|零态LT(ID:LingTai_LT)2023年,出海市场战况空前,中国创业者在海外纷纷摩拳擦掌,以期能够把中国的商业模式、创业理念、战略打法输出海外,他们依
  • 得物宠物生意「狂飙」,发力“它经济”

    得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的&ldquo;在线鉴别&rdquo;,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 滴滴违法违规被罚80.26亿 共存在16项违法事实

    滴滴违法违规被罚80.26亿 共存在16项违法事实

    滴滴违法违规被罚80.26亿 存在16项违法事实开始于2121年7月,历经一年时间,网络安全审查办公室对“滴滴出行”网络安全审查终于有了一个暂时的结束。据“网信
  • 与兆芯合作  联想推出全新旗舰版笔记本电脑开天N7系列

    与兆芯合作 联想推出全新旗舰版笔记本电脑开天N7系列

    联想与兆芯合作推出全新联想旗舰版笔记本电脑开天 N7系列。这个系列采用兆芯KX-6640MA处理器平台,KX-6640MA 处理器是采用了陆家嘴架构,16nm 工艺,4 核 4 线
  • 世界人工智能大会国际日开幕式活动在世博展览馆开启

    世界人工智能大会国际日开幕式活动在世博展览馆开启

    30日上午,世界人工智能大会国际日开幕式活动在世博展览馆开启,聚集国际城市代表、重量级院士专家、国际创新企业代表,共同打造人工智能交流平台。上海市副市
Top
Baidu
map