本文翻译自https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/,数据集来源于https://datahack.analyticsvidhya.com/contest/practice-problem-time-series-2/。
目录表:
理解数据集和问题陈述
安装包(statsmodels)
方法1-从朴素法开始(Naive Approach)
方法2-简单平均(Simple average)
方法3-移动平均(Moving average)
方法4-一次指数平滑(Single exponential smoothing)
方法5-霍尔特线性趋势预测(Holt’s linear trend method)
方法6-三次指数平滑法(Holt ‘s Winter seasonal method)
方法7-自回归积分滑动平均模型(ARIMA)
这篇文章先翻译到方法3-移动平均章节;
理解数据集和问题陈述
上述的数据集是关于预测JetRail通勤者数量的时间序列问题,JetRail是独角兽投资的新高速铁路服务;该数据集包含了从2012.8–2014.9的两年的数据,利用这些数据我们需要预测接下来7个月的通勤者数量;
从上述数据集下载链接下载数据后,包含train和test两个数据集,这边章 只用到了train 数据集;
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#导入数据
df = pd.read_csv(‘Train.csv’)
#打印头部
df.head()
#打印尾部
df.tail()
从上述的打印语句可以看出,2012-2014这两年的数据数据是按照小时的通勤数量给出的,我们需要预估将来通勤的数量;
在这篇文章中,为了解释不同的方法,数据以天为基准进行细分和聚合;
构建数据子集,时间从2012.8-2013.12
产生训练集和测试集去训练模型。从2012.8-2013.10这14个月的数据用做训练集,2013.11-2013.12这两个月的数据用做测试集;
以天为单位聚合数据
#构建数据子集
#索引11856标志着2013年结束
df = pd.read_csv(‘Train.csv’, nrows=11856)
# 创建测试集和训练集
#索引10392标志着2013.10的
今天的文章
Python相关性分析_Python相关性分析分享到此就结束了,感谢您的阅读。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/60647.html