与SciPy一起使用的统计计算和模型
项目描述
这是什么
Statsmodels是一个Python包,为统计计算提供补充,包括描述性统计和统计模型的估计。
主要功能
回归:广义最小二乘法(包括加权最小二乘法和自回归误差的最小二乘法),普通最小二乘法。
glm:具有对所有一参数指数分布族支持的广义线性模型。
离散选择模型:泊松、probit、logit、多项logit
rlm:具有对多个M估计量支持的稳健线性模型。
tsa:时间序列分析模型,包括ARMA、AR、VAR
非参数:单变量核密度估计
数据集:用于分发、示例和测试的数据集。
PyDTA:读取 Stata .dta 文件到 numpy 数组的工具。
stats:广泛的统计测试
沙盒:还有一个沙盒,其中包含广义加性模型(未经测试)、混合效应模型、Cox 比例风险模型(两者都未经测试,并且仍依赖于 nipy 公式框架)、生成描述性统计以及将表格输出打印为 ascii、latex 和 html 的代码。还包括系统方程回归、时间序列模型、面板数据估计量和信息论度量等实验代码。所有这些代码都不被认为是“生产就绪”的。
获取方式
开发分支将在 Github 上。这是获取最新 trunk 分支代码的地方。实验代码在此分支和开发者分叉中托管。此代码经常合并到 master 分支。我们试图确保 master 分支始终保持稳定。
https://www.github.com/statsmodels/statsmodels
稳定标签的源代码下载将在 SourceForge 上。
https://sourceforge.net/projects/statsmodels/
或
从源安装
在顶级目录中,只需执行
python setup.py install
参见 INSTALL.txt 以获取要求或
http://statsmodels.sourceforge.net/
获取更多信息。
许可证
简化版 BSD 协议
文档
官方文档托管在 SourceForge。
http://statsmodels.sourceforge.net/
当前的 sphinx 文档正在进行大量工作。它们还不是全面的,但应该能让你入门。
我们的博客将继续随着我们对代码的进展而更新。
Windows 帮助
Windows 源代码分发包括一个 htmlhelp 文件(statsmodels.chm)。可以从 python 解释器打开它
>>> import scikits.statsmodels.api as sm >>> sm.open_help()
讨论和发展
所有讨论都将发生在 scipy-user 邮件列表上。我们非常欢迎通过邮件列表或 GitHub 上的 bug 追踪器(
https://github.com/statsmodels/statsmodels/issues
)收到关于可用性、改进建议和错误报告的反馈。
http://groups.google.com/group/pystatsmodels
来讨论被认为是过于专业化的 scipy-dev/user 列表上的发展和设计问题。
Python 3
scikits.statsmodels 已被移植并针对 Python 3.2 进行了测试。可以通过在整个 statsmodels 源代码上运行 2to3.py 获取代码的 Python 3 版本。statsmodels 的数值核心几乎无需更改即可工作,但可能会出现数据输入和绘图的问题。iolib.foreign 中的 STATA 文件读取器和写入器尚未移植。此外,在测试中使用的 Python 3 的 matplotlib 版本还存在一些问题。使用 Python 3.2 运行测试套件显示了一些与 foreign 和 matplotlib 相关的错误。
版本历史
0.3.1
删除了仅限学术的 WFS 数据集。
修复了 Windows 上的 easy_install 问题。
0.3.0
破坏向后兼容性的更改
添加了 api.py 用于导入。因此,新的导入约定是
import scikits.statsmodels.api as sm
从模块直接导入现在避免了不必要的导入,并在库或用户只需要特定函数的情况下提高了导入速度。
sandbox/output.py -> iolib/table.py
lib/io.py -> iolib/foreign.py(现在包含 Stata .dta 格式读取器)
family -> families
families.links.inverse -> families.links.inverse_power
数据集的 Load 类现在是 load 函数。
regression.py -> regression/linear_model.py
discretemod.py -> discrete/discrete_model.py
rlm.py -> robust/robust_linear_model.py
glm.py -> genmod/generalized_linear_model.py
model.py -> base/model.py
t() 方法 -> tvalues 属性(t() 仍然存在但会引发警告)
主要更改和新增内容
大量错误修复。
时间序列分析模型(tsa)
向量自回归模型 VAR (tsa.VAR)
自回归模型 AR (tsa.AR)
自回归移动平均模型 ARMA (tsa.ARMA),可选地使用 Cython 进行卡尔曼滤波,使用 setup.py install 命令并添加 –with-cython 选项
Baxter-King 带通滤波器 (tsa.filters.bkfilter)
Hodrick-Prescott 滤波器 (tsa.filters.hpfilter)
Christiano-Fitzgerald 滤波器 (tsa.filters.cffilter)
改进的最大似然框架使用所有可用的 scipy.optimize 求解器
重构数据集子包
增加了更多示例数据集
移除了运行测试套件所需的 RPy 依赖
重构了测试套件
重构了代码库/目录结构
支持 GLM 中的偏移量和暴露度
对于二项式模型,从 GLM.fit 中移除了 data_weights 参数
新增了更多的统计测试,尤其是诊断和规范测试
多重测试校正
沙盒中的广义矩方法框架
改进了文档
以及其他新增功能
0.2.0
主要更改
重命名以实现更多一致性:RLM.fitted_values -> RLM.fittedvalues,GLMResults.resid_dev -> GLMResults.resid_deviance
GLMResults,RegressionResults:延迟计算,将属性转换为具有 _cache 的属性
修复测试以在没有 rpy 的情况下运行
在 examples 目录中扩展了示例
在 lib.io 中添加了 PyDTA – 用于读取 Stata .dta 二进制文件并将它们转换为 NumPy 数组的函数
使 tools.categorical 更加健壮
add_constant 现在接受一个 prepend 参数
修复 GLS 以与只有一个列的设计一起工作
新功能
添加了四个新数据集
来自美国国家选举研究(1996年)的数据集
Grunfeld(1950)投资数据
Spector 和 Mazzeo(1980)项目有效性数据
美国宏观经济数据集
为具有离散因变量的模型添加了四个新的最大似然估计器,并附带了示例
Logit
Probit
MNLogit(多项式 logit)
Poisson
沙盒
在 sandbox.graphics 中添加了 qqplot
添加 sandbox.tsa(时间序列分析)和 sandbox.regression(方差分析)
在 sandbox.tools 中添加了主成分分析
在 sandbox.sysreg.Sem2SLS 中为方程组添加了看似不相关的回归(SUR)和两阶段最小二乘法
添加了限制性最小二乘法(RLS)
0.1.0b1
初始发布
项目详情
下载文件
下载适合您平台文件的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。