数据的位置
用来度量数据中心位置的指标
- 平均数(sample mean)
- 几何平均数(GEOMETRIC mean)
- 中位数(Median)
- 众数(Mode)
- 百分位数(Percentile)
示例
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
| import os os.chdir(os.getcwd()) import pandas as pd import matplotlib.pyplot as plt
import baostock as bs
def getIndexDate(code:str,start_date:str,end_date:str): ''' 下载数据集 ''' lg = bs.login()
rs = bs.query_history_k_data_plus(code, "date,code,open,high,low,close,preclose,volume,amount,pctChg", start_date, end_date, frequency="d") data_list = [] while (rs.error_code == '0') & rs.next(): data_list.append(rs.get_row_data()) result = pd.DataFrame(data_list, columns=rs.fields) result.to_csv("%s.csv"%(code.replace(".","_")), index=False) bs.logout()
getIndexDate(code='sz.399376',start_date='2018-01-01', end_date='2021-06-10') returns = pd.read_csv('sz_399376.csv')
|
画出 sz.399376 股票的收盘价直方图
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
| returns.close.mean() ''' 4937.431747784431 ''' returns.close.median() ''' 4884.9446 ''' returns.close.mode() ''' 0 3442.2600 1 3525.6160 2 3540.0160 3 3551.7090 4 3574.8730 ... 830 6320.3282 831 6342.6444 832 6346.6771 833 6365.1933 834 6388.9117 Length: 835, dtype: float64 ''' [returns.close.quantile(i) for i in [0.25,0.65]] ''' [4315.082, 5464.19337] '''
|
数据的离散度
正态分布
在金融学研究中,收益率等变量的分布常常假定为正太分布或者对数正态分布,由于正态分布的概率密度曲线呈钟形,人们常称正态分布曲线为钟形曲线
VaR(Value at Risk)指在一定概率水平(@%)下,某一金融资产或者金融资产组合在未来特定一段时间内的最大可能损失
其他连续分布
卡方分布
抽样分布:卡方分布
非参数方法:卡方检验的运用
多项分布的卡方检验
泊松分布的卡方分布
正态分布的卡方检验
一致性的卡方检验
t分布
抽样分布:t分布
F分布
追本溯源F分布
变量的关系
变量的特性
独立性
相关性