GitHub - serenitylc/MachineLearning: Machine Learning Learning Notes

jupyter快捷键

Enter切换为编辑模式
Esc`切换为命令模式

命令模式快捷键

H：显示快捷键帮助
F：查找和替换
P：打开命令面板
Alt-Enter：运行当前cell并在下方新建cell
Y：把当前cell内容转换为代码形式
M：把当前cell内容转换为markdown形式
1~6：把当前cell内容设置为标题1~6格式
Shift+上下键：按住Shift进行上下键操作可复选多个cell
A：在上方新建cell
B：在下方新建cell
X/C/Shift-V/V：剪切/复制/上方粘贴/下方粘贴
双击D：删除当前cell
Z：撤销删除
S：保存notebook
L：为当前cell的代码添加行编号
Shift-L：为所有cell的代码添加行编号
Shift-M：合并所选cell或合并当前cell和下方的cell
双击I：停止kernel
双击0：重启kernel
在一个库，方法或变量前加上 ?，你可以获得它的一个快速语法说明。

编辑模式快捷键

Tab：代码补全
Shift-Tab : 提示
Ctrl-A：全选
Ctrl-Z：撤销
Ctrl-Home：将光标移至cell最前端
Ctrl-End：将光标移至cell末端
Ctrl-/：单行或多行注释与取消
Ctrl-]: 缩进
Ctrl-[ : 解除缩进
jupyter notebook误删cell 之后不要关闭窗口，也不要停止运行，直接在命令行按下z键就可以了。还有一个方式就是万能的 history，命令输入shift + 回车

scikit-learn

fit：从一个训练集中学习模型参数，包括归一化时用到的均值，标准偏差；
transform：将模型用于位置数据；
fit_transform：将模型训练和转化合并到一起；
训练样本先做fit，得到mean，standard deviation，然后将这些参数用于transform（归一化训练数据），使得到的训练数据是归一化的，而测试数据只需要在原先得到的mean，std上做归一化。
StandardScaler对矩阵作归一化处理，变换后的矩阵各特征均值为0，方差为1。
sklearn 提供了两种通用的参数搜索/采样方法：网络搜索和随机采样，
- 网格搜索交叉验证（GridSearchCV）：以穷举的方式遍历所有可能的参数组合
- 随机采样交叉验证（RandomizedSearchCV）：依据某种分布对参数空间采样，随机的得到一些候选参数组合方案
np.random.shuffle(x)：现场修改序列，改变自身内容。（类似洗牌，打乱顺序）对多维数组进行打乱排列时，默认是对第一个维度也就是列维度进行随机打乱
np.random.permutation(x)：返回一个随机排列，如果x是一个多维数组，则只会沿着它的第一个索引进行随机排列。
- axis=0：表示输出矩阵是1行，即求每一列的平均值。
- axis=1：表示输出矩阵是1列, 即求每一行的平均值。
- 实际上axis=0就是选择shape中第一维变为1，axis=1选择shape中第二维变为1。

clean data

%matplotlib inline
- import matplotlib.pyplot as plt
- plt.rcParams['font.sans-serif'] = ['SimHei']
- plt.rcParams['axes.unicode_minus'] = False
import warnings
- warnings.filterwarnings("ignore", message="numpy.dtype size changed")
- warnings.filterwarnings("ignore", message="numpy.ufunc size changed")
import os
- os.environ['path']
- os.getenv('path')
- os.getcwd()
import sys
- current_path=os.getcwd()
- sys.path.append(current_path)`
pd.set_option('display.max_columns', None)显示所有列
pd.set_option('display.max_rows', None)显示所有行
pd.set_option('max_colwidth',100)设置value的显示长度为100，默认为50
df.columns = [str(col) + '_x' for col in df.columns]列名加前后缀
用中括号[a,b]表示样本估计总体平均值误差范围的区间，a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度，[a,b]被称为置信区间。最常用的95%置信水平，就是说做100次抽样，有95次的置信区间包含了总体均值。
分类交叉熵是分类问题合适的损失函数，它最小化模型输出的概率分布和真实label的概率分布之间的距离。
处理多分类中label的两种方法：
- 通过one-hot编码编码label，并使用categorical_crossentropy作为损失函数；
- 通过整数张量编码label，并使用sparse_categorical_crossentropy损失函数，对于数据分类的类别较多的情况，应该避免创建较小的中间layer，导致信息瓶颈。
常见回归指标是平均绝对误差（MAE）,若可用数据较少，使用K折验证进行可靠评估。
roc_auc_score()：首先获得roc曲线,然后调用auc()来获取该区域。调用predict_proba()，对于正常的预测,输出总是相同的。传入预测的分类结果和预测的概率都是可以计算的。正确的做法是传入预测概率，这样才符合AUC的计算原理。并且传入分类结果的话，AUC指标会更低，因为曲线变粗糙了。
Pearson相关系数要求两个连续性变量符合正态分布,不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数，也称为等级相关系数。

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.vscode		.vscode
B站《机器学习白板推导》		B站《机器学习白板推导》
周志华《Machine Learning》		周志华《Machine Learning》
统计学习方法		统计学习方法
01mnist.py		01mnist.py
02classifyMovieReviews.py		02classifyMovieReviews.py
03classifyNewswires.py		03classifyNewswires.py
04predictHousePrices.py		04predictHousePrices.py
05overfitAndUnderfit.py		05overfitAndUnderfit.py
06introductionToConvnets.py		06introductionToConvnets.py
07usingConvnetsWithSmallDatasets.py		07usingConvnetsWithSmallDatasets.py
08useaPre-trainedConvnet.py		08useaPre-trainedConvnet.py
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

jupyter快捷键

命令模式快捷键

编辑模式快捷键

scikit-learn

clean data

About

Releases

Packages

Languages

serenitylc/MachineLearning

Folders and files

Latest commit

History

Repository files navigation

jupyter快捷键

命令模式快捷键

编辑模式快捷键

scikit-learn

clean data

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages