# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
功能 | 第章 | 说明 |
---|---|---|
pd.DataFrame(data) |
表格数据和 Pandas | 从二维数组或字典创建数据帧data |
pd.read_csv(filepath) |
Tabular Data and pandas | 将 csv 文件从filepath 导入为 Pandas 数据帧 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Tabular Data and pandas | 查看数据帧或序列的第一行n |
【HTG0】【HTG2】【HTG1】 | Tabular Data and pandas | 查看数据帧的索引和列值 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | 探索性数据分析 | 查看有关数据帧或序列的描述性统计信息 |
pd.Series.unique() |
Exploratory Data Analysis | 查看序列中的唯一值 |
pd.Series.value_counts() |
Exploratory Data Analysis | 查看序列中每个唯一值出现的次数 |
df[col] |
Tabular Data and pandas | 从数据帧df 返回列col 作为一个系列 |
df[[col]] |
Tabular Data and pandas | 从数据帧df 返回列col 作为数据帧 |
df.loc[row, col] |
Tabular Data and pandas | 从 dataframedf 返回索引名为row 和列名为col 的行;row 也可以是布尔序列 |
df.iloc[row, col] |
Tabular Data and pandas | 从数据帧df 返回索引号为row 和列号为col 的行;row 也可以是布尔序列 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | 数据清理 | 查看数据帧或序列中缺少的值 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Data Cleaning | 用value 填充数据帧或序列中缺少的值 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 | Data Cleaning | 从数据帧或序列中删除缺少值的行或列 |
pd.DataFrame.drop(labels, axis) |
Data Cleaning | 沿axis 从数据框中删除名为labels 的行或列 |
pd.DataFrame.rename() |
Data Cleaning | 重命名数据帧中的指定行或列 |
pd.DataFrame.replace(to_replace, value) |
Data Cleaning | 在数据帧中用value 替换to_replace 值 |
pd.DataFrame.reset_index(drop=False) |
Data Cleaning | 重置数据帧的索引;默认情况下,将旧索引保留为新列,除非指定了drop=True |
pd.DataFrame.sort_values(by, ascending=True) |
Tabular Data and pandas | 按指定列by 对数据帧排序,默认为升序 |
pd.DataFrame.groupby(by) |
Tabular Data and pandas | 返回 GroupBy 对象,该对象包含按指定列中的值分组的数据帧by |
GroupBy.<function> |
Tabular Data and pandas | 将函数<function> 应用于 groupby 对象GroupBy 中的每个组,例如mean() ,count() |
pd.Series.<function> |
Tabular Data and pandas | 将函数<function> 应用于具有数值的序列;例如mean() 、max() 、median() |
pd.Series.str.<function> |
Tabular Data and pandas | 将函数<function> 应用于具有字符串值的序列;例如len() 、lower() 、split() |
pd.Series.dt.<property> |
Tabular Data and pandas | 从具有日期时间值的序列中提取属性<property> ,例如year ,month ,date |
pd.get_dummies(columns, drop_first=False) |
--- | 将分类变量columns 转换为虚拟变量;默认值保留所有变量,除非指定了drop_first=True 。 |
pd.merge(left, right, how, on) |
探索性数据分析;数据库和 SQL | 在指定的列on 上将两个数据帧left 和right 合并在一起;连接类型取决于how |
pd.read_sql(sql, con) |
数据库和 SQL | 读取数据库连接con 上的 SQL 查询sql ,并将结果作为 Pandas 数据帧返回 |