Skip to content

Latest commit

 

History

History
44 lines (39 loc) · 6.17 KB

20.1.md

File metadata and controls

44 lines (39 loc) · 6.17 KB

Pandas

原文:https://www.bookbookmark.ds100.org/ch/20/ref_pandas.html

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
功能 第章 说明
pd.DataFrame(data) 表格数据和 Pandas 从二维数组或字典创建数据帧data
pd.read_csv(filepath) Tabular Data and pandas 将 csv 文件从filepath导入为 Pandas 数据帧
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 Tabular Data and pandas 查看数据帧或序列的第一行n
【HTG0】【HTG2】【HTG1】 Tabular Data and pandas 查看数据帧的索引和列值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 探索性数据分析 查看有关数据帧或序列的描述性统计信息
pd.Series.unique() Exploratory Data Analysis 查看序列中的唯一值
pd.Series.value_counts() Exploratory Data Analysis 查看序列中每个唯一值出现的次数
df[col] Tabular Data and pandas 从数据帧df返回列col作为一个系列
df[[col]] Tabular Data and pandas 从数据帧df返回列col作为数据帧
df.loc[row, col] Tabular Data and pandas 从 dataframedf返回索引名为row和列名为col的行;row也可以是布尔序列
df.iloc[row, col] Tabular Data and pandas 从数据帧df返回索引号为row和列号为col的行;row也可以是布尔序列
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 数据清理 查看数据帧或序列中缺少的值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 Data Cleaning value填充数据帧或序列中缺少的值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 Data Cleaning 从数据帧或序列中删除缺少值的行或列
pd.DataFrame.drop(labels, axis) Data Cleaning 沿axis从数据框中删除名为labels的行或列
pd.DataFrame.rename() Data Cleaning 重命名数据帧中的指定行或列
pd.DataFrame.replace(to_replace, value) Data Cleaning 在数据帧中用value替换to_replace
pd.DataFrame.reset_index(drop=False) Data Cleaning 重置数据帧的索引;默认情况下,将旧索引保留为新列,除非指定了drop=True
pd.DataFrame.sort_values(by, ascending=True) Tabular Data and pandas 按指定列by对数据帧排序,默认为升序
pd.DataFrame.groupby(by) Tabular Data and pandas 返回 GroupBy 对象,该对象包含按指定列中的值分组的数据帧by
GroupBy.<function> Tabular Data and pandas 将函数<function>应用于 groupby 对象GroupBy中的每个组,例如mean()count()
pd.Series.<function> Tabular Data and pandas 将函数<function>应用于具有数值的序列;例如mean()max()median()
pd.Series.str.<function> Tabular Data and pandas 将函数<function>应用于具有字符串值的序列;例如len()lower()split()
pd.Series.dt.<property> Tabular Data and pandas 从具有日期时间值的序列中提取属性<property>,例如yearmonthdate
pd.get_dummies(columns, drop_first=False) --- 将分类变量columns转换为虚拟变量;默认值保留所有变量,除非指定了drop_first=True
pd.merge(left, right, how, on) 探索性数据分析;数据库和 SQL 在指定的列on上将两个数据帧leftright合并在一起;连接类型取决于how
pd.read_sql(sql, con) 数据库和 SQL 读取数据库连接con上的 SQL 查询sql,并将结果作为 Pandas 数据帧返回