文档
十分钟入门教程:https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
DataFrame文档:https://pandas.pydata.org/pandas-docs/stable/reference/frame.html
Series文档:https://pandas.pydata.org/pandas-docs/stable/reference/series.html
如何读取数据库
示例代码如下
from sqlalchemy import create_engine
import pandas as pd
username = '用户名'
password = '密码'
host = 'HOST地址'
db = '数据库我'
port = 端口号
link = f'''mysql+pymysql://{username}:{password}@{host}:{port}/{db}?charset=utf8'''
engine = create_engine(link, pool_recycle=3600)
核心方法read_sql
# 查询用户
logs:pd.DataFrame = pd.read_sql("SELECT * FROM log ORDER BY id DESC ",engine)
执行结果如下
如何筛选数据
- 筛选创建时间大于某个时间点的记录
import datetime
log[log['create_time'] > '2020-01-15 16:14:22']
- 筛选指定列的DataFrame
直接传递数组给给DataFrame
logs[['user_id','type']]
- 获取一列Series
logs['type']
如何连表
如何自定义函数处理
如何取数据
如何指定操作列或者操作行
如何重命名列
如何重建索引
如何画图
如何翻转
如果只有一列如何count,使用size
如何强制转换类型
如何作用字符串、时间函数
如何使用pivot_table函数代替groupby