如何在Pandas中实现类似于SQL查询的数据操作?

发布时间:2025-05-14 07:19:30 作者:益华网络 来源:undefined 浏览量(0) 点赞(0)
摘要:介绍 SQL 的神奇之处在于其易于学习,而它之所以如此容易学习的原因主要是代码语法非常直观。 但是,与SQL相比,Pandas 就不那么直观了,尤其是在我们先用的是SQL,再转向 Pandas 时,这种感觉尤为强烈。 那么,我们是不是应该思考在 SQL 中进行的数据操作,能不能在

 介绍

SQL 的神奇之处在于其易于学习,而它之所以如此容易学习的原因主要是代码语法非常直观。

但是,与SQL相比,Pandas 就不那么直观了,尤其是在我们先用的是SQL,再转向 Pandas 时,这种感觉尤为强烈。

那么,我们是不是应该思考在 SQL 中进行的数据操作,能不能在 Pandas 实现?

基于以上目标,本文可以作为一个在Pandas中编写SQL查询的指南。

目录

选择行 组合表格 筛选表 排序值 聚合函数

1. 选择行

SELECT * FROM

如果要选择整个表,只需调用表的名称:

# SQL SELECT * FROM table_df # Pandas table_df

SELECT a, b FROM

如果要从表中选择特定列,请在双括号中列出要的列:

# SQL SELECT column_a, column_b FROM table_df # Pandas table_df[[column_a, column_b]] 

SELECT DISTINCT

只需使用 .drop\u duplicates()即可获得不同的值:

# SQL SELECT DISTINCT column_a FROM table_df # Pandas table_df[column_a].drop_duplicates() 

SELECT a as b

如果要重命名列,请使用 .rename():

# SQL SELECT column_a as Apple, column_b as Banana FROM table_df # Pandas table_df[[column_a, column_b]].rename(columns={column_a: Apple, column_b:Banana}) 

SELECT CASE WHEN

对于"SELECT CASE WHEN"的等效项,可以使用 np.select(), 其中首先指定每个选项的选择和值。

# SQL SELECT CASE WHEN column_a > 30 THEN "Large"             WHEN column_a <= 30 THEN "Small"             END AS Size FROM table_df # Pandas conditions = [table_df[column_a]>30, table_df[column_b]<=30] choices = [Large, Small] table_df[Size] = np.select(conditions, choices)

2. 组合表格

INNER/LEFT/RIGHT JOIN

只需使用 .merge()来连接表,就可以使用“how”参数指定它是 LEFT、RIGHT、 INNER 或者 OUTER联接。

# SQL SELECT * FROM table_1 t1          LEFT JOIN table_2 t1 on t1.lkey = t2.rkey  # Pandas table_1.merge(table_2, left_on=lkey, right_on=rkey, how=left) 

UNION ALL

只需使用 pd.concat():

# SQL SELECT * FROM table_1 UNION ALL SELECT * FROM table_2 # Pandas final_table = pd.concat([table_1, table_2])

3. 筛选表

SELECT WHERE

在筛选数据帧时,与在 SQL 中使用 WHERE 子句的方式相同时,只需在方括号中定义条件:

# SQL SELECT * FROM table_df WHERE column_a = 1 # Pandas table_df[table_df[column_a] == 1] 

SELECT column_a WHERE column_b

如果要从表中选择某个列并筛选其他列,请按照以下格式操作:

# SQL SELECT column_a FROM table_df WHERE column_b = 1 # Pandas table_df[table_df[column_b]==1][column_a]

SELECT WHERE AND

如果要按多个条件进行筛选,只需将每个条件换在括号中,并使用"&"分隔每个条件。

# SQL SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 # Pandas table_df[(table_df[column_a]==1) & (table_df[column_b]==2)] 

SELECT WHERE LIKE

SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感,只需在参数中添加 case=False。

# SQL SELECT * FROM table_df WHERE column_a LIKE %ball% # Pandas table_df[table_df[column_a].str.contains(ball)]

SELECT WHERE column IN()

SQL 中 IN() 的等效项为 .isin()。

# SQL SELECT * FROM table_df WHERE column_a IN(Canada, USA) # Pandas table_df[table_df[column_a].isin([Canada, USA])] 

4.排序值

ORDER BY one column

在SQL中,ORDER BY 的等同于 .sort_values()。使用 ascending 参数指定是按升序还是降序对值排序,默认值与 SQL 一样升序。

# SQL SELECT * FROM table_df ORDER BY column_a DESC # Pandas table_df.sort_values(column_a, ascending=False) 

ORDER BY multiple columns

如果要按多个列排序,可以列出括号中的列,并在括号中的 “ascending” 参数中指定排序方向。请确保遵循列出的列的相应顺序。

# SQL SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC # Pandas table_df.sort_values([column_a, column_b], ascending=[False, True])

5.聚合函数

COUNT DISTINCT

聚合函数有一个通用模式。

要复制 COUNT DISTINCT,只需使用 .groupby()和.nunique()。

# SQL SELECT column_a, COUNT DISTINCT(ID)  FROM table_df GROUP BY column_a # Pandas table_df.groupby(column_a)[ID].nunique()

SUM

# SQL SELECT column_a, SUM(revenue)  FROM table_df GROUP BY column_a  # Pandas table_df.groupby([column_a, revenue]).sum() 

AVG

# SQL SELECT column_a, AVG(revenue)  FROM table_df GROUP BY column_a # Pandas table_df.groupby(column_a)[revenue].mean() 

总结

Pandas无疑是一个强大的Python数据分析库,但是它也不是无所不能,对于某些操作并不具体和方便。

以上的操作可以帮助大家更好地在Pandas中实现一些SQL查询的实用操作,大家赶紧玩起来~

二维码

扫一扫,关注我们

声明:本文由【益华网络】编辑上传发布,转载此文章须经作者同意,并请附上出处【益华网络】及本页链接。如内容、图片有任何版权问题,请联系我们进行处理。

感兴趣吗?

欢迎联系我们,我们愿意为您解答任何有关网站疑难问题!

您身边的【网站建设专家】

搜索千万次不如咨询1次

主营项目:网站建设,手机网站,响应式网站,SEO优化,小程序开发,公众号系统,软件开发等

立即咨询 15368564009
在线客服
嘿,我来帮您!