我想弄清楚何时在pandas DataFrame中使用不同的选择方法.特别是,我正在寻找访问标量值.我经常听到ix被普遍推荐.但在pandas documentation
建议使用at和iat进行快速标量值访问:
因为使用[]进行索引必须处理很多情况(单标签访问,切片,布尔索引等),所以它有一些开销以便弄清楚你要求的是什么.如果您只想访问标量值,最快的方法是使用在所有数据结构上实现的atat和iat方法.
因此,我认为iat应该更快地获取和设置单个细胞.然而,经过一些测试,我们发现ix对于读取细胞可以具有可比性或更快,而为细胞分配值要快得多.
这种行为记录在哪里吗?它总是如此,为什么会发生这种情况?是否必须对返回视图或复制执行某些操作?如果有人能对这个问题有所了解并解释建议获取和设置单元格值以及原因,我将不胜感激.
以下是使用pandas的一些测试(版本0.15.2).
为了确保此行为不是此版本的错误,我还在0.11.0上测试了它.我没有提供结果,但趋势是完全相同的 – ix更快获得,并且iat用于设置单个单元格.
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(1000,2),columns = ['A','B'])
idx = 0
timeit for i in range(1000): df.ix[i,'A'] = 1
timeit for i in range(1000): df.iat[i,idx] = 2
>> 10 loops, best of 3: 92.6 ms per loop
>> 10 loops, best of 3: 21.7 ms per loop
timeit for i in range(1000): tmp = df.ix[i,'A']
timeit for i in range(1000): tmp = df.iat[i,idx]
>> 100 loops, best of 3: 5.31 ms per loop
>> 10 loops, best of 3: 19.4 ms per loop
解决方法:
Pandas在indexing classes中做了一些非常有趣的事情.我认为我无法描述一种简单的方法来了解哪些内容,但我可以对实现提供一些见解.
DataFrame#ix
是_IXIndexer
,它没有声明自己的__getitem__
或__setitem__
.这两种方法很重要,因为它们控制了如何使用Pandas访问值.由于_IXIndexer没有声明这些方法,因此使用了super class _NDFrameIndexer
.
进一步挖掘_NDFrameIndexer的__getitem__
表明它相对简单,并且在某些情况下包装了get_value
中的逻辑.然后__getitem__在某些情况下接近和get_value一样快.
_NDFrameIndexer的__setitem__
是另一回事.起初它看起来很简单,但它调用的第二种方法是_setitem_with_indexer
,它在大多数情况下都做了相当多的工作.
此信息表明,使用ix获取值的调用在最佳情况下受get_value的限制,使用ix调用set值将需要核心提交者来解释.
现在为DataFrame#iat
,这是一个_iAtIndexer
,它也没有声明自己的__getitem__或__setitem__,因此回到它的超级类_ScalarAccessIndexer
的实现.
_ScalarAccessIndexer具有simple __getitem__
实现,但它需要一个循环才能将密钥转换为正确的格式.在调用get_value之前,附加循环会增加一些额外的处理时间.
_ScalarAccessIndexer还有一个相当的simple __setitem__
实现,它在设置值之前转换set_value所需的参数密钥.
此信息表明使用iat获取值的调用受get_value和for loop的限制.使用iat设置值主要受限于调用set_value.因此,使用iat获取值会产生一些开销,而设置它们会产生较小的开销.
TL; DR
我相信你正在使用基于文档的Int64Index索引的正确访问器,但我不认为这意味着它是最快的.可以使用get_value和set_value直接找到最佳性能,但它们需要对Pandas DataFrames的实现方式有更深入的了解.
笔记
值得注意的是,关于Pandas的文档提到get_value和set_value已被弃用,我认为这意味着iget_value
.
例子
为了使用一些索引器(包括直接调用get_value和set_value)来显示性能差异,我创建了这个脚本:
example.py:
import timeit
def print_index_speed(stmnt_name, stmnt):
"""
Repeatedly run the statement provided then repeat the process and take the
minimum execution time.
"""
setup = """
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(1000,2),columns = ['A','B'])
idx = 0
"""
minimum_execution_time = min(
timeit.Timer(stmnt, setup=setup).repeat(5, 10))
print("{stmnt_name}: {time}".format(
stmnt_name=stmnt_name,
time=round(minimum_execution_time, 5)))
print_index_speed("set ix", "for i in range(1000): df.ix[i, 'A'] = 1")
print_index_speed("set at", "for i in range(1000): df.at[i, 'A'] = 2")
print_index_speed("set iat", "for i in range(1000): df.iat[i, idx] = 3")
print_index_speed("set loc", "for i in range(1000): df.loc[i, 'A'] = 4")
print_index_speed("set iloc", "for i in range(1000): df.iloc[i, idx] = 5")
print_index_speed(
"set_value scalar",
"for i in range(1000): df.set_value(i, idx, 6, True)")
print_index_speed(
"set_value label",
"for i in range(1000): df.set_value(i, 'A', 7, False)")
print_index_speed("get ix", "for i in range(1000): tmp = df.ix[i, 'A']")
print_index_speed("get at", "for i in range(1000): tmp = df.at[i, 'A']")
print_index_speed("get iat", "for i in range(1000): tmp = df.iat[i, idx]")
print_index_speed("get loc", "for i in range(1000): tmp = df.loc[i, 'A']")
print_index_speed("get iloc", "for i in range(1000): tmp = df.iloc[i, idx]")
print_index_speed(
"get_value scalar",
"for i in range(1000): tmp = df.get_value(i, idx, True)")
print_index_speed(
"get_value label",
"for i in range(1000): tmp = df.get_value(i, 'A', False)")
输出:
set ix: 0.9918
set at: 0.06801
set iat: 0.08606
set loc: 1.04173
set iloc: 1.0021
set_value: 0.0452
**set_value**: 0.03516
get ix: 0.04827
get at: 0.06889
get iat: 0.07813
get loc: 0.8966
get iloc: 0.87484
get_value: 0.04994
**get_value**: 0.03111