如何在pymongo中进行批量upsert?我想更新一堆条目,一次做一个是非常慢的.
几乎完全相同的问题的答案在这里:Bulk update/upsert in MongoDB?
接受的答案实际上没有回答这个问题.它只是提供了一个指向mongo CLI的链接,用于执行导入/导出.
我也愿意向某人解释为什么做大量upsert是不可能/没有最佳做法,但请解释这类问题的首选解决方案是什么.
解决方法:
MongoDB 2.6支持批量操作.这包括批量插入,插入,更新等.这样做的目的是减少/消除执行逐个记录操作的往返延迟(“逐个文档”是正确的)的延迟.
那么,这是如何工作的? Python中的示例,因为这就是我正在从事的工作.
>>> import pymongo
>>> pymongo.version
'2.7rc0'
要使用此功能,我们创建一个“批量”对象,向其中添加文档,然后在其上调用execute,它将立即发送所有更新.注意事项:收集的操作的BSONsize(bsonsizes的总和)不能超过16 MB的文档大小限制.当然,操作次数因此可能会有很大差异,您的里程可能会有所不同.
Bulk upsert操作的Pymongo示例:
import pymongo
conn = pymongo.MongoClient('myserver', 8839)
db = conn['mydbname']
coll = db.myCollection
bulkop = coll.initialize_ordered_bulk_op()
retval = bulkop.find({'field1':1}).upsert().update({'$push':{'vals':1}})
retval = bulkop.find({'field1':1}).upsert().update({'$push':{'vals':2}})
retval = bulkop.find({'field1':1}).upsert().update({'$push':{'vals':3}})
retval = bulkop.execute()
这是必不可少的方法.更多信息,请访问:
http://api.mongodb.org/python/2.7rc1/examples/bulk.html
编辑: – 从3.5版本的python驱动程序,不推荐使用initialize_ordered_bulk_op.请改用bulk_write(). [http://api.mongodb.com/python/current/api/pymongo/collection.html#pymongo.collection.Collection.bulk_write]