Pyspark DataFrameWriter类具有用于将数据帧写入sql的jdbc
function.该函数具有–ignore选项,文档中将说明:
Silently ignore this operation if data already exists.
但是它将忽略整个事务,还是仅忽略插入重复的行?如果我将–ignore与–append标志结合起来怎么办?行为会改变吗?
解决方法:
如果表(或另一个接收器)已经存在并且无法合并写入模式,则mode(“ ingore”)只是NOOP.如果您正在寻找诸如INSERT IGNORE或INSERT INTO …之类的东西,那么……您将不得不手动进行操作,例如使用mapPartitions.