【Python3】
之前做的入门练习里有一题将excel文件转化为xml文件,这回补上逆向转换→xml to excel
用的还是beautifulsoup。
主要还是:①读取待处理文件文本内容 ②处理文本写入数据到所需格式文件中
原xml文件如下:
<?xml version="1.0"?>
<doc>
<taxML cnName="增值税发票开具明细" xmlns="http://www.chinatax.gov.cn/dataspec/" name="slSbbtjZzsfpkjmxRequest" version="SW5001-2006" xsi:type="slSbbtjZzsfpkjmxRequest" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<sbbZzsfpkjmx>
<head>
<publicHead>
<nsrsbh>440100581884333</nsrsbh>
<nsrmc>广州贝凡信息技术有限公司</nsrmc>
<tbrq>20160801</tbrq>
<sssq>
<rqQ>20160101</rqQ>
<rqZ>20160831</rqZ>
</sssq>
</publicHead>
</head>
<body>
<zyfpkjmx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117808</fphm>
<kprq>20160107 11:16:03</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>1</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117809</fphm>
<kprq>20160107 11:18:54</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>2</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117810</fphm>
<kprq>20160107 11:20:09</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>3</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117811</fphm>
<kprq>20160107 11:22:58</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>142.03</je>
<se>8.52</se>
<zfbz>N</zfbz>
<xh>4</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117812</fphm>
<kprq>20160107 11:24:28</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>5</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117813</fphm>
<kprq>20160107 11:26:07</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>60417.70</je>
<se>3625.06</se>
<zfbz>N</zfbz>
<xh>6</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117814</fphm>
<kprq>20160107 11:32:33</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>7</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117815</fphm>
<kprq>20160107 11:34:30</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>434.35</je>
<se>26.06</se>
<zfbz>N</zfbz>
<xh>8</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117816</fphm>
<kprq>20160107 11:35:54</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>9</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117817</fphm>
<kprq>20160107 11:37:47</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>10</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117818</fphm>
<kprq>20160107 11:39:00</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>11</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117819</fphm>
<kprq>20160107 11:39:53</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>12</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117820</fphm>
<kprq>20160107 11:41:13</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>13</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117821</fphm>
<kprq>20160107 11:42:21</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>14</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117822</fphm>
<kprq>20160107 11:43:38</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>8740.53</je>
<se>524.43</se>
<zfbz>N</zfbz>
<xh>15</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117823</fphm>
<kprq>20160112 12:16:13</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>Y</zfbz>
<xh>16</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117824</fphm>
<kprq>20160112 12:29:19</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>17</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117825</fphm>
<kprq>20160112 12:33:53</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>30428.34</je>
<se>1825.70</se>
<zfbz>N</zfbz>
<xh>18</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117826</fphm>
<kprq>20160113 12:44:58</kprq>
<gmfnsrsbh>441601749182176</gmfnsrsbh>
<je>21650.94</je>
<se>1299.06</se>
<zfbz>N</zfbz>
<xh>19</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117827</fphm>
<kprq>20160129 12:09:48</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>20</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117828</fphm>
<kprq>20160129 12:11:15</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>21</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117829</fphm>
<kprq>20160129 12:12:25</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>22</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117830</fphm>
<kprq>20160129 12:14:05</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>23</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117831</fphm>
<kprq>20160129 12:15:31</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>24</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117832</fphm>
<kprq>20160129 12:16:57</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>25</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117833</fphm>
<kprq>20160129 12:18:07</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>26</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117834</fphm>
<kprq>20160129 12:19:11</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>27</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117835</fphm>
<kprq>20160129 12:20:03</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>28</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>19117836</fphm>
<kprq>20160129 12:20:53</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>29</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199509</fphm>
<kprq>20160129 13:52:10</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>30</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199510</fphm>
<kprq>20160129 13:53:27</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>31</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199511</fphm>
<kprq>20160129 13:54:18</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>32</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199512</fphm>
<kprq>20160129 13:55:24</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>33</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199513</fphm>
<kprq>20160129 13:56:23</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>34</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199514</fphm>
<kprq>20160129 13:58:24</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>35</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199515</fphm>
<kprq>20160129 13:59:39</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>22371.25</je>
<se>1342.27</se>
<zfbz>N</zfbz>
<xh>36</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199516</fphm>
<kprq>20160303 13:49:44</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>15091.66</je>
<se>905.50</se>
<zfbz>N</zfbz>
<xh>37</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199517</fphm>
<kprq>20160303 13:52:13</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>53915.00</je>
<se>3234.90</se>
<zfbz>N</zfbz>
<xh>38</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199518</fphm>
<kprq>20160303 13:54:22</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>39</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199519</fphm>
<kprq>20160303 13:55:30</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>40</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199520</fphm>
<kprq>20160303 13:56:30</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>41</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199521</fphm>
<kprq>20160303 13:57:56</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>42</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199522</fphm>
<kprq>20160303 13:58:48</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>43</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199523</fphm>
<kprq>20160303 14:00:11</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>44</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199524</fphm>
<kprq>20160303 14:02:45</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>45</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199525</fphm>
<kprq>20160303 14:04:04</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>46</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199526</fphm>
<kprq>20160303 14:06:00</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>20448.11</je>
<se>1226.89</se>
<zfbz>N</zfbz>
<xh>47</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199527</fphm>
<kprq>20160307 11:24:32</kprq>
<gmfnsrsbh>110106783995939</gmfnsrsbh>
<je>50283.02</je>
<se>3016.98</se>
<zfbz>Y</zfbz>
<xh>48</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199528</fphm>
<kprq>20160307 11:26:36</kprq>
<gmfnsrsbh>110106783995939</gmfnsrsbh>
<je>51886.79</je>
<se>3113.21</se>
<zfbz>Y</zfbz>
<xh>49</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199529</fphm>
<kprq>20160307 11:35:41</kprq>
<gmfnsrsbh>110106783995939</gmfnsrsbh>
<je>50283.02</je>
<se>3016.98</se>
<zfbz>N</zfbz>
<xh>50</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199530</fphm>
<kprq>20160307 11:36:52</kprq>
<gmfnsrsbh>110106783995939</gmfnsrsbh>
<je>51886.79</je>
<se>3113.21</se>
<zfbz>N</zfbz>
<xh>51</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199531</fphm>
<kprq>20160310 11:39:04</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>84218.44</je>
<se>5053.11</se>
<zfbz>N</zfbz>
<xh>52</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199532</fphm>
<kprq>20160310 17:07:28</kprq>
<gmfnsrsbh>31022869575617X</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>53</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199533</fphm>
<kprq>20160310 17:12:42</kprq>
<gmfnsrsbh>31022869575617X</gmfnsrsbh>
<je>23911.56</je>
<se>1434.69</se>
<zfbz>N</zfbz>
<xh>54</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199534</fphm>
<kprq>20160317 17:18:11</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>34106.16</je>
<se>2046.37</se>
<zfbz>N</zfbz>
<xh>55</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199535</fphm>
<kprq>20160321 11:58:10</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>465.58</je>
<se>27.94</se>
<zfbz>N</zfbz>
<xh>56</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199536</fphm>
<kprq>20160412 11:44:03</kprq>
<gmfnsrsbh>441601749182176</gmfnsrsbh>
<je>21650.94</je>
<se>1299.06</se>
<zfbz>N</zfbz>
<xh>57</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199537</fphm>
<kprq>20160412 11:46:11</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>58</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24199538</fphm>
<kprq>20160412 11:48:16</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>26140.43</je>
<se>1568.43</se>
<zfbz>N</zfbz>
<xh>59</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947256</fphm>
<kprq>20160425 16:05:03</kprq>
<gmfnsrsbh>31022869575617X</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>60</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947257</fphm>
<kprq>20160425 16:07:05</kprq>
<gmfnsrsbh>31022869575617X</gmfnsrsbh>
<je>7281.89</je>
<se>436.91</se>
<zfbz>N</zfbz>
<xh>61</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947258</fphm>
<kprq>20160426 17:33:48</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>56935.85</je>
<se>3416.15</se>
<zfbz>N</zfbz>
<xh>62</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947259</fphm>
<kprq>20160607 13:33:45</kprq>
<gmfnsrsbh>91440000190351003U</gmfnsrsbh>
<je>97087.38</je>
<se>2912.62</se>
<zfbz>Y</zfbz>
<xh>63</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947260</fphm>
<kprq>20160607 13:40:27</kprq>
<gmfnsrsbh>91440000190351003U</gmfnsrsbh>
<je>19911.46</je>
<se>597.34</se>
<zfbz>Y</zfbz>
<xh>64</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947261</fphm>
<kprq>20160607 17:14:14</kprq>
<gmfnsrsbh>31022869575617X</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>65</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947262</fphm>
<kprq>20160607 17:18:44</kprq>
<gmfnsrsbh>31022869575617X</gmfnsrsbh>
<je>6091.66</je>
<se>365.50</se>
<zfbz>N</zfbz>
<xh>66</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947263</fphm>
<kprq>20160607 17:36:18</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>76950.19</je>
<se>4617.01</se>
<zfbz>N</zfbz>
<xh>67</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947264</fphm>
<kprq>20160607 17:37:46</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>68</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947265</fphm>
<kprq>20160607 17:39:49</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>69</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947266</fphm>
<kprq>20160607 17:41:03</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>70</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947267</fphm>
<kprq>20160607 17:42:28</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>71</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947268</fphm>
<kprq>20160607 17:43:23</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>72</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947269</fphm>
<kprq>20160607 17:46:36</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>44303.26</je>
<se>2658.20</se>
<zfbz>N</zfbz>
<xh>73</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947270</fphm>
<kprq>20160608 12:56:10</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>74</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947271</fphm>
<kprq>20160608 12:57:43</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>75</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947272</fphm>
<kprq>20160608 12:59:23</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>65097.55</je>
<se>3905.85</se>
<zfbz>N</zfbz>
<xh>76</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947273</fphm>
<kprq>20160616 17:36:20</kprq>
<gmfnsrsbh>91440000190351003U</gmfnsrsbh>
<je>97087.38</je>
<se>2912.62</se>
<zfbz>N</zfbz>
<xh>77</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947274</fphm>
<kprq>20160616 17:41:26</kprq>
<gmfnsrsbh>91440000190351003U</gmfnsrsbh>
<je>19911.46</je>
<se>597.34</se>
<zfbz>N</zfbz>
<xh>78</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947275</fphm>
<kprq>20160622 11:52:50</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>18955.47</je>
<se>1137.33</se>
<zfbz>N</zfbz>
<xh>79</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947276</fphm>
<kprq>20160623 12:55:56</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>80052.88</je>
<se>4803.17</se>
<zfbz>N</zfbz>
<xh>80</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947277</fphm>
<kprq>20160623 17:18:44</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>81</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947278</fphm>
<kprq>20160623 17:22:32</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>48811.51</je>
<se>2928.69</se>
<zfbz>N</zfbz>
<xh>82</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947279</fphm>
<kprq>20160630 11:44:56</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>94339.62</je>
<se>5660.38</se>
<zfbz>N</zfbz>
<xh>83</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947280</fphm>
<kprq>20160630 11:46:32</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>7771.70</je>
<se>466.30</se>
<zfbz>N</zfbz>
<xh>84</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947281</fphm>
<kprq>20160706 17:13:12</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>7253.25</je>
<se>435.19</se>
<zfbz>Y</zfbz>
<xh>85</xh>
</mxxx>
<mxxx>
<fpdm>4400153130</fpdm>
<fphm>24947282</fphm>
<kprq>20160706 17:21:08</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>7253.25</je>
<se>435.19</se>
<zfbz>N</zfbz>
<xh>86</xh>
</mxxx>
<mxxx>
<fpdm>4400154130</fpdm>
<fphm>10394896</fphm>
<kprq>20160713 11:53:26</kprq>
<gmfnsrsbh>441601749182176</gmfnsrsbh>
<je>21650.94</je>
<se>1299.06</se>
<zfbz>Y</zfbz>
<xh>87</xh>
</mxxx>
<mxxx>
<fpdm>4400154130</fpdm>
<fphm>10394897</fphm>
<kprq>20160714 11:53:23</kprq>
<gmfnsrsbh>320111790421052</gmfnsrsbh>
<je>71216.98</je>
<se>4273.02</se>
<zfbz>N</zfbz>
<xh>88</xh>
</mxxx>
<mxxx>
<fpdm>4400154130</fpdm>
<fphm>10394898</fphm>
<kprq>20160720 10:58:42</kprq>
<gmfnsrsbh>440106749182803</gmfnsrsbh>
<je>13698.11</je>
<se>821.89</se>
<zfbz>N</zfbz>
<xh>89</xh>
</mxxx>
<mxxx>
<fpdm>4400154130</fpdm>
<fphm>10394899</fphm>
<kprq>20160728 12:25:07</kprq>
<gmfnsrsbh>914416027491821765</gmfnsrsbh>
<je>21650.94</je>
<se>1299.06</se>
<zfbz>N</zfbz>
<xh>90</xh>
</mxxx>
</zyfpkjmx>
<zyfpkjhjxx>
<zyfpkjhjs>90</zyfpkjhjs>
<zzszyfphjJe>6134426.75</zzszyfphjJe>
<zzszyfphjSe>361045.81</zzszyfphjSe>
</zyfpkjhjxx>
<ptfpkjmx />
<ptfpkjhjxx>
<ptfpkjhjs>0</ptfpkjhjs>
<ptfpkjhjJe>0</ptfpkjhjJe>
<ptfpkjhjSe>0</ptfpkjhjSe>
</ptfpkjhjxx>
</body>
</sbbZzsfpkjmx>
</taxML>
<doc>
目标是将以下标签内内容提取成列表格式:
<fpdm>...</fpdm>
<fphm>...</fphm>
<kprq>...</kprq>
<gmfnsrsbh>...</gmfnsrsbh>
<je>...</je>
<se>...</se>
<zfbz>...</zfbz>
<xh>...<z/xh>
Code(粗糙应用版):
from bs4 import BeautifulSoup
import xlwt with open('cww.xml', 'r') as f:
xml_doc =f.read() #读取xml文本内容 soup = BeautifulSoup(xml_doc, 'html.parser')
keyword = ['fpdm','fphm','kprq','gmfnsrsbh','je','se','zfbz','xh'] #关键词list datatable = xlwt.Workbook(encoding='utf-8', style_compression=0)
newsheet = datatable.add_sheet('mxxx', cell_overwrite_ok=True) #新建excel文档sheet num = 0 #列 for i in range(len(keyword)):
newsheet.write(0, num, keyword[i]) #写入每列keyword
info_list = []
for se in soup.find_all(keyword[i]):
info = se.get_text()
info_list.append(info) #找出所有对应标签内的text组成list
print(info_list)
for i in range(len(info_list)):
newsheet.write(i+1, num, info_list[i]) #将该list中数据以列写入excel表
num += 1 #列数加一,继续遍历关键词写入excel表格 datatable.save('liez.xls')
整理结果如图:
【待续】