Python Web Scraping表返回None

2021-12-25 12:53:00

我正在尝试从www.intellicast.com刮擦桌子的温度元件

soup =  BeautifulSoup(urllib2.urlopen('http://www.intellicast.com/Local/History.aspx?location=USTX0057').read())
for row in soup('table',{'id':'dailyClimate'})[0].tbody('tr'):
  tds=row
  print tds

结果：
TypeErrorL’NoneType’对象不可调用

当查看页面源代码时,我可以看到

<table id = "dailyClimate" class="Container">
  <tbody>
    <tr class="TitlesAvgRecord">
       <td..
    <td>...</td>

因此,我知道有一个tbody和一个tr元素.

如果将.tbody(‘td’)的.tbody(‘tr’)更改,我仍然会收到错误,因此我假设我假设错误是在调用tbody的某个地方.

解决方法:

您的浏览器会插入< tbody>元素,但实际来源没有该元素：

<table id="dailyClimate" class="Container">
  <tr class="TitlesAvgRecord">
    <td style="padding-left:5px;">Date</td>
    <td>Average<br />Low</td>
    <td>Average<br />High</td>
    <td>Record<br />Low</td>
    <td>Record<br />High</td>
    <td>Average<br />Precipitation</td>
    <td>Average<br />Snow</td>
  </tr>

<!-- etc. -->

查看Why do browsers insert tbody element into table elements?

您可以改用html5lib解析器(使用BeautifulSoup(source,’html5lib’)),它也可以插入元素.但是,您无需搜索它,只需直接转到< tr>行数：

for row in soup.find('table', id='dailyClimate').find_all('tr'):

或使用CSS选择器：

for row in soup.select('table#dailyClimate tr'):

通常,只有在可能有多个元素或者要排除的thead或tfooter元素时,才选择tbody元素.

码农公寓

相关文章