https://github.com/samacs/simple_html_dom
Snoopy的特点是“大”和“全”,一个fetch什么都采到了,可以作为采集的第一步。接下来就需要用simple_html_dom来细细的把想要的部分,扣出来。当然,如果你特别特别擅长正则,而且又钟爱正则,你也可以用正则去匹配抓取。
simple_html_dom其实是一个dom解析的过程。php内部也提供了一些解析的方法,但是这个simple_html_dom可以说做得比较专业,一个类,满足了很多你想要的功能。
// 用一个URL或文件名,创建一个目标文档对象 ,也就是目标网页
$html = file_get_html ('' );
//$html = file_get_html ('' );
//用一个字符串作为一个目标网页。你可以通过Snoopy获取页面,然后再拿到这里来处理
$myhtml = str_get_html ('<html><body>Hello!</body></html>' );
// 找到所有的图片,返回的是数组
foreach($html->find ('img' ) as $element)
echo $element->src . '<br>' ;
// 找到所有的链接
foreach($html->find ('a' ) as $element)
echo $element->href . '<br>' ;
find方法很好用,通常它返回的是一个包含对象的数组。查找目标元素的时候可以通过class或者id,或者其他属性获取目标字符串。
//通过目标div的class属性,查找div,find方法中第二个参数是返回的那个数组中的第几个。从0开始是第一个
$target_div = $html->find ('div.targetclass',0 );
//查看结果是否是你想要的,直接echo就可以了
echo $target_div;
//比较关键的一点是,这个采集对象创建完后,一定要销毁掉,否则php页面有可能会“卡”上30秒左右,这个取决于你服务器的那个时间限制。销毁的方法是:
$html->clear();
unset($html);
本人认为simple_html_dom比较优秀的地方就是,把采集控制得像JS一样容易。在下面提供的下载包中有英文的手册
array $e->getAllAttributes () | array $e->attr |
string $e->getAttribute ( $name ) | string $e->attribute |
void $e->setAttribute ( $name, $value ) | void $value = $e->attribute |
bool $e->hasAttribute ( $name ) | bool isset($e->attribute ) |
void $e->removeAttribute ( $name ) | void $e->attribute = null |
element $e->getElementById ( $id ) | mixed $e->find ( "#$id", 0 ) |
mixed $e->getElementsById ( $id [,$index] ) | mixed $e->find ( "#$id" [, int $index] ) |
element $e->getElementByTagName ($name ) | mixed $e->find ( $name, 0 ) |
mixed $e->getElementsByTagName ( $name [, $index] ) | mixed $e->find ( $name [, int $index] ) |
element $e->parentNode () | element $e->parent () |
mixed $e->childNodes ( [$index] ) | mixed $e->children ( [int $index] ) |
element $e->firstChild () | element $e->first_child () |
element $e->lastChild () | element $e->last_child () |
element $e->nextSibling () | element $e->next_sibling () |
element $e->previousSibling () | element $e->prev_sibling () |