我正在尝试使用PHP,CURL和POST方法抓取一个网站,以便在网页抓取页面之前提交表单.我遇到的问题是与POST方法有关:没有数据提交给服务器,因此被抓取的网页不包含我要查找的内容.
我确定问题与表单类型有关:enctype =“multipart / form-data”.
考虑到表单是multipart / form-data,我该如何管理这个POST请求?
我是否必须以特殊方式对post_string进行编码?
这是我正在使用的代码:
function curl($url) {
//POST string
$post_string="XXXX";
$options = Array(
CURLOPT_RETURNTRANSFER => TRUE,
CURLOPT_FOLLOWLOCATION => TRUE,
CURLOPT_AUTOREFERER => TRUE,
CURLOPT_CONNECTTIMEOUT => 120,
CURLOPT_TIMEOUT => 120,
CURLOPT_MAXREDIRS => 10,
CURLOPT_USERAGENT => "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1a2pre) Gecko/2008073000 Shredder/3.0a2pre ThunderBrowse/3.2.1.8",
CURLOPT_URL => $url,
CURLOPT_CAINFO => dirname(__FILE__)."/cacert.pem",
CURLOPT_POSTFIELDS => $post_string,
);
$ch = curl_init();
curl_setopt_array($ch, $options);
$data = curl_exec($ch);
curl_error($ch);
curl_close($ch);
return $data;
}
$scraped_page = curl("XXXURLXXX");
echo $scraped_page;
谢谢!
解决方法:
将CURLOPT_POST设置为true:
CURLOPT_POST = true
然后填写你的帖子字段,例如’setup’:
$postfields = array();
$postfields['field1'] = 'value1';
$postfields['field2'] = 'value2';
CURLOPT_POSTFIELDS => $postfields
If value is an array, the Content-Type header will be set to multipart/form-data.