PHP通过远程调用获取页面的内容

好的,所以我要寻找的东西类似于下面的代码,这是非常虚拟的,由于某些我现在完全不在乎的原因而无法正常工作(请阅读代码下的问题!):

$url = urldecode($_GET["link"]);
$port = (preg_match("/^https\:\/\//", $url) > 0 ? 443 : 80);

$headers  = "GET / HTTP/1.1\r\n";
$headers .= "Host: $url";
$headers .= "Accept-Charset: ISO-8859-2,utf-8;q=0.7,*;q=0.3\r\n";
$headers .= "Accept-Encoding: gzip,deflate,sdch\r\n";
$headers .= "Accept-Language: hu-HU,hu;q=0.8,en-US;q=0.6,en;q=0.4\r\n";
$headers .= "Cache-Control: no-cache\r\n";
$headers .= "Connection: keep-alive\r\n";
$headers .= "User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.52 Safari/536.5\r\n\r\n";
//yea, I'm using Google Chrome's userAgent

$socket = @fsockopen($url, $port) or die("Could not connect to $url");

if ($socket) {

    fwrite($socket, $headers);

    while (!feof($socket)) {
        echo fgets($socket, 128);
    }

    fclose($socket);
}

如您所见,我试图实现的目标是以某种方式从GET全局变量中获取html或url中提供的任何其他输出.同样,代码无法正常工作,我不在乎,我不需要代码更正,我需要信息/指导.

现在.我不是PHP专家,所以这个问题有些复杂:

>要实现上述需求,我必须采取哪些选择?
>在执行该特定方法之前/之后,我需要注意什么?
>任何依赖者(图书馆)?
>优点/经验/以前的经验?

同样,如果您仅通过一堆链接回答,我也非常感谢,我并不是在寻找像“这是最神圣,唯一的方法!”之类的机器人答案,我更想收集信息和选项,知识. =)

我不知道这是否重要(例如MongoDB的驱动程序):我目前在Windows 7 x64上使用WAMP Server,后来计划将其移动到CentOS 6.2网络服务器下,因此也请考虑以下内容(可能对Linux的依赖性).

解决方法:

如果要更改useragent并获取页面内容,可以有两种选择:

最好的IMO是curl,99.9%的主机启用了此功能,如果它是您自己的vps则易于设置http://bit.ly/KUn3AS

<?php 
function curl_get($url){
    if (!function_exists('curl_init')){
        die('Sorry cURL is not installed!');
    }
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_USERAGENT, "MozillaXYZ/1.0");
    curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_TIMEOUT, 10);
    $output = curl_exec($ch);
    curl_close($ch);
    return $output;
}
?>

其次是带有自定义流上下文的file_get_contents

<?php
function fgc_get($url) {
    $opts = array(
      'http'=>array(
        'method'=>"GET",
        'header'=>"Accept-language: en\r\n" .
                  "Cookie: foo=bar\r\n" .
                  "User-Agent: MozillaXYZ/1.0\r\n"
      )
    );
    $context = stream_context_create($opts);
    $urlContents = file_get_contents($url, false, $context);
    return file_get_contents($url, false, $context);
}
?>

如果您接受用户输入的任意网址,则选择哪种方法$_GET,然后在某些情况下可能会遭受滥用;如果您希望为站点AJAX请求提供代理,则可以在适当位置添加一些安全性,例如仅允许特定域,或者在进行任何外部报废之前检查其是否为xmlhttprequest / AJAX请求,例如,您可以将其保持打开状态:

<?php 
if(!empty($_GET['url']) && !empty($_SERVER['HTTP_X_REQUESTED_WITH']) && strtolower($_SERVER['HTTP_X_REQUESTED_WITH']) == 'xmlhttprequest') {

    $allowed = array('somesite.com','someothersite.com');

    $url = parse_url($_GET['url']);

    if(in_array($url['host'],$allowed)){
        echo curl_get($_GET['url']);
    }
    die;
}
?>
上一篇:php – 将fsockopen与代理一起使用


下一篇:通过fsockopen()方法从中国*网获取双色球历史中奖数据