轻扣指间,静听心声

PHP判断url是否为有效图片

发表于 12-10 / 144 阅读 / 0 评论 / 需时3.6’

php.jpg

以下列举通过php判断链接类型的3种方法

方式一

直接正则匹配URL链接,是否是以.png,.gif,.jpg,.jpeg结尾的。

preg_match('/.*(\.png|\.jpg|\.jpeg|\.gif)$/', $url);

这个是一个最简单的方式,但是不够精确,因为并不是所有的图片链接都是以图片名字+扩展名结尾的。

方式二

用CURL获取图片URL的response header

首先创建一个curl,并将头文件的信息,作为数据流输出

$url = "http://*************";  //图片的链接地址
$ch = curl_init();
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否跟着爬取重定向的页面
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的值以文本流的形式返回,而不是直接输出。
curl_setopt($ch, CURLOPT_HEADER,  1); // 启用时会将头文件的信息作为数据流输出
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); //设置超时时间
curl_setopt($ch, CURLOPT_URL, $url);  //设置URL
$content = curl_exec($ch);
$httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE);  //curl的httpcode
$headerSize = curl_getinfo($ch, CURLINFO_HEADER_SIZE); //获取头大小
curl_close($ch);

此时content中包含头信息和图片的二进制内容,然后根据头的大小($headerSize)截取出头信息,剩下的就是图片的二进制内容了。

$headers = substr($content, 0, $headerSize); //根据头大小截取头信息

头信息输出结构如下

HTTP/1.1 200 OK
Server: JSP3/2.0.14
Date: Sun, 30 Jul 2017 06:54:47 GMT
Content-Type: image/jpeg
Content-Length: 152094
Connection: keep-alive
ETag: "7751852900776331536"
Last-Modified: Tue, 02 May 2017 10:33:16 GMT
Expires: Wed, 18 Jul 2018 06:25:38 GMT
Age: 879492
Cache-Control: max-age=31536000
Accept-Ranges: bytes
Error-Message: OK
Ohc-Response-Time: 1 0 0 0 0 0

可以看到里面有个Content-Type: image/jpeg,然后处理头信息,取出想要的内容

$head_data=preg_split('/\n/',$headers);  //逐行放入数组中
$head_data = array_filter($head_data);  //过滤空数组
$headers_arr = [];
foreach($head_data as $val){  //按:分割开
    list($k,$v) = explode(":",$val); //:前面的作为key,后面的作为value,放入数组中
    $headers_arr[$k] = $v;
}
$img_type = explode("/",trim($headers_arr['Content-Type']));  //然后将获取到的Content-Type中的值用/分隔开
if ($httpcode == 200 && strcasecmp($img_type[0],'image') == 0) {//如果httpcode为200,并且Content-type前面的部分为image,则说明该链接可以访问成功,并且是一个图片类型的
    $type = $img_type[1];
    .............
} else {//否则........
 ............
}

注: curl_setopt($ch, CURLOPT_NOBODY,true); 可以设置只获取头信息,不要body

方式三

用PHP的get_headers() 函数,可以直接获取响应的头信息,但是相比于curl,不能设置超时时间。

<?php
$url = 'http://www.example.com';
print_r(get_headers($url));
print_r(get_headers($url, 1));
?>

输出结果如下:

Array
(
    [0] => HTTP/1.1 200 OK
    [1] => Date: Sat, 29 May 2004 12:28:13 GMT
    [2] => Server: Apache/1.3.27 (Unix)  (Red-Hat/Linux)
    [3] => Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
    [4] => ETag: "3f80f-1b6-3e1cb03b"
    [5] => Accept-Ranges: bytes
    [6] => Content-Length: 438
    [7] => Connection: close
    [8] => Content-Type: text/html
)

Array
(
    [0] => HTTP/1.1 200 OK
    [Date] => Sat, 29 May 2004 12:28:14 GMT
    [Server] => Apache/1.3.27 (Unix)  (Red-Hat/Linux)
    [Last-Modified] => Wed, 08 Jan 2003 23:11:55 GMT
    [ETag] => "3f80f-1b6-3e1cb03b"
    [Accept-Ranges] => bytes
    [Content-Length] => 438
    [Connection] => close
    [Content-Type] => text/html
)

同样地,利用2中的方法取出Content-Type进行判断即可。

一些问题

1,上面$headerSize = curl_getinfo($ch, CURLINFO_HEADER_SIZE); //获取头大小这一段获取的内容和$content = curl_exec($ch);获取内容完全一致,根本不需要这么写。

2,list($k,$v) = explode(":",$val); //前面的作为key,后面的作为value,放入数组中这一段,数组内含有null某些环境下会报错,很明显这个写法有问题。
可以加判断:

if($v){
    $headers_arr[$k] = $v;
}

当然这只是就事论事的解决,然而这并没有意义,因为:

3,既然已经用了$httpcode = curl_getinfo($ch, CURLINFO_HTTP_CODE); //curl的httpcode

就是说,可以使用curl_getinfo()函数获取CURL请求输出的相关信息,那么完全可以同样的获得想要的Content-Type,那么下面的代码就没有任何意义了(除非说是久违了联系代码~囧~)

4,最后这个($httpcode == 200 && strtolower($img_type[0]) == 'image')也非常丑陋。

重写:

因此就这个方法而言,应该这样写:

$url = '...';

// 创建一个cURL资源
$ch = curl_init();

// 设置URL和相应的选项
curl_setopt($ch, CURLOPT_URL, $url); //设置URL
curl_setopt($ch, CURLOPT_HEADER,  1); // 将头文件的信息作为数据流输出
//curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); //是否跟着爬取重定向的页面,这一项不需要开启,因为我们判断的是链接本身,不是跳转后内容
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //将curl_exec()获取的值以文本流(字符串)的形式返回,而不是直接输出。
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); //设置超时时间
curl_setopt($ch, CURLOPT_NOBODY,true); //设置只获取header不获取body

// curl_exec($ch);抓取URL并把它传递给浏览器
$content = curl_exec($ch);

$http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);  //curl的httpcode
$http_type = curl_getinfo($ch,CURLINFO_CONTENT_TYPE); //看看能不能直接或获取type

// 关闭cURL资源,并且释放系统资源
curl_close($ch);

$img_type = explode("/",$http_type); //将'Content-Type: image/jpeg'中的值用/分隔开
if ($http_code == 200 && strtolower($img_type[0]) == 'image') {
    //判断该链接可以访问成功,并且是一个图片类型
    echo "是可用图片链接";
} else {
    //否则........
    echo "非可用图片链接";
}

当然,这样就完美了吗?很明显不是的。既然我们只是要判断是否为可用图片链接,直接取出$content = curl_exec($ch);正则一下不就行了。

片段如下

$is_img = preg_match('/image/i', $content);//直接忽略大小写匹配'image'
if ($http_code == 200 && $is_img) {
    echo "是可用图片链接";
}

当然http_code也可以直接正则匹配。

这个例子告诉我,网上搜索的内容质量难以保障,还是要自己多写、多思考才行。

本文最后更新时间为 2013-12-10 23:09

已有0 条评论

    发表新评论