爬取网页内容java

2022-10-22 12:11:25

下面介绍的这个方法只是作为抛砖引玉：根据网页URL就可以抓取其中的内容

/**

	 * @title getHtmlResourceByUrl

	 * @param url          网址

	 * @param encoding     编码

	 * @return String 返回类型

	 */

	public static String getHtmlResourceByUrl(String url, String encoding) {

		StringBuffer buffer = new StringBuffer();

		try {

			//建立网络连接     异常捕获

			URL urlObj = new URL(url);

			//打开网络连接

			URLConnection urlconn = urlObj.openConnection();

			//IO流

			InputStreamReader in = new InputStreamReader(urlconn.getInputStream(), encoding);

			//建立缓存

			BufferedReader bfr = new BufferedReader(in);

			//临时文件

			String line = null;

			//读取

			while((line = bfr.readLine()) != null) {

				buffer.append(line);

			}

		} catch (MalformedURLException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

		}

		return buffer.toString();

	}

	public static void main(String[] args) {

		String info = getHtmlResourceByUrl("http://www.qq.com", "gbk");

		System.out.println(info);

	}

大家可以直接拿过去运行即可看到效果！

码农公寓

相关文章