Java正则表达式获取网页所有网址和链接文字

/*获取网址首页的所有网址和链接文字*/
Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字import java.io.BufferedReader;
Java正则表达式获取网页所有网址和链接文字import java.io.IOException;
Java正则表达式获取网页所有网址和链接文字import java.io.InputStreamReader;
Java正则表达式获取网页所有网址和链接文字import java.net.MalformedURLException;
Java正则表达式获取网页所有网址和链接文字import java.net.URL;
Java正则表达式获取网页所有网址和链接文字import java.util.ArrayList;
Java正则表达式获取网页所有网址和链接文字import java.util.HashMap;
Java正则表达式获取网页所有网址和链接文字import java.util.List;
Java正则表达式获取网页所有网址和链接文字import java.util.regex.Matcher;
Java正则表达式获取网页所有网址和链接文字import java.util.regex.Pattern;
Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字import java.net.*;
Java正则表达式获取网页所有网址和链接文字import java.io.*;
Java正则表达式获取网页所有网址和链接文字import java.util.regex.*;
Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字/*
Java正则表达式获取网页所有网址和链接文字根据指定的规则,通过构造正则表达式获取网址
Java正则表达式获取网页所有网址和链接文字
*/

Java正则表达式获取网页所有网址和链接文字
Java正则表达式获取网页所有网址和链接文字
public class Urls
Java正则表达式获取网页所有网址和链接文字
{
Java正则表达式获取网页所有网址和链接文字    
private String startUrl;                                         //开始采集网址
Java正则表达式获取网页所有网址和链接文字
    String  urlContent;
Java正则表达式获取网页所有网址和链接文字    String ContentArea;
Java正则表达式获取网页所有网址和链接文字    
private String strAreaBegin ,strAreaEnd ;            //采集区域开始采集字符串和结束采集字符串
Java正则表达式获取网页所有网址和链接文字
    private String stringInUrl,stringNotInUrl;        
Java正则表达式获取网页所有网址和链接文字    String strContent;
//获得的采集内容
Java正则表达式获取网页所有网址和链接文字
    String[] allUrls;                                                            //采集到的所有网址
Java正则表达式获取网页所有网址和链接文字
    private String  regex;                                                 //采集规则
Java正则表达式获取网页所有网址和链接文字
    
Java正则表达式获取网页所有网址和链接文字    UrlAndTitle   urlAndTitle
=new UrlAndTitle();    //存储网址和标题                    
Java正则表达式获取网页所有网址和链接文字
    
Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
public static void main(String[] args)
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字         Urls myurl
=new Urls("<body","/body>");
Java正则表达式获取网页所有网址和链接文字         myurl.getStartUrl("http://www.zuzwn.com/");

Java正则表达式获取网页所有网址和链接文字         myurl.getUrlContent();
Java正则表达式获取网页所有网址和链接文字         myurl.getContentArea();
Java正则表达式获取网页所有网址和链接文字         myurl.getStartUrl("http://www.zuzwn.com/");

Java正则表达式获取网页所有网址和链接文字         myurl.getStringNotInUrl(
"google");
Java正则表达式获取网页所有网址和链接文字         myurl.Urls();
Java正则表达式获取网页所有网址和链接文字         
Java正则表达式获取网页所有网址和链接文字        
//System.out.println("startUrl:"+myurl.startUrl);
Java正则表达式获取网页所有网址和链接文字        
//System.out.println("urlcontent:"+myurl.urlContent);
Java正则表达式获取网页所有网址和链接文字        
//System.out.println("ContentArea:"+myurl.ContentArea);
Java正则表达式获取网页所有网址和链接文字
 
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//初始化构造函数 strAreaBegin 和strAreaEnd
Java正则表达式获取网页所有网址和链接文字
 
Java正则表达式获取网页所有网址和链接文字    
public Urls (String strAreaBegin,String strAreaEnd)
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        
this.strAreaBegin=strAreaBegin;
Java正则表达式获取网页所有网址和链接文字        
this.strAreaEnd=strAreaEnd;
Java正则表达式获取网页所有网址和链接文字  }

Java正则表达式获取网页所有网址和链接文字  
Java正则表达式获取网页所有网址和链接文字  
//
Java正则表达式获取网页所有网址和链接文字
    public void Urls()
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        
int i=0;
Java正则表达式获取网页所有网址和链接文字        
//String regex ="<a href="?‘?http://[a-zA-Z0-9]+/.[a-zA-Z0-9]+/.[a-zA-Z]+/?[/.?[/S|/s]]+[a>]$";
Java正则表达式获取网页所有网址和链接文字
        String regex ="<a.*?/a>";
Java正则表达式获取网页所有网址和链接文字         
//String regex ="http://.*?>";
Java正则表达式获取网页所有网址和链接文字
        Pattern pt=Pattern.compile(regex);
Java正则表达式获取网页所有网址和链接文字        Matcher mt
=pt.matcher(ContentArea);
Java正则表达式获取网页所有网址和链接文字        
while(mt.find())
Java正则表达式获取网页所有网址和链接文字         
{
Java正则表达式获取网页所有网址和链接文字                 System.out.println(mt.group());
Java正则表达式获取网页所有网址和链接文字                 i
++;
Java正则表达式获取网页所有网址和链接文字                 
Java正则表达式获取网页所有网址和链接文字                 
//获取标题
Java正则表达式获取网页所有网址和链接文字
                 Matcher title=Pattern.compile(">.*?</a>").matcher(mt.group()); 
Java正则表达式获取网页所有网址和链接文字                 
while(title.find())
Java正则表达式获取网页所有网址和链接文字                 
{
Java正则表达式获取网页所有网址和链接文字                      System.out.println(
"标题:"+title.group().replaceAll(">|</a>",""));
Java正则表达式获取网页所有网址和链接文字                 }

Java正则表达式获取网页所有网址和链接文字                 
Java正则表达式获取网页所有网址和链接文字                 
//获取网址
Java正则表达式获取网页所有网址和链接文字
                 Matcher myurl=Pattern.compile("href=.*?>").matcher(mt.group()); 
Java正则表达式获取网页所有网址和链接文字                 
while(myurl.find())
Java正则表达式获取网页所有网址和链接文字                 
{
Java正则表达式获取网页所有网址和链接文字                      System.out.println(
"网址:"+myurl.group().replaceAll("href=|>",""));
Java正则表达式获取网页所有网址和链接文字                 }

Java正则表达式获取网页所有网址和链接文字                 
Java正则表达式获取网页所有网址和链接文字                 System.out.println();
Java正则表达式获取网页所有网址和链接文字                 
Java正则表达式获取网页所有网址和链接文字                 
Java正则表达式获取网页所有网址和链接文字         }

Java正则表达式获取网页所有网址和链接文字      
Java正则表达式获取网页所有网址和链接文字        System.out.println(
"共有"+i+"个符合结果");
Java正则表达式获取网页所有网址和链接文字        
Java正则表达式获取网页所有网址和链接文字    }
    
Java正则表达式获取网页所有网址和链接文字 
Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//获得开始采集网址
Java正则表达式获取网页所有网址和链接文字
    public void getStartUrl(String startUrl)
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        
this.startUrl=startUrl;
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//获得网址所在内容;
Java正则表达式获取网页所有网址和链接文字
    public void getUrlContent()
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        
Java正则表达式获取网页所有网址和链接文字        StringBuffer is
=new StringBuffer();
Java正则表达式获取网页所有网址和链接文字        
try
Java正则表达式获取网页所有网址和链接文字        
{
Java正则表达式获取网页所有网址和链接文字            URL myUrl
=new URL(startUrl);
Java正则表达式获取网页所有网址和链接文字            BufferedReader br
= new BufferedReader(
Java正则表达式获取网页所有网址和链接文字                                                        
new InputStreamReader(myUrl.openStream()));
Java正则表达式获取网页所有网址和链接文字                                                            
Java正则表达式获取网页所有网址和链接文字            String s;                                                
Java正则表达式获取网页所有网址和链接文字            
while((s=br.readLine())!=null)
Java正则表达式获取网页所有网址和链接文字            
{
Java正则表达式获取网页所有网址和链接文字                is.append(s);
Java正则表达式获取网页所有网址和链接文字            }
                                            
Java正则表达式获取网页所有网址和链接文字            urlContent
=is.toString();
Java正则表达式获取网页所有网址和链接文字        }

Java正则表达式获取网页所有网址和链接文字    
catch(Exception e)
Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    

Java正则表达式获取网页所有网址和链接文字        System.out.println(
"网址文件未能输出");
Java正则表达式获取网页所有网址和链接文字        e.printStackTrace();
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字        
Java正则表达式获取网页所有网址和链接文字        
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字     
Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//获得网址所在的匹配区域部分
Java正则表达式获取网页所有网址和链接文字
    public void getContentArea()
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字         
int pos1=0,pos2=0;
Java正则表达式获取网页所有网址和链接文字         pos1
= urlContent.indexOf(strAreaBegin)+strAreaBegin.length();
Java正则表达式获取网页所有网址和链接文字         pos2
=urlContent.indexOf(strAreaEnd,pos1);
Java正则表达式获取网页所有网址和链接文字         ContentArea
=urlContent.substring(pos1,pos2); 
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//以下两个函数获得网址应该要包含的关键字及不能包含的关键字
Java正则表达式获取网页所有网址和链接文字    
//这里只做初步的实验。后期,保护的关键字及不能包含的关键字应该是不只一个的。
Java正则表达式获取网页所有网址和链接文字
    public void getStringInUrl(String stringInUrl)
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字         
this.stringInUrl=stringInUrl;        
Java正则表达式获取网页所有网址和链接文字          
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
public void getStringNotInUrl(String stringNotInUrl)
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        
this.stringNotInUrl=stringNotInUrl;
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//获取采集规则
Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
//获取url网址
Java正则表达式获取网页所有网址和链接文字
    public void getUrl()
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字     
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
public String getRegex()
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        
return regex;
Java正则表达式获取网页所有网址和链接文字        
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字    
Java正则表达式获取网页所有网址和链接文字    
class UrlAndTitle
Java正则表达式获取网页所有网址和链接文字    
{
Java正则表达式获取网页所有网址和链接文字        String myURL;
Java正则表达式获取网页所有网址和链接文字        String title;
Java正则表达式获取网页所有网址和链接文字    }

Java正则表达式获取网页所有网址和链接文字}

Java正则表达式获取网页所有网址和链接文字,布布扣,bubuko.com

Java正则表达式获取网页所有网址和链接文字

上一篇:python 判断 windows 隐藏文件/系统文件


下一篇:Python——类、实例和其他对象的内建函数