用HtmlParser 实现asp.net采集网分析网页,可直接用作采集

【实例简介】

主要实现了通过HtmlParser 实现网页源文件的抓取以及分析,示例中包含了常用的几种操作,更多内容须大家一起完善,虽然本项目是用winform编写,但是其中的代码可以直接copy到web项目中 使用(已做过测试)。

asp.net采集网分析网页用它即可。

另注:需要添加这些引用(项目文件中已包含Winista.HtmlParser.dll的引用)

using Winista.Text.HtmlParser;
using Winista.Text.HtmlParser.Filters;
using Winista.Text.HtmlParser.Util;
using Winista.Text.HtmlParser.Tags;

文件:590m.com/f/25127180-493827991-e3792a(访问密码:551685)

【实例截图】

用HtmlParser 实现asp.net采集网分析网页,可直接用作采集

【核心代码】

string strHTML = GetUrl(this.textBox1.Text);
this.textBox2.Text = “”;
//this.textBox2.Text = strHTML;
string strTMP = “”;
Parser parser = Parser.CreateParser(strHTML, “gb2312”);
AndFilter andimg = new AndFilter();
andimg.Predicates = new NodeFilter[] { new NodeClassFilter(typeof(ImageTag)) };
NodeList imglist = parser.ExtractAllNodesThatMatch(andimg);
if (imglist.Count > 0)
{
for (int j = 0; j < imglist.Count; j )
{
ImageTag img = (ImageTag)imglist[j];
strTMP = (img.GetAttribute(“src”)).ToString() img.ToHtml() “\r\n”;
}
}
this.textBox2.Text = strTMP;

以下内容无关:

-------------------------------------------分割线---------------------------------------------

一,引言
最近刚刚接触 Edi.Wang 的 Moonglade 博客系统,正好这套系统中有使用到 Azure CND (内容分发网络),那就学习学习。那么今天就尝试利用 Azure CDN 来发布静态网站。当然了,我们可以选择Azure Storage Account 作为我们演示的静态网站的载体。

什么是 Azure CDN?

Azure CDN(内容分发网络):CDN 是服务器的分布式网络,可以有效的将Web内容传递给我们,同时CDN 可以将缓存的内容存储在记录我们比较近的POP(入网点位置)位置的边缘服务器,以便最大成都降低网络延迟。Azure 内容分发网络 (CDN) 可帮助减少延迟并提升高带宽内容的性能。

二,正文
1,部署静态网站
登陆到 Azure Portal 上,点击 “create a resource”,搜索 “Storage”,并且创建

输入相关参数

Resource group:“Web_Test_CDN_RG”(创建新的资源组)

Storage account name:“cdnstaticwebstorage”

Region:“East Asia”

performance:Standard

Redundancy:“Locally-redundant storage(LRS)”

点击 “Next:Advanced>”

其他选项卡页直接选择默认就可以了,等待验证完成后,点击 “Create”

创建完成后,点击 “Go to resource” 跳转到该资源

回到我们创建的Storage Account 页面后,选择 “Settings=》Static website”,开启静态站点

接下来,我们需要输入静态站点的相关参数

Index document name(静态站点的首页):“index.html”

Error document name(静态站点的错误页面):“404.html”

检查完输入的参数后,点击 “Save” 进行保存

创建完成后,我们可以看到 Azure 已经创建了我们静态站点寄存的 容器 “$web”

转到 “Blob service=》Containers”,Azure 已经自动为我们创建了两个容器 “logs”,“web”

选择 “Settings=》Properties” 找到静态站点的url 复制出来

我们尝试通过 web url 访问我们静态站点:https://cdnstaticwebstorage.z7.web.core.windows.net/

可以看到当前是没有任何请求的内容,那是因我们的静态站点是没有任何内容的

上传我们的演示静态页面

重新访问静态网站的 url

ok,静态网站部署完成

2,配置 Azure CDN 加速
继续在 Azure Portal 首页,搜索 “CDN”,并且创建

输入相关参数

Resource group:“Web_Test_CDN_RG”

Name:“cnbateblogweb-staticwebsite-cdn”

Region:“Global”

Pricing tier:“Standard Microsoft”

点击 “Review + create”

等待校验完成后,点击 “Create” 进行创建

创建完成后,跳转到 “cnbateblogweb-staticwebsite-cdn” 页面,点击 “+ Endpoint” 创建 CDN 的终结点

输入 Endpoint 的相关信息

Name:“cnbateblogweb-staticwebsite”

Orign type 选择:“Storage static website”

***这里注意一下,Origin type 是支持多种的,我们也可以选择 “Custom orgin”,然后把 Storage static website 的 URL 贴到 Origin hostname 和 Origin host header 这个位置上

点击 “Add” 添加操作

注意,终结点的设置可能需要差不多10分钟才会生效,当生效之后,我们复制当前CDN 终结点 URL在浏览器中尝试访问

访问后展示的效果

Bingo!!!成功

上一篇:Windows Azure云计算平台将支持iphone,android,Windows phone7


下一篇:Azure Digital Twins(3)- 数字孪生体和数字孪生图