C语言获取网页源代码的学习所得

研究了一天这个玩意感觉挺有意思的。

刚开始是什么都不懂,现在写出来一段代码感觉略微有点意思了。

下面我分享一下学习过程和自己的理解。

整体过程大概就是如下情况:

先搜了一下别人的写这个东西的代码。

研究了一下代码中一些难理解的东西。慢慢就写出来了。

简单分析:

创建一个socket套接字连接主机

发送GET报文头字符串

接收

存放

准备工作:

connect()和服务器建立连接

send()  recv() 都是在利用套接字

用户提供一个网址,我们分析网址。

网址中包含的信息 有些是要填入sockaddr地址信息中 ,有些是要填入GET报头文

我们能得知信息有 主机名 资源路径 端口

例如一个  www.baidu.com/1.html   主机名www.baidu.com  资源路径 /1.html 端口没有 就 默认 80

建立连接 connect()函数搞定

  参数中需要socket 和 sockaddr  前者就是套接字,后者是一个套接字地址结构

    可以从sockaddr_in 强制转化过来 这个是另一种套接字地址结构体

    需要提供 端口和 ip地址

    端口    我们分析网址就能得到

    ip地址 是用gethostbyname()这个函数搞定

       函数名就挺形象的 通过主机名字获得host信息

       意思就是 从 www.baidu.com 主机名 获得host信息

       然后我们从信息里面把ip地址提取出来

GET报文头 需要主机名 资源路径  这两样网址中都提供了

发送   send()这个函数搞定

接收   recv()这个函数搞定

细分逻辑:

  主要是学习这些函数以及结构的过程,和一些简单的逻辑组织。

  分析网址 这个都在string.h

  从host结构中获得ip地址填入套接字地址结构  这个查阅一下gethostbyname()和sockaddr以及sockaddr_in

  连接connect()

  存放GET报文头,把报文头用字符串函数组建起来,放在数组或者其他。。

  发送send()

    如果你发送的GET报文头得到了回应,目标就会传送你要的信息回来

  接收recv()

    信息可能很多,可能不能一次性接收完,分多次。用memcpy()和malloc()以及realloc()

      memcpy()  copy字节数到目标   malloc()声明一定大小的内存区域   realloc()改变内存区域大小

    什么时候接收完 如果套接字中有接收的内容就一直接收。没有就等待,直到超时,然后返回0.

      这个超时时间限定是可以设置的。setsockopt()这个函数。可以设置接收和发送

      int nNetTimeout = 5000;

      setsockopt(sock, SOL_SOCKET, SO_RCVTIMEO, (char *)&nNetTimeout, sizeof(int));

遗留问题的思考:对于接收到数据处理。编码问题。我觉得套接字中传输的是数据,不是字符串。

        正文这个我觉得倒是好理解,有人用utf8写了一个html网页文件保存在服务器,我们所获取的正文应该是这个用utf8编码写的数据 (我猜的)  

        但是接收到的报文头是什么编码呢,我们用什么简单的方法把它们分离,没有去研究。。有机会再看看

      

  

  

  

  

  


  

上一篇:《Linux内核分析》第五周笔记 扒开系统调用的三层皮(下)


下一篇:解决ArcGIS Engine AE 读取shapefile中文属性乱码的一条偏方