HTML标签及爬虫简介

昨日内容回顾

  • 正则表达式

    用一些特殊符号组合的,用于快速筛选的式子
    1.字符组()
    单个字符挨个匹配
    2.特殊符号
    .
    \d
    ^
    $
    a|b
    ()
    [^]
    2.量词(不能单独出现)
    ?
    +
    *
    {n}
    {n,m}
    {n,}
    
    # 贪婪匹配与非贪婪匹配(默认贪婪匹配)
    	非贪婪匹配量词后面加上‘?‘
    ‘‘‘
    比较复杂的不用自己写,百度一下即可,遇事不决问百度
    ‘‘‘
    
  • re模块

    python内的正则表达式模块,内置的直接使用即可
    re.findall()
    re.search()
    re.match()
    
  • 前端三剑客

    HTML#学这个
    	构造网页的骨架
    CSS
    	花里胡哨HTML样式
    JAVASCRIPT(JS)
    	动态效果
    
  • HTML

    ‘‘‘
    浏览器展示给我们看的花里胡哨
    ‘‘‘
    HTML的注释
    	<!--注释-->
        
    HTML文档结构
    	<html>
        	<head></head>
            <body></body>
        </html>
        
    HTML标签分类	
    	单标签
    	双标签(有头有尾)
    
    ‘‘‘
    如果需要写前端页面,文件的后缀名都是.html结尾python可以写
    ‘‘‘
    
  • head内常用标签

    主要不是给人看的,给浏览器的
    title
    style
    link
    script
    meta
    
  • 网络请求方法

    1.get请求
    	获取网址首页
    2.post请求
    	登录提交数据
    

今日内容概要

  • body内常用标签
  • 网络爬虫基本原理
  • HTTP协议

今日内容详细

body内常用标签


# 标题标签
<h1>一级标题</h1>
<h2>二级标题</h2>
<h3>三级标题</h3>
<h4>四级标题</h4>
<h5>五级标题</h5>
<h6>六级标题</h6>

# 普通标签
<s>删除线</s>
<i>斜体</i>
<u>下划线</u>
<b>加粗</b>

# 段落标签
<p>这是一个段落标签</p>

# 换行
<br>

# 分割线
<hr>


‘‘‘
有些标签独占一行
	标签的分类(可通过浏览器查看识别)
	1.块儿标签
		独占浏览器窗口一行
	2.行内标签
		自身文本多大就占多大
‘‘‘

特殊符号

&nbsp;  	空格
&gt;		大于
&lt;		小于
&yen;		羊角符
&amp;		&
&copy;		?
&reg;		?
# 啊这

常用标签

# 链接标签a
	href
    	1.存放链接地址 点击即可跳转
        2.存放其他标签的id值 点击定位到相应位置
    target
    	控制是否在当前页面跳转还是新建一个标签页打开
    	_self	默认在当前页跳转
        _blank  默认新建标签页跳转
        
# 图片标签img
	src	
    	存放图片的路径
        	既可以是网络的地址也可以是本地的地址
    alt
    	图片加载不出来之后显示的提示信息
    title
    	鼠标悬浮在上面自动提示的内容
    width
    	调整图片的宽度
    height
    	调整图片的高度
    # 注意宽度与高度调整一个另外一个自动等比例缩放 如果两个都调可能会导致图片的失真
    
# div标签与span标签
	div是块儿级标签
    span是行内标签
    """
    div和span都是用来做网页的前期布局使用
    	div类似于是个区域,当我们在构思网页的时候可以先用div划定区域
    	span类似于普通文本区域,划定之后将来就用来填写普通文本
    """
 
标签之间可以相互嵌套但是需要满足以下几点	
	1.只有块儿级标签可以块儿级标签和行内标签
    	p标签虽然是块儿级标签但是只能嵌套行内标签
    2.行内标签只能嵌套行内标签

标签的两大属性

所有的标签都可以有class和id属性
	id
    	类似于是标签的身份证号,在同一个html文件内id不能重复
 	class
    	类似于是标签的分类,多个标签可以有相同的class值
        表示同属于一个类,一个标签也可以有多个class值
"""
id和class都是为了更加方便快捷的查找和操作标签
	id一对一的查找和操作
	而class则是分类查找和操作
"""

列表标签

# 无序列表(掌握)
	<ul>
        <li>111</li>
        <li>222</li>
        <li>333</li>
    </ul>
    # 原生的很丑但是通过css调整之后非常的实用,一般情况下有规则的排列都是用的无序列表
    
有序列表
	<ol>
        <li>111</li>
        <li>222</li>
        <li>333</li>
	</ol>
    
标题列表
	<dl>
      <dt>标题1</dt>
      <dd>内容1</dd>
      <dt>标题2</dt>
      <dd>内容1</dd>
      <dd>内容2</dd>
    </dl>

表格标签(掌握)

<table>
        <thead></thead>		# 表头(字段名称)
        <tbody></tbody>		# 表单(真正数据)
</table>

<tr>  # 表示一行内容
<th>  # 加粗文本(一般情况下用在字段名)
<td>  # 普通文本(一般情况下用在数据上)


<table border="1">
        <thead>
            <tr>
                <td>id</td>
                <td>username</td>
                <td>password</td>
            </tr>
        </thead>
        <tbody>
            <tr>
                <td>1</td>
                <td>jason</td>
                <td>123</td>
            </tr>
            <tr>
                <td>2</td>
                <td>tony</td>
                <td>123</td>
            </tr>
            <tr>
                <td>3</td>
                <td>jack</td>
                <td>222</td>
            </tr>
        </tbody>
</table>

form表单

‘‘‘获取用户数据并发送给后端服务器‘‘‘
"""获取用户数据并发送给后端服务器"""
input标签
	type属性
    	text		普通文本
        password	 密文显示
        email		 邮箱格式
        date		 日期格式
	    radio		单选框
        checkbox	 多选框
        file		上传文件
       
    	submit		触发提交数据的动作
        reset		重置
        button		普通按钮
   
select标签(下拉框)
	一个个的选项就是一个个的option标签
    
textarea标签(大段文本框)
"""
针对form表单其实还有很多内容,但是我们无需再过多了解
后续如果遇到再讲解
"""

爬虫简介

1.什么是互联网?
	就是网络设备连接在一起的一张大网
2.目的?
	信息共享
3.什么是上网?
	就是访问其他计算机呗
4.什么是爬虫?
	不再借助于浏览器软件访问,通过代码模拟自己控制获取的信息

# 互联网世界没有绝对的安全

‘‘‘
作为一名数据分析师,我们学习爬虫仅仅是为了高效的获取浏览器上的信息,而不是做黑客,工作效率才是目的(最赚钱的方式都在法律里面写了)
‘‘‘

作业

1.自己书写HTML构建一个用户注册的网页
2.抄写今日笔记
	重点理解爬虫含义

HTML标签及爬虫简介

上一篇:gin框架使用【6.JSON渲染】


下一篇:phpstorm里面无法配置deployment问题