简介

HTML 是用来描述网页的一种语言。

HTML 指的是超文本标记语言 (Hyper Text Markup Language)
HTML 不是一种编程语言,而是一种标记语言 (markup language)
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页

HTML 标记标签通常被称为 HTML 标签 (HTML tag):
HTML 标签是由尖括号包围的关键词,比如 <html>
HTML 标签通常是成对出现的,比如 <b></b>
标签对中的第一个标签是开始标签,第二个标签是结束标签
开始和结束标签也被称为开放标签和闭合标签

html文档包括html标签和纯文本,html文档也被称为网页。Web浏览器的作用是读取HTML文档,并以网页的形式显示出来。

常用的html标签

一个html文档大概会包括以下内容,复杂网页一般会包括更多不同的标签以及对标签进行属性的调整来得到更加丰富的页面。

<html>
<body>
<h1>My First Heading</h1>
<p> My First paragraph.</p>
</body>
</html>

在这个例子中:

  • html和/body标签描述了整个页面的边界,body标签之间的文本时可见的页面内容
  • p标签内的文本显示为段落
  • h1标签内的文本被显示为一级标题

除了这些标签以外,常用的标签还有a标签,用来创建链接,img标签,用来插入图片,table标签,用来创建表格等等。
<div>标签用来将文档分割,分割后每一部分都是独立的。
列表的三种定义方式:

列表类型 说明
有序列表 <ol> 表示有序列表(order list),<li> 表示列表中的每一项(list item),默认使用阿拉伯数字编号。
无序列表 <ul> 表示无序列表,<li> 表示列表中的每一项
定义列表 <dl> 表示定义列表(definition list),<dt> 表示定义术语(definition term)、<dd> 表示定义描述(definition description)。一般情况下,每个 <dt> 搭配一个 <dd>,一个 <dl> 可以包含多对 <dt><dd>

html标签比markdown中的列表多了一种定义列表,定义列表由标题(术语)和描述两部分组成,描述是对标题的解释和说明,标题是对描述的总结和提炼(格式有点像名词解释的感觉)
这里给一个例子

<dl> 
<dt>计算机</dt>
<dd>用来计算的仪器 ... ...</dd>
<dt>显示器</dt>
<dd>以视觉方式显示信息的装置 ... ...</dd>
</dl>

效果:

计算机
用来计算的仪器 ... ...
显示器
以视觉方式显示信息的装置 ... ...

<iframe>标签可以用来嵌入第三方资源,比如可以在自己的网页中以一个窗口的形式嵌入人家的网页,因为可以嵌入第三方资源,所以有时也会被用来嵌入我们希望爬取的数据,这些需要根据网页的结构进行具体的判断。

html属性

  • HTML标签可以拥有属性。
  • 属性提供了有关HTML元素的更多的信息。
  • 属性总是以名称/值对的形式出现,比如:name=“value”。
  • 属性总是在HTML元素的开始标签中规定。
    例:给定align属性令标题居中 <h1 align="center">

html元素

html元素是由开始标签和结束标签组成的,开始标签和结束标签之间的文本是元素的内容,元素的内容可以是文本,也可以是其他标签,也可以是两者的组合。可以理解为HTML 元素指的是从开始标签到结束标签的所有代码。大多数HTML元素可以嵌套(可以包含其他HTML元素)。HTML文档由嵌套的HTML元素构成。