深入研究虚拟主机的匹配
虚拟主机部分的代码在Apache 1.3中进行了完全的重写。本文档试图详细解释Apache在接受到请求后如何确定使用哪一个虚拟主机进行伺服。在新的NameVirtualHost
指令的帮助下,虚拟主机的配置比1.3版以前更加简单和安全。
如果您只是想<cite class="calibre27">让它能够工作</cite>而不愿意进行深入理解,这里有一些示例。
解析配置文件
在<VirtualHost>
配置段外有一个主服务器(main_server)段中包含着所有定义。其中有<VirtualHost>
配置段中定义的叫做虚拟主机(vhost)的虚拟服务器。
Listen
, ServerName
, ServerPath
, ServerAlias
指令可以出现在一个服务器定义段的任何地方。而且每个指令都会覆盖前面出现的同样定义(在那个服务器配置中)。
主服务器段中Listen
指令的默认值是80。主服务器段没有默认的ServerPath
和ServerAlias
指令值。ServerName
的默认值是由服务器的IP地址推断而来。
主服务器的Listen
指令有两个功能:其一是决定Apache将要绑定的网络端口;其二是在重定向中指定绝对URI将使用的端口号。
不象在主服务器里,虚拟服务器的端口不会影响到Apache的监听端口。
每个VirtualHost
指令中的地址都可以附带一个可选的端口。如果没有进行特别的指定,这个端口默认为主服务器中最近的一个Listen
指令指定的值。特殊的端口"*
"表示匹配所有端口。所有这一系列地址(包括由DNS查询出的所有A
记录)统称虚拟主机的地址集(address set)。
如果没有对一个特定的IP地址使用NameVirtualHost
指令,那么第一个使用这个地址的虚拟主机将被视为基于IP的虚拟主机。IP地址也可以用通配符"*
"表示。
如果使用了基于域名的虚拟主机,那么必须用NameVirtualHost
指令为这个基于域名的虚拟主机指定IP地址集。换句话说,您必须在配置文件中通过NameVirtualHost
指令指定包括主机名映射(CNAME)的IP地址。
可以使用很多NameVirtualHost
指令来分别对应一套NameVirtualHost
指令,但对于每个特定的"IP:port"对来说,只能使用一次NameVirtualHost
指令。
NameVirtualHost
和VirtualHost
指令出现的顺序并不重要。只有对应_同一个_IP地址的VirtualHost
指令的次序才是重要的。所以下面两例所起的作用是完全相同的:
NameVirtualHost 111.22.33.44
<VirtualHost 111.22.33.44>
# server A
...
</VirtualHost>
<VirtualHost 111.22.33.44>
# server B
...
</VirtualHost>
NameVirtualHost 111.22.33.55
<VirtualHost 111.22.33.55>
# server C
...
</VirtualHost>
<VirtualHost 111.22.33.55>
# server D
...
</VirtualHost>
<VirtualHost 111.22.33.44>
# server A
</VirtualHost>
<VirtualHost 111.22.33.55>
# server C
...
</VirtualHost>
<VirtualHost 111.22.33.44>
# server B
...
</VirtualHost>
<VirtualHost 111.22.33.55>
# server D
...
</VirtualHost>
NameVirtualHost 111.22.33.44
NameVirtualHost 111.22.33.55
(为了使您的配置文件更具可读性,我们推荐您使用左边的格式)
在解析完VirtualHost
指令后,虚拟主机服务器将被赋予在它的VirtualHost
指令中第一个名字对应的端口作为默认的Listen
端口。
如果所有域名都指向同一个地址集的话,VirtualHost
指令中的所有域名列表都将会得到和ServerAlias
指令一样的处理(但不会被其他ServerAlias
语句覆盖)。请注意,这个虚拟主机自带的Listen
指令将不能影响到那个地址集的端口号。
在初始化的过程中,将会为每一个IP地址产生一个列表,并插入到一个散列表中。如果这个IP地址是用在一个NameVirtualHost
指令中的,这个列表将会包含所有指定为这个IP地址的基于域名的虚拟主机。如果没有虚拟主机针对这个IP地址,那么NameVirtualHost
指令将被忽略,并会在日志中记录一个错误信息。对于基于IP的虚拟主机而言,这个散列表中的列表为空。
因为使用了高效的散列算法,使得在请求到达的时候在其中查找IP地址的开销变得很小,或者根本不需考虑。而且这个表格还为只有最后一个八进制位不同的IP地址做了优化。
虚拟主机的每个变量都有初始值。特别是以下这些:
- 如果虚拟主机没有
ServerAdmin
,ResourceConfig
,AccessConfig
,Timeout
,KeepAliveTimeout
,KeepAlive
,MaxKeepAliveRequests
,ReceiveBufferSize
,SendBufferSize
指令,那么将从主服务器继承它们的值。(也就是说,使用在主服务器中最后出现的设定值)。 - 虚拟主机的默认目录权限将继承主服务器的设置(包括所有模块针对每个目录的配置信息)。
- 虚拟主机将继承主服务器中每个模块针对主服务器的设置。
本质上,主服务器在建立每个虚拟主机的时候,充当了一个默认值或根基的角色。但这些存在于主服务器中的定义的位置是无关紧要的——主服务器的配置在与虚拟主机整合之前就已经解析过了。所以即使一个主服务器的配置出现在虚拟主机定义的后面,它也同样会影响到虚拟主机的配置。
如果没有定义主服务器中的ServerName
,那么将由运行这个httpd
服务的机器的主机名来代替。我们将由DNS查找此ServerName
返回的IP地址称为主服务器地址集(main_server address set)。
在没有定义ServerName
的情况下,一个基于域名的虚拟主机默认采用定义虚拟主机时在VirtualHost
指令中最先出现的地址。
所有使用了"_default_
"通配符的虚拟主机将被赋予和主服务器相同的ServerName
。
虚拟主机匹配
服务器用下述方法来确定对一个特定的请求使用哪个虚拟主机:
散列表查找
当客户端第一次连接的时候,会从内部的IP散列表中查找客户端想要连接的IP地址。
如果查找失败(没有找到相应的IP地址),而所请求的端口又存在一个"_default_
"虚拟主机,那么这个请求将会由这个虚拟主机来伺服。如果没有找到这样的"_default_
"虚拟主机,那么这个请求将会由主服务器来伺服。
如果在散列表中没有找到IP地址,但存在一个"NameVirtualHost *
"指令与所请求的端口号相匹配,那么将用这个虚拟主机来处理这个请求。
如果查找成功(找到了对应于这个IP地址的列表),下一步就是看我们要处理的是一个基于IP的虚拟主机还是一个基于域名的虚拟主机。
基于IP的虚拟主机
如果返回的列表中域名列表为空,那么我们处理的就是一个基于IP的虚拟主机,这个虚拟主机将会直接进行处理而不会有其他步骤。
基于域名的虚拟主机
如果返回的域名列表包含一个或多个虚拟主机的结构,那么我们处理的就是一个基于域名的虚拟主机。这个列表包含的虚拟主机的顺序与配置文件中相应VirtualHost
指令出现的顺序是相同的。
这个列表中第一个虚拟主机(也就是在配置文件中第一个指定了这个IP地址的虚拟主机)对处理请求有着最高的优先级。所有对未知服务器名或没有"Host:
"头的请求都将由它进行处理。
如果客户端在请求中提供了一个"Host:
"头,那么将在列表中查找第一个ServerName
或ServerAlias
与其符合的虚拟主机,并将其用于伺服这个请求。尽管"Host:
"头中可以包含端口号,但Apache还是会用收到请求的那个真实端口来进行匹配。
如果客户端提交了一个不包含"Host:
"头的HTTP/1.0的请求,我们将无法确认客户端想要连接那个服务器。而如果存在一个ServerPath
与客户端提交的请求中的URI相对应,那么列表中第一个符合条件的虚拟主机将用于伺服这个请求。
如果还是找不到对应的虚拟主机,那么这个请求将会由客户端连接的IP对应的列表中的第一个与请求的端口相同的虚拟主机来伺服(如前所述)。
持久连接
上述IP查找对一个特定的TCP/IP进程只执行一次。但在持久连接(KeepAlive)中,每个请求都会进行一次这样的查找过程。换句话说,一个客户端在一个持久连接中可以向位于不同的基于域名的虚拟主机的页面提出请求。
绝对URI
如果请求提交的URI是一个绝对URI,而其中的主机名和端口号又和主服务器或某个虚拟主机相符合,并且也与作为此请求提交对象的地址和端口相符,那么这个请求的类型/主机名/端口前缀将被抹除,仅留下相对URI为对应的主服务器或虚拟主机所伺服。如果不满足上述符合条件,这个URI将保留原样,而此请求将被作为一个代理请求处理。
备忘录
- 基于域名的虚拟主机和基于IP的虚拟主机之间互相不干扰。基于IP的虚拟主机只接受发送到它自身地址集的请求,而不接受其他IP地址。基于域名的虚拟主机也是一样,它们只接受
NameVirtualHost
指令定义的地址集的访问。 - 永远不会对一个基于IP的虚拟主机执行
ServerAlias
和ServerPath
检查。 - 在配置文件中,基于域名的虚拟主机、基于IP的虚拟主机、"
_default_
"虚拟主机和NameVirtualHost
指令出现的顺序并不重要。而对于某个指定的地址集来说,基于域名的虚拟主机的顺序是不能混淆的:在配置文件中较先出现的虚拟主机在相应的地址集中有较高的优先权。 - 出于安全性的考虑,在"
Host:
"头中出现的端口号将不用于匹配。Apache会一直使用客户端所连接的真实端口作为匹配。 - 如果一个
ServerPath
指令凑巧是后面出现的另外一个ServerPath
指令的前缀,前者将用于匹配,而后者将被忽略。(这里讨论的是没有"Host:
"头来将这两个情况分开的情况下) - 如果有两个基于IP的虚拟主机使用了同一个地址,则在配置文件中首先出现的那个用于匹配。这种事情可能发生在你疏忽的时候。当服务器遇到这种情况的时候,会在日志文件中写入一个错误信息。
- 仅当没有其他虚拟主机符合客户端请求的IP地址和端口号时,"
_default_
"虚拟主机才会捕获这个请求。并且仅当"_default_
"虚拟主机的端口号(默认值由您的Listen
指定)与客户端发送请求的目的端口号相符时,这个请求才会被捕获。也可以使用通配符(例如:"_default_:*
")来捕获任何端口号的请求。这也同样适用于"NameVirtualHost *
"的虚拟主机。 - 仅当客户端连接的目的IP地址和端口号没有指定而且不与任何一个虚拟主机(包括"
_default_
"虚拟主机)匹配的时候,才会用主服务器来伺服请求。换句话说,主服务器仅捕获没有指定IP地址和端口的请求(除非存在一个匹配端口的"_default_
"虚拟主机)。 - 如果客户端连接到一个用于基于域名的虚拟主机使用的地址(和端口),比如说使用了
NameVirtualHost
指令,那么一个未知的或没有"Host:
"头的请求就不会与"_default_
"虚拟主机或是主服务器相匹配。 - 绝对不能在
VirtualHost
指令中使用DNS名称,否则您的服务器就会依赖DNS来进行启动。而且,如果您无法控制列表中所有的域,您将会面临安全威胁。您可以在这里获得关于这个问题和以下两个问题的更多详情。 - 应当为每个虚拟主机设定
ServerName
。否则就会需要为每个虚拟主机进行DNS查询。
小技巧
作为DNS问题页面小技巧的附加,这里有些额外的技巧:
- 将所有主服务器的定义放在所有
VirtualHost
定义之前(为了增加可读性),否则会使得类似在虚拟主机旁边的定义影响到所有的虚拟主机这样的问题不容易发现。 - 将您配置中相应的
NameVirtualHost
和VirtualHost
定义放到一起,以获得更好的可读性。 - 避免前一个
ServerPaths
是后一个ServerPaths
的前缀。如果您无法避免这样的情况,您最好确保在您的配置文件中"长在前,短在后"(也就是说:"ServerPath/abc/def"应当出现在"ServerPath/abc"之前)。