1.2 网页的文本内容
元素中包含的文本可能是网页上最基本的成分。如果你使用过字处理程序,那么一定输入过文本。但是,(X)HTML页面中的文本有一些重要的差异。
首先,(X)HTML会把额外的空格或制表符压缩成单个空格,并且把回车和换行转换为单个空格或者完全忽略它们(图1-10和图1-11)。
图1-10 文本内容基本上就是标记之外的任何东西。注意,每行由一个回车分隔。另外,我使用特殊的字符引用©来表示版权符号,确保无论以什么方式保存这个文档,这个符号都会正确地显示
图1-11 注意,在用Web浏览器查看这个文档时,回车被忽略了,而且字符引用被替换成了对应的符号(©)
其次,HTML过去被限制为ASCII字符,只包括英语字母、数字和几个最常用的符号。加重音的字符(这对于西欧的许多语言很常见)和许多日常符号必须用特殊的字符引用来创建,例如é表示é,©表示©。
目前,有两个选择。可以仍然使用字符引用,但更容易的方法是按原样输入大多数字符,然后用Unicode(具体地说,是UTF-8)对(X)HTML文件进行编码。因为Unicode是ASCII的超集(它包含ASCII中的所有字符,还包含许多其他字符),所以用Unicode编码的文档与现有的浏览器和编辑器兼容。不理解Unicode的浏览器会正确地解释文档的ASCII部分,而理解Unicode的浏览器还会显示非ASCII部分(更多细节请参考第21章)。
不能直接输入的惟一字符是&。因为它在(X)HTML中有特殊含义(即表示字符引用的开头),所以在作为文本使用时,比如在AT&T中,它必须被表示为&。更多细节请参考21.6节。







