HTTP缓存：ETag机制的原理与使用

什么是HTTP缓存？

HTTP（超文本传输协议）缓存是Web性能优化的一种常用方法。它允许浏览器在后续请求中存储并重用资源，而无需重新下载或请求服务器。当用户再次访问同一个网页时，浏览器可以从缓存中加载页面的组件，从而实现更快速的加载速度和减少带宽消耗。

为什么需要HTTP缓存？

提高页面加载速度：通过将页面的组件存储在本地，减少了从服务器获取资源所需的时间和带宽消耗。
减少服务器压力：如果浏览器可以直接从缓存中加载页面组件，服务器的请求量将会减少。
降低消耗：减少了网络传输的数据量，从而节省用户和服务器的带宽消耗。

缓存机制种类

在HTTP缓存中，常用的缓存机制有两种：强缓存和协商缓存。

强缓存

强缓存是指在浏览器发起请求之前，先检查缓存中是否存在该资源的副本，如果存在且未过期，则直接使用缓存的资源，不发送请求到服务器。

缓存控制指令

在HTTP请求头中，可以通过设置"Cache-Control"指令来控制缓存的行为。

"Cache-Control: max-age"：指定资源的有效期，单位为秒。例如，"Cache-Control: max-age=3600"表示资源在请求后的3600秒内有效。
"Cache-Control: no-cache"：代表强缓存失效，每次请求都需要向服务器发起验证。
"Cache-Control: no-store"：禁止缓存。

协商缓存

如果强缓存失效，浏览器将发送请求到服务器，并带上一些与缓存相关的请求头，服务器会根据这些请求头判断资源是否发生过改变。如果未发生改变，服务器将返回"304 Not Modified"响应，告诉浏览器可以使用缓存资源，而无需重新下载。

ETag机制

ETag（实体标签）是协商缓存机制中常用的一种验证方式。它是服务器根据资源的内容生成的唯一标识符。当浏览器发送请求时，会在请求头中带上"We If-None-Match"字段，其值为之前缓存的ETag。服务器根据比较请求头中的ETag和当前资源的ETag，如果相同，则返回"304 Not Modified"，否则返回资源内容和新的ETag。

ETag机制的原理与使用

ETag的生成

服务器可以使用不同的算法来生成ETag值，常见的方式包括：

将资源的内容使用哈希算法计算得到。
使用版本号、最后修改时间等信息来生成ETag。

服务器设置ETag

在服务器端，可以通过发送"ETag"响应头来设置资源的ETag值。例如：

HTTP/1.1 200 OK
ETag: "123456"

客户端发送ETag

在浏览器发起请求时，可以通过发送"We If-None-Match"请求头来传递之前缓存的ETag。例如：

GET /resource HTTP/1.1
Host: example.com
We If-None-Match: "123456"

服务器验证ETag

服务器在接收到请求后，会将请求头中的ETag与当前资源的ETag进行比较。如果相同，服务器返回"304 Not Modified"，否则返回新的资源内容和新的ETag。

优势与注意事项

ETag机制相对于修改时间机制来说更精确。它可以根据资源的内容生成唯一的标识符，即使资源的内容相同但修改时间不同，ETag也能识别出差异。然而，ETag机制也存在一些注意事项：

需要服务器计算ETag，并且对资源的计算密集型的操作，可能会对服务器性能造成一定影响。
如果资源被多个服务器生成，每个服务器会得到不同的ETag，这可能会导致缓存不命中。
有些服务器配置不正确，导致ETag每次都不同，这将导致缓存不起作用。

总结

HTTP缓存是Web性能优化的一种重要手段，它可以提高页面的加载速度、减少服务器压力和网络消耗。ETag机制作为协商缓存的一种验证方式，可以根据资源的内容生成唯一标识符，从而精确识别资源是否发生过改变。然而，ETag机制也存在一些注意事项，需要服务器配置正确来保证缓存正常工作。

参考

本文来自极简博客，作者：算法之美，转载请注明原文链接：HTTP缓存：ETag机制的原理与使用