找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 149|回复: 0

并且趋势分析也仅限于三个月内的数据

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2023-12-24 19:39:28 | 显示全部楼层 |阅读模式
是的,Google 不会提供所有抓取的网址(如日志文件), 但是不会经常更改的小站点也需要一些持续的技术 SEO,让网站审核员发现和诊断问题就足够了。 例如来自站点爬虫、XML 站点地图、Google Analytics 和 Google Search Console 的交叉分析可能会发现所有孤立页面。 还可以使用站点审核员从内部链接中发现错误状态码。 会特别指出来是因为有几个关键原因: 获取访问日志文件并不容易(接下来会详细介绍)。 对于不常更改的小型网站,日志文件的好处并不多,这意味着 SEO 的重点可能会转移到其他地方。 如何访问你的日志文件 在大多数情况下要分析日志文件,首先必须向开发人员请求访问日志文件。 然后开发人员可能会遇到一些问题,并且会引起你的注意,这些包括: 部分数据 – 日志文件可以包含分散在多个服务器上的部分数据,这通常发生在开发人员使用各种服务器的情况,例如源服务器、加载均衡器和 CDN。获得所有日志的充分信息可能意味着需要编译来自所有服务器的访问日志。 文件大小 – 高流量站点的访问日志文件大小可能达到 TB,如果不是 PB 的话,会使得它们难以传输。 隐私/合规 – 日志文件包括属于个人身份信息 (PII) 的用户 IP 地址。用户信息可能需要先删除,然后才能与你共享。 存储历史 – 由于文件大小影响,开发人员可能已将访问日志配置为仅存储数天,这对于发现趋势和问题变的没有用处。 这些问题会让人质疑存储、合并、过滤和传输日志文件是否值得开发人员付出心力,特别是如果开发人员已经有很长的工作优先级列表了(通常是这种情况)。 开发人员可能会将责任放在 SEO 人员身上,来透过解释/建立一个案例说明为什么开发人员应该在这方面投入时间,你需要在其他 SEO 重点中优先考虑这一点。 这些问题正是很少做日志文件分析的原因。 从开发人员那里收到的日志文件也常被通用的日志文件分析工具以不支持的方式格式化,使得分析更加困难。


值得庆幸的是,有一些软件解决方案可以简化该过程,我最喜欢的是 Logflare,这是一个 Cloudflare 应用程序,可以将 WhatsApp 号码数据 日志文件存储在你拥有的 BigQuery 数据库中。 如何分析你的日志文件 现在是时候开始分析你的日志了。 我将具体展示如何在 Logflare 的整体执行操作,但是有关如何使用日志数据的提示适用于任何日志。 我分享的模板也适用于任何日志,只需要确保数据表中的栏位匹配。 1. 首先设置 Logflare(可选) Logflare 容易设置,通过 BigQuery 集成,它可以长期存储数据,你将拥有完整数据并让每个人都可以轻松访问。 但有一个难处是,需要更换你的域名服务器来使用 Cloudflare 并在那里管理你的 DNS。 对于大多数人来说没有问题,但是如果使用的是更企业级的站点,就不太可能说让服服务器架构团队更改域名服务器以简化日志分析。 我不会详细介绍如何使用 Logflare 的每一步,但要开始使用,需要先前往 Cloudflare 仪表板的应用程序(Apps)。 然后搜索 Logflare。 之后的设置就是不言自明的(创建一个帐户并为项目命名,选择要发送的数据等),我唯一另外推荐的部分是 Logflare 的 BigQuery 设置指南。 但是请记住,BigQuery 的成本取决于你执行的查询和存储的数据量。 小提示. 值得注意的是,BigQuery 后端一个显着的优势是你拥有数据,这意味着可以通过将 Logflare 配置为不往 PII 发送相似的 IP 地址 ,并透过 SQL 查询从 BigQuery 中删除 PII 来规避 PII 的问题。 2. 验证 Googlebot 我们现在已经存储了日志文件(通过 Logflare 或其他方法),接下来我们需要从想要分析的用户代理中精确地提取日志,对于大多数人来说的话就是 Googlebot。




在我们这样做之前,还有另一个障碍要跨越。 许多机器人透过伪装成 Googlebot 来通过防火墙(如果有的话),此外一些审核工具也会这样做,以准确呈现网站为用户代理返回的内容,如果你的服务器为 Googlebot 返回不同的 HTML(例如你设置了动态呈现),这点就会至关重要。 我没有使用 Logflare 如果没有使用 Logflare,识别 Googlebot 则需要反向 DNS 查找来验证的请求是否来自 Google。 Google 在此处提供了手动验证 Googlebot 的便捷指南。 你可以一次性执行此操作,使用反向 IP 查找工具并检查返回的域名。 但是我们需要对日志文件中的每一行批量执行此操作,这还要求匹配 Google 提供列表中的 IP 地址。 最简单的方法是使用由第三方维护的服务器防火墙规则集来阻止假机器人(可能让日志文件中更少出现/甚至没有假的 Googlebot),Nginx 里一个常见的是“Nginx 的终极恶意机器人拦截器.” 或者你会在 Googlebot IP 列表中注意到 IPV4 地址均以“66”开头。 虽然它不会 100% 准确,但在分析日志中的数据时,还可以通过过滤以“6”开头的 IP 地址来检查 Googlebot。 我正在使用 Cloudflare/Logflare Cloudflare 的专业计划(目前每个月 20 美元)具有内置防火墙功能,可以阻止伪造的 Googlebot 请求访问你的网站。 Cloudflare 默认禁用这些功能,但可以通过前往 Firewall > Managed Rules > 启用 “Cloudflare Specials” > 选择 “Advanced” 来找到他们 接下来,将搜索类型从“Description”更改为“ID”并搜索“100035”。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|任务岛

GMT+8, 2024-9-24 23:24 , Processed in 0.195230 second(s), 18 queries .

Powered by Discuz! X3.5

Copyright © 2001-2023 Tencent Cloud.

快速回复 返回顶部 返回列表