
Dynamic robots.txt假设我有一个网站,用于托管针对一组非常特定的用户的社区生成内容。现在,假设为了建立一个更好的社区,我有一个题外话区域,社区成员可以在其中发布或谈论他们想要的任何内容,无论网站的主题是什么。 现在,我希望 Google 将大部分内容编入索引。值得注意的例外是题外话内容。每个线程都有自己的页面,但所有线程都列在同一个文件夹中,所以我不能只从某个文件夹中排除搜索引擎。它必须是每页的。传统的 robots.txt 文件会变得很大,那我还能怎么做呢? 这适用于所有表现良好的搜索引擎,只需将其添加到
如果使用 Apache,我会使用 mod-rewrite 将 robots.txt 别名为可以动态生成必要内容的脚本。 编辑:如果使用 IIS,你可以使用 ISAPIrewrite 来做同样的事情。 您可以通过用生成输出的动态脚本替换 robots.txt 来实现它。
n n 与@James Marshall 的建议类似 - 在 ASP.NET 中,您可以使用 HttpHandler 将对 robots.txt 的调用重定向到生成内容的脚本。 robots.txt 阻止动态网页使用此代码 用户代理:* 不允许:/setnewsprefs? 不允许:/index.html? 不允许:/? 允许:/?hl= 不允许:/?hl=* 您可以通过限制机器人元标记来禁止搜索引擎读取或索引您的内容。通过这种方式,蜘蛛会考虑您的指示,并且只会索引您想要的页面。 |