llms-txt
综合介绍
llms-txt是一个简单实用的标准化方案。它通过创建/llms.txt文件,为大型语言模型(LLM)在推理时访问网站提供必要信息。这个方案解决了LLM在浏览网页时缺乏标准化数据源的问题。
该方案模仿了robots.txt的做法,但专门服务于LLM。网站管理员可以在根目录下放置llms.txt文件,明确指定哪些内容允许或禁止LLM使用。这种做法既保护了网站内容,又为LLM提供了规范的访问指南。
功能列表
- "标准化格式":采用简单易懂的文本格式,便于人工编写和机器解析
 - "访问控制":明确指定允许或禁止LLM访问的内容范围
 - "信息提供":为LLM提供网站的基本信息和内容使用指南
 - "兼容性强":可以与现有robots.txt方案并存,互不冲突
 
使用帮助
使用llms-txt方案非常简单,不需要安装任何额外软件。只需按照以下步骤操作:
1. 创建文件:在网站根目录下新建一个名为"llms.txt"的纯文本文件
2. 编写内容:使用标准格式填写LLM访问规则。基本格式如下:
- 以#开头的行是注释
 - Allow: 指定允许访问的路径
 - Disallow: 指定禁止访问的路径
 - Contact: 提供网站管理员联系方式
 
3. 上传文件:将llms.txt上传到网站根目录,与robots.txt并列
4. 验证访问:确保文件可通过https://您的域名/llms.txt访问
示例文件内容:
# llms.txt示例文件 Allow: /public/ Disallow: /private/ Contact: admin@example.com
高级用法:
1. 路径匹配:可以使用通配符*匹配多个路径
2. 多语言支持:可以为不同语言版本的LLM提供特定指引
3. 内容说明:添加Description字段说明网站主要内容
注意事项:
- 文件必须使用UTF-8编码
 - 每行指令必须单独一行
 - 大小写不敏感,但建议统一使用首字母大写
 - 建议保持文件大小在10KB以内
 
产品特色
为大型语言模型提供标准化的网站访问指南。
适用人群
- 网站管理员:需要控制LLM对网站内容的访问权限
 - AI开发者:开发基于LLM的网络应用需要标准化数据源
 - 内容创作者:希望明确指定哪些内容可以被AI使用
 
应用场景
- 内容保护:防止LLM抓取敏感或付费内容
 - 数据提供:主动为LLM提供结构化网站信息
 - 权限管理:精细控制不同LLM的访问范围
 
常见问题
- llms.txt和robots.txt有什么区别?robots.txt针对搜索引擎爬虫,llms.txt专门为大型语言模型设计。
 - 如果网站没有llms.txt会怎样?LLM会默认遵循robots.txt规则,或自行决定访问策略。
 - 如何测试llms.txt是否生效?直接访问域名/llms.txt,确认文件可读且内容正确。
 
