Ads.txt是什么
前言
这几天查看网站的后台访问记录,发现有谷歌爬虫有这样一条访问记录:
66.249.73.89 - - [23/Jan/2019:23:50:03 -0500] "GET /ads.txt HTTP/1.1" 404 1040 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
从行为上看,是访问兔子先生的根目录的ads.txt文件,但是网站的内链里上并不存在这个链接,想必又是一个行业标准文件吧。
Ads.txt介绍
从网上找到的资料来看,Ads.txt是IAB(Interactive Advertising Bureau)批准的文本文件,旨在防止未经授权的广告商品销售。
简单点说,就是媒体在他们的网络服务器上放置一个文本文件,列出所有通过其授权出售广告位的公司。而这些广告资源公司,也能通过这个文件来确认网站的广告发布是否有效。
以HuffPost的ads.txt为例:https://www.huffingtonpost.com/ads.txt
#Ads.txt huffingtonpost.com
#2018-12-10
#NAR
google.com, pub-6245227841947028, RESELLER, f08c47fec0942fa0 #video, US
google.com, pub-5482278706573796, RESELLER #banner, CA
google.com, pub-5786243031610172, RESELLER #banner, US
indexexchange.com, 175407, RESELLER, 50b1c356f2c5c8fc #video, US
indexexchange.com, 183875, RESELLER, 50b1c356f2c5c8fc #banner, US
indexexchange.com, 183965, RESELLER, 50b1c356f2c5c8fc #video, US
indexexchange.com, 184110, RESELLER, 50b1c356f2c5c8fc #video, US
indexexchange.com, 184866, RESELLER, 50b1c356f2c5c8fc #video, US
openx.com, 537125356, RESELLER, 6a698e2ec38604c6 #banner, video, US
openx.com, 537143344, RESELLER, 6a698e2ec38604c6 #banner
pubmatic.com, 133799, RESELLER, 5d62403b186f2ace #banner, US
pubmatic.com, 156020, RESELLER, 5d62403b186f2ace #video, US
yahoo.com, 2c44cbf8d10e3e7e1a28056c484eac0bde0af585, DIRECT #native
yahoo.com, 29284317594, DIRECT #banner
yahoo.com, 20459933223, DIRECT #banner
yahoo.com, 20764982904, DIRECT #banner
yahoo.com, 25980889636, DIRECT #banner, CA
yahoo.com, 26720242308, DIRECT #banner, CA
yahoo.com, 29284317576, DIRECT #banner
yahoo.com, 29284317581, DIRECT #banner, video
yahoo.com, 29228548013, DIRECT #banner, US
btrll.com, 6836013, DIRECT #video, US
btrll.com, 6836439, DIRECT #video, US
rubiconproject.com, 17250, RESELLER, 0bfd66d529a55807 #banner
google.com, pub-7363566645038776, RESELLER, f08c47fec0942fa0 #video, US
pubmatic.com, 156198, RESELLER, 5d62403b186f2ace #banner, US
adtech.com, 11353, DIRECT #banner
pubmatic.com, 156674, RESELLER, 5d62403b186f2ace #video
yahoo.com, 42446, DIRECT #banner
google.com, pub-5480205708168063, RESELLER, f08c47fec0942fa0 #video
google.com, pub-9914992914910847, DIRECT, f08c47fec0942fa0 #video
google.com, pub-2557900687859377, RESELLER, f08c47fec0942fa0 #video
advertising.com, 18407, RESELLER #video
google.com, pub-0978064532142215, RESELLER, f08c47fec0942fa0
google.com, pub-9869390676837132, DIRECT
google.com, pub-1991679624331369, RESELLER, f08c47fec0942fa0 #video
google.com, pub-3015538794163384, RESELLER, f08c47fec0942fa0 #video
google.com, pub-3230759608956247, RESELLER, f08c47fec0942fa0 #video
google.com, pub-2679103605715789, RESELLER, f08c47fec0942fa0 #video
google.com, pub-2846699686180177, RESELLER, f08c47fec0942fa0 #video
google.com, pub-6209086188495781, RESELLER, f08c47fec0942fa0 #video
google.com, pub-5628310764637319, RESELLER, f08c47fec0942fa0 #video
google.com, pub-3844877863303739, RESELLER, f08c47fec0942fa0 #video
taboola.com, 1040526, DIRECT #native
taboola.com, 1050097, DIRECT #native
taboola.com, 1061071, DIRECT #native
taboola.com, 1064871, DIRECT #native
taboola.com, 1064872, DIRECT #native
taboola.com, 1064873, DIRECT #native
taboola.com, 1064875, DIRECT #native
我们看到了熟悉的google, yahoo和taobao的记录。
从行业角度来说未经授权的转售是网页广告的主要问题,除非买家直接与发布广告的源公司联系,否则他们无法知道目前看到的广告产品是否是有效授权。
但是目前对于ads.txt的使用并非强制性要求,也就是说如果你的网站没有它,也没有影响,例如网易、淘宝、百度的网站都没有该文件。
创建自己的Ads.txt
如果你的网站加入了Goolge Adsense,那么你可以写一个google.com的ads.txt。
每条数据包含四个字段:
字段 | 说明 |
---|---|
<字段 #1> | 广告投放系统的域名(必填) |
<字段 #2> | 发布商帐号 ID(必填) |
<字段 #3> | 帐号/关系类型(必填) |
<字段 #4> | 认证机构 ID(选填) |
注意:
DIRECT
- 发布商和广告投放系统之间达成了直接的业务合同RESELLER
- 发布商已授权另一实体来控制字段 #2 中指出的帐号,并通过字段 #1 中的系统来转销其广告空间
针对使用 Google 产品的发布商的示例:
google.com, pub-0000000000000000, DIRECT, f08c47fec0942fa0
google.com, pub-0000000000000000, RESELLER, f08c47fec0942fa0
其中f08c47fec0942fa0
是认证机构是Trustworthy Accountability Group(TAG)给出的TAG ID,是固定的。
小结
目前国内其他爬虫尚未发现有对这个文件的抓取,所以行业标准还是需要谷歌这样的大厂来推动。
参考资料