我一直在尝试一个小型的浏览器端原型,它试图回答一个枯燥但日益重要的问题:
这段网络内容源自何处?
不是问“这是人工智能生成的吗?”我认为这个问题已经变得错综复杂。检测工具有时很有用,但我不会仅凭它们就建立信任。
更简单的问题是:这个页面首次被看到是什么时候?谁看到了它?
它是否发生过变化?我们还能重放被捕获的内容吗?
在构建这个原型的过程中,我不断遇到同一个问题。似乎没有一个简单的标准对象,能以普通开发者可检查的方式解释围绕某个页面的证据。(如果有,请告诉我)
因此,我开始将其视为一种来源卡片。
不是一种魔法般的真相标签。只是一张枯燥的证据卡片。
第一条规则:不要声称真相
卡片绝不应说:
这是真的。
那不是来源的含义。
一个页面可能是真实存在的,但内容仍然是错误的。一句引文可能很古老,但仍可能被以不诚实的方式使用。一张照片可能是真实的,但仍可能被置于错误的语境中展示。
我的关注点更多在于真实性:它是人类创作的内容吗?它源自何处?例如,我经常使用人工智能进行文本校正和校对,但内容和思考过程都源于我自己。
此外,我来自荷兰,所以英语不是我的母语,尽管我与美国妻子结婚已有十五年,并且我们在家中和孩子们说英语。我还经常在加利福尼亚和比利时之间旅行,因此我的写作自然地介于不同的语言和地域之间。
因此,我试图将这个问题分解为四个部分。
第一:这件事物是否曾在某处出现?
第二:它是在何时被看到或捕获的?
第三:捕获的版本是否仍然相同?
第四:实际的主张是否正确?
来源卡片可以帮助解决前三个问题。第四个问题则是另一项工作。将它们混为一谈,就会导致你在某些仍然误导人们的事物上贴上绿色的“已验证”徽章。
最小化版本
第一个版本可以是像这样简单的结构:
{
"url": "https://example.com/article",
"canonical_url": "https://example.com/article",
"first_seen": "2024-03-12T10:22:00Z",
"last_seen": "2026-07-01T18:04:00Z",
"live_status": "available",
"archive_witnesses": ["wayback", "common_crawl"],
"capture_integrity": "hash_available",
"replay_status": "partial",
"confidence": "medium",
"warnings": [
"dynamic_content_detected",
"single_independent_archive_witness"
]
}
这并非法庭证据。但它已经比普通的链接预览更有用,因为至少现在用户可以看到系统为何认为某事物具有来源依据。单一见证人是不够的
我的第一个版本严重依赖互联网档案库(Wayback Machine)的 CDX 应用程序接口。
这很有用,但也让弱点显而易见。
有时没有捕获记录。有时捕获不完整。有时网站阻止了爬虫。有时重放效果与原始页面截然不同。有时你只找到一个孤零零的快照,却不知该赋予它多大的权重。
因此,我认为卡片应将证据视为一个见证堆栈:
实时页面告诉你当前存在的内容。
公共档案告诉你之前是否有人捕获过它。
爬取索引告诉你是否有其他爬虫看到过它。
本地捕获告诉你你自己捕获了什么。
屏幕截图提供视觉参考。
哈希值有助于显示文件是否发生了更改。
重放包告诉你页面是否可以被检
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。