来源卡片：网络内容溯源原型

我一直在尝试一个小型的浏览器端原型，它试图回答一个枯燥但日益重要的问题：
这段网络内容源自何处？
不是问“这是人工智能生成的吗？”我认为这个问题已经变得错综复杂。检测工具有时很有用，但我不会仅凭它们就建立信任。
更简单的问题是：这个页面首次被看到是什么时候？谁看到了它？
它是否发生过变化？我们还能重放被捕获的内容吗？

在构建这个原型的过程中，我不断遇到同一个问题。似乎没有一个简单的标准对象，能以普通开发者可检查的方式解释围绕某个页面的证据。（如果有，请告诉我）
因此，我开始将其视为一种来源卡片。
不是一种魔法般的真相标签。只是一张枯燥的证据卡片。

第一条规则：不要声称真相
卡片绝不应说：
这是真的。
那不是来源的含义。

一个页面可能是真实存在的，但内容仍然是错误的。一句引文可能很古老，但仍可能被以不诚实的方式使用。一张照片可能是真实的，但仍可能被置于错误的语境中展示。
我的关注点更多在于真实性：它是人类创作的内容吗？它源自何处？例如，我经常使用人工智能进行文本校正和校对，但内容和思考过程都源于我自己。
此外，我来自荷兰，所以英语不是我的母语，尽管我与美国妻子结婚已有十五年，并且我们在家中和孩子们说英语。我还经常在加利福尼亚和比利时之间旅行，因此我的写作自然地介于不同的语言和地域之间。
因此，我试图将这个问题分解为四个部分。
第一：这件事物是否曾在某处出现？
第二：它是在何时被看到或捕获的？
第三：捕获的版本是否仍然相同？
第四：实际的主张是否正确？

来源卡片可以帮助解决前三个问题。第四个问题则是另一项工作。将它们混为一谈，就会导致你在某些仍然误导人们的事物上贴上绿色的“已验证”徽章。
最小化版本

第一个版本可以是像这样简单的结构：
{
"url": "https://example.com/article",
"canonical_url": "https://example.com/article",
"first_seen": "2024-03-12T10:22:00Z",
"last_seen": "2026-07-01T18:04:00Z",
"live_status": "available",
"archive_witnesses": ["wayback", "common_crawl"],
"capture_integrity": "hash_available",
"replay_status": "partial",
"confidence": "medium",
"warnings": [
"dynamic_content_detected",
"single_independent_archive_witness"
]
}

这并非法庭证据。但它已经比普通的链接预览更有用，因为至少现在用户可以看到系统为何认为某事物具有来源依据。单一见证人是不够的
我的第一个版本严重依赖互联网档案库（Wayback Machine）的 CDX 应用程序接口。
这很有用，但也让弱点显而易见。
有时没有捕获记录。有时捕获不完整。有时网站阻止了爬虫。有时重放效果与原始页面截然不同。有时你只找到一个孤零零的快照，却不知该赋予它多大的权重。

因此，我认为卡片应将证据视为一个见证堆栈：

实时页面告诉你当前存在的内容。
公共档案告诉你之前是否有人捕获过它。
爬取索引告诉你是否有其他爬虫看到过它。
本地捕获告诉你你自己捕获了什么。
屏幕截图提供视觉参考。
哈希值有助于显示文件是否发生了更改。
重放包告诉你页面是否可以被检

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。

我将如何为网页内容设计溯源卡片