检测功能会告知你个人身份信息(PII)的位置。匿名化则决定如何处理这些信息。普雷西迪奥(Presidio)的匿名化工具内置了五种运算符,每种都适用于不同的合规要求和使用场景。选择错误意味着要么毁掉了你需要恢复的数据,要么以非预期的方式暴露了敏感信息。
本部分涵盖所有匿名化运算符、何时使用每种运算符、如何通过一致的名称映射构建假名化,以及如何处理可移植文档格式(PDF)中的个人身份信息(PII)。
五种内置运算符
替换
将检测到的实体替换为指定值。这是默认运算符。
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import OperatorConfig
analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()
text = "约翰·史密斯从 206-555-0147 致电咨询其账户事宜。"
results = analyzer.analyze(text=text, language="en")
# 替换为实体类型标签(默认行为)
anonymized = anonymizer.anonymize(
text=text,
analyzer_results=results,
operators={
"PERSON": OperatorConfig("replace", {"new_value": "[已编辑姓名]"}),
"PHONE_NUMBER": OperatorConfig("replace", {"new_value": "[已编辑电话]"})
}
)
print(anonymized.
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。