Module 05 数据治理
1. 什么是数据治理?(教科书定义)
1.1 “教科书” 定义 #1
要了解与数据治理相关的各种道德问题,我们首先需要了解它的含义!
“数据治理代表 [组织] 用于管理组织机构、政策、原则和质量的程序,该程序将确保访问准确且无风险的数据和信息……”
—— John Ladley (2012). Data Governance: How to Design, Deploy and Sustain an Effective Data Governance Program (The Morgan Kaufmann Series on Business Intelligence) 1st Edition. Morgan Kaufmann.
1.2 “教科书”(行业)定义 #2
“数据治理研究所将数据治理定义为:信息相关流程的决策权和责任系统,根据商定的模型执行,该模型描述了谁可以对什么信息采取什么行动,以及何时、在何种情况下、使用何种方法。”
“国际数据管理协会(DAMA)将数据治理定义为:计划、监督和控制数据管理,以及数据和数据相关来源的使用。” —— Olavsrud (2020)
关键词:
- 正式/系统/流程/模型
- 监管/管理/监督/控制/规划
- 权利/责任
- 谁/什么/在哪里
- 准确/无风险
- 数据
2. 实践中的数据治理(从业者的观点)
数据治理有哪些任务?
让我们看看墨尔本大学的 数据治理官(Data Governance Officer) 是做什么的:
主要负责:
- 定义并记录数据治理框架(人员、流程和工具)和实施计划。
- 为整个大学的数据治理框架的持续实施做出贡献。
- 就大学内的利益相关者社区的治理和数据管理实践提供咨询。
- 根据数据治理框架制定数据管理流程。
- 推动整个大学的数据管理流程的实施,例如 数据管理。
- 监控和审查数据资产和程序控制,以不断改进数据管理实践。
- 关于整个大学数据治理框架和合规性实施情况的报告。
让我们看看墨尔本大学的 数据治理分析师(Data Governance Analyst) 是做什么的:
主要负责:
- 维护企业业务词汇表。这将涉及审查项目和 BAU 团队提交的业务术语,清理定义以提高清晰度,并就企业术语寻求全校主要利益相关者的同意。
- 与项目和 BAU 团队合作,促进业务术语的标准化。
- 定义和记录将术语输入业务词汇表的指南。
- 为整个大学的数据管理战略的持续实施做出贡献。
- 就大学内的利益相关者社区的数据管理实践提供咨询。
- 根据数据治理框架为数据管理流程的开发做出贡献。
- 协助监控和审查数据资产和程序控制,以不断改进数据管理实践。
- 开发支持控制和流程以实施数据管理策略,例如业务词汇表、元数据管理、审批工作流等。
到了这个阶段,我们应该非常清楚什么是数据治理,这个领域需要什么任务,以及像墨尔本大学这样的组织如何实现这一点(以保护我们的数据等)。
3. 从组织到用户
3.1 用户
您可能已经注意到那里的双关语 —— 我们是由许多不同组织运营下的许多服务的用户。
社交媒体?
- 例如:Twitter/Facebook/TikTok……
搜索巨头?
- 例如:谷歌…
设备/平台制造商?
- 例如:苹果/谷歌…
并且,我们甚至可能在不自觉的情况下成为利益相关者!
- 例如,虽然您不是亚马逊客户,但您使用 Covidsafe 应用程序(它使用亚马逊云存储!)
3.2 我们与技术组织的关系(我们❤️技术?)
仔细思考:这种关系是对称的吗?
-
假设您与一家出售咖啡并支付现金的小商贩的关系。
您与供应商共享的数据只是纸上的咖啡会员卡、您通常的订单等。
供应商可能会将数据用于一些业务场景,例如,一周内总共使用了多少会员卡来预测销售额,您通常的订单来为您提供个性化服务/感谢您成为忠实客户等。
大型科技公司更了解用户:
- 考虑目标案例研究 $\Longrightarrow$ Target 公司是如何在一名女孩的父亲之前得知这名女孩怀孕的?
- 不对称(Asymmetric)?
一些学者呼吁我们有 “义务”(康德的哲学)来阻止微定位。
Social networks, the 2016 US presidential election, and Kantian ethics: applying the categorical imperative to Cambridge Analytica’s behavioral microtargeting (Ken Ward, 2018)
反思:我们是否真的无助?因为我们一直都依赖大型科技公司来保持联系、进行业务交易以及学习,尤其是在 2019 - 2021 年 Covid 大流行期间。
4. 保护我们的法律(和 GDPR 一目了然)
4.1 免责声明:我不是律师
本小型讲座中提供的信息是从各种来源汇总的,以解释 GDPR 和当地法律等法律如何保护用户(概览)。
本次讲座不会让您成为 GDPR 的专家 ☺。
4.2 还记得这些吗?
2018 年年中之后,这些 GDPR 横幅似乎随处可见……
4.3 欧盟通用数据保护条例 (The EU General Data Protection Regulation, GDPR)
在此处阅读更多信息:https://gdpr.eu/what-is-gdpr/
GDPR 数据保护原则:
如果您处理数据,则必须根据第 5.1-2 条中概述的七项保护和问责原则进行处理:
- 合法、公平和透明(Lawfulness, fairness and transparency)—— 数据处理必须合法、公平和透明。
- 目的限制(Purpose limitation)—— 您必须为收集数据时明确向数据主体指定的合法目的处理数据。
- 数据最小化(Data minimization)—— 您应该只收集和处理为指定目的绝对必要的量的数据。
- 准确性(Accuracy)—— 您必须保持个人数据的准确性和最新性。
- 存储限制(Storage limitation)—— 您只能在达到指定目的所需的时间内存储个人识别数据。
- 完整性和机密性(Integrity and confidentiality)—— 必须以确保适当安全性、完整性和机密性(例如,加密)的方式进行处理。
- 问责制(Accountability)—— 数据控制者有责任证明 GDPR 符合所有这些原则。
Cookie 弹出窗口?
“数据主体向您提供了处理数据的明确、明确的同意。”
—— Proton Technologies AG 的总结(2021)
另外:欧盟电子隐私指令(https://www.cookiebot.com/en/cookie-law/)
除其他外,任何 “处理欧盟人员个人数据的组织都必须遵守 GDPR……”(https://gdpr.eu/faq/)
(以下所有引用均来自 https://gdpr.eu/checklist/)
- “数据保护是您现在在处理他人个人数据时必须考虑的事情”,而不仅仅是事后的想法
- “人们有权查看您拥有关于他们的哪些个人数据以及您如何使用这些数据”,尽管目前在践行中,但还是非常棘手……
- “您还需要快速将数据泄露事件告知您的数据主体”,而不仅仅是对此保持沉默!
- 注意:可解释性的 “权利” —— 这是许多法律研究和数字伦理学学术著作的主题。(我们自己的 Tim Miller 教授将能够提供有关拥有可解释人工智能意味着什么的技术细节)
4.4 澳大利亚的情况
我们有 澳大利亚隐私原则指南(Australian Privacy Principles guidelines):
https://www.oaic.gov.au/privacy/australian-privacy-principles-guidelines/
4.5 反思
- 法律保护我们的用户。
- 公司不能滥用我们的信任和/或数据。
- 我们仍然需要了解我们的数据是如何使用的;了解涉及数据使用/重用的问题;并了解我们如何保护自己和他人。
- 如果社交媒体或搜索巨头想要收集您的个人资料以便通过您的数据获利,那么是时候表达您的 “反对意见” 了。
5. 组织以及 “Beacon 和 Pixels 的故事”
5.1 Beacons 和 Pixels
Lane 诉 Facebook 公司案(Lane v. Facebook, Inc.):
Lane 诉 Facebook 案 是在美国加利福尼亚北区联邦地区法院关于网络隐私和社交媒体的一个集体诉讼案件。2007年12月, Facebook推出 Beacon,导致用户隐私信息在未经用户同意的情况下被发布在 Facebook上。最终,Facebook 终止了 Beacon 计划,并为隐私和安全设立了 950 万美元的基金。对于未受到 Beacon 计划负面影响的用户,Facebook 没有提供金钱补偿。
Facebook Pixel 像素代码简介:
Facebook Pixel 像素代码是一种分析工具,可帮助您了解用户在网站上采取的操作,继而衡量广告成效。
您可以利用 Pixel 像素代码执行以下操作:
- 确保向合适受众展示广告。寻找新客户、特定页面的历史访客或在网站上采取过期望操作的用户。
- 提升销量。设置自动竞价,覆盖更有可能采取关键操作(例如完成购买)的用户。
- 衡量广告成效。通过衡量用户查看广告后的成效更好地了解广告的影响。
5.2 影响
您 “关闭” 社交媒体的网络浏览生活可能会被用于广告、定位等(反之亦然)。
Facebook 并非唯一一家这样做的公司。
考虑使用跟踪像素系统 XYZ 的购物网站和新闻网站。
来自维基百科(https://en.wikipedia.org/wiki/Web_beacon):
- “图像可以小到一个像素……(因此得名 “跟踪像素”)。
- “当用户打开嵌入了此类图像的页面或电子邮件时,他们可能看不到该图像,但他们的网络浏览器……会看到……
- “……通常包括其 IP 地址……主机服务器先前发送的 cookie 的存在……[可以] 将其与唯一标记交互的会话标识符或跟踪令牌相关联。 “
5.3 隐私意识作为商业模式
例如:
- 火狐(Firefox)浏览器将防跟踪保护作为营销点。
- 苹果宣称其自家的 Safari 浏览器可以有效防止用户被追踪。
6. 用户:您的权利、自由和对策
我们的伦理义务:我们有隐私权!
- 剑桥分析丑闻(使用 Facebook 数据)等事件提醒我们……
- ……以及 Firefox/Apple 鼓励我们的举措。
Ward (2018) 声称我们有责任避免微定位
- 我想再补充一点,算法个性化(导致 Pariser 2011 年的过滤气泡现象)之类的现象向我们表明,不仅仅是我们自己,那些在我们关系网络之中的人也处于危险之中。
一些哲思:
只有当我们认识到我们对他人的责任,促进他们自由地追求自己的事业时,我们才是自由的。
—— Simone de Beauvoir (Pyrrhus and Cinéas, 1944)
7. 案例研究:您的数据比您个人/科技巨头的寿命更长吗?
7.1 阅读 Öhman & Aggarwal (2020)
7.2 案例研究:Dominicé & Haux (2020)
论文中引述的简要事实:科技公司的作用?
- 为了回应这个 [论文中的第一个判断] …… Facebook 向父母发送了一个包含超过 14,000 页的 PDF 文件的 U 盘。这些页面是静态内容,包括从帐户复制的非结构化数据……
- 这里的问题是柏林地区法院在 2015 年规定的权利和义务是否得到满足。虽然 Facebook 声称已满足要求,但该家庭仍然认为提供的 “访问权限” 不足。因此,他们将案件带回柏林地区法院……
- 虽然他们不应该能够主动使用 Facebook 帐户,但父母应该能够探索原始平台上的内容。 15 在该裁决中,法官们明确表示,根据他们的法律评估,地区法院 2015 年 12 月 17 日的判决中与 “访问” 相关的义务尚未履行……
反思:
- 科技公司的作用?
- 谁拥有你的数字生活?
- 作为消费者,我们可以用我们的数据做什么?
- 开放性问题:当技术/公司关闭时会发生什么?
8. 案例研究:“一组” 数据与数据集
阅读:Paullada et al (2020)
反思:
我们在网上留下了许多有关于我们自己的数据。
研究人员应该在多大程度上使用我们的 “数据集合” 作为数据集?这会带来什么影响?
-
危害?例如,代表性?
-
自治?
-
同意?
-
使用、再利用和研究伦理?
将其与数据治理联系起来。
本案例研究与数字伦理和负责任的人工智能研究的许多其他方面有关。
我们无法提供全部答案 —— 但希望这个案例研究是你自己反思的起点。
9. 推荐阅读
- Data and its (dis)contents: A survey of dataset development and use in machine learning research.
- What if Facebook goes down? Ethical and legal considerations for the demise of big tech.
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 欢迎转载,并请注明来自:YEY 的博客 同时保持文章内容的完整和以上声明信息!