无代码AI开发平台如何引入模型偏差

泪雪新闻 2022-01-07 14:02:03 阅读(...)

随着大流行加速了组织的数字化转型计划，企业中的 AI 部署猛增。在最近的一项调查中，86% 的决策者告诉普华永道，人工智能正在成为他们组织的“主流技术”。The AI Journal 的另一份报告发现，大多数高管预计 AI 将使业务流程更加高效，并有助于创建新的业务模型和产品。

开发 development

“无代码”人工智能开发平台的出现在一定程度上推动了采用。例如，无代码工具旨在抽象创建 AI 系统通常所需的编程，使非专家能够开发机器学习模型，这些模型可用于预测库存需求或从业务文档中提取文本。鉴于数据科学人才日益短缺，预计未来几年无代码平台的使用量将攀升，Gartner 预测到 2024 年，65% 的应用程序开发将是低代码/无代码的。

但是，将数据科学工作抽象化存在风险——其中最主要的是，更容易忘记底层真实系统中的缺陷。

无代码开发

无代码人工智能开发平台——包括 DataRobot、谷歌 AutoML、Lobe（微软于 2018 年收购）和亚马逊 SageMaker 等——它们提供给最终客户的工具类型各不相同。但大多数都提供拖放式仪表板，允许用户上传或导入数据以训练、重新训练或微调模型，并自动对训练数据进行分类和规范化。他们通常还通过根据所需的数据和预测找到“最佳”模型来自动选择模型，这些任务通常由数据科学家执行。

使用无代码 AI 平台，用户可以将数据电子表格上传到界面中，从菜单中进行选择，并开始模型创建过程。然后，该工具将创建一个模型，该模型可以根据其功能发现文本、音频或图像中的模式——例如，分析组织中的销售笔记和文字记录以及营销数据。

无代码开发工具在可访问性、可用性、速度、成本和可扩展性方面提供了表面上的优势。但伦敦玛丽皇后大学人工智能研究员迈克库克指出，虽然大多数平台暗示客户应对其模型中的任何错误负责，但这些工具可能会导致人们不重视调试和审核模型的重要任务。

“对这些工具的[O]一个关注点是，就像与人工智能热潮有关的所有事情一样，它们看起来和听起来都很严肃、官方和安全。因此，如果 [他们告诉] 你 [that] 你用这个新模型将你的预测准确度提高了 20%，你可能不会倾向于问为什么，除非 [他们告诉] 你，”库克通过电子邮件告诉。“这并不是说你更有可能创建有偏见的模型，但你可能不太可能意识到或去寻找它们，这可能很重要。”

这就是所谓的自动化偏见——人们倾向于信任来自自动化决策系统的数据。正如 2018 年微软研究院的一项研究发现，关于机器学习模型和人员（尤其是非专家）的过多透明度会让人不知所措。然而，太少了，人们会对模型做出错误的假设，给他们灌输错误的信心。密歇根大学和微软研究院 2020 年的一篇论文表明，即使是专家也倾向于通过图表和数据图过度信任和误读模型的概述——无论可视化是否具有数学意义。

这个问题在计算机视觉中尤其严重，这是人工智能领域，它处理经过训练以“看到”和理解现实世界中的模式的算法。计算机视觉模型极易受到偏差的影响——即使背景风景的变化也会影响模型的准确性，相机模型的不同规格也会影响模型的准确性。如果有不平衡数据集的训练，计算机视觉模型可不赞成深色皮肤的个体和人从特定的区域中的世界。

专家们也将面部识别、语言和语音识别系统中的许多错误归因于用于开发模型的数据集的缺陷。自然语言模型——通常在 Reddit 的帖子上训练——已被证明会表现出种族、民族、宗教和性别方面的偏见，将黑人与更多的负面情绪联系起来，并与“黑人对齐的英语”作斗争。

“我不认为 [无代码 AI 开发工具] 的具体工作方式使模型本身更有可能出现偏差。[A] 他们所做的很多事情只是围绕系统规范和测试新的模型架构，从技术上讲，我们可能会争辩说，他们的主要用户是应该更了解的人。但是 [他们] 在科学家和受试者之间制造了额外的距离，这通常是危险的，”库克继续说道。

供应商视角

供应商的感觉不同，这并不奇怪。无代码人工智能平台 Akkio 的联合创始人乔纳森·赖利 (Jonathon Reilly) 表示，任何创建模型的人都应该“明白他们的预测只会与数据一样好”。虽然他承认人工智能开发平台有责任教育用户模型是如何做出决策的，但他有责任理解用户的偏见、数据和数据建模的性质。

“消除模型输出中的偏差最好通过修改训练数据来完成——忽略某些输入——这样模型就不会在基础数据中学习不需要的模式。了解这些模式以及何时应该包括或排除这些模式的最佳人选通常是主题专家——而且很少是数据科学家，”赖利通过电子邮件告诉。“认为数据偏差是无代码平台的一个缺点，就像认为写得不好是文字处理平台的缺点一样。”

无代码计算机视觉初创公司 Cogniac 的创始人 Bill Kish 同样认为，偏见尤其是一个数据集，而不是一个工具问题。他说，偏见是“人类现有缺陷”的反映，平台可以减轻但没有责任完全消除。

“计算机视觉系统中的偏见问题是由于人类策划的‘基本事实’数据存在偏见。我们的系统通过多人审查不确定数据以建立‘共识’的过程来缓解这种情况，”基什通过电子邮件告诉。“[Cogniac] 充当管理视觉数据资产的记录系统，[显示]……所有数据和注释的来源[并]确保数据中固有的偏见在视觉上浮出水面，因此它们可以通过人机交互来解决。 ”

考虑到用户经常携带自己的数据集，将数据集创建的负担放在无代码工具上可能是不公平的。但正如库克指出的那样，一些平台专门自动处理和收集数据，这可能会导致同样的问题，让用户忽视数据质量问题。他说：“这不一定是一成不变的，但考虑到人们在构建模型方面已经很糟糕，任何让他们在更短的时间和更少的思考中完成的事情都可能会导致更多的错误，”他说。

还有一个事实是模型偏差不仅仅来自训练数据集。作为 2019 MIT 技术评论一块规定了，公司可能帧在不因子在公平或歧视的可能性的方式，他们试图用 AI 来解决问题（例如，评估信用）。他们——或者他们正在使用的无代码 AI 平台——也可能在数据准备或模型选择阶段引入偏差，影响预测准确性。

当然，用户总是可以根据他们在公共数据集上的相对表现，比如 Common Crawl 来探索各种无代码 AI 开发平台本身的偏差。无代码平台声称以不同的方式解决偏见问题。例如，DataRobot 有一个“谦虚”设置，允许用户从本质上告诉一个模型，如果它的预测听起来好得令人难以置信，那就是。“谦虚”指示模型提醒用户或采取纠正措施，例如，如果其预测或结果超出特定范围，则用上限或下限覆盖其预测。

然而，这些去偏差工具和技术所能达到的效果是有限的。如果不了解偏见的潜在原因和原因，模型中出现问题的可能性就会增加。

Reilly 认为供应商的正确途径是在推动明确的监管框架的同时提高教育、透明度和可访问性。他说，使用 AI 模型的企业应该能够轻松地指出模型如何根据来自 AI 开发平台的支持证据做出决策——并且对其使用的道德和法律影响充满信心。

Reilly 补充说：“一个模型需要有多好才能具有价值，这在很大程度上取决于该模型试图解决的问题。” “您无需成为数据科学家即可了解模型用于决策的数据模式。”

AI开发人工智能开发平台数据集无代码

0个人收藏收藏

评论交流

请「登录」后参与评论

加载中..

无代码AI开发平台如何引入模型偏差

无代码开发

供应商视角

评论交流

相关推荐

工商局注册公司需要多长时间

工商局注册申请公司需要哪些材料

工商局注册申请公司需要收费吗

大学生创业注册公司有必要找代理公司吗

大学生创业怎么申请公司

大学生创业公司如何保护商标不被侵权

最新文章

工商局注册公司需要多长时间

工商局注册申请公司需要哪些材料

工商局注册申请公司需要收费吗

大学生创业注册公司有必要找代理公司吗

大学生创业怎么申请公司

大学生创业公司如何保护商标不被侵权

商标对创业公司有哪些重要性

创业公司一定需要申请注册商标吗

商标对创业公司意味着什么

对标保时捷的小米SU7，企业抢注米时捷、保时米商标