2020年12月13日,星期日

Project Cortex-训练SharePoint Syntex像人类一样阅读文档

很久以前,当人类开始使用墨水在羊皮纸或纸莎草纸上书写信息时,这是从雕刻成石头或黏土的巨大飞跃。信息变得更易于创建和传输,知识立即以前所未有的方式开始流动。如今,我们所有人*都与创建,共享和使用文档的过程紧密联系在一起-世界实际上围绕着它们而旋转。

但是文档当然有其约束。关键数据和知识被埋藏在其中,引发了一系列挑战,这意味着很少有组织能够真正从其创建的内容中获得价值。您可能熟悉以下统计信息: 麦肯锡研究 that 一般的知识工作者只花20%的时间(每周一天!) 搜寻 以获得公司内部的信息或专业知识。不过那可能很保守- IDC的知识工作者调查 (位于付费专栏后面)表明该数字可能接近30%。

One of the reasons for this is 那 documents generally need to be 开了 来访问他们的信息-打开20个文档来确定哪个包含您要查找的信息在本质上是耗时的。 您可能知道,Project Cortex将Microsoft支持的功能引入Microsoft 365,以解决知识挑战的多个方面。在本文中,我们将研究SharePoint Syntex,以及如何教它:

  • 自动识别不同类型的文档- 通常来自文档中某些一致的内容(例如,短语“工作陈述”) 
    • 这意味着文档可以自动继承保留策略或以某种方式(例如)显示在搜索结果中,而无需人工标记每个文档。 在Syntex中, this is a 分类器
  • 从文档中提取特定信息 -意味着无论您拥有100亿还是1亿,高价值数据都不再锁定在文档内部。
    • 使用此功能,特定信息将从每个文档中拉出,并作为元数据存储在SharePoint列中。 在Syntex中,这是一个 提取器

我公司的一个例子

内容+云,我们最常用的两种文档类型是“提案”和“工作陈述”文档-鉴于我们提供的项目和服务不足为奇。我已经编辑了这些数字,但是这是我们真实的工作清单之一中的成本/投资表的样子:

我已经在上图中突出显示了几件事。当我打开文档以查找项目的总价值时,作为一个人,我的大脑本能地遵循以下过程:

  1. 找出"Fees and Payment" section
  2. 查找“总计”行
  3. 找出£ value 那 is in 那 row

在本文中,我们将教SharePoint Syntex做同样的事情(除了首先识别工作声明文档)。然后,Syntex可以比任何人更快地从100或1000的SOW中提取项目价值。鉴于我们创建 许多 每周都会发布,知道该技术可以保持领先地位,从而释放出更多的好处。 

在Syntex中创建文档理解模型

我将跳过在Microsoft 365租户中作为Project Cortex的一部分创建资源中心的初始前提步骤- 很简单,这是在SharePoint管理中心中为您的租户完成的,“资源中心”显示为新的网站类型。一旦有了这些,就可以开始创建模型。我们将在这里做两件事:

  • Create a 分类器 so 那 SOWs can be identified
  • Create an 提取器 so 那 the value can be extracted
在这两种情况下,我们都遵循以下过程:

首先,导航到您的资源中心,然后单击“创建模型”按钮:

给它起个名字(在我的情况下是 内容+云 工作声明),然后选择是要创建新的内容类型还是要使用现有的内容类型:

Notice 那 you can also specify a retention label for this model. 这是帮助组织满足合规性要求的巨大一步!一旦训练,n只有SharePoint Syntex可以自动识别我的租户内的工作声明(无论存储在哪个站点或团队中),它可以确保这些文档已应用了适当的信息治理。 对于我们公司而言,工作说明书是一份合同客户文件-因此,我们默认应将其保留数年。 Syntex使这一切成为可能,而无需人工标记每个SoW-我们将看到的模式识别提供了可靠识别的能力和灵活性。

在此步骤中,我会在租户中看到所有已发布的保留标签: 

Now 那 we've created our model, the first major configuration step is to 添加一些文件进行培训 -我们可以使用它们来训练分类器和提取器。培训文件应该是一组测试文件,这些文件是工作说明,但至少还有一个不是。我提供了一些文件,如下所示:

“培训文件”库是资源中心内这些文件所在的特殊文档库。堆叠来自此处构建的不同模型的文件是很常见的(如下所示),但实际上,您要添加的是每次构建模型时都会收集的一组文件:

我需要多少个训练文件?

Syntex要求您添加至少5个与您正在使用的文档类型匹配的文件,以及至少1个与您正在使用的文档类型匹配的文件。但是,最好的办法是收集并添加6个以上的文件,因为您将分两步使用它们:
  • 初始训练期间至少标记6个文件
  • 使用其余未标记的文件来 测试 您的模型

创建分类器


现在我们有了一些训练文件,单击“训练分类器”按钮:

创建分类器-标签步骤


在这一步中,我们在第一个选项卡(“标签”)上,实际上是在告诉Syntex那些培训文件中哪些是与内容类型匹配的文件(在我的情况下是C + C工作声明),哪些是不是。在标签工具内,该界面提供了一个工具栏,该工具栏上有“是”和“否”按钮(以下突出显示):

我逐步浏览每个训练文件,然后分别单击“是”和“否”按钮-这是对分类器进行标注的方式。完成后,模型会自动进行自我训练,并且“标签”列会确认状态:

创建分类器-解释步骤

现在移至“培训”标签。现在,我们需要添加一个或多个“解释”-这些进一步帮助模型,因为仅拥有一些带标签的样本文档是不够的。将此视为需要更多了解 模式 那 identify this document type.

首先,请在“说明”区域中单击“新建”按钮-请注意,您可以从空白示例或模板开始:

模板(如果您想知道)是用于常见内容片段的,可帮助您对文档进行分类(或您可能要从中提取文档)-日期,电话号码,邮政编码,货币金额,电子邮件地址等) :




在这种情况下,我们可以 从空白创建。我要做的是创建一个 短语列表 解释,使用仅在工作说明书中找到的短语-执行此操作时要注意的一件事是,通常您不能单独使用简单的案例。例如,短语“工作陈述”出现在我们的许多其他文档中, 不是 实际上是工作陈述!因此,我使用的是小字样的内容 只要 在SOW中-在下图中,您可以看到它用作我的短语,并且在简化文档视图的右侧:




单击“保存”以完成说明的创建。
 

创建分类器-训练/测试步骤

现在是时候测试分类器了。为此,移至“测试”选项卡,然后单击按钮以添加示例文件:





我现在可以选择一些以前添加的示例文件- 这些必须是我在标签过程中尚未使用的文件。为了进行正确的测试,我选择了一些是SOW的文档,而有些则不是:


单击“添加”按钮,这些文件将用于测试。您应该看到的是该模型已正确识别出正匹配的文档,而其他文档则显示为负:


优秀的!

至此,我们的AI模型的“分类器”部分已经完成-Syntex现在将能够在Microsoft 365租户中的任何位置识别这种类型的文档。该模型现在可以应用于文档库,并且将应用我们创建或使用的内容类型:


正如任何经验丰富的SharePoint或Microsoft 365从业人员所知道的那样,现在知道内容类型的可能性非常之多。从自动化的工作流程,信息保护策略,过滤和搜索结果中的特殊外观到文档生命周期方面(例如保留和处置),列表一直存在。 

但是,我们不要止步于此-在完成实现这一目标的最后步骤之前,我们将做的不仅仅是确定文档类型。在下一篇文章中,我们将回到开始的地方,在SharePoint Syntex中实现一个“提取器”以提取工作声明值-从而确保它不会被埋在每个文档中。

下一篇文章(即将发布!)-在SharePoint Syntex中实现提取器以提取文档内容

没意见: