2020年12月29日,星期二

Project Cortex-训练SharePoint Syntex像人类一样阅读文档-第2部分(实体提取器)

在上一篇文章中,我们研究了 如何开始使用SharePoint Syntex,尤其涵盖创建文档理解模型的初始步骤。在本文中,我们将探讨Syntex如何 提取 文档中的内容-允许您解锁“黄金”信息,因此人们不必打开10个文档即可找到所需内容。在开始讨论之前,请记住文档理解模型可以包含两个元素:

  • 分类器 -这使Syntex能够识别出它是哪种类型的文档(例如,我正在使用的示例中的“ C + C工作声明”)
  • 实体提取器 -毫不奇怪,这使Syntex一旦训练就可以提取信息

我们将专注于实体 今天的提取器,这是有趣的部分。如果您还记得上一篇文章中的场景,我正在提取 total value 从我在Office 365中拥有的每个工作声明文档中提取。这看起来像-这是第三个突出显示的矩形:

如果您还记得,同时创建分类器和提取器将使用以下过程:
在开发AI模型时,Syntex需要一些训练文件才能使用,但就我而言,我上次在最初创建模型并定义分类器时添加了这些文件。就像您想象的那样,这些是一些测试工作声明文档,其中还有一个或两个其他文档-“其他”文档用于对Syntex进行“负面”案例培训。这些文件进入资源中心内一个特殊的“培训文件”库,我将把这些文件用于提取程序。

在AI模型中实现实体提取器

第一步是回到资源中心,找到要添加提取器的模型:

进入模型后,选择“创建并训练提取器”操作:

接下来,命名提取器,并指定是否要将数据提取到SharePoint库的新列(如果需要,还提取数据类型)-通常是这样。由于我正在提取 总价值 来自每个工作陈述,因此我使用的名称是“参与价值”: 

然后,我们进入“标签”选项卡,这是定义分类器或提取器时第一步的三步。 

创建提取器-贴标签步骤

 
准确性需要标签和“说明”
在为提取程序标记文件时,您正在教Syntex 值在哪里 在您的示例文件中。但是,正如我们将看到的,仅仅显示Syntex在几个文件中的位置是不够的。我们也需要创建“解释”-AI引擎同时使用这两条信息。

在这里,我们正在处理标签步骤。

在标签工具(从文档中删除所有格式的标签)中,我找到了所有工作报表中都存在的费用表,并突出显示了总行中的值:

然后,我点击“下一个文件”按钮,并重复训练文件库中的下一个文档: 

标记了至少五个文件后,我将移至“培训”标签。

创建提取器-解释步骤

对于过程的培训部分,我们创建一个或多个 说明 以帮助进一步指导AI。当我们为分类器创建解释时,我们正在为Syntex提供模式以帮助识别和分类文档。对于提取器,我们做类似的事情,但是在这里 提供模式以将Syntex引导到我们尝试提取的内容 .

可以从头开始或从模板创建说明:

系统中已经存在用于您可能希望从文档中提取常见信息的模板-例如,日期,数字,电话号码,地址等:

为了学习,我将从头开始创建我的解释,即使第一个实际上是货币值并且为此存在一个模板。我给它起个名字,选择 模式清单 键入并提供变体,以说明参与度值如何写入我的文档中(不同的数字格式):

然后,我保存此解释并创建另一个解释。这次,我正在帮助AI在SOW文档中找到可以在成本表中找到的整个部分-我只是在寻找该部分的标题“费用和付款”:




我再创建一个以查找短语“总计”。

现在,我已经拥有了所有这些内容,因此我将它们组合起来,这样我基本上可以说:“首先,请找到短语“费用和付款”,然后是“总计”,然后再看似GBP货币的值。创建一个新的类型“ Proximity”的解释-并指定每个元素之间的距离。Syntex使用了 代币 指定接近度,我得到的解释如下:   

更准确地说,我是说“首先找到'费用和付款'短语,然后找到距离总计超过20个代币但少于100个代币的'总计'。找到之后,找到看起来像英镑货币值的东西非常接近,实际上距离不到10个令牌。

可以想象,调整邻近解释中的令牌有助于提高AI的准确性,并减少Syntex无法找到您的内容的机会。我最后的一组解释是这样的-这是3个短语或模式的解释,以及结合了其他内容的接近性解释:

创建提取器-培训/测试步骤

我现在准备训练和测试。与为分类器执行此操作类似,我选择了一些标签中未使用的训练文件(包括一个不是工作说明书的文档):



然后,“预测”列告诉我Syntex预测的是每个文档的提取文本。成功!这看起来不错:


这几乎是100%的成功率-但您可能会注意到该模型未能从一个SOW文档中提取内容,实际上Syntex告诉我:


 
经过进一步检查,该特定文档的结构似乎与我所期望的不同-特别是,我发现作者对该文档的本部分使用了不同的标题!


所以至少我理解为什么会这样-如果这是预期的情况,我现在可以调整我的解释,或者礼貌地提醒项目经理他们应该遵循我们的标准结构!无论哪种方式,都有解决此问题的途径。  

现在,我通过单击“退出培训”按钮完成此过程:


查看结果-将模型应用于文档库

现在我们的工作完成了!我们拥有完整的AI模型,可以将其应用于Microsoft 365租户周围的文档库:

Syntex AI模型确实需要单独应用于库,但是在大多数情况下,某种类型的文档可能不会广泛分布。将来,我们可以期望API和配置机制能够大规模管理此问题。

一旦应用了模型,Syntex就会提取我训练过的内容-这意味着我不需要打开每个文档:

概要

现在,我们已经看到了在SharePoint Syntex中创建文档理解模型的过程-这将使我们能够识别文档并从中提取内容。我们也可以更进一步。当然,我们不仅可以提取一条信息(例如,工作声明中的值),还可以提取 同一提取器中的碎片。

总体而言,Syntex的这些功能在如何查找信息方面提供了巨大的飞跃。高价值信息不再需要隐藏在文档中,这意味着员工要么看不见它,要么被迫打开许多单独的文档来查找它。我们可以从以前被锁定的内容中创建微型数据库和工具-包括提供排序,过滤和强大搜索体验的功能。走向未来!

2020年12月13日,星期日

Project Cortex-训练SharePoint Syntex像人类一样阅读文档

很久以前,当人类开始使用墨水在羊皮纸或纸莎草纸上书写信息时,这是从雕刻成石头或黏土的巨大飞跃。信息变得更易于创建和传输,知识立即以前所未有的方式开始流动。如今,我们所有人*都与创建,共享和使用文档的过程紧密联系在一起-世界实际上围绕着它们而旋转。

但是文档当然有其约束。关键数据和知识被埋藏在其中,引发了一系列挑战,这意味着很少有组织能够真正从其创建的内容中获得价值。您可能熟悉以下统计信息: 麦肯锡研究 that 一般的知识工作者只花20%的时间(每周一天!) 搜寻 以获得公司内部的信息或专业知识。不过那可能很保守- IDC的知识工作者调查 (位于付费专栏后面)表明该数字可能接近30%。

One of the reasons for this is 那 做cuments generally need to be 开了 来访问他们的信息-打开20个文档来确定哪个包含您要查找的信息在本质上是耗时的。 您可能知道,Project Cortex将Microsoft支持的功能引入Microsoft 365,以解决知识挑战的多个方面。在本文中,我们将研究SharePoint Syntex,以及如何教它:

  • 自动识别不同类型的文档- 通常来自文档中某些一致的内容(例如,短语“工作陈述”) 
    • 这意味着文档可以自动继承保留策略或以某种方式(例如)显示在搜索结果中,而无需人工标记每个文档。 在Syntex中, this is a 分类器
  • 从文档中提取特定信息 -意味着无论您拥有100亿还是1亿,高价值数据都不再锁定在文档内部。
    • 使用此功能,特定信息将从每个文档中拉出,并作为元数据存储在SharePoint列中。 在Syntex中,这是一个 提取器

我公司的一个例子

内容+云,我们最常用的两种文档类型是“提案”和“工作陈述”文档-鉴于我们提供的项目和服务不足为奇。我已经编辑了这些数字,但是这是我们真实的工作清单之一中的成本/投资表的样子:

我已经在上图中突出显示了几件事。当我打开文档以查找项目的总价值时,作为一个人,我的大脑本能地遵循以下过程:

  1. 找出"Fees and Payment" section
  2. 查找“总计”行
  3. 找出£ value 那 is in 那 row

在本文中,我们将教SharePoint Syntex做同样的事情(除了首先识别工作声明文档)。然后,Syntex可以比任何人更快地从100或1000的SOW中提取项目价值。鉴于我们创建 许多 每周都会发布,知道该技术可以保持领先地位,从而释放出更多的好处。 

在Syntex中创建文档理解模型

我将跳过在Microsoft 365租户中作为Project Cortex的一部分创建资源中心的初始前提步骤- 很简单,这是在SharePoint管理中心中为您的租户完成的,“资源中心”显示为新的网站类型。一旦有了这些,就可以开始创建模型。我们将在这里做两件事:

  • Create a 分类器 so 那 SOWs can be identified
  • Create an 提取器 so 那 the value can be 提取ed
在这两种情况下,我们都遵循以下过程:

首先,导航到您的资源中心,然后单击“创建模型”按钮:

给它起个名字(在我的情况下是 内容+云 工作声明),然后选择是要创建新的内容类型还是要使用现有的内容类型:

Notice 那 you can also specify a retention label for this model. 这是帮助组织满足合规性要求的巨大一步!一旦训练,n只有SharePoint Syntex可以自动识别我的租户内的工作声明(无论存储在哪个站点或团队中),它可以确保这些文档已应用了适当的信息治理。 对于我们公司而言,工作说明书是一份合同客户文件-因此,我们默认应将其保留数年。 Syntex使这一切成为可能,而无需人工标记每个SoW-我们将看到的模式识别提供了可靠识别的能力和灵活性。

在此步骤中,我会在租户中看到所有已发布的保留标签: 

Now 那 we've created our model, the first major configuration step is to 添加一些文件进行培训 -我们可以使用它们来训练分类器和提取器。培训文件应该是一组测试文件,这些文件是工作说明,但至少还有一个不是。我提供了一些文件,如下所示:

“培训文件”库是资源中心内这些文件所在的特殊文档库。堆叠来自此处构建的不同模型的文件是很常见的(如下所示),但实际上,您每次添加模型时都会添加一组先前收集的文件:

我需要多少个训练文件?

Syntex要求您添加至少5个与您正在使用的文档类型匹配的文件,以及至少1个与您正在使用的文档类型匹配的文件。但是,最好的办法是收集并添加6个以上的文件,因为您将分两步使用它们:
  • 初始训练期间至少标记6个文件
  • 使用其余未标记的文件来 测试 您的模型

创建分类器


现在我们有了一些训练文件,单击“训练分类器”按钮:

创建分类器-标签步骤


在这一步中,我们在第一个选项卡(“标签”)上,实际上是在告诉Syntex那些培训文件中哪些是与内容类型匹配的文件(在我的情况下是C + C工作声明),哪些是不是。在标签工具内,该界面提供了一个工具栏,该工具栏上有“是”和“否”按钮(以下突出显示):

我逐步浏览每个训练文件,然后分别单击“是”和“否”按钮-这是对分类器进行标注的方式。完成后,模型会自动进行自我训练,并且“标签”列会确认状态:

创建分类器-解释步骤

现在移至“培训”标签。现在,我们需要添加一个或多个“解释”-这些进一步帮助模型,因为仅拥有一些带标签的样本文档是不够的。将此视为需要更多了解 模式 那 identify this 做cument type.

首先,请在“说明”区域中单击“新建”按钮-请注意,您可以从空白示例或模板开始:

模板(如果您想知道)是用于常见内容片段的,可帮助您对文档进行分类(或您可能要从中提取)-日期,电话号码,邮政编码,货币金额,电子邮件地址等) :




在这种情况下,我们可以 从空白创建。我要做的是创建一个 短语列表 解释,使用仅在工作说明书中找到的短语-执行此操作时要注意的一件事是,通常您不能单独使用简单的案例。例如,短语“工作陈述”出现在我们的许多其他文档中, 不是 实际上是工作陈述!因此,我使用的是小字样的内容 只要 在SOW中-在下图中,您可以看到它用作我的短语,并且在简化文档视图的右侧:




单击“保存”以完成说明的创建。
 

创建分类器-训练/测试步骤

现在是时候测试分类器了。为此,移至“测试”选项卡,然后单击按钮以添加示例文件:





我现在可以选择一些以前添加的示例文件- 这些必须是我在标签过程中尚未使用的文件。为了进行正确的测试,我选择了一些是SOW的文档,而有些则不是:


单击“添加”按钮,这些文件将用于测试。您应该看到的是该模型已正确识别出正匹配的文档,而其他文档则显示为负:


优秀的!

至此,我们的AI模型的“分类器”部分已经完成-Syntex现在将能够在Microsoft 365租户中的任何位置识别这种类型的文档。该模型现在可以应用于文档库,并且将应用我们创建或使用的内容类型:


正如任何经验丰富的SharePoint或Microsoft 365从业人员所知道的那样,现在知道内容类型的可能性非常之多。从自动化的工作流程,信息保护策略,过滤和搜索结果中的特殊外观到文档生命周期方面(例如保留和处置),列表一直存在。 

但是,我们不要止步于此-在完成实现这一目标的最后步骤之前,我们将做的不仅仅是确定文档类型。在下一篇文章中,我们将回到开始的地方,在SharePoint Syntex中实现一个“提取器”以提取“工作陈述”值-从而确保它不会被埋在每个文档中。

2020年11月16日,星期一

使用Power Automate自动执行位置签到

地理围栏是每当设备(即用户的移动设备)移入或移出区域时位置服务都会触发动作的想法,并且有很多很好的用例。在个人/家庭自动化方面,您可能想在离开家时自动关闭房灯并启动警报(如果熟悉的话,请考虑使用IFTTT或Zapier),而在工作方面,您的雇主可能会提供该应用程序会根据您所在的位置自动将您签入(签出)办公地点(或签出)-仅举两个示例。我正在研究内部办公桌预订应用程序的后一种情况,这是“在Covid期间对办公室进行有控制的使用”计划的一部分。 

您可以想象很多情况下了解用户的位置以及位置是否已更改可能会很有用。

Power Platform有两种方法可以利用这一点。我一直在研究Power Automate中的Location触发器,它提供了一个名为“当我进入或退出区域时”的Flow动作:

与地理围栏一样,您可以在世界上任何地方指定位置,并在其周围创建半径。由于使用了用户移动设备上的GPS,因此该位置是近似的,但它在大多数情况下都非常有效: 



事情运转了好一阵子,但是后来我遇到了这个问题:

位置触发器已从Power Automate中删除!

触发器仅处于预览状态,可悲的是,自从我撰写本文(并截取了上面的屏幕截图)以来的几周内,触发器已被删除。目前尚不清楚它是否会返回,尽管在Internet上有痕迹,但Microsoft文档中没有提及它。

太可惜了!坦白说,在Power Platform中,无论如何触发器都存在挑战-它只能用于个人流程, 意味着应该使用该功能的每个用户都需要创建自己的Flow。 显然,这不适用于组织提供的任何类型的业务解决方案,但对于个人自动化仍然有用。

我们还可以如何根据用户位置进行自动化?

好消息是Power Automate仍然能够了解用户的设备位置。仅仅通过移入或移出定义区域即可触发的全自动解决方案, 但是如果您希望用户手动单击其设备上的按钮,类似的自动化仍然是可能的。确实,在某些情况下,这种方法可能是 首选 从而实现一定程度的人工控制和选择参与-允许用户避免在情况不允许的情况下触发流程(例如,暂时离开区域半径以享用午餐)。 

因此,让我们看一下如何构建考虑用户位置的Power Platform应用程序。

使用“流程”按钮记录位置访问

流量按钮提供了一种使用超级简单的用户界面构建移动应用程序的好方法-无需深入研究任何类型的编码或 本机 iOS或Android开发。在下面的示例中,我使用了一个简单的按钮和一个非常简单的表单。但是首先,先决条件。

此类解决方案的首要要求是用户必须在其移动设备上安装Power Automate应用程序。您的组织可以使用MDM或MAM解决方案将其推出,或者可以在Apple和Google应用商店中使用:

用户将需要使用其Microsoft 365身份登录该应用程序。另一个重要的事情是,在设备上为Power Automate应用程序启用了位置服务-如果我们要收集和记录位置,这显然是必要的。 

进入应用程序后,用户将 转到应用中的“按钮”区域 使用底部的导航栏。

使用“手动触发流”触发器创建的任何流都将显示在此处: 



在我的解决方案中,我有一个流来记录一次位置访问的详细信息-在上图中这是“报告位置状态”,您还可以看到其他一些也使用按钮触发器的流。正如您可能已经了解到的那样,这些被称为“流程按钮”,它们提供了一种非常快速简便的手动触发过程的方式。无需创建和部署自定义应用程序-相反,我们可以背负Power Platform提供的功能。 

单击该按钮时,可以选择一些信息以输入该过程。在记录位置访问的示例中,流程请求收集“状态”:


就我的解决方案而言,当用户提交此“位置报告”时,我会将详细信息存储在SharePoint列表中。 Power Automate完成了在按下按钮时自动得出用户位置的艰苦工作,并使用一点列格式设置魔术,我可以显示该位置的小地图,而不仅仅是地址文本:

 
 
就是这样了!只需在Power Platform中花费很少的精力,我们就可以提供一个移动应用程序,该应用程序可以收集用户的位置,收集其他信息并将其记录到中央存储中,例如Microsoft 365中的SharePoint列表。
 

How 做 we build 那?

我们已经介绍了用户会看到的内容,但是Power Automate创建它需要什么?我们首先使用“手动触发流程”触发器创建流程。请注意,在我的情况下,我添加了一个名为“状态”的输入,并提供了一些帮助文本:


实际上,您可以堆叠这些输入中的几个,并本质上创建一个微型表单,当用户按下按钮时呈现给用户-当您认为不需要编码并且我们甚至不需要Power App时,该表单将变得非常强大。 

该流程的下一步只是将项目记录到SharePoint。我已经准备好与适当的列一起使用的列表,我只需要配置Flow操作以将数据存储在每个列中:

 
重要的是触发器可以使用多个令牌,包括:
  • 用户名
  • 用户电子邮件
  • 时间戳记
  • 日期
  • fullAddress-这是用户自动获取的位置的完整地址
  • 许多地址子组件:
    • 邮政编码
    • 国家
    • 纬度
    • 经度
  • 就我而言,您添加的所有输入(例如“状态”) 
我的流程的最后一步是向用户发送确认报告已成功记录的确认信息:


结果在设备上出现:


因此,我们设法捕获了用户的位置以及该位置的状态报告,并向他们确认数据已保存。 

概要


Power Platform具有许多用于构建应用程序的惊人功能,对于简单的移动应用程序尤其如此。利用设备功能(例如位置和摄像头)的能力意味着您可以快速构建功能强大的应用程序,而无需编写代码-当然也不必担心本机应用程序开发和发行的所有麻烦。在这篇文章中,我们研究了如何使用“流量”按钮快速从移动应用程序触发流程,以及如何捕获当时的用户位置。 

不幸的是,预览中的“当我进入或退出区域时” Power Automate触发器尚未发布-但我们希望它回来,因为这将解锁围绕自动化和用户位置的一些绝佳方案。来吧微软!

2020年9月21日,星期一

使用AI增强Microsoft 365中内容的5种方法

We’大家都熟悉不断增长的数据增长速度,并且 几乎每个使用Microsoft 365的组织都有不断增长的租户 每天都在累积团队,站点,文档和其他文件。的 大多数组织’尽管充分利用了这些数据– in the 最坏的情况可能只是另一个数字垃圾填埋场,即使在最好的情况下 内容增加但没有’在智能方面没有很多 处理或内容服务。结果,大量内容 未被发现,搜索会带来糟糕的体验,并且员工很难找到什么 they’重新寻找。考虑到麦肯锡认为知识型员工的平均支出是非常重要的 他们将近20%的时间在寻找内部信息或寻找可以帮助完成特定任务的同事s。在宏观层面上,这可能会严重拖累组织 productivity –错过了宝贵的见解,浪费了搜索时间,而机会却未被开发。

在本文中,我提出了AI可以帮助您获得更多收益的五种方法 从您的数据中获取价值。

1. Use AI to add tags and descriptions to your images so 他们 can be searched

大多数组织都有很多图像-可能与产品,事件,营销资产,内联网新闻文章的内容有关,或者可能由移动应用程序或Power Apps解决方案捕获。当然,图像的问题在于它们不容易被搜索-如果您要在Intranet或数字工作场所中查找特定的图像,则很可能会打开很多图像以查看其是否是您想要的。图像很少被标记,大多数情况下存储在Microsoft 365的标准文档库中,该库不提供画廊视图。

向前迈出的重要一步是使用图像识别在Microsoft 365中自动为您的图片添加标签和描述。现在,搜索引擎可以更好地返回图像-用户可以输入搜索词并执行文本搜索,而不必依赖您的眼球和大量点击。当然,AI可能无法完美地自动标记图像-但是,有些标记总比没有标记好。以下是我在以前的文章中使用的一些示例,以说明您可以从Azure认知服务中的Vision API中获得什么:

 

图片

结果

图片

结果



图片

结果



2.使用AI从文档中提取实体,关键短语和情感

我们生活在一个文档世界中,而在Microsoft 365世界中,这通常意味着许多团队和SharePoint网站中充满了文档,通常只带有最少的标记或元数据。没有人愿意手动标记保存的每个文档,因此即使管理良好的DMS也只能在目标区域提供此功能。自动标记产品已经存在了一段时间,但是由于昂贵的价格标签和无效的算法,历史上提供的投资回报率很低。结果,搜索信息的动作通常涉及在查找所需细节之前打开多个文档并进行浏览。

如果我们可以从文档和已知实体(组织,产品,人员,概念等)中提取关键短语,并将其突出显示在标题旁边,以便在打开之前更清楚内容,该怎么办?技术日新月异,Azure的Text Analytics API远远优于过去的产品。在下面的简单实现中,我只是将SharePoint库中的每个文档发送到API,然后将生成的关键短语和实体存储为元数据。我还获得了这份文件的感悟分数作为奖励:  

更高级的实现可能会提供指向文档中已识别实体的更多信息的链接。 Text Analytics API在这里具有非常好的功能-如果识别出在Wikipedia上具有页面的实体(例如,组织,位置,概念,知名人士等),则服务将检测到该信息以及响应数据该项目将包含指向Wikipedia页面的链接:

当然,这里有很多可能性!


3.使用语音到文本AI为旧电话,会议和网络研讨会创建可搜索的笔录

如果您的公司使用Microsoft 365,则Stream已经可以进行高级语音转文本处理-特别是可以自动在视频中生成语音音频转录本的功能。对于录制重要的演示或团队要求其他人稍后查看的功能,此功能非常强大。但是,并非每个组织都在使用Stream-也许还有其他原因导致某些现有的音频或视频文件不应该在那里发布。 

无论如何,许多组织 周围可能有很多这类内容,可能来自网络研讨会,会议或旧的Skype通话。不用说,所有这些语音内容都无法以任何方式进行搜索-因此,当其他人通过搜索引擎寻找答案时,任何有价值的讨论都不会浮出水面。这是一个巨大的耻辱,因为口头表达的见解可能与文档中记录的见解一样有价值。  

有关Microsoft Stream成绩单的注释

尽管Stream为组织视频带来了令人难以置信的功能,但值得注意的是,成绩单是 通过Microsoft 365搜索进行搜索-仅通过Stream中的“深度搜索”进行搜索。因此,如果您已经在某个特定的视频中进行了磨合并想要在其中进行搜索,那么深度搜索是有效的-但是,如果您处于尝试查找特定主题的内容的第一步,则当前不在全局范围内搜索视频通过这种方式。

仅语音内容也带有其他负担。仅作为一个例子,对于母语与说话者不同的任何人来说,可能难以消化和理解。 

Azure语音服务使我们能够执行许多操作,例如:

  • 语音转文字
  • 文字转语音
  • 语音翻译
  • 意图识别

更高级的方案还包括呼叫记录,完整的对话转录,实时翻译等。在呼叫中心世界中,诸如Audiocodes和Genesys之类的产品非常受欢迎,并且越来越与Azure的高级语音功能集成在一起-实际上, 如今,Azure具有专用的实时呼叫中心功能

不过,从简单的角度来看,如果您的公司确实有很多语音内容可以从转录中受益,那么您无需花费太多精力就可以做到。我针对API编写了一些示例代码,并测试了用PC麦克风录制的简短录音-我不需要告诉你我说了什么,因为API几乎是逐字记录的: 

如果我们要分开头发,实际上我是说这句话的,所以第一个句号(句号)应该说是逗号。当然,这是一段简短的录音,但是正如您所看到的那样,识别级别非常高-令人惊讶的是,API甚至成功地正确拼写了O'Brien! 

这是调用API所需的代码,大致与文档中所述相同:


支持技术- Azure认知服务-语音API  (在这种情况下为语音转文字) 

4.使用AI翻译文件 

这种情况的原因很容易理解-一个组织可能有多种原因来翻译文档,并且基于AI的机器翻译已经足够先进,以至于在许多用例中都足够精确。与国际供应商或客户合作可能是一个例子,或者可能是因为在全球组织中搜索还不够有效-用户使用其语言进行搜索,但是关键内容只能以另一种语言提供。 

Azure允许您以非常经济高效的方式单独或通过API或脚本大规模转换文档。我不需要建立任何东西来利用它,因为现成的前端以 文档翻译器应用 在Github中-一旦挂接到我的Azure订阅,就可以开始了。 在此工具中,如果您提供文档,则可以获取完整的文档-换句话说,传入PowerPoint平台并获得一个文件,其中每张幻灯片都被翻译回去-无需将任何内容粘贴回去。 Azure认知服务中的翻译器功能使您可以利用Teams,Word,PowerPoint,Bing和许多其他Microsoft产品背后的同一个翻译引擎, 而且还可以建立自己的自定义模型来理解特定于您案例的语言和术语。 

我的法语有点生锈,但是这些对我来说看起来不错: 


您已经拥有的文档翻译提供了许多可能性,改进的搜索仅是一个示例。但是,还有许多其他高价值的翻译方案,例如实时语音翻译- something 那's 现在 possible in Teams Live Events。借助Azure认知服务,还可以在无需使用团队的情况下将功能内置到自己的应用程序中,并且您可以利用下面的同一个后端。


5.从发票,合同等文件中提取信息

在较早的示例中,我们讨论了如何提取关键短语,实体和情感。不过,在某些情况下,文档内有价值的内容会在文档的特定部分(例如表格,一组订单项或总计)中找到。世界上的每个组织都有结构松散的文档,例如发票,合同,费用收据和订单表格-但是有价值的内容通常被深深地嵌入,每个文档都需要打开才能获取。随着 表格识别器 借助Azure的强大功能,您可以针对常见场景使用预先构建的模型,也可以自己训练自定义模型,从而使AI可以学习非常具体的文档结构。这是Project Cortex中的一种功能(本质上是与SharePoint文档库紧密集成的版本),但是自己插入Azure服务可能更具成本效益。 

一些例子是:
  • 形式 -通过培训表格来提取表数据或键/值对
  • 收据和名片 -使用Microsoft的预建模型
  • 从文档布局中提取已知位置 -从文档的特定位置(包括手写内容)提取文本或表格,方法是在训练模型时突出显示目标区域 
因此,如果您有这样的文档:


..您可以提取关键数据并更好地利用它(例如,存储为可搜索的SharePoint元数据或提取到数据库中以从非结构化数据转换为结构化数据)。  

支持技术- Azure认知服务-视觉API (在这种情况下为表格识别器) 

结论

AI触手可及 现在,而无需编码或复杂的实现工作就可以实现上述许多情况。当然,需要某个人或团队知道如何将Azure AI构建块与Microsoft 365结合在一起,但是复杂性和成本障碍正在消失。 

除了我在此处介绍的场景外,在用例中还可以发现很多价值 结合 以上某些功能以及其他操作。您可能会推出自己的解决方案而不用投资昂贵的平台的一些示例可能是:
  • 分析通话记录以获取情感(运行语音到文本的翻译,然后导出情感)并提供Power BI报告
  • 从安全摄像机执行图像识别,如果检测到特定内容,则发送推送通知或发布到Microsoft团队
  • 自动翻译首席执行官演讲或市政厅活动的笔录,并发布在 a regional intranet
所有这些方案以及更多方案中的AI元素现在都可以通过Azure轻松实现。技术上的时间!