本文讨论了 2021 年 12 月的一项 Google 专利,该专利描述了搜索引擎如何识别视频(例如 YouTube 视频)中实体的方法。由于 Google 搜索和 YouTube 中已经发现的功能,因此这些或类似的方法很可能已经在 Google 搜索中使用。享受阅读!
“基于特征的视频注释”专利摘要
这项名为“基于特征测的详细 电报数据 的视频注释”的专利,专利号为US11200423B2,由谷歌于2021年12月14日签署。它描述了计算机系统识别视频中或视频各个部分中的实体并确定视频与该实体有关的概率的方法。该决定是根据视频的某些属性做出的。
用户可以通过浏览器访问在服务器
或平台(例如 YouTube)上运 自动化记录系统 行的视频。该平台除了前端之外,还包括摄取服务器、视频搜索服务器、视频注释引擎和视频接入服务器。为了用注释丰富视频,使用了视频数据、特征和实体的存储。
该专利对前端结构的描述与我们今天在 YouTube 上看到的非常相似。因此,可以假设该专利明确涉及 YouTube 前端。
前端服务器 104 处理通过网测的详细络 124与用户的所有通测的详细信。前端服务器接收来自用户的请求并与视频托管系统 102的其他服务器通信 以处理这些请求。前端服务器 104 还被配置为监视用户与视频托管系统 102 的交互。例如,如果用户点击网页、观看视频、进行购买、打开文档、填写基于 Web 的表单,则前端服务器 104 监视这些交互。前端服务器 104 还可以被配置为在网页上向用户传输和呈现所请求的视频和相关视频链接。所请求的视频由前端服务器 104流式传输 给用户。一个或多个相关视频链接出测的详细现 阿根廷數據 在播放所请求视频的网页上,使得用户 120可以选择相关视频链接 以查看相关视频。
摄取服务器负责上传、存储视频,并由视频所有者或上传者添加标题、描述、缩略图、标签等来丰富视频。在视频数据存储中,视频可以与特征存储中的特征相链接。当通过摄取服务器编辑视频时,此链接已经发生。特征可以是单独的测的详细术语或概念,例如来自视频的标题或描述。
使用摄取服务器,系统还可以识别与视
频相关的实体并将其存储在实体存储中。专利中将实体描述为“文本描述符”,允许将视频属性分配给视频并将其作为元数据记录在视频数据存储中。这些实体被分配给各个视频部分。例如,如果一只哈巴狗在某个部分中看着金门公园里的羊角面包,那么系统就可以自动将实体“狗”、“羊角面包”、“旧金山”、“金门公园”和“饥饿”分配给该视频部分。上传者可以提供视频中可能出现的实体的初步线索,例如通过标签和描述。这听起来并不新鲜。
此外,还提到可以通过转录成字幕文本从视频的音轨中提取有关相关实体的更多信息。然后使用各种文本分析方法(例如 TF-IDF 分析、自然语言处理和其他语义分析)进行进一步解释。我曾一度怀疑谷歌也会分析音轨,例如视频或播客中的音轨,但我缺少一个具体的谷歌来源。
可与媒体内容项相关联的潜在实体
集可从用户提供的标签或其他描述信息中得出。对于视频,实体可从视频附带的文本描述和元数据以及视频中存在的隐藏字幕文本中得出,或者通过将音频转换为文本然后从文本中提取实体来得出。对于文本文档(例如,网页测的详细、电子邮件等),可以使用词频分析、语义分析、自然语言处理或其他方法来确定实体。在视频数据存储器 114中维护索引 ,该测的详细索引将每个实体与该实体所标识的一组内容项相关联。
专利还指出,该方法不仅适用于视频内容,还适用于音频格式等所有其他形式的媒体。
因此,本文描述的用于注释视频
文件的视频注释引擎110的操作 可应用于任何类型的媒体内容项,而不仅仅是视频;其他合适类型的内容项包括音频文件(例如音乐、播客、有声读物等)、文档、多媒体演示、商品和服务的数字
视频搜索服务器访问YouTube上的搜索查询,在视频搜索中排名时使用实体信息丰富的元数据,并将结果输出到前端。视频注释引擎将来自实体存储和视频数据存储的信息与视频或视频片段链接起来。
视频注释引擎 110 注释存储在视频数据存储器 114中的视频文件。对于视频文件,视频注释引擎 110 可以根据特征数据存储器 116 和实体数据存储器 118中存储的与视频文件相关联的特征来注释每个视频文件。对于存储在视频数据存储器 114中的每个视频文件,视频注释引擎 110 使用存在于该帧中的实体来注释视频文件的每个视频帧。