利用大语言模型实现内容提取和SEO优化

OE1(光电查)是国内领先的光电产品数据平台,致力于为用户提供丰富准确的光电产品数据和技术支持。其核心竞争力是拥有全面且优质的光电产品数据,然而这些数据的背后是大量的人工成本,因为从数据的获取、整理再到产品数据库是一个极其繁琐复杂的过程。

内容提取存在的挑战

首先,产品的原始信息通常来自供应商的产品规格说明书,多数是 PDF 格式。这些规格书的内容是复杂的非结构化数据,其中融合了文字描述、图像以及表格数据等多种形式,且没有固定的编排格式,这给我们内容提取带来了极大的挑战。倘若要实现内容自动提取,那么计算机程序必须能够识别出产品规格书中纷繁多样的格式。

其次,由于产品规格书来自于不同的供应商,同一种产品参数在描述上可能存在不尽相同的方法,譬如“Multi Mode”、“Multi-Mode”、“Multimode”以及“MM”这些词汇,虽然他们所表示的实际含义完全一致,对于工程师而言,他们可以凭借丰富的行业经验轻松理解。然而,对于没有该领域背景知识的计算机系统来说,很难将这些不同形式的表述联系起来,除非采用硬编码的方式将这些概率事先联系起来。然而,由于涉及的产品数量极为庞大,任何一种硬编码策略都难以涵盖所有可能的情况。

SEO 存在的挑战

鉴于光电查所涉及的产品种类繁多,数量庞大,若由人工逐个提炼出符合要求的网页标题、关键词等搜索引擎优化(SEO)需要的元素,无疑将会非常耗时。更重要的是,考虑到产品涉及各个领域的专业知识,即使是经验丰富的 SEO 人员也无法很准确地提取出关键数据。因此,在这个过程中必须有专业的工程师协助,如此一来,会产生非常高的人力成本支出。

解决方案

经过分析,我们发现绝大多数产品规格书中的图片都是装饰性元素,真正有意义的是其中的文字描述和表格数据。为了保留文本描述和表格数据,我们采用 Markdown 作为预处理格式,然后结合已经调试好的提示词完成对产品规格书数据的提取,实现了信息从非结构化到结构化的转变。

到目前为止我们已经完成了内容的提取,事实上我们完全可以利用大语言模型同时执行内容提取和 SEO 优化,而这一切只需要对提示词稍作调整即可。

将整个自动化处理集成到 OE1 的现有流程种,就形成了一套完整的内容提取和 SEO 优化的自动化处理机制。

在平台引入了大语言模型的能力后,我们完成了对十多万产品的内容质量和搜索引擎优化,如果没有通过人工智能实现自动化,这是不可想象的

case studies

更多案例

洽宝:高效易用的AI助手

洽宝是基于大语言模型的对话机器人,也是一位能够满足您好奇心的智能助手,可与您探讨天文学、地质学、科技、文化、美食、艺术、商业等各类议题。洽宝亦可充当您的百科全书、商业与法律顾问、程式设计伙伴、写作指导者、文案策划专家、外语教授...

Learn more
联系我们

让我们携手迈进
智能时代

我们很乐意回答您可能遇到的任何问题,并协助您确定哪种方案最能满足您的需求。

为什么选择我们
咨询流程
1

我们会在 1 个工作日内与您取得联系并安排沟通会议。

2

按计划开展线下或线上会议,通过充分沟通确定您的需求。

3

根据沟通结果拟定初步解决方案,必要的话安排进一步沟通。

预 约 免 费 咨 询