NC速递：使用对话语言模型和即时工程从研究论文中提取准确的材料数据

2024-03-08 2,160 0

关键词：自动数据提取，大语言模型，

论文题目：Extracting accurate materials data from research papers with conversational language models and prompt engineering

论文期刊：Nature Communications

论文链接：

https://www.nature.com/articles/s41467-024-45914-8

自动数据提取越来越多地用于开发材料科学和其他领域的数据库。自动化方法需要花费大量的精力来设置，要么准备解析规则（即预先定义用于识别相关单元的规则列表或识别属性的特定短语等），要么微调或重新训练模型或两者的某种组合，专门用于执行特定任务的方法。微调非常耗费资源和时间，并且需要大量准备训练数据，而大多数研究人员可能无法获得这些数据。大语言模型（LLM）出现使得准确提取复杂数据的能力显著增强，但专业知识和编码等前期工作仍然必不可少。

最新发表在Nature Communications的一项研究，提出了名为ChatExtract的方法，以最少的初始工作和背景，进行完全自动化的精准数据提取。ChatExtract由一组应用于会话式大模型的工程提示组成，这些提示既可以识别带有数据的句子，从而提取该数据，又可以通过一系列后续问题确保数据的正确性。作者通过一系列精心设计的提示（问题和指令）实现了材料属性的高效提取，表现为材料、值、单位的三元组形式。通过识别相关句子、要求模型提取数据详情，然后通过提出一系列后续问题来检查提取的详情，在数据提取任务中实现了高精确度（模型提取数据中有多少是准确）和高召回率（模型从所有应该提取的数据中成功提取的比例）。这种方法在测试数据集上达到了90.8%的精确度和87.7%的召回率，在实际数据库构建示例中达到了91.6%的精确度和83.6%的召回率。

ChatExtract框架可以结合任意的大模型使用，同时会受益于大模型的改进。因此，大模型的快速迭代，可能进一步支持ChatExtract和类似数据提取方法。该研究表明，大模型中的信息保留结合有目的的冗余，并通过后续提示引入不确定性，可以实现卓越的自动化数据提取能力。

图1 ChatExtract方法流程图。蓝色框代表给模型的提示，灰色框是给用户的指示，“是”、“否”和“无”框是模型的响应。“[]”中的粗体文本将替换为命名项的适当值。

“后ChatGPT”读书会

详情请见：

“后 ChatGPT”读书会启动：从通用人工智能到意识机器

‍推荐阅读

1. Nat.Commun.速递：使用大语言模型从科学文本提取结构化信息

2. AI何以涌现：复杂适应系统视角的ChatGPT和大语言模型

3. Nat. Human. Behav. 速递：利用大语言模型驱动和抑制人类语言网络

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

NC速递：使用对话语言模型和即时工程从研究论文中提取准确的材料数据

智能体协作式软件开发与大模型能力激发丨周六直播·大语言模型与多智能体系统读书会

集智科学研究中心重磅综述：复杂系统中的因果和涌现

发表评论点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

NC速递：使用对话语言模型和即时工程从研究论文中提取准确的材料数据

微信扫一扫,分享到朋友圈

智能体协作式软件开发与大模型能力激发丨周六直播·大语言模型与多智能体系统读书会

集智科学研究中心重磅综述：复杂系统中的因果和涌现

猜你喜欢

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

发表评论 点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

关注我们的公众号

发表评论点击这里取消回复。