我们直接从NYU Langone EHR直接创建了这个未标记的临床注释数据集。该数据集总共包含387,144例患者 ,7,247,694例注释和4,112,249,482个单词 。我们构建了纽约大学注释,如下所示:我们编写了结构化查询语言(SQL)脚本来查询NYU Langone EHR。我们首先使用基于Web的编辑器(Cloudera Hue)原型进行查询,然后将查询结果作为逗号分隔文件(CSV)下载到NYU Langone的高性能计算集群中。我们包括了由医疗专业人员(医师 ,居民,医师助理,护士从业人员和研究员)签名的笔记 ,2011年至2020年(包容性) 。我们排除了从计费中得出的任何笔记,被标记为无效或空的。我们将笔记分为三组:训练,验证和测试集,比率为949:50:1。最后 ,我们以15%的概率掩盖了令牌,以创建蒙版的文本和标签 。
我们创建了这个未标记的临床笔记的数据集,作为在曼哈顿Tisch医院撰写的NYU笔记的子集。该数据集总共包含256,217名患者 ,4,342,602例注释和2,381,466,993个单词。
我们创建了这个未标记临床注释的数据集,作为纽约大学朗格·卫生(NYU Langone Health -Brooklyn)撰写的NYU注释的子集。该数据集总共包含104,521名患者,1,337,352例注释和1,102,078,012个单词 。
我们从Nyu Langone EHR创建了此标记的排放笔记(带有二进制标签)的数据集。该数据集中的大多数笔记都是纽约大学注释的子集 ,临时测试的额外排放笔记。该数据集总共包含413,845例患者,506,740个注释和487,395,462个单词 。我们构建了此数据集如下:对于在2011年1月至2021年11月之间结束的每一次相遇,我们将其放电纸条与二进制标签一起纳入了30天全原因再入院。如果患者在出院后的30天内有入院票据 ,我们分配了“已故 ”标签。为了专注于建模急性护理再入院,我们将康复,透析和姑息治疗部门排除在外 ,因为这些不是急性护理入院 。我们将数据集分为四组:培训,验证,测试和时间测试集。前三套是2011年1月至2021年5月的笔记,比率为8:1:1。时间测试集包括从2021年6月至12月12日的注释 。有关四向拆分的可视化 ,请参见扩展数据图8a。
我们创建了这个未标记的临床笔记的数据集,作为在曼哈顿Tisch医院撰写的NYU再入院数据集中的注释子集。该数据集包含240,824例患者,296,519个注释和253,622,053个单词 。
我们创建了这个未标记的临床笔记的数据集 ,作为纽约大学朗格尼健康(Nyu Langone Health)撰写的纽约大学再入院数据集的临床注释子集。该数据集包含94,653例患者,113,275个注释和142,767,957个单词。
我们使用NYU Langone EHR的二进制标签创建了历史和物理(H&P)注释的数据集(H&P)。该数据集中的大多数笔记都是NYU注释的子集,并带有2021年的H&P注释 ,用于时间测试 。该数据集总共包含371,922名患者,469,162例注释和484,467,141个单词。我们构建了此数据集如下:对于在2011年1月至2021年11月之间结束的每一次相遇,我们将其H&P音符纳入了二进制标签 ,以用于院内死亡率。如果患者的出院处置已“过期”,我们分配了阳性标签 。我们将数据集分为四组:培训,验证 ,测试和时间测试集。前三套是从2011年1月到2021年5月的笔记,其比率为8:1:1,时间测试集包括从2021年6月至12月12日的笔记。
我们创建了此数据集的H&P笔记数据集,并使用Nyu Langone EHR的Hospital Los五个班级标签 。该数据集中的大多数注释都是NYU注释的子集 ,并带有2021年的H&P注释进行时间测试。该数据集总共包含327,039例患者,403,579例注释和422,485,417个单词。该数据集包含的标签遭遇少于NYU死亡率和NYU BINNED LOS数据集,因为22%的遭遇没有国际疾病分类(ICD)代码来计算CCI分数 。这种失踪性促使我们在缺乏结构化ICD代码的情况下预测BINNED CCI得分的任务。我们构建了此数据集如下:对于在2011年1月至2021年11月之间结束的每一次相遇 ,我们将其H&P Note纳入了Binned CCI分数的五级标签。为了生成标签,我们首先使用ICD代码和参考文献中的评分函数计算合并症指数 。27。然后,我们将得分分为五个类别:我们分配了低于50%分位数(0天)的合并症指数的标签0 ,合并症指数的标签1在50%至75%(1-2天)之间的合并症指数(1-2天),合并症2的标签为2,合并症2的合并症指数为75%和90%量化的合并症指数(3-4天之间) ,量子3-4天(3-4次),COMORER 3-4级别的量度,均为3-4天的3-4次数 ,A。(4-7天)和4个高于99%分位数(> 7天)的合并症指数的标签4。我们将数据集分为四组:培训,验证,测试和时间测试集 。前三套是从2011年1月到2021年5月的笔记,其比率为8:1:1 ,时间测试集包括从2021年6月至12月12日的笔记。
我们使用Nyu Langone EHR的Hospital Los创建了H&P注释的数据集。该数据集中的大多数注释都是NYU注释的子集,并带有2021年的H&P注释进行时间测试 。该数据集总共包含371,922名患者,469,162例注释和484,467,141个单词。我们构建了此数据集如下:对于在2011年1月至2021年11月之间结束的每一次相遇 ,我们将其H&P Note纳入了二进制标签和LOS的刻痕标签。对于分位数标签,我们分配了低于25%分位数(0-2天)的LOS的标签0,对于25%至50%的分位数(3天)(3天) ,LOS的LOS为50%和75%分位数(4-5天)和LOS在75%的LOS中的LOS标签2,标签为2(> 5天> 5天) 。我们将数据集分为四组:培训,验证 ,测试和时间测试集。前三套是从2011年1月到2021年5月的笔记,其比率为8:1:1,时间测试集包括从2021年6月至12月12日的笔记。
我们使用二进制标签创建了此数据集 ,以最初拒绝或直接批准患者的保险索赔 。该数据集总共包含54,563例患者,55,791个注释和51,270,256个单词。我们构建了此数据集如下:对于2021年5月1日至2022年4月30日之间发生的每一次相遇,我们将其H&P注释与二进制标签一起纳入了保险否决。如果患者的保险索赔状态为“最终,不利的决定”(索赔被保险拒绝 ,并在上诉后再次拒绝)或“最终,有利的裁决 ”(索赔被保险拒绝并在上诉后批准),我们将分配了一个正标签 。我们将数据集分为四组:培训 ,验证,测试和时间测试集。前三套是2021年5月1日至2022年2月30日的笔记,其比率为18:1:1。时间测试集包括2022年3月1日至4月30日的笔记。
我们使用二进制标签创建了该数据集 ,以最初拒绝或直接批准患者的保险索赔 。该数据集总共包含54,563名患者,55,791个注释和49,405,133个单词。我们构建了此数据集如下:对于2021年5月1日至2022年4月30日之间发生的每一次相遇,我们将其放电纸条与二进制标签一起纳入了保险否决。标签分配和四向分配与NYU保险拒绝数据集相同 。
该数据集包含与NYU保险拒绝数据集相同的注释 ,但标签不同。二进制标签指出了该患者的保险索赔最终被拒绝(即使在上诉后)或最终获得批准(上诉后直接批准或批准)。
该数据集包含与NYU保险拒绝 - 解雇注释数据集相同的注释,但标签不同 。二进制标签指出了该患者的保险索赔最终被拒绝(即使在上诉后)或最终获得批准(上诉后直接批准或批准)。
这是哈佛医学院发布的开放数据集,作为年度临床NLP挑战的一部分28。该数据集是临床NLP社区中著名的基准 。任务是识别和分类临床概念(例如治疗) ,临床部门(例如,手术),事件发生(例如,入院)和证据(患者抱怨的患者) ,来自波士顿的贝丝以色列医学中心的贝丝以色列医疗中心的临床注释。该数据集包含不超过310名患者,310个笔记和636,000个单词。批准使用应用程序后,我们从N2C2数据门户下载了数据集作为压缩tar.gz文件 。
这是MIT和Boston Beth Israel Medical Center发布的重症监护室(ICU)EHR的开放数据集29。我们收集了一组52,726个排放纸币 ,并通过检查30天内是否有任何后续遭遇,创建了30天的全因再入院标签。再入院率为6%。我们将数据分为8:1:1的培训,验证和测试集 。
该数据集由带有二进制标签的排放笔记组成 ,可从我们的部署引擎和NYU Langone EHR再入院。从2022年1月到4月,每次由医生签署出院票据时,该票据都会发送到我们的定制推理引擎 ,以进行Nyutron的预测。配对的排放音符和预测记录在数据库中 。该数据库包含27,376例患者,29,287个注释和34,669,963个单词,到研究期结束时。
我们创建了带有二进制标签的结构化Lace30功能的数据集 ,以便与非结构化模型进行比较。该数据集包含纽约大学再入院数据集中所有相遇的结构化功能 。蕾丝是带有四个功能的再入院的传统临床预测规则:LOS,敏锐的再入院,查尔森合并症指数以及过去6个月最近急诊室访问的数量。我们构建了数据集,如下所示:对于NYU重新启动数据集中的每一次相遇 ,我们收集了有关NYU Langone EHR的四个蕾丝功能的数据。LOS是出院日期和入院日期之间的差异(数天) 。敏锐的再入院是一个二进制功能,表明患者是否被送入急诊科。根据参考文献中的映射算法,使用ICD-9或ICD-10代码计算合并症指数。31和参考中的评分函数 。27。急诊科的数量是从患者的遇到历史记录中计算出的 ,直到入院日期前6个月。
我们创建了此数据集的结构化蕾丝功能,从纽约州纽约大学(NYU Readiserment -Lace)数据集的注释子集中,该数据集写在曼哈顿Tisch医院。
我们从NYU Langone Health -Brooklyn中编写的NYU再入院数据集中的注释子集中创建了该数据集的结构化蕾丝功能 。
我们创建了具有带有二进制标签的结构化SAPS2+Apache2特征的数据集 ,用于院内死亡率,以与非结构化数据进行比较。该数据集包含NYU死亡率数据集中所有相遇的结构化SAPS2+APACHE2功能的子集。SAPS2+APACHE2功能是SAPS2 Model15中使用的功能的子集和用于ICU死亡率预测的Apache2 Model16 。我们选择了NYU Langone EHR中可用的功能子集。我们包括以下12个特征:年龄(数值),平均心率(数值) ,收缩压(数值),心理温度(数值),血液尿素氮浓度(数值) ,钠浓度(数值),钾浓度(数值),胆红素浓度(胆红素),数字(数值)(数字)(数值(数字)(数值)(数值(数值)(数值)(数值)(数值)(数字pH)(数值)和血细胞比容(数值)。我们还包括部门专业(分类) 。We excluded the following features owing to their unavailability: PaO2/FiO2 (ratio of arterial oxygen partial pressure to fractional inspired oxygen), whether the patient was on mechanical ventilation or continuous positive airway pressure (CPAP), bicarbonate concentration, urine output, Glasgow Coma Scale score, presence of metastatic cancer or haematological malignancy or AIDS, and whether the admission was计划。
我们创建了具有二进制标签的结构化“里斯本葡萄牙”功能的数据集 ,用于院内死亡率,以与非结构化数据模型进行比较。该数据集包含在纽约大学BINNED LOS数据集中所有相遇的里斯本葡萄牙数据集18(在LOS预测文献中广泛使用)中使用的功能的子集 。我们选择了NYU Langone EHR:性别(分类)中可用的12个功能的子集,该年龄是通过出生日期和入学日期和入学日期(数值) ,最高教育(分类),国家 /地区(分类)的年度差异来衡量的。(分类),部门专业(分类) ,程序名称(分类)和先前入院次数(数值)。我们遗漏了诊断,因为在撰写H&P注释时并不总是可以使用 。由于难以在NYU Langone EHR中找到它们,我们排除了以下三个功能:同质组诊断代码 ,出色的诊断类别和治疗。
我们基于NYU保险拒绝数据集创建了这个结构化数据集,以与非结构化数据模型进行比较。该数据集包含NYU保险拒绝数据集中所有相遇的结构性功能,并且与NYU保险拒绝数据集的分裂相同。结构化特征的选择是基于参考文献中的功能 。19 ,建立了一个模型,该模型可以预测索赔表中的人口统计和与护理相关的功能的保险索赔拒绝。我们在NYU Langone EHR中发现了八个可用功能:患者名称(分类),年龄(数值),性别(分类) ,邮政编码作为地址的概括(分类),保险品牌(分类),第一个保险计划名称(分类) ,提供者ID(分类)和提供者类型(分类)。我们还根据临床医生的意见添加了四个功能:第二个保险计划代码(分类),外科手术案例的二进制标志(分类),急诊室案件的二进制标志(分类)和用于服务费用的二进制标志(分类)服务用户(分类) 。我们在参考文献中遗漏了六个功能。19由于难以搜索它们:患者与被保险人的关系 ,网络类型,是否索赔是重新提交,诊断指针 ,服务费和事先授权号。
使用这些数据集,我们训练了一个未词汇的词汇大小为50,000令牌,最大序列长度为512令牌和特殊令牌[sep] ,[pad],[unk],[mask],[mask]和[cls]和[cls] 。由于大多数临床音符具有超过512个令牌 ,因此我们将每个长音符分为最大序列长度以下的非重叠块。具体来说,我们使用自然语言工具包(NLTK)32将每个注释分为句子,并使每个句子标记。对于超过512代币的句子 ,我们将它们截断了 。接下来,对于所有标记句子中的所有标记句子,我们将它们串联成组 ,使每个组具有最大序列长度。我们丢弃了长音符的所有剩余组(严格小于最大长度)。
使用接受NYU音符训练的令牌仪,我们首先将排放笔记进行令牌 。我们截断了最大序列长度为512代币的注释。我们将其留给未来设计一种语言模型,该语言模型有效地读取更长的临床笔记(有关音符长度对语言模型性能的影响 ,请参见图8B)。
我们首先将tar.gz文件解压缩到XML文件的文件夹中。然后,我们将XML文件转换为BRAT格式 。接下来,我们将小子文件转换为生物文件。最后 ,我们编写了一个自定义的HuggingFace33数据加载程序,以将Bio文件的文件夹转换为拥抱表数据集。我们的预处理代码可在GitHub上获得 。
我们首先通过剥离HTML工件清洁了笔记。然后,我们使用Nyutron的令牌将放电纸牌制成。我们截断了最大序列长度为512代币的注释 。
当缺少数值功能(例如,平均心率为NAN)时 ,我们将其填写为整个训练集的平均功能。对于缺少的分类功能(例如,录取部门是“未指定”),我们将它们视为“无 ”类别。
我们使用预处理的纽约大学注释和MLM目标预处理了1.09亿参数BERT模型 ,在24个NVIDIA A100 GPU上分布在三个计算节点上,直到验证损失开始到Plateau,持续了3周(96个时代) 。该型号具有12个隐藏层 ,尺寸为768,每层有12个注意力头。我们使用的是每次培训批次的大小为64,每2,000步保存每2,000步。我们使用了零冗余ADAMW优化器(对ADAM优化器的改进) ,恒定学习率为5×10-5,FP16混合精度和2阶段平行34,35,36 。
在预告片的BERT模型的最后一个隐藏层之后,我们用随机初始化的线性分类器替换了受过训练的MLM分类器。我们使用NYU再入院数据集的训练集对十个时期的训练集进行了微调 ,每半个时期的验证AUC评估验证AUC,并以五个耐心的耐心进行验证。我们根据验证AUC进行了以下超参数调整的高参数:2×10-5的学习率,重量衰减为0.01,每位批处理大小为4。我们使用ADAMW Optimizer优化了交叉透镜损失 。在改变数据集的大小(n {102 、103、104、105 、3.92336×105})时 ,我们使用NYU重新启动数据集的子示例微调了验证的模型,并在时间测试集上评估了其AUC。对于子样本的每个尺寸,我们进行了五个实验 ,具有不同的随机种子(0、13、24 、36、42)。为了进行比较,我们研究了五个实验的中位数AUC和标准偏差 。
在预告片的BERT模型的最后一个隐藏层之后,我们用随机初始化的线性分类器替换了受过训练的MLM分类器。我们使用NYU死亡率数据集的训练集对十个时期的训练进行了微调 ,每半个时期的验证AUC评估验证AUC,并以5的耐心时间停止。我们使用了基于验证的AUC进行手动调整中的以下超级参数:AUC:AUC:AUCT的学习速率为2×10-5,使用2×10-衰减 ,使用0.01的重量衰变,并触发了跨度的范围 。ADAMW优化器。使用完整的数据集,我们使用NYU死亡率数据集的子样本微调了预处理的模型 ,并在时间测试集上评估了其AUC。对于子样本的每个尺寸,我们进行了五个实验,具有不同的随机种子(0、13、24 、36、42) 。为了进行比较,我们研究了五个实验的中位数AUC和标准偏差。
在预告片的BERT模型的最后一个隐藏层之后 ,我们用随机初始化的线性分类器替换了受过训练的MLM分类器。We fine-tuned the model end to end using the training set of the NYU Binned Comorbidity dataset for ten epochs, evaluating the validation OVR AUC every half epoch and stopping early with a patience of 5. We used the following hyperparameters from manual tuning based on the validation OVR AUC: a learning rate of 2 × 10−5, a weight decay of 0.01 and a per-device batch size of 4. We使用ADAMW优化器优化了交叉渗透丢失 。使用完整的数据集,我们用NYU BINNED合并症数据集的子样本微调了验证的模型,并在时间测试集上评估了其OVR AUC。对于子样本的每个尺寸 ,我们进行了五个实验,具有不同的随机种子(0、13 、24、36、42)。为了进行比较,我们研究了OVR AUC的中位数和五个实验的标准偏差。
在预告片的BERT模型的最后一个隐藏层之后 ,我们用随机初始化的线性分类器替换了受过训练的MLM分类器 。We fine-tuned the model end to end using the training set of the NYU Binned LOS dataset for ten epochs, evaluating the validation AUC every half epoch and stopping early with a patience of 5. We used the following hyperparameters from manual tuning based on the validation OVR AUC: a learning rate of 2 × 10−5, a weight decay of 0.01 and a per-device batch size of 4. We optimized the使用ADAMW优化器跨透明镜丢失。使用完整的数据集,我们用NYU BINNED LOS数据集的子样本微调了验证的模型,并在时间测试集上评估了其AUC。对于子样本的每个尺寸 ,我们进行了五个实验,具有不同的随机种子(0 、13、24、36 、42) 。为了推断,我们将最后两个类别的标签3(90-99%的分位数)和标签4(> 99%的分位数)组合在一起 ,因为标签4非常稀疏。为了进行比较,我们研究了OVR AUC的中位数和五个实验的标准偏差。
在预告片的BERT模型的最后一个隐藏层之后,我们用随机初始化的线性分类器替换了受过训练的MLM分类器 。我们使用NYU保险拒绝数据集的训练集对十个时期的训练进行了微调,每半个时期的验证AUC评估了验证AUC ,并以5的耐心来早点停止。我们根据验证的AUC使用了以下超参数来调整以下超级参数:使用2×10-5的学习率,使用了0.01的重量损失,每次均可使用0.01的重量差异 ,我们的体重差异是每次均可降级。ADAMW优化器 。使用完整的数据集,我们使用纽约大学保险拒绝数据集的子样本微调了预处理的模型,并在时间测试集上评估了其AUC。对于子样本的每个尺寸 ,我们进行了五个实验,具有不同的随机种子(0、13、24 、36、42)。为了进行比较,我们研究了五个实验的中位数AUC和标准偏差 。
我们进行了微调实验 ,如下所示。对于扩展数据表2中的每个LLM,我们以LLM作为验证的检查点初始化了一个拥抱面代币分类模型。我们使用I2B2-2012 NER对模型进行了微调,使用ADAMW优化器 ,学习速率为2×10-5,重量衰减为0.01,批次大小为4个,每50个步骤和40个步骤 ,并根据接收器(AUROC(AUROC)的耐心(AUROC)的耐心(1.4分钟)17分17 node node n n n n n n n n n n n n n n n n n n n n n n n node n n n n n n n n n n n n n n n n n n n n n n Notive(a的auroc(aaureoc)(aueroc)下。我们用随机种子0、13、24 、36和42进行了五次微调,并记录了微平均F1分数的平均值和标准偏差(不包括非实体标签,“ O”) 。
我们进行了微调实验 ,如下所示:对于Nyutron和Bioclinicalbert,我们以LLM作为验证的检查点初始化了一个Huggingface令牌分类模型。我们使用ADAMW优化器使用MIMIC-III再入院对模型进行了微调,学习率为2×10-5 ,重量衰减为0.01,批量衰减为16,评估每半个时段。我们用随机种子0、13、24 、36和42进行微调五次 。
微调模型转换为高性能格式(ONNX或Tensorrt) ,并加载到我们的部署平台,这是一种NVIDIA TRITON推理引擎,通过HLA7 langone EHR通过HLA7快速健康互操作性资源(FHIR)37接口将其与Nyu Langone EHR连接。有关我们对绩效 ,安全性,可靠性和解释性的考虑,请参见补充信息第5节。
我们的部署平台由Nvidia的Triton推理服务器的修改版本组成,我们将其命名为Nyutriton(发音为“营养” ,因为它对卫生系统有益) 。NVIDIA TRITON支持基于GPU-,X86和ARM CPU的推论以及几个关键功能,包括动态批处理 ,并发执行,高度灵活的模型规范接口,以及支持广泛的深度学习框架和加速模型格式的能力。我们将Nvidia Triton修改为与拥抱面式的语言模型无缝接口 ,以在我们的开发和生产管道之间提供一个均匀且高度灵活的交叉点。训练有素的模型以标准的拥抱面式格式保存,并转换为ONNX,然后张力以获得子毫秒尺度的推理结果 。Nyutriton托管在专用推理服务器上 ,该服务器由AMD ThreadRipper 3960X(24个内核,3.8 GHz),两个RTX 3090 GPU和128 GB的DDR5系统存储器组成。
在EPIC中签署了放电摘要后 ,HL7 FHIR接口与Nyutriton连接,并发送JavaScript对象符号(JSON)有效载荷,该有效载荷由放电摘要和元数据组成,指定了基础再入再启动模型和发送者。Nyutriton预处理文本 ,通过加速的Nyutron再入再启动模型运行推理作业,并将模型的推理结果返回到辅助编排服务器,该服务器将结果写入数据库并将电子邮件写入签名医生 。
结构化基线为(1)SAPS2/Apache2具有用于院内死亡率预测的XGBOOST+XGBOOST ,(2)蕾丝特征+XGBOOST用于再入院预测,(3)Lisbon葡萄牙特征+XGBOOST用于BINNED LOS LOS预测的XGBOOST和(4)索赔功能+XGBOOST+XGBOOST for Insurance notial预测。
对于所有结构化基线,我们使用XGBoost库来训练具有二进制逻辑损失的极端梯度提升的树分类器(多类软性损失了两个以上的类别)。我们使用Scikit-Learn的随机搜索来搜索{1、5、10} ,gamma,gamma的搜索超标剂,含有{0.5 、1、1.5、2 、5} ,submpem subsampe subsampe subsampe subsampe subsampe subsampe subsampe subsample subsample subsample subsample subsample subsample subsample col_sample_bytree,col_samples_bytree,col_sample_bytree ,0.6,0.6,0.8,1.8 ,1.0,1.0,1.0 ,1.0,1.0,1.0} ,3.3 restem。{0.001、0.01、0.1 、0.5}和n_estimators {10、100、1000}的n_estimators基于AUROC分数(多个类别的OVR-AUROC分数),来自三倍的交叉效能38 。我们用不同的随机种子进行了五次(0、13 、24、36、42)。对于死亡率,合并症 ,bined Los和保险否认,我们使用完整的数据集进行了实验。为了重新入学,我们使用NYU Readserion -Lace数据集的子样本(N {102 、103、104、105 、3.9236×105})训练了模型 。
我们评估了五项任务(院内死亡率预测 ,合并症指数预测,30天全因再入院预测,BIN的LOS预测和保险否认预测),以及用于多个类别的二进制类别的AUC和OVR AUROC。AUROC是二维曲线下的区域 ,由不同决策阈值产生的形式(TPR,FPR)组成。
我们还通过以下指标评估了重新启动预测:TPR,FPR ,Precision,Recell和F1分数,所有这些分数均具有[0 ,1]的范围 。我们使用微型NER F1分数评估了NER。NER F1分数与正常的F1分数相似,除非将非实体标签“ O”排除在外。
我们将Nyutron与医生进行了比较 。我们与六位具有不同资历水平的医生合作:三名主治医师和三名居民。要求医生审查出院摘要,并预测所描述的患者是否会在30天内返回医院。
我们将Nyutron与其他四个LLM和两个机器学习模型进行了比较 。“随机点 ”是一个带有随机初始化参数的BERT基本未基于的模型。“ Web-Wiki”是一种使用Web文本(来自BookCorpus DataSet39)和Wikipedia文章(来自英语Wikipedia DataSet40)的Bert-Base未基于的模型。“ Web-Wiki+Bio”是一种使用Web文本 ,Wikipedia文章,PubMed Abstracts41和PubMed Central(PMC)完整作品预测的BERT模型42。“ Web-Wiki+Bio+临床 ”或Gatortron-OG43是一种兆头 - Bert44模型,使用Web文本 ,Wikipedia文章,PubMed摘要,PMC完整文章,MIMIC-III注释 ,MIMIC-III注释和佛罗里达大学Health的临床注释验证 。“蕾丝+XGB”读取结构化的蕾丝特征(来自传统的临床预测规则),具有极端的梯度增强树模型14。“ TF-IDF+XGB”读取具有极端梯度增强树模型的语料库级单词袋功能。有关详细的统计数据和训练情况的示例,请参见扩展数据表2和扩展数据图3 。
我们从随机测试集中随机抽样了20个排放笔记 ,并要求六名具有不同资历的医生预测患者是否会在30天内恢复。这六名医生包括三名参加神经外科医生,两个神经外科居民和一名ICU居民。
我们使用REDCAP进行调查,并为医生提供了无限的时间 。该调查的结构如下:对于每种情况 ,我们都问“该人会在30天内被录取吗? ”,然后进行放电摘要。医师可以选择回答“是”或“否”。如果患者在30天内回来,我们有三个后续问题来评估随后再入院的特征 。首先 ,我们问“此重新启动与先前的放电有关吗? ”,然后是随后再入院的H&P注释。医师可以回答“是”,“否” ,“部分 ”或“不符合30天再入院的Medicare标准”。第二个后续问题是“可以预防这种再入院?”,医生可以回答“是”,“否 ”或“部分” 。第三个后续问题“有任何评论吗?”,有自由文本的回答 ,医生可以解释为什么再入院与先前的出院部分相关,或者为什么可以部分预防再入院。
为了收集Nyutron的预测,我们使用了从拥抱面的文本分类管道对20个排放说明进行推断。对于每个排放音符 ,管道都会输出预测的再入院概率。我们将这种预测的概率转换为阈值0.07的二进制标签(预测概率不少于0.07被转换为正标) 。我们选择0.07作为决策边界,因为这是最小阈值使我们在阈值{0.01×N:n {1,... ,...,90}之间的验证召回率高于80%(80%的标准根据临床适用性选择)。有关Nyutron的校准曲线,请参见图8C。
用于微调其他LLM的数据集 ,超参数以及评估和软件库与微调Nyutron时相同 。预处理的LLM构造如下:随机点是带有重置参数的BERT基础未基于的模型。Web-Wiki是Bert-Base未建立的模型。Web-Wiki+Bio是DMIS-LAB/BIOBERT-BASE CASED V1.2型号 。Web-Wiki+Bio+临床是从NVIDIA NGC下载的Gatortron-og,并使用转换Megatron Bert Checkpoint转换为拥抱面检查点。
用于微调其他LLM的数据集,超参数以及评估和软件库与微调Nyutron相同。预验证的LLM与基线LLM相同 ,用于预测排放票据的再入院 。
使用NYU重新启动 - LACE数据集,我们使用XGBoost库来训练具有二进制逻辑损失的极端梯度促进的树分类器,并使用超参数搜索。我们使用scikit-learn的随机搜索在{1、5、10}的最小_child_weight之间进行搜索,从{0.5 ,1,1,1.5 ,2,5},从{0.6 ,0.8,1},col_sample_bytree中的{0.6 ,0.8,1}的子样本,{0.6 ,0.6,0.8,1.0},0.8 ,0.8,0.8,1.0} ,max_depth,4,4 ,4,4,4 ,4,4,4 ,4,4,4.0},4 ,4,4,4 ,4,4,4 ,4,{4.0},4 ,4,4,{4.4 ,4,{3.4},4,4 ,4,{3.40.01 、0.1、0.5}和n_estimators在{10、100 、1000}的n_estimators根据验证set37的AUROC分数进行100次迭代。我们使用纽约大学再入院数据集的子样本(N {102、103、104、105 、3.9236×105})训练了模型,并在时间测试集上评估了他们的AUROC 。对于子样本的每个尺寸 ,我们进行了五个实验,具有不同的随机种子(0、13、24 、36、42)。为了进行比较,我们研究了AUROC的中位数和五个实验的标准偏差。
我们将文本从NYU重新启动数据集转换为TF-IDF(术语频率 - 输入文档频率)嵌入 ,并使用了带有二进制Logistic损失的XGBoost分类器来预测重新启动。我们使用raytune45来搜索超参数,包括{512,5000}的最大_tf-idf功能 ,从量化4到1个间隔为4的量化随机整数,从10-2到10-1,从0到10-11的gamma的分布到量子的分布 ,从0到12,从0到12的gamm,从0到128 with an interval of 4, reg lambda from a quantized uniform distribution from 0 to 10 with an interval of 2, colsample_bytree from a uniform distribution from 0.7 to 1, scale pos weight from a quantized uniform distribution from 0 to 50 with an interval of 10 and n_estimator from a quantized integer distribution from 50 to 300 with an interval of 50. We trained the model using subsamples (N {102, 103, 104,NYU再入院数据集的105,3.9236×105}) ,并在时间测试集上评估了其AUROC 。对于子样本的每个尺寸,我们进行了五个实验,具有不同的随机种子(0、13 、24、36、42)。为了进行比较 ,我们研究了AUROC的中位数和五个实验的标准偏差。
We compared NYUTron with its four variants (pretrained and fine-tuned using data from different sites): (1) NYU Notes–Manhattan + NYU Readmission–Manhattan, (2) NYU Notes–Manhattan + NYU Readmission–Brooklyn, (3) NYU Notes–Brooklyn + NYU Readmission–Brooklyn and (4) NYU笔记 - 布鲁克林+纽约大学再入院 - 曼哈顿 。用于微调Nyutron变体的超参数以及评估和软件库与微调Nyutron相同。
根据回顾性研究的时间测试性能,我们选择了一个微调模型,其决策阈值为0.07用于前瞻性试验。
为了评估正确预测的已故患者的状况(n = 3,298) ,我们将他们的住院死亡率和住院时间与同期入院的患者的住院时间进行了比较 。我们收集了有关从2月至2022年5月入院的患者的数据(n = 30,548),并将其院内死亡率和LOS与Nyutron从2022年1月至2022年4月捕获的患者的患者进行了比较。我们使用了两边的Welch的T检验(两组都具有相同的平均水平来评估统计学上的显着性。
我们对预期队列中已读取的患者进行了事后分析,以更好地了解现实世界中的模型性能 ,并期望根据模型输出创建有针对性的干预措施 。通过患者数量,从NYU Langone的五个最大部门中取样了一百个已恢复的患者:内科,儿科 ,普通外科,妇产科和血液学和肿瘤学。每个部门贡献了20例案件,其中10个案件在该部门具有最高的预测概率,而10例预测概率最低。所有案例的遇到ID均记录在安全的在线平台上的索引放电和再入院 。为手动审查构建了一份标准化的问卷调查 ,询问是否计划了再入院,是否符合CMS标准30天的罚款,是否可以预防再入院 ,是否可以预防再入院事件,是否发生不良事件,是否可以预防任何不良事件以及审查医师是否对案件有任何评论。一支来自内科和神经外科的十名医师由十对案件进行随机分配 ,以成对审查,第三名医师审稿人裁定审查员之间的任何分歧。为了确定是否可以预防再入院,审阅者查看了推理遭遇的排放笔记以及接收接触的H&P注释。
我们的研究已由NYU Langone机构审查委员会批准为“ S21-01189 Nyutron ” ,这些方法是根据机构审查委员会的相关指南和法规进行的 。
有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。
本文来自作者[admin]投稿,不代表象功馆立场,如若转载,请注明出处:https://wap.xianggongguan.cn/kexue/202506-1874.html
评论列表(3条)
我是象功馆的签约作者“admin”
本文概览: 我们直接从NYU Langone EHR直接创建了这个未标记的临床注释数据集。该数据集总共包含387,144例患者,7,247,694例注释和4,112,249,482个单...
文章不错《卫生系统规模的语言模型是通用预测引擎》内容很有帮助