未登录用户 · 讨论 · 贡献 · 创建账户 · 登录

PDF 文档语料

本文属于 artifact 类条目,关联 3 个主题,引用 116 条资料。

PDF 文档语料是当前 Wiki 的文本基础。它包含 116 个 PDF,已识别页数合计约 4153 页。抽取文本可用于搜索和初步聚类,但部分 PDF 的 OCR 噪声较多。

PDF 语料不能直接等同于可靠叙述。它包含任务报告、历史档案、照片 PDF、transcript、technical debriefing、邮件和其他文件。每类文件的证据强度不同。

使用方式

PDF 页面适合用于定位关键词、日期、地点和文件编号。真正引用时应回到原 PDF 页码或原始画面。当前生成的文本摘录只作为入口。

文本抽取状态

当前有 54 个 PDF 产生了文本摘录。部分材料来自扫描件或带有删节标记,抽取结果可能包含乱码、断词和错位。

代表资料