Skip to content

[学術ドメイン] - PDFからのテキスト抽出作業環境の動作検証 #203

@tkana-nii

Description

@tkana-nii

Overview

J-STAGE論文PDFから本文テキストを抽出する作業環境の動作検証

Details

PDFからOCR処理で本文テキストを抽出する処理を予定しており、解析に用いるllmc-ocrをmdx環境で稼働するように調整する。

Resources

  • 計算機
    • クラスタ: llm-jp-nvlink
    • ノード種別: llm-jp-nvlink
    • ノード台数: 1
  • コード
    • リポジトリ:
    • コミット:
  • 入力データ:
    • (入力の与え方も調査)
  • 出力データ:
    • 保存先: {cluster}:/data/experiments/{number}
    • データ内訳:
      • xml & plain text: <1GB (バッファ容量を含む)
  • 開始日: 2025-07-22 asap
  • 終了予定日: 2025-07-28 (バッファ期間を含む)

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions