# Overview J-STAGE論文PDFから本文テキストを抽出する作業環境の動作検証 # Details PDFからOCR処理で本文テキストを抽出する処理を予定しており、解析に用いるllmc-ocrをmdx環境で稼働するように調整する。 # Resources * **計算機** * クラスタ: llm-jp-nvlink * ノード種別: llm-jp-nvlink * ノード台数: 1 * **コード** * リポジトリ: * コミット: * **入力データ**: * (入力の与え方も調査) * **出力データ**: * 保存先: `{cluster}:/data/experiments/{number}` * データ内訳: * xml & plain text: <1GB (バッファ容量を含む) * **開始日**: 2025-07-22 asap * **終了予定日**: 2025-07-28 (バッファ期間を含む)