[学術ドメイン] - PDFからのテキスト抽出作業環境の動作検証

# Overview

J-STAGE論文PDFから本文テキストを抽出する作業環境の動作検証

# Details

PDFからOCR処理で本文テキストを抽出する処理を予定しており、解析に用いるllmc-ocrをmdx環境で稼働するように調整する。

# Resources

* **計算機**
  * クラスタ:  llm-jp-nvlink
  * ノード種別: llm-jp-nvlink
  * ノード台数: 1
* **コード**
  * リポジトリ:
  * コミット:
* **入力データ**:
  * (入力の与え方も調査)
* **出力データ**:
  * 保存先: `{cluster}:/data/experiments/{number}`
  * データ内訳:
    * xml & plain text: <1GB （バッファ容量を含む）
* **開始日**: 2025-07-22 asap
* **終了予定日**: 2025-07-28 （バッファ期間を含む）



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[学術ドメイン] - PDFからのテキスト抽出作業環境の動作検証 #203

Overview

Details

Resources

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[学術ドメイン] - PDFからのテキスト抽出作業環境の動作検証 #203

Description

Overview

Details

Resources

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions