はじめに
はじめまして、estieで学生インターンをしている修士1年の本郷槙一です。
株式会社estieは、3月11日から3月15日にかけて開催された言語処理学会第30回年次大会(NLP2024)にシルバースポンサーとして参加し、ポスター発表を1件行いました。
個人としてもestieとしてもこういった学会に参加するのは初めてだったので大変刺激的でした。
本記事ではestieでの研究内容や面白かった発表などについて振り返りたいと思います。
言語処理学会とは
言語処理学会は自然言語処理(NLP)分野における国内最大級の学会で毎年3月に開催されます。30回目の節目である今回は神戸国際会議場で行われました。過去最大の発表件数と2000人を超える参加人数で年々勢いのある学会となっています。
「30年のプロンプトから未来を創造する」という大会スローガンに始まり、参加者用のSlackチャンネルでも昼夜問わず常に盛り上がっている印象を受けました。また去年の学会中にGPT-4が発表されたこともあってか「GPT-5が来るんじゃないか…」みたいなドキドキ感もありました。(結局発表はなかったです)
発表した内容
P10-7: 大規模言語モデルを用いたマイソクPDFからの情報抽出
テーマの背景&課題
株式会社estieでは様々な情報源から物件情報を収集して提供するestie マーケット調査というSaaSを展開しています。その情報源の一つとしてマイソク(物件情報が書かれたチラシ)に注目していたのですが、情報を手動で入力するのはとても時間がかかります。
マイソク特有の難しいポイントとして例えば以下の点が挙げられます。
- 特に規格がないため発行元によってフォーマットが大きく異なる。
- 「賃料」といっても「賃料総額」や「賃料単価」など項目名が揺れたり値の候補が多い。
さらにデータベースに入れる際に型の考慮ができると嬉しいです。固有表現抽出のようにそれぞれを抜き出してから後処理で単位を合わせるのが一般的ですが、今回は型情報を含んだスキーマを事前にLLMに与えることで型を考慮した情報抽出を試みました。
実験結果
あらかじめ設定した11項目を対象に実験を行いました。例えば「物件名」や「面積(坪)」などを含みます。評価は項目ごとの完全マッチングという厳しめの評価をしました。マルチモーダルLLMを使用して画像から直接抽出する手法ではAccuracy0.5を下回った一方で、OCRとGPT-4を使用した手法ではマクロ平均0.936と直感的にもかなり高いスコアが得られました。
マイソクに限らず請求書やレシートなどの非構造化データから情報抽出を行いたいが、十分な学習データがないケースにおいて有力な選択肢になりうる結果が得られたと思います。
面白かったポイント
今回実験した項目の一つに「礼金(ヶ月)」があります。礼金については通常は月数で記載されることが多いのですが、一部の例では金額が直接記載されている場合もありました。しかしLLMが空気を読んで、金額を賃料で割った値を推論し格納しているケースをいくつか発見し驚きました。
質疑応答集
Q1. OCRはなぜAzure Document Intelligenceを使用したんですか?
- 社内実績がすでにあり日本語の認識精度が高いと感じていたからです。
- 今回利用していませんが、表データを直接抽出できたりするのでとても便利です。
Q2. もし改善するならどこを改善しますか?
- OCRされた情報を改行区切りで羅列している部分において、情報量を増やすような工夫。
例) 座標情報を付与する。 / 表データはMarkdown形式の表で与える。 - BoundingBoxを利用して元のPDFのどこから抽出したのかを提示するUI/UX設計。
感想
発表してみて
まず感じたことは、ドキュメントからの情報抽出に注力している企業が思ったより多いなということです。ポスター発表中にそういった方々と具体的な議論ができて、発表前は「ポスター発表80分って流石に長いでしょ…」と思っていましたが一瞬で終わりました。基本的にずっと説明していたので喉が疲れました。途中で共著の齊藤さんにオレンジジュースを持ってきてもらいましたが、余計に喉が渇きました。
#NLP2024 (言語処理学会第30回年次大会)に参加しているestieメンバーから、ポスター発表が無事に終わったと連絡をもらいホッとしています😊
— 株式会社estie(エスティ) (@estie_corp) 2024年3月14日
estieのメンバーは引き続き会場にいますので、ご興味のある方はぜひお声掛けください! pic.twitter.com/xVCGd38dgM
面白かった発表
個人的に気になった論文をいくつか紹介したいと思います。
In-Context Learning において LLM はフォーマットを学べるか
- 坂井吉弘, 趙羽風 (JAIST), 井之上直也 (JAIST/理研)
- 文脈内学習において特に意味のないラベルを与えても機能することなどが示されていました。段階ごとに着実に実験が行われていて質が高いなと思いました。以前読んだEMNLP2022の論文の続編的な印象を受け、楽しく読めました。
LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析
- 関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄 (マネーフォーワード)
- 人間と生成AIの評価がどのような面で一致しているか否か、および出力のどういった側面に着目して評価がなされたかを分析した研究。「LLMの評価をLLMでやるのってどうなんだ。」という疑問がありましたが、包括的に分析されていてとても勉強になりました。
InstructDoc: 自然言語指示に基づく視覚的文書理解
- 田中涼太 (NTT/東北大), 壱岐太一, 西田京介, 齋藤邦子 (NTT), 鈴木潤 (東北大)
- 視覚的文書理解のためのデータセットを構築し、それを使用して基盤モデルの作成も行なった論文。estieが扱っている物件情報は、間取り図や周辺環境などの視覚的な情報の影響が強く、そういったデータを絡めた分析が可能になるのではないかという所感を得ました。
雑感
去年沖縄で開催された言語処理学会の緊急パネルで「ChatGPTで自然言語処理は終わるのか?」というセッションが企画されました。これ自体は記憶に新しいですが、今年の発表を振り返っても終わっているということはなく界隈全体として良い方向に向かっている印象を受けました。
個人的には、サマーインターンでお世話になった企業の方々や学生と久しぶりに再会できたことも嬉しかったです。来年の長崎で開催される言語処理学会も参加したいと思います!
参加した手応え
率直な感想はestieという会社がまだまだ知られていないなということです。BtoB事業なので仕方のない部分もありますが、3日目の懇親会ではestieでLLM活用を支援されている業務委託の叶内さんと、データサイエンティストの齊藤さんが積極的に交流して認知を広げていたり、4日目のポスター発表でもestieという会社が何をやっているのか参加者の皆様に伝えたりできて良かったと思います。
おわりに
estieは不動産データを使って面白いことが色々できる会社です。
またインターンを通じて、個々人が多様なバックグラウンドをもとに当事者意識を持って価値を発揮し、それが全体へと共有されている点においてとてもやりがいに溢れた環境だと感じています。
もしこれらにご共感いただけるなら、ぜひ下記のリンクからご連絡ください!