この度、当社研究の成果が認められ、論文「Unmasking the Limits of Large Language Models」が、国際AI学術誌に掲載されました(2025年9月9日)。本研究はマスク化テキストを用い、LLMの推論力を体系的に検証し、その特性と限界を明らかにした成果です。👉国際学術誌(OAジャーナル Advances in Artificial Intelligence and Machine Learning) →掲載ページはこちら👉 論文タイトル|Unmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal隠されたテキストで見える、AIの“本当の理解力”― LLMの推論力をマスク付きタスクで徹底検証当社データサイエンス部の研究成果「Unmasking the Limits of Large Language Models」が2024年11月8日付でarXivに公開されました。本研究は、意味情報の一部を隠蔽した「マスク化テキスト」に対するLLMの推論能力、特に質問応答と計算問題における精度を評価するための手法と結果を提示し、マスクの質や量、品詞の種類がモデルの性能に与える影響を検証しました。この研究は、LLMがどのように言語を処理し、推論を行うかという根源的な問いに対し、異なる角度から実験的な洞察を提供しています。論文タイトルUnmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal(大規模言語モデルの限界を解明 ― MskQAおよびMskCalを通じたマスク付きテキスト処理能力の体系的評価)研究の背景と目的大規模言語モデルは自然言語処理において人間並みの性能を発揮していますが、その「理解」がどの程度本質的かは未解明です。本研究では、テキストの一部をマスク化して推論させることで、LLMが背景知識や文脈にどの程度依存しているかを指標化し、推論力の限界を評価するとともに、より堅牢な評価手法の確立を目指しました。研究のポイントMskQA:質問応答データをマスク化し、背景知識依存度を測定MskCal:算術問題をマスク化し、数値推論力を評価GPT-4oは一貫して4o-miniを上回り、とくに数値推論で顕著な差を確認マスク率や残された意味的手掛かりの有無が性能に直結することを実証技術的革新性マスク化という新しい観点からLLMの推論力を体系的に評価部分的手掛かり vs 完全マスクという条件差を導入し、理解の「強度」を測定モデルサイズや構造による推論力の差異を明確化今後の展望本研究を通じて得られた知見は、AIモデル評価の新しい基盤として活用可能です。特に不完全情報下での推論力を測定することで、より信頼性の高いモデル選定やベンチマーク評価につながり、AI活用の幅を広げていくことが期待されます。期待される活用例AI評価基盤の構築モデル選定・ベンチマーク評価への活用。LLMを実ビジネスに導入する際の信頼性向上やリスク管理に直結する知見を提供データ入力の堅牢性向上とリスク管理情報欠損や機密情報マスクなど不完全なビジネスデータへの活用。情報欠損の状態でも一定の推論能力を提供営業秘密とプライバシー保護個人情報や機密情報を匿名化し、マスクした状態で必要な推論を実行。法務、医療、金融などの分野で、プライバシー保護と情報活用のバランスを取る専門領域におけるAI推論財務分析、金融計算、リスク分析などをマスクされた状態で実行。市場データや実験データを使用する際でも一定の推論能力を確保%3Cdiv%20style%3D%22background-color%3A%23333%3Bpadding%3A5px%3B%20border-radius%3A3px%3Bcolor%3A%23fff%3B%20width%3A200px%3Btext-align%3Acenter%3B%22%3E%E5%9B%BD%E9%9A%9B%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E7%99%BB%E9%8C%B2%3C%2Fdiv%3EarXiv公開日:2024年11月8日👉arXiv:2411.05665👉 論文タイトル|Unmasking the Limits of Large Language Models: A Systematic Evaluation of Masked Text Processing Ability through MskQA and MskCal%0A%0A📩 お問い合わせはこちらから