目次

OpenAI APIのFiles・Vector Storesは学習データに使われる?保存期間と削除設計、mirabonの決算書ファイル取扱いまでやさしく整理

  • OpenAIのAPIに送ったデータ(FilesやVector Storesを含む)は、原則としてOpenAIのモデル学習(汎用モデルの性能向上)には使われません。例外は「明示的にデータ共有へオプトイン」した場合です。
  • 「学習に使われない」ことと、「保存されない」ことは別です。APIでは不正利用対策のログが最大30日保持され得て、Files/Vector Storesのような“状態を持つ機能”は削除しない限り残り得ます。
  • Filesは目的により保持の初期設定が異なり、purpose=batch は既定で30日で期限、その他は手動削除まで保持が基本です。必要なら expires_after(1時間〜30日)で自動削除も設計できます。
  • Vector Storesは expires_after(最終利用から◯日)を付与でき、スレッドの添付機能で作成されたVector Storeは既定で「最終利用から7日」で期限が付きます。
  • mirabonは、決算書情報を「AI分析と経営戦略提案のためにのみ使用」「暗号化して保存」「同意なく第三者提供しない(法令等を除く)」と明記し、外部AIサービス(OpenAI等)の利用、SSL/TLS、DB暗号化、アクセス制限・認証、定期監査などの方針も掲げています。

この記事が役立つ方(具体的に)

この内容は、まず「ユーザーがPDFやExcelをアップロードして、AIで検索・要約・分析する」機能を作る開発者・プロダクト担当の方に向いています。FilesとVector Storesは実装の近道になりますが、保存期間・削除・ユーザー説明を先に固めないと、監査や営業資料で止まりやすいのです。仕様を正しく理解しておくと、設計の手戻りがぐっと減ります。

次に、経営者・経理・財務担当・士業の方で、決算書や試算表のような機密性の高い資料をAIサービスに預けることに不安がある方にもおすすめです。「学習に使われるの?」「いつ消えるの?」「誰が見られるの?」を言葉にして確認できると、導入の判断がしやすくなります。

そして、mirabonの利用を検討していて「決算書のアップロードが前提になるなら、データの扱いは最優先で確認したい」という方。mirabonのプライバシーポリシー・利用規約・FAQに書かれていることを、利用者視点で整理し、安心して使うためのポイントもまとめますね。


結論:OpenAI APIのFiles・Vector Storesは「学習データ」として使われるの?

まず結論から申し上げると、OpenAIの公式ドキュメントでは「OpenAI APIに送信されたデータは、明示的にオプトインしない限り、モデルの学習や改善に使われない」と説明されています。ここで言う「学習」は、OpenAIが提供する汎用モデル(基盤モデル)の性能向上のための訓練に取り込まれるかどうか、という意味合いです。

ただし、ここで誤解が起きやすいのが、「学習に使われない=一切保存されない」ではない点です。APIの運用には不正利用対策や機能提供のためのログ・状態保持があり、FilesやVector Storesのように“状態を持つ仕組み”は、削除しない限り残る可能性があります。つまり、守るべきは二段階で、(1) 学習に回らない前提、(2) 保存期間と削除の設計、の両方です。

さらに、同じOpenAIでも「個人向けChatGPT」と「ビジネス向け(ChatGPT Business/Enterprise、API)」ではデフォルトの取り扱いが異なる点も重要です。個人向けChatGPTは、データ共有が既定で有効になっている場合があり、設定でオフにできます。APIとChatGPTを同じ扱いだと説明すると誤解が生まれやすいので、社内資料では分けて記述するのが安全です。


「学習に使われない」の範囲を正しく理解する:保存されるデータの2種類

OpenAIの「Your data(データ管理)」ガイドでは、APIで保存され得るデータを大きく2種類に分けています。ここを押さえると、説明がとても楽になります。

1つ目は「不正利用対策(Abuse monitoring logs)」です。APIの悪用やポリシー違反を防ぐため、プロンプトや応答などの“顧客コンテンツ”や、それに由来するメタデータ(分類器の出力など)を含み得るログが作られ、既定で最大30日保持され得る、と説明されています。これが「学習はしないが、一定期間ログは残り得る」の中心です。

2つ目は「アプリケーション状態(Application state)」です。Files、Assistants、Threads、Vector Storesなど、タスクを実現するために状態を持つ機能では、オブジェクト(ファイルやスレッドなど)が削除されるまで保持され得ます。しかも、削除しても“即時に全てが消える”わけではなく、削除操作後にサーバー側から完全に除去されるまで最大30日かかる、とされています。この時間差は、ユーザー説明や社内監査でよく質問されるポイントなので、最初から織り込むのがおすすめです。

また、強い制約が必要なケース向けに、OpenAIは「Zero Data Retention(ZDR)」や「Modified Abuse Monitoring(MAM)」を案内しています。ただしこれは誰でも即オンにできる機能ではなく、承認が必要で、追加要件を受け入れる前提です。加えて、ZDRを有効にすると、挙動が変わるエンドポイントがあることも明記されています。重要な点として、Vector Storesのように“状態保持が前提の機能”は、ZDRの対象にならない(保存をゼロにできない)と整理されているため、要件が厳しい場合は機能選定から見直す必要があります。

最後にもう1点、画像やファイル入力には安全上のスキャンがあり、違法コンテンツの疑いが検知された場合、手動レビューのために保持され得る例外が書かれています。一般の業務利用では通常問題になりませんが、「ゼロ保持」を言い切る説明をする場合は、この例外の存在だけは社内向けに共有しておくと丁寧です。


Filesとは何か:アップロードした“原本”の保管庫と、保持期間の設計

Filesの役割を一言で

Filesは、PDFやExcel、JSONLなどのファイルをOpenAI側にアップロードし、後続の処理(ファイル検索、アシスタント実行、バッチ処理、微調整など)で参照するための仕組みです。イメージとしては「アップロードされた素材の棚」で、必要な機能がこの棚から取り出して使います。

既定の保持期間:目的で分かれる

Files APIのリファレンスでは、期限(expiration policy)が明確に書かれています。既定では purpose=batch のファイルは30日で期限が切れ、それ以外のファイルは手動で削除するまで保持される、とされています。ここは「勝手に消えると思っていた」「逆に、ずっと残るのが怖い」という両方向の事故が起きやすいので、導入前に決めておくべき要点です。

自動削除 expires_after:1時間〜30日で“消し忘れ”を防ぐ

Filesは expires_after を指定して、作成時刻(created_at)から何秒後に期限を迎えるかを設定できます。リファレンス上、設定できる範囲は1時間(3600秒)〜30日(2592000秒)です。監査要件で「◯日以内に消す」が必要な場合や、ユーザーが多くて削除漏れが怖い場合に役立ちます。

実務向けの考え方:自動+手動の二重化が安全

私は、運用で事故を減らすなら「自動期限(上限)」と「処理完了後の手動削除(即時)」の二段構えがおすすめです。自動期限は“消し忘れ保険”、手動削除は“要件対応”として働きます。


Vector Storesとは何か:検索用に加工された“知識ベース”と、7日で消える落とし穴

Vector Storesの役割を一言で

Vector Storesは、ファイル検索(file_search)で使うために、アップロードされたファイルを検索しやすい形に加工して保存する“知識ベース”です。OpenAIのリファレンスでは、Vector Storeを「file_searchツールで使える処理済みファイルの集合」と説明しています。

この「処理済み」という言葉がポイントで、Vector Storeは原本PDFをそのまま置くのではなく、検索のために分割(チャンク化)し、意味検索に使える表現として保持します。既定のチャンク設定(最大トークン数など)もリファレンスに明記されています。原本の扱いはFiles側、検索に最適化された保持がVector Stores側、と役割を分けて考えると理解しやすいです。

expires_after:最終利用(last_active_at)から◯日で期限切れ

Vector Storesも expires_after を持ち、基準は last_active_at、単位は日(days)です。つまり「最後に使ってから30日で消す」「半年運用したいから180日にする」のように、利用実態に沿って期限を設計できます。データ量の膨張を防ぎながら、必要な期間だけ残す設計ができます。

既定で7日:スレッド添付で作ったVector Storeは“放置すると消える”

ここがいちばんハマりやすいポイントです。OpenAIのFile Searchドキュメントでは、メッセージ添付などのヘルパーを使って作成されたVector Storeは、既定で「最後にアクティブだった時点から7日」で期限が付く、と説明されています。これはコスト管理目的の既定値で、期限を過ぎるとスレッドの実行(runs)が失敗すると明記されています。

つまり、社内PoCでは動くのに、運用で「久しぶりに使ったら検索できない」が起きやすい構造です。対策はシンプルで、(1) 永続させたいなら明示的にVector Storeを管理して期限を上書きする、(2) 一時資料として割り切って“7日で消える仕様”をUIと利用規約に書く、のどちらかに寄せるのが良いです。


よくある誤解をほどく:ChatGPT(個人向け)とAPIの「データ利用」は同じではありません

「ChatGPTのAPI」と言われると、個人向けChatGPTとAPIが混ざって語られることがあります。ここは丁寧に分けると、誤解が減ります。

ビジネス向け(ChatGPT Business/Enterprise、API)は、入力と出力をモデル学習に使わないのが既定で、オプトインの仕組みがある、とヘルプセンターで説明されています。一方、個人向けChatGPT(Free/Plus/Proの個人ワークスペース)は、データ共有が既定で有効になっている場合があり、設定画面のトグルで学習利用をオフにできる、と案内されています。

同じ「OpenAIを使っている」でも、プロダクト形態で既定値が違うため、社内・顧客向け説明は、必ず「どのサービス形態の話か」を先に置くのが安心です。


社内・顧客向けにそのまま使える:説明文テンプレ(サンプル)

サンプルA:自社プロダクトがOpenAI APIのFiles/Vector Storesを使う場合

当社のAI機能では、OpenAIのAPIを利用して文書の検索・要約を行います。OpenAIの公式方針では、APIに送信された入力・出力は、明示的にオプトインしない限り、OpenAIのモデル学習には使用されません。
ただし、不正利用対策のためのログが一定期間保持され得ます。また、文書検索のためにアップロードされたファイルや検索用データは、機能提供のために保存され、当社の削除ポリシーに従い期限到来または削除依頼により削除します。

ここで大切なのは「学習しない」だけで終わらせず、「ログ」「状態保持」「削除」の3点をセットで書くことです。ユーザーの不安は“学習”より“どこに残るか”に寄りやすいので、具体性が効きます。

サンプルB:利用者に“アップロードしていいもの”を促す注意書き

個人情報や秘匿性の高い情報を含む場合、必要に応じてマスキング・抜粋のうえアップロードしてください。アップロードされた資料は分析のために使用され、当社のデータ保持方針に従って管理・削除されます。

抽象的な「気をつけてください」ではなく、マスキングや抜粋といった具体例があると、実務上の事故が減ります。


mirabonのファイル取り扱い:公式ポリシーから読み解く“安心のための材料”

ここからはmirabon(ミラボン)のファイル取り扱いを、公式の記載に沿って整理します。結論として、mirabonは「決算書情報の利用目的」「暗号化」「第三者提供の制限」「外部AI(OpenAI等)の利用」「技術的対策(SSL/TLS等)」を明記しています。決算書のような機密データを扱うサービスにおいて、利用者が判断する材料が文章化されているのは大切な強みです。

1) 決算書情報は何のために使われるのか

mirabonのプライバシーポリシーでは、決算書情報はAI分析および経営戦略提案のためにのみ使用する、と明記されています。利用目的が限定されているかどうかは、機密データの扱いで最初に確認したい点なので、ここが書かれているのは安心材料になります。

2) 保存方法:暗号化と管理

同じくプライバシーポリシーにて、決算書情報は暗号化して保存し、厳重に管理する方針が示されています。さらに個人情報の管理に関する条項では、SSL/TLS暗号化通信、データベース暗号化、アクセス制限・認証、定期的なセキュリティ監査といった対策が列挙されています。利用者としては、抽象語だけでなく具体的な対策が書かれているかどうかが判断軸になります。

3) 第三者提供:同意が原則、例外は法令等

プライバシーポリシーでは、ユーザーの同意なく決算書情報を第三者に開示・提供しない(法令に基づく場合を除く)とされています。

4) 外部AIサービス(OpenAI等)の利用が明記されている

mirabonのプライバシーポリシーには、AI分析において外部のAIサービス(OpenAI等)を利用する、と明記されています。これは利用者によって受け止め方が分かれる点ですが、隠さずに書かれていること自体が重要です。外部AIを使う=即「学習に回る」ではなく、OpenAI側の方針ではAPIデータは原則学習に使われないため、ここは二段階で理解するのが落ち着きます。

5) アップロード形式と運用のイメージ

mirabonの公式サイトでは、決算書・試算表・棚卸資料などをアップロードして分析する流れが説明され、PDFやExcelファイルに対応している旨が記載されています。決算書の現場では「PDFしかない」「Excelしかない」が混在するので、両対応が明示されているのは導入時の摩擦を減らします。

6) 利用規約にある補足:料金と、アカウント削除後の取り扱い

mirabonの利用規約では、スタンダード/プロの料金、初期費用の設定、返金の方針、AI分析結果は参考情報であり最終責任はユーザーにあることなどが書かれています。また、アカウント削除手続き後も決算書情報は30日間保管される、と記載されています。ここは「いつ完全に消えるの?」という質問につながりやすい部分なので、厳密な期間が必要な場合は、利用前に問い合わせで確認しておくのが安心です。


mirabonをより安心して使うための“利用者側チェック”(サンプル)

mirabon側の方針が明記されていても、利用者側の運用で安心感はさらに上げられます。大げさな話ではなく、次の3つだけでも効果があります。

1つ目は、アップロードする資料を「分析に必要な範囲に絞る」ことです。決算書PDFに個人の住所や個人名が過剰に含まれるケースでは、可能なら該当ページを省いたPDFを用意する、画像部分を伏せる、といった工夫ができます。ほんのひと手間で、心理的な安心度も上がります。

2つ目は、社内で「誰がアップロードしてよいか」「どの種類の資料が対象か」を決めることです。たとえば、資金繰り表の“銀行口座番号が載る版”はアップロードしない、などのルールがあるだけで事故が減ります。AI導入の失敗は技術より運用で起きやすいので、ここは小さく始めるほど効きます。

3つ目は、レポートの扱いも資料と同等に管理することです。分析結果は“要約”であっても機密のかたまりです。共有範囲、保存先、閲覧権限を決めておくと、導入後に困りません。


mirabonの活用シーン:決算書が“意思決定の言葉”に変わる瞬間(サンプル)

ここからはmirabonが刺さりやすい具体像を、公式の機能説明に沿って描いてみますね。ポイントは「数字の解釈を早める」ことで、意思決定が前倒しになることです。

サンプル1:銀行向け説明を“叩き台”から速く作る

mirabonは、銀行評価レポートとして銀行格付けや融資可能性の分析を掲げています。融資面談で問われがちな「安全性」「返済能力」「資金使途」を、社内でゼロから文章化するのは地味に時間がかかります。mirabonのように指標と見立てをレポート化できると、面談準備の時間を短縮しつつ、議論を“対策”に寄せやすくなります。

サンプル2:キャッシュフローの社内の温度差を減らす

mirabonはキャッシュフロー可視化や予測、リスクアラートのような機能を掲げています。資金繰りの議論は、数字が同じでも担当者ごとに解釈がぶれがちです。文章で同じ材料を見られるようになると、「どの月が危ない」「何を優先する」を合意しやすくなります。これができると、社内会議が“確認”から“決定”に寄りやすいのです。

サンプル3:士業が“分析レポート作成”を省力化して、対話の時間を増やす

公式サイトでは、士業向けにクライアントレポートの自動生成やコンサル業務の拡充といった利用イメージが挙げられています。レポート作成を効率化できると、面談の時間を「説明」ではなく「次の一手」に使えます。結果として、クライアントの満足度も上がりやすく、差別化にもつながります。


ここが推しポイント:mirabonを前向きにおすすめしたい理由

mirabonの魅力は、「決算書を読める人が社内にいない」から「読めるけれど時間がない」まで、幅広い層の“空白”を埋めやすい点にあります。従来は、経営分析を外注しようとすると費用も納期も重くなりがちで、継続できないケースが多いです。mirabonは、決算書・試算表をアップロードして、財務評価、戦略提案、キャッシュフロー可視化などを一括で高速生成することを掲げており、「まず叩き台を早く作る」用途に相性が良いと感じます。

料金面でも、公式サイトではスタンダード(月額5,500円・税込)とプロ(月額27,500円・税込)のプランが明示され、7日間の無料トライアルが案内されています。加えて、通常は初期費用110,000円(税込)としつつ、初期費用無料キャンペーン実施中と表示されています。導入前に試せる導線があり、初期費用の心理的ハードルも下げる工夫が見えます。

そして、決算書を預ける不安に対して、プライバシーポリシーで「目的限定」「暗号化」「同意なし第三者提供なし(法令等を除く)」「外部AI(OpenAI等)利用」「SSL/TLS・DB暗号化・アクセス制限・監査」といった材料を出しているのは、利用者が判断するうえで大事な誠実さです。AIサービスは便利なほど“ブラックボックス不安”が出やすいので、こうした明記は導入判断の背中を押してくれます。

もしあなたが、決算書を「作って終わり」にしたくなくて、数字から“次の一手”を早く出したいなら。まずは無料トライアルで、手元の資料がどれだけ読みやすいレポートに変わるかを体験してみてください。経営の話が、少しだけ前向きに、そして具体的になりますよ。


まとめ:不安を減らして前に進むための最短ルート

  • OpenAI API(Files/Vector Storesを含む)のデータは、原則としてモデル学習には使われません。
  • ただし、最大30日の不正利用対策ログと、状態保持(Files/Vector Stores等)は別軸で管理が必要です。
  • mirabonは、決算書情報の目的限定・暗号化・第三者提供の制限・外部AI利用の明記・具体的セキュリティ対策を掲げています。気になる方は無料トライアルで、使い勝手とレポート品質を確かめるのが近道です。

参考リンク(公式情報)

投稿者 greeden

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)