思考Chase合成數據技術細節
紫式晦澀每日一篇文章第16天
前言
-
今天是2022年第14天, 全年第2週, 一月的第二個週五. 一月也過了一半, 時間真快!
-
今天的素材主要來自Chase關於synthetic data的技術介紹 . 藉由學習裡面做事邏輯來思考合成數據的技術細節.
大框架與工作流: 七步從真實到合成
-
背景: 研究開發演算法, 以合成逼真的合成數據集. 有四類金融任務: 反洗錢, 客戶旅程事件, 市場執行資料, 付款與詐欺偵測.
-
技術文章: 文章為Generating Synthetic Data in Finance: Opportunities, Challenges and Pitfalls . 共十頁, 可系統讀讀學習.
-
工作流: 共有七步
- a. 計算「真實數據的度量(metrics for the real data)」
- b. 「發展合成器 (Develop a Generator)」, 可基於統計方法或基於代理人的模擬.
- c. 使用真實數據「校準合成器 (Calibrate the Generator)
- d. 「跑合成器(Run the Generator)」來生成合成數據
- e. 計算「合成數據的度量(metrics for the synthetic data)」
- f. 真實數據與合成數據「比較度量(Compare the metrics)」
- g. 「改良合成器 (Refine the Generator)」來改進比較的度量
實際金融場景: 反洗錢, 客戶旅程, 市場執行, 付款資料詐欺偵測
- 反洗錢(AML): 洗錢是將來自非法活動的資金引入金融系統以將其用於合法或非法目的的過程。 這些資料代表了合法客戶和從事洗錢活動的客戶與金融機構的高級別互動的順序。 當前資料包含銀行客戶相關活動的狀態和行動對。 例如開立賬戶、進行交易、付款、提款、購買等。 資料是透過執行人工智慧規劃-執行模擬器生成的。
References
- Generating Synthetic Data in Finance: Opportunities, challenges and pitfalls. S Assefa, D Dervovic, M Mahfouz, R Tillman, P Reddy, T Balch and M Veloso. Proceedings of the 1st International Conference on AI in Finance (ICAIF), 2020. Also in NeurIPS 2019 Workshop on AI in Financial Services
- Simulating and classifying behavior in adversarial environments based on action-state traces: An application to money laundering, D Borrajo, M Veloso, S Shah. Proceedings of the 1st International Conference on AI in Finance (ICAIF), 2020. Also in arXiv preprint arXiv:2011.01826, 2020
- 客戶旅程活動: 客戶旅程事件代表了低階零售銀行客戶與銀行互動的順序。 事件的示例型別包括登入Web應用程式、付款、從自動取款機取款。 資料是透過執行人工智慧規劃執行模擬器並將輸出規劃跟蹤轉換為表格格式生成的。
References
- Generating Synthetic Data in Finance: Opportunities, challenges and pitfalls. S Assefa, D Dervovic, M Mahfouz, R Tillman, P Reddy, T Balch and M Veloso. Proceedings of the 1st International Conference on AI in Finance (ICAIF), 2020. Also in NeurIPS 2019 Workshop on AI in Financial Services
- Domain-independent generation and classification of behavior traces. D Borrajo and M Veloso. arXiv preprint arXiv:2011.02918.
- 市場執行資料: 綜合限額訂單簿資料,描述公共證券交易所各種市場參與者的一系列金融工具(股票)買賣訂單。 具體來說,這些資料將包含一段時間內訂單的訊息和快照。 這些資料代表了不同市場制度下高流動性股票模擬資料的N個交易日(例如,趨勢上升/下降,高/低波動)。
References
- Generating Synthetic Data in Finance: Opportunities, challenges and pitfalls. S Assefa, D Dervovic, M Mahfouz, R Tillman, P Reddy, T Balch and M Veloso. Proceedings of the 1st International Conference on AI in Finance (ICAIF), 2020. Also in NeurIPS 2019 Workshop on AI in Financial Services
- Get Real: Realism Metrics for Robust Limit Order Book Market Simulations. S. Vyetrenko et al. Proceedings of the 1st International Conference on AI in Finance (ICAIF), 2020.
- 用於欺詐檢測的付款資料: 從以主題為中心的角度代表交易的資料,目的是識別欺詐交易。 這些資料包含大量交易型別,代表正常活動以及以預定義概率引入的異常/欺詐活動。 資料是透過執行人工智慧規劃執行模擬器並將輸出規劃跟蹤轉換為表格格式生成的。 資料生成模型的引數包括客戶端數量、時間持續時間和欺詐概率。
References
- Generating Synthetic Data in Finance: Opportunities, challenges and pitfalls. S Assefa, D Dervovic, M Mahfouz, R Tillman, P Reddy, T Balch and M Veloso. Proceedings of the 1st International Conference on AI in Finance (ICAIF), 2020. Also in NeurIPS 2019 Workshop on AI in Financial Services
- Domain-independent generation and classification of behavior traces. D Borrajo and M Veloso. arXiv preprint arXiv:2011.02918.
合成器技術: 表格數據, 流數據, 金融時間序列, 非結構化圖片與聲音.
- 生成的資料種類: 主要需要合成的數據具有「隱私保證(Privacy guarantees)」. 產生的數據類型有:
-
- 表格數據 (Tabular Data)
-
- 合成金融時間序列 (Synthetic financial time series)
-
- 具有隱私保證的流數據 (Stream data with privacy guarantees)
-
- 非結構化數據(Unstructured Data)
- 表格數據 (Tabular Data): 有很多被研究的方法.
-
- 合成數據定義語言(SDDL; Synthetic data definition language). 缺點: 無隱私保證.
-
- 經典機器學習分類器 (Classical machine learning classifiers): 支撐向量機, 隨機森林. 缺點: 準確度高的模型, 容易洩露隱私, 也無法調整隱私參數.
-
- 貝氏差分隱私合成數據(Bayesian differential privacy synthetic data). 有效. 缺點: 不易規模化
-
- 耦合(Copula): 用直方圖產生分佈相同的合成數據. 缺點: 不易規模化.
-
- Gibbs取樣 (Gibbs sampling): 強隱私保證, 容易規模化. 缺點: 只限定於類別變數.
- 隱私保護生成數據的共通限制:
- 難以規模化: 大多數差分隱私框架將給定表的一行表示為長度等於域大小的位串,它在表的列數中呈指數增長。 這種表示很快變得不實用。
- 高維度資料集很稀疏, 加了噪聲加密後就喪失了訊號: 這種表示的第二個限制是大多數高維數據集非常稀疏,導致添加噪聲以生成隱私完全沖刷了真實數據,使得發布的數據集不適合作為真實數據集的近似值。 在 Zhang ([25] Jun Zhang. Algorithms for Synthetic Data Release under Differential Privacy. PhD thesis, Nanyang Technological University, 2016.)中可以找到對這些限制的更徹底的討論。
-
基於代理人建模(ABM; Agent-based modelling): 建模「銀行付款處理系統(bank’s payment processing system), 調查惡意事件的宏觀影響. 要校準模型來滿足隱私限制, 但還沒有被廣泛研究.
-
合成金融時間序列 (Synthetic financial time series):
- 有很多於差分隱私資料流合成金融時間序列的研究, 但很少有隱私保護.
- 一般是用時間序列模型, 最大似然方法來做. 容易做, 好解釋, 但需要強假設, 無法再產生各種金融時間序列的統計特徵.
- 近代的方法有QuantGAN來合成股票的對數利潤. 但沒有提供隱私保證, 無法記得資料的特徵.
- 基於代理人模擬, 會重現金融市場的動態, 以導出金融時間序列.
- 具有隱私保證的流數據 (Stream data with privacy guarantees):
- 流數據: bit string. 有很多細節, 可以使用到隱私.
- 可以跟之前洗牌的隱私工作比較, 來做各種研究.
- 非結構化數據(Unstructured Data):
- 產生「圖片(images)」與「聲音(audio)」的差分隱私合成數據.
- 這些方法還有很多神經網路的問題未突破.
- 這些方法是在個人層級保護資料, 但這種隱私保護不夠強.
- 噪音與隱私權衡: 如何以最優的方式權衡噪音與隱私? ([9] Cynthia Dwork, Frank McSherry, Kobbi Nissim, and Adam Smith. Calibrating noise to sensitivity in private data analysis. In Shai Halevi and Tal Rabin, editors, Theory of Cryptography, pages 265–284, Berlin, Heidelberg, 2006. Springer Berlin Heidelberg.)
後記
-
延伸閱讀: 在MUR012 合成數據於Chase銀行的金融應用 我們有討論過金融科技的應用. 當初的場景洞察沒有提供太多詳細解釋, 今天的文章補齊了這個方面的缺漏.
-
到此翻譯思考了Chase關於synthetic data的技術介紹 中的技術細節. 這次寫完文章覺得對具體場景有更加認識. 其實, 現在的元宇宙中的金融行為非常多, 而各種金融機構也都有記錄各種數據. 在隱私保護的驅動下, 如何做新一個時代的資料科學, 這是一個重要值得研究的問題, 我覺得很有意思.
-
之後寫文章可以往更細緻的論文去寫. 現在覺得對「形式化描述與結果」做「知識卡片」就可以, 對「文字化邏輯與論證」做「豆腐塊文章」的效果會更大. 的確, 我們要根據論據的不同做不同的處理, 才會有更好的工作流.
-
寫文章真的是思考最好的方式. 每一次的輸入, 範式處理,轉成輸出, 都讓我們更具體的將資訊以自己最適合的形式儲備為知識. 三十代的結構與價值之魅, 共勉之!
2022.01.14. 紫蕊 於 西拉法葉, 印第安納, 美國.
評論