在Spark SQL框架應(yīng)用中,配置參數(shù)優(yōu)化是常常面臨的問題。現(xiàn)有的機器學(xué)習(xí)優(yōu)化方法大多時間成本高、無法很好適應(yīng)所處理的數(shù)據(jù)量變化。
近日,中國科學(xué)院深圳先進技術(shù)研究院先進計算與數(shù)字工程研究所異構(gòu)智能計算中心提出低時間成本、能夠適應(yīng)輸入數(shù)據(jù)集大小變化的配置自動優(yōu)化方法LOCAT。該方法由三個核心技術(shù)組成。該研究首先設(shè)計了query與配置參數(shù)敏感性分析技術(shù)。在收集訓(xùn)練樣本時,從給定工作負載中識別并刪除與配置參數(shù)不敏感的query。其次,對于其余的query,LOCAT通過計算相關(guān)性系數(shù)來識別重要的配置參數(shù),然后應(yīng)用核主成分分析來降低配置參數(shù)搜索維度。最后,LOCAT設(shè)計了感知數(shù)據(jù)集大小的貝葉斯優(yōu)化來搜索最優(yōu)配置,以便能根據(jù)數(shù)據(jù)集的大小自動優(yōu)化性能?;赥PC-DS、TPC-H與HiBench測試基準的實驗表明,分別在8臺高性能x86服務(wù)器的集群環(huán)境與4臺高性能ARM服務(wù)器的集群環(huán)境下,較當(dāng)前最先進的自動調(diào)優(yōu)解決方案,LOCAT降低優(yōu)化時間成本達9.7倍,而且獲得了高達2.8倍的性能提升。
相關(guān)成果以LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications為題,發(fā)表在ACM SIGMOD(數(shù)據(jù)管理國際會議)2022上。
LOCAT框架
來源:中國科學(xué)院深圳先進技術(shù)研究院
關(guān)鍵詞: 內(nèi)存大數(shù)據(jù)查詢引擎性能優(yōu)化研究取得進展