最近執行Power Query整理較多重查詢時發生明明檔案只有10幾M結果程式在跑時出現幾百M的狀況,原本應該很快的查詢反而花了幾分鐘以上,後來在官方說明發現原因了,在同一個檔案裡的來源(可能幾M~幾十M)經過不同查詢表多次引用來源,產生不同查詢結果,不同的結果可能又互相引用,這種情況下會造成查詢一直重複,而且會針對源頭資料一直跑,如果電腦不夠強可能就會當掉。(在初學Power Query時最好養成常常存檔,避免檔案當掉,步驟沒存到)
我自己的解決方式是將源頭,還有部分查詢會被多次引用的查詢表另外存一個檔,這樣這部分的查詢不會在每次重新整理時再跑一次。
官方的資料標題是參考 Power Query 查詢,下面是官方說明資料:
請考慮數個查詢:Query1 的資料來源是 Web 服務,且其載入已停用。 Query2、Query3 與 Query4 都參考 Query1,且其輸出會載入至資料模型。
Power Query多重查詢變慢原因說明 |
當資料模型重新整理時,通常會假設 Power Query 是擷取 Query1 的結果,且參考查詢會重複使用它。 此想法不正確。 事實上,Power Query 會分別執行 Query2、Query3 與 Query4。
您可以想成 Query1 步驟內嵌在 Query2 中。 Query3 與 Query4 的情況也是如此。 下列圖表呈現更清楚的查詢執行方式。
Power Query多重查詢變慢原因說明(拆解) |
Query1 會執行三次。 多次執行可能會導致資料重新整理緩慢,並對資料來源造成負面影響。
在 Query1 中使用 Table.Buffer 函式,不會消除額外資料擷取。 此函式會在記憶體緩衝資料表。 而且,已緩衝的資料表只能在相同查詢執行中使用。 因此,在範例中,如果在執行 Query2 時緩衝 Query1,則在執行 Query3 與 Query4 時,會無法使用已緩衝的資料。 它們本身會再緩衝資料兩次。 (事實上,此結果可能會造成負面效能惡化,因為每個參考查詢都會緩衝該資料表。)
建議
一般來說,我們建議您參考查詢,以避免在整個查詢中重複邏輯。 不過,如此文章所述,此設計方法可能造成資料重新整理變慢,且使資料來源負擔過重。
我們建議您改為建立資料流程。 使用資料流程可以改善資料重新整理時間,並降低對資料來源的影響。
您可以設計資料流程來封裝來源資料和轉換。 因為資料流程是 Power BI 服務中的持續性資料存放區,所以其資料擷取速度很快。 因此,即使參考查詢導致多個資料流程要求,資料重新整理時間仍可獲得改善。
在此範例中,如果將 Query1 重新設計為資料流程實體,則 Query2、Query3 與 Query4 可以將它作為資料來源使用。 若使用此設計,系統只會評估 Query1 的來源實體一次。
沒有留言:
張貼留言