データエンジニアリング最新動向 2026 — dbt × Fivetran 合併・Spark 4.x・信頼性への回帰

2026年のデータエンジニアリング界隈では、AI による開発加速が進む一方で「ガバナンスと信頼性が追いついていない」という問題意識が広まっています。dbt Labs の State of Analytics Engineering 2026 レポートによると、「データへの信頼を高めることが重要」と回答した割合が 2025 年の 66% から 2026 年には 83% に上昇しました。

dbt Labs × Fivetran 合併

2025年10月13日、dbt Labs と Fivetran は全株式交換による合併の最終合意書に署名しました。

項目内容
CEOFivetran の George Fraser 氏
dbt Labs 役割Tristan Handy 氏が Co-founder かつ President に就任
合算 ARR約 6 億ドル見込み

両社の目標は「データムーブメント・変換・メタデータ・アクティベーションを統合したオープンデータインフラ」の構築です。dbt Core および Fusion Engine は現行ライセンスのまま OSS として継続されます。

合併は規制当局の承認を含む所定の手続き完了を条件としており、2026年4月時点では両社は独立して運営されています。

dbt Platform 2026年4月の主な更新

dbt Fusion Engine が Apache Spark 3.0 に対応(ベータ)

Fusion は dbt のコンパイルおよび SQL 実行を高速化する新エンジンで、Spark 対応がベータリリースされました。Spark ベースの dbt プロジェクトでも Fusion の高速コンパイルの恩恵を受けられる道が開かれました。

UDF の Deferral 対応

# 変更されたモデルのみ実行(UDF は前回ビルドを再利用)
dbt run --defer --state .dbt-states/production

ユーザー定義関数(UDF)に依存するモデルを、対象ターゲットに UDF をビルドせずに実行できるようになりました。

その他の更新

  • Redshift Datasharing 対応: Redshift アダプターがクラスター横断のデータ共有をサポート
  • Snowflake Dynamic Table への immutable_where 設定追加
  • 拡張属性 YAML エディターで配列値が利用可能に

注意: Snowflake は 2026年5月に string/binary のデフォルト列サイズを変更予定。dbt-snowflake v1.10.6 未満では一部のインクリメンタルモデルのビルドに失敗する可能性があります。

Apache Spark 4.x の進化

Spark 4.0 の主要新機能

領域主な新機能
Spark SQLVARIANT 型、SQL ユーザー定義関数、セッション変数、パイプ構文
PySparkネイティブ Plotting API、Python Data Source API、Python UDTF
Structured StreamingArbitrary State API v2、State Data Source(デバッグ用)
ランタイムJava 17 がデフォルト、Java 21 サポート、ANSI モードがデフォルト有効

Spark 4.1 の新機能

# VARIANT 型の活用例(Spark 4.0+ / 4.1 で GA)
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("VariantDemo").getOrCreate()

df = spark.sql("""
  SELECT
    payload:user_id::STRING AS user_id,
    payload:event_type::STRING AS event_type
  FROM events_raw
  WHERE payload:user_id IS NOT NULL
""")
  • Arrow ネイティブの UDF / UDTF デコレータ: Pandas 変換オーバーヘッドなし
  • SQL Scripting GA: デフォルト有効化(条件分岐・ループを含む SQL スクリプト)
  • 再帰 CTE サポート
  • Structured Streaming Real-Time Mode(RTM): 1桁ミリ秒レイテンシ

2026年の潮流:「AI加速 vs 信頼・ガバナンス」

dbt Labs の 2026 State of Analytics Engineering Report が示すキーファインディング:

  • 72% が AI 支援コーディングを開発ワークフローに取り入れている
  • 一方、AI によるパイプライン管理(テスト・オブザーバビリティを含む)を優先するのは 24% にとどまる
  • 2026年の最大の「捨てるもの」は AI が生み出す過剰な複雑性
AI ツールの普及が生み出したデータパイプラインの現状:
  高速に生成されるコード → テスト・ドキュメントが追いつかない
                         → データ品質への信頼低下
                         → 「信頼の土台」への投資需要が急増

Apache Iceberg により BigQuery と Spark をまたいだデータ共有がロックフリーで実現されつつあり、オープンなデータアーキテクチャへのシフトも加速しています。

アーキテクチャへの示唆

dbt の使い分け

開発・テスト: dbt Fusion Engine(高速コンパイル・Spark ベータ対応)
本番パイプライン: dbt-duckdb(ローカル)/ dbt-bigquery / dbt-snowflake

CI/CD のベストプラクティス:
  - 開発環境: DuckDB インメモリで高速テスト
  - ステージング: 本番と同じアダプターで検証
  - 本番: --defer --state で差分のみビルド

Spark バージョン選択

バージョン状態推奨用途
Spark 3.5.x長期サポート版既存プロダクション環境
Spark 4.0.2安定版新規プロジェクト
Spark 4.1.1推奨安定版リアルタイム処理・SDP 活用
Spark 4.2.0-previewプレビュー実験・評価のみ

まとめ

  • dbt × Fivetran 合併はデータパイプライン全体をカバーするプラットフォームへの進化を示し、OSS としての dbt Core 継続も保証された
  • dbt Fusion の Spark 対応は ELT ワークフローの多様化に対応し、Spark ユーザーへの高速コンパイルの恩恵をもたらす
  • Spark 4.x は SQL 機能・Python 開発体験・ストリーミングの 3 軸で大幅強化。SDP と RTM はパイプライン設計のパラダイムを変える
  • 2026年の最大の課題は AI による開発加速とガバナンス・テスト・オブザーバビリティのバランスを取ること