データエンジニアリング最新動向 2026 — dbt × Fivetran 合併・Spark 4.x・信頼性への回帰
2026年のデータエンジニアリング界隈では、AI による開発加速が進む一方で「ガバナンスと信頼性が追いついていない」という問題意識が広まっています。dbt Labs の State of Analytics Engineering 2026 レポートによると、「データへの信頼を高めることが重要」と回答した割合が 2025 年の 66% から 2026 年には 83% に上昇しました。
dbt Labs × Fivetran 合併
2025年10月13日、dbt Labs と Fivetran は全株式交換による合併の最終合意書に署名しました。
| 項目 | 内容 |
|---|---|
| CEO | Fivetran の George Fraser 氏 |
| dbt Labs 役割 | Tristan Handy 氏が Co-founder かつ President に就任 |
| 合算 ARR | 約 6 億ドル見込み |
両社の目標は「データムーブメント・変換・メタデータ・アクティベーションを統合したオープンデータインフラ」の構築です。dbt Core および Fusion Engine は現行ライセンスのまま OSS として継続されます。
合併は規制当局の承認を含む所定の手続き完了を条件としており、2026年4月時点では両社は独立して運営されています。
dbt Platform 2026年4月の主な更新
dbt Fusion Engine が Apache Spark 3.0 に対応(ベータ)
Fusion は dbt のコンパイルおよび SQL 実行を高速化する新エンジンで、Spark 対応がベータリリースされました。Spark ベースの dbt プロジェクトでも Fusion の高速コンパイルの恩恵を受けられる道が開かれました。
UDF の Deferral 対応
# 変更されたモデルのみ実行(UDF は前回ビルドを再利用)
dbt run --defer --state .dbt-states/production
ユーザー定義関数(UDF)に依存するモデルを、対象ターゲットに UDF をビルドせずに実行できるようになりました。
その他の更新
- Redshift Datasharing 対応: Redshift アダプターがクラスター横断のデータ共有をサポート
- Snowflake Dynamic Table への
immutable_where設定追加 - 拡張属性 YAML エディターで配列値が利用可能に
注意: Snowflake は 2026年5月に string/binary のデフォルト列サイズを変更予定。
dbt-snowflake v1.10.6未満では一部のインクリメンタルモデルのビルドに失敗する可能性があります。
Apache Spark 4.x の進化
Spark 4.0 の主要新機能
| 領域 | 主な新機能 |
|---|---|
| Spark SQL | VARIANT 型、SQL ユーザー定義関数、セッション変数、パイプ構文 |
| PySpark | ネイティブ Plotting API、Python Data Source API、Python UDTF |
| Structured Streaming | Arbitrary State API v2、State Data Source(デバッグ用) |
| ランタイム | Java 17 がデフォルト、Java 21 サポート、ANSI モードがデフォルト有効 |
Spark 4.1 の新機能
# VARIANT 型の活用例(Spark 4.0+ / 4.1 で GA)
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("VariantDemo").getOrCreate()
df = spark.sql("""
SELECT
payload:user_id::STRING AS user_id,
payload:event_type::STRING AS event_type
FROM events_raw
WHERE payload:user_id IS NOT NULL
""")
- Arrow ネイティブの UDF / UDTF デコレータ: Pandas 変換オーバーヘッドなし
- SQL Scripting GA: デフォルト有効化(条件分岐・ループを含む SQL スクリプト)
- 再帰 CTE サポート
- Structured Streaming Real-Time Mode(RTM): 1桁ミリ秒レイテンシ
2026年の潮流:「AI加速 vs 信頼・ガバナンス」
dbt Labs の 2026 State of Analytics Engineering Report が示すキーファインディング:
- 72% が AI 支援コーディングを開発ワークフローに取り入れている
- 一方、AI によるパイプライン管理(テスト・オブザーバビリティを含む)を優先するのは 24% にとどまる
- 2026年の最大の「捨てるもの」は AI が生み出す過剰な複雑性
AI ツールの普及が生み出したデータパイプラインの現状:
高速に生成されるコード → テスト・ドキュメントが追いつかない
→ データ品質への信頼低下
→ 「信頼の土台」への投資需要が急増
Apache Iceberg により BigQuery と Spark をまたいだデータ共有がロックフリーで実現されつつあり、オープンなデータアーキテクチャへのシフトも加速しています。
アーキテクチャへの示唆
dbt の使い分け
開発・テスト: dbt Fusion Engine(高速コンパイル・Spark ベータ対応)
本番パイプライン: dbt-duckdb(ローカル)/ dbt-bigquery / dbt-snowflake
CI/CD のベストプラクティス:
- 開発環境: DuckDB インメモリで高速テスト
- ステージング: 本番と同じアダプターで検証
- 本番: --defer --state で差分のみビルド
Spark バージョン選択
| バージョン | 状態 | 推奨用途 |
|---|---|---|
| Spark 3.5.x | 長期サポート版 | 既存プロダクション環境 |
| Spark 4.0.2 | 安定版 | 新規プロジェクト |
| Spark 4.1.1 | 推奨安定版 | リアルタイム処理・SDP 活用 |
| Spark 4.2.0-preview | プレビュー | 実験・評価のみ |
まとめ
- dbt × Fivetran 合併はデータパイプライン全体をカバーするプラットフォームへの進化を示し、OSS としての dbt Core 継続も保証された
- dbt Fusion の Spark 対応は ELT ワークフローの多様化に対応し、Spark ユーザーへの高速コンパイルの恩恵をもたらす
- Spark 4.x は SQL 機能・Python 開発体験・ストリーミングの 3 軸で大幅強化。SDP と RTM はパイプライン設計のパラダイムを変える
- 2026年の最大の課題は AI による開発加速とガバナンス・テスト・オブザーバビリティのバランスを取ること