Loading…
Venue: Next 1 clear filter
Monday, June 1
 

9:30am JST

Hackathon Morning Session / ハッカソン午前の部
Monday June 1, 2026 9:30am - 12:30pm JST

Monday June 1, 2026 9:30am - 12:30pm JST
Next 1

2:00pm JST

Hackathon Afternoon Session / ハッカソン午後のセッション
Monday June 1, 2026 2:00pm - 5:00pm JST

Monday June 1, 2026 2:00pm - 5:00pm JST
Next 1
 
Tuesday, June 2
 

9:00am JST

Hardware DSP Asset Inheritance and Evolution: Development of DSP Assembly Automatic Conversion Software for MONTAGE M Compatible Software Synthesizers / ハードウェアDSP資産の継承と進化:MONTAGE M互換ソフトシンセにおけるDSPアセンブリ自動変換ソフト開発
Tuesday June 2, 2026 9:00am - 10:00am JST
For many companies, legacy code is an important technical asset, yet it often presents challenges in terms of future maintainability and development efficiency. In Yamaha's effect processing for electronic musical instruments, which has been developed over many years, highly optimized DSP assembly for dedicated DSPs is used. While these are important elements supporting high competitiveness, they have also become major barriers to platform expansion and software implementation.

ESP, released in 2024 (https://jp.yamaha.com/products/music_production/apps/esp_montagem/index.html), reproduces the signal processing of MONTAGE M (a hardware synthesizer) in software. During ESP's development, the effects section required a mechanism to reliably convert DSP assembly to C++. To address this, we developed software that automatically converts DSP assembly to C++ code. This software not only significantly improved the porting efficiency of existing DSP assembly, but also enabled stable support for new DSP assembly to be added in the future.

In this presentation, we will share the "challenges and concerns" encountered during the development of DSP assembly → C++ automatic conversion software, as well as "insights gained after completion." We look forward to sharing technical perspectives with engineers facing similar challenges and discussing better development approaches.

The issues and processes covered in this presentation extend beyond the DSP domain to areas such as "legacy asset succession," "optimized code migration," and "approaches and points of focus when implementing automation tools," with the aim of providing practical insights that you can take back to your work.

多くの企業にとってレガシーコードは重要な技術資産である一方、将来的な保守性や開発効率の面で課題を抱えることも少なくありません。ヤマハが長年にわたり開発してきた電子楽器向けエフェクト処理においても、専用DSP向けに高度に最適化されたDSPアセンブリが用いられています。これらは高い競争力を支える重要な要素である一方、他プラットフォーム展開やソフトウェア化を進める上で大きな障壁にもなっていました。

2024年にリリースされた ESP(https://jp.yamaha.com/products/music_production/apps/esp_montagem/index.html) では、MONTAGE M(ハードウェアシンセサイザー)の信号処理をソフトウェア上で再現しています。ESP の開発に際し、エフェクト部では DSP アセンブリを安定的に c++ へ変換する仕組みが必要となりました。そこで私たちは、DSPアセンブリを c++ コードに自動変換するソフトウェアを開発しました。このソフトウェアにより、既存DSPアセンブリの移植効率が大幅に向上しただけでなく、今後追加される新規DSPアセンブリにも安定的に対応できるようになりました。

本発表では、DSPアセンブリ → c++ 自動変換ソフトウェア開発上の「苦労・悩み」と「完成後に得た気づき」を共有します。同様の課題に直面するエンジニアの皆さまと技術的視点を共有し、より良い開発方法を議論できることを楽しみにしています。

本発表で扱う課題とプロセスは、DSP領域に留まらず「レガシー資産の継承」「最適化済みコードの移行」「自動化ツール導入時の進め方や着眼点」といった分野にも通じる内容であり、実務に役立つ示唆を持ち帰っていただくことを目指します。
Speakers
Tuesday June 2, 2026 9:00am - 10:00am JST
Next 1

10:00am JST

Anti-aliased Black-Box Of Audio Distortion Circuits Using Real Recurrent Units / リアル再帰ユニットを使用したアンチエイリアス処理されたオーディオ歪み回路のブラックボックス
Tuesday June 2, 2026 10:00am - 11:00am JST
Proposal of a black-box modeling method for audio distortion circuits using neural networks with real-valued Linear Recurrent Units (LRU). Furthermore, by employing anti-aliasing techniques (ADAA), we demonstrate the realization of a high-precision and computationally efficient model that enables real-time operation on DAWs.

実数値 Linear Recurrent Unit(LRU)を用いたニューラルネットワークにより、オーディオ歪み回路のブラックボックスモデリング手法の提案。さらにアンチエイリアシング手法(ADAA)を用い、高精度かつ計算効率の高いモデルを実現し、DAW上でのリアルタイム動作が可能であることを示す。
Speakers
Tuesday June 2, 2026 10:00am - 11:00am JST
Next 1

11:00am JST

Break & Networking / 休憩とネットワーキング
Tuesday June 2, 2026 11:00am - 11:20am JST

Tuesday June 2, 2026 11:00am - 11:20am JST
Next 1

11:20am JST

Automated Circuit Measurement for Neural Network Training / ニューラルネットワークトレーニング用の自動回路測定
Tuesday June 2, 2026 11:20am - 12:20pm JST
Machine Learning has revolutionized audio coding, from automated processing to distortion modeling. However, ML models are only as good as the data they're trained on. High-quality, *large* datasets are crucial for this effort. Rather than rely on external datasets, this talk will empower audio developers by providing a practical guide to building an autonomous circuit measurement setup for data acquisition.

We begin with explaining the need for automated data collection. While manual measurement has limits when it comes to consistency and cost, a computer-based approach scales effortlessly, and can allow more complex measurements, such as varying the temperature of the measured circuit. And did we mention that it can function 24 hours a day, 7 days a week?

Then, we cover the hardware requirements for the measurement setup: signal generators that have the sampling rate, bit-depth and impedance for high-quality audio, a computer or microcontroller to guide the measurements in realtime, and appropriate Analog-to-Digital Converters (ADCs) to close the loop. We focus on practical, easy, and above all affordable options, rather than specialty Test & Measurement hardware.

Going forward, we describe the software involved in the setup: from the choice of programming language, to the types of different measurements. We pay special attention to realtime (i.e. streaming) measurements, as they allow the most control over hardware parameters and can climb in complexity using feedback from the measurements themselves.

Following that is a brief discussion of precision. It's critical to understand calibration techniques for our sensors, as well as minimize the noise of our measurements.

Moving on, we take things to the next level: using configuration files to set up entire test suites, designing hardware in a modular fashion so that each piece can be tested in isolation, and taking advantage of reconfigurable hardware to achieve a higher degree of abstraction.

Finally, we will provide resources for further exploration, including a GitHub repo with code examples for hardware measurements.

機械学習は、自動処理から歪みモデリングまで、オーディオコーディングに革命をもたらしました。しかし、MLモデルは学習データと同程度の性能しか発揮できません。高品質で*大規模な*データセットはこの取り組みに不可欠です。外部データセットに頼るのではなく、このトークではオーディオ開発者にデータ取得用の自律回路測定セットアップの構築方法に関する実践的なガイドを提供することで、開発者をサポートします。

まず、自動データ収集の必要性について説明します。手動測定は一貫性とコストの観点で限界がありますが、コンピュータベースのアプローチは簡単にスケーリングでき、測定対象回路の温度を変化させるなど、より複雑な測定を行うことができます。さらに、1日24時間、週7日間機能することができます。

次に、測定セットアップのハードウェア要件について説明します。高品質なオーディオのためのサンプリングレート、ビット深度、インピーダンスを備えた信号生成器、リアルタイムで測定を制御するコンピュータまたはマイクロコントローラ、そしてループを閉じるための適切なアナログ・デジタル変換器(ADC)が必要です。専門的なテスト・計測ハードウェアではなく、実用的で使いやすく、何よりも手頃な選択肢に焦点を当てます。

次に、セットアップに関わるソフトウェアについて説明します。プログラミング言語の選択から、さまざまな測定タイプまでです。リアルタイム(つまりストリーミング)測定に特に注意を払います。これにより、ハードウェアパラメータを最大限に制御でき、測定自体からのフィードバックを使用して複雑さを増すことができます。

その後、精度に関する簡潔な議論があります。センサーの校正技術を理解し、測定のノイズを最小化することが重要です。

さらに進んで、設定ファイルを使用してテストスイート全体をセットアップし、各部品を独立してテストできるようにハードウェアをモジュール設計し、より高い抽象化レベルを達成するために再構成可能なハードウェアを活用します。

最後に、ハードウェア測定用のコード例を含むGitHubリポジトリなど、さらなる探索のためのリソースを提供します。
Speakers
avatar for George Gkountouras

George Gkountouras

Founder, Arthurian Audio
George Gkountouras (MSc ECE) is a software engineer, researcher and entrepreneur in the audio software industry. He believes that AI will enable the creation of state-of-the-art music technology products. He has previously given talks at ADC about his quantum sequencer application... Read More →
Tuesday June 2, 2026 11:20am - 12:20pm JST
Next 1

12:20pm JST

Sponsor Talk 1
Tuesday June 2, 2026 12:20pm - 12:50pm JST

Tuesday June 2, 2026 12:20pm - 12:50pm JST
Next 1

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Tuesday June 2, 2026 12:50pm - 2:00pm JST

Tuesday June 2, 2026 12:50pm - 2:00pm JST
Next 1

2:00pm JST

TX/RX Part 2: AI Audio on the Raspberry Pi / TX/RX Part 2: ラズベリーパイ上のAIオーディオ
Tuesday June 2, 2026 2:00pm - 3:00pm JST
This talk is a continuation of previous talks at ADC'21 and ADCx'23. We will take an in-depth look at deploying AI Audio Inference workloads to the Raspberry Pi 5. The RPi 5 can be a useful target in and of itself, and also a reference target for later deployment to other embedded platforms (Compute Module 5, Qualcomm, etc.). This talk will have a particular focus on workloads that are useful in the automotive industry.

このトークは、ADC'21とADCx'23での以前のトークの続編です。AI音声推論ワークロードをRaspberry Pi 5にデプロイすることについて、詳しく見ていきます。RPi 5は、それ自体で有用なターゲットとなるだけでなく、後で他の組み込みプラットフォーム(Compute Module 5、Qualcommなど)へのデプロイメントのための参照ターゲットとしても機能します。このトークは、自動車産業で有用なワークロードに特に焦点を当てます。
Speakers
avatar for Kieran Coulter

Kieran Coulter

Principal Systems Engineer, QNX
Kieran holds a Bachelor of Music from the University of Ottawa and a Bachelor of Computer Science from the University of British Columbia.

He has worked for the past 12 years in a variety of roles in the audio software industry, developing specializations in spatial audio, voice processing, and embedded... Read More →

Tuesday June 2, 2026 2:00pm - 3:00pm JST
Next 1

3:00pm JST

Porting a Native C++ Synth Engine to the Browser: Lessons from Katokatone / ネイティブC++シンセエンジンをブラウザに移植する:Katokatoneからの教訓
Tuesday June 2, 2026 3:00pm - 4:00pm JST
Katokatone is a browser-based music learning application developed by KORG in collaboration with a Japanese textbook publisher for classroom use. As of February 2026, it is used in approximately 7,500 schools, serving around 13,000 daily users.

For this project, we reused part of our native C++ synthesizer engine — originally built for applications such as KORG Gadget — and compiled it to WebAssembly to run inside an AudioWorklet.

Rather than focusing on theoretical DSP optimization, this talk shares practical lessons from making it work reliably on managed school devices such as Chromebooks and iPads.

We will discuss:
- Why web delivery was required in educational environments
- What happened when a native synth engine was moved into the browser
- Performance issues observed on low-spec devices
- Iterative adjustments to reduce audio glitches and UI load

This is a real-world case study of bringing a native C++ synthesizer engine into the browser to deliver and maintain instrument-grade audio in institutional environments without simplifying the sound architecture.

Katokatoneは、KORGが日本の教科書出版社と協力して教室での使用のために開発したブラウザベースの音楽学習アプリケーションです。2026年2月時点で、約7,500の学校で使用されており、1日あたり約13,000人のユーザーに利用されています。

このプロジェクトでは、KORG Gadgetなどのアプリケーション向けに元々構築したネイティブC++シンセサイザーエンジンの一部を再利用し、WebAssemblyにコンパイルしてAudioWorklet内で実行させました。

理論的なDSP最適化に焦点を当てるのではなく、このトークでは、ChromebookやiPadなどの管理下にある学校用デバイスで確実に動作させるための実践的な教訓を共有します。

以下について説明します:
- 教育環境でウェブ配信が必要とされた理由
- ネイティブシンセエンジンをブラウザに移行した際に何が起こったか
- 低スペックデバイスで観察されたパフォーマンス問題
- オーディオグリッチとUIロードを軽減するための反復的な調整

これは、音声アーキテクチャを簡略化せずに、制度的環境でインストルメントグレードのオーディオを配信・維持するために、ネイティブC++シンセサイザーエンジンをブラウザに導入した実際のケーススタディです。
Speakers
HT

Hiroki Tamaru

Engineer, KORG

Tuesday June 2, 2026 3:00pm - 4:00pm JST
Next 1

4:00pm JST

Break & Networking / 休憩とネットワーキング
Tuesday June 2, 2026 4:00pm - 4:30pm JST

Tuesday June 2, 2026 4:00pm - 4:30pm JST
Next 1

4:30pm JST

Sponsor Talk 4
Tuesday June 2, 2026 4:30pm - 5:00pm JST

Tuesday June 2, 2026 4:30pm - 5:00pm JST
Next 1

5:00pm JST

Field Recording - In Search for Perfect Sounds / フィールド・レコーディング - 完璧なサウンドを求めて
Tuesday June 2, 2026 5:00pm - 6:00pm JST
Right from the outset of her game audio career, Malin was never satisfied just using other people’s sounds and so began a lifelong quest of building her own libraries through field recordings. Drawing on many sonic adventures she will examine and explore the art and science of best of breed location sound capture sharing lessons learned about planning, scouting and site selection, working in harmony with nature, timing and when to record, equipment choices and options - and the peculiarities of videogame requirements, discussing what for her makes the perfect sound and how she goes about getting it.

ゲームオーディオのキャリアの初期段階から、マリンは他人の音を使うだけでは決して満足せず、フィールド録音を通じて独自のライブラリを構築するという生涯にわたる追求を始めました。多くのソニックアドベンチャーを通じて、彼女はロケーション音声キャプチャのベストプラクティスの芸術と科学を検証し、探求していきます。計画、スカウティング、サイト選定、自然との調和、録音のタイミングと時期、機材の選択肢とオプション、そしてビデオゲーム特有の要件についての教訓を共有し、彼女にとって完璧な音とは何か、そしてそれをどのように実現するのかについて論じます。
Speakers
avatar for Malin Arvidsson

Malin Arvidsson

Senior Sound Designer / owner, thesoundofmalin
I've been working in audio for games for over 25 years, in UK, Germany and Sweden. I've done everything from recording to editing, processing, designing and implementation. One of my biggest passions is field recording, which I will be talking about at ADC Japan

Tuesday June 2, 2026 5:00pm - 6:00pm JST
Next 1
 
Wednesday, June 3
 

9:00am JST

Real-Time AI Audio Processing at Scale: Building Cloud-Native Audio Applications / スケール規模でのリアルタイムAIオーディオ処理:クラウドネイティブオーディオアプリケーションの構築
Wednesday June 3, 2026 9:00am - 10:00am JST
The convergence of AI and cloud computing is revolutionizing audio development. This session explores how AWS cloud services enable audio developers to build scalable, AI-powered applications for speech recognition, audio synthesis, real-time streaming, and generative audio content.

We'll demonstrate practical architectures for:

Real-time audio processing with AI-based dubbing and translation using AWS Media Services
Speech synthesis and recognition using Amazon Polly, Transcribe, and generative AI models
Scalable audio streaming architectures with Amazon Kinesis and serverless computing
Building audio ML models with Amazon SageMaker and deploying them at scale
Sentiment analysis from audio data using AWS generative AI services
Attendees will learn cloud-native patterns for audio development, including containerization with Kubernetes, event-driven architectures, and GPU-optimized infrastructure for AI workloads.

AIとクラウドコンピューティングの融合は、オーディオ開発に革命をもたらしています。このセッションでは、AWSクラウドサービスがいかにオーディオ開発者が、音声認識、オーディオ合成、リアルタイムストリーミング、生成型オーディオコンテンツ向けのスケーラブルなAI駆動型アプリケーションを構築できるようにするかを探ります。

以下の実用的なアーキテクチャを実演します:

AWS Media Servicesを使用したAIベースのダビングおよび翻訳によるリアルタイムオーディオ処理
Amazon Polly、Transcribe、および生成型AIモデルを使用した音声合成と認識
Amazon Kinesisおよびサーバーレスコンピューティングによるスケーラブルなオーディオストリーミングアーキテクチャ
Amazon SageMakerでのオーディオMLモデルの構築とスケール時のデプロイ
AWS生成型AIサービスを使用したオーディオデータからのセンチメント分析
参加者はオーディオ開発向けのクラウドネイティブパターンを学びます。これにはKubernetesでのコンテナ化、イベント駆動型アーキテクチャ、およびAIワークロード向けのGPU最適化インフラストラクチャが含まれます。
Speakers
avatar for Vishal Alhat

Vishal Alhat

Developer Advocate, AWS

Vishal Alhat is a Developer Advocate at Amazon Web Services (AWS) and a former AWS Hero, recognized for his significant contributions to the AWS community. With 11+ years of experience in cloud technologies, Vishal specializes in DevOps, cloud security, and AI/ML.As an active community... Read More →
Wednesday June 3, 2026 9:00am - 10:00am JST
Next 1

10:00am JST

How Close Is Close Enough? Evaluating Analog-Likeness of Moog-Style Ladder Filters on a $1-Class Microcontroller / モーグスタイルラダーフィルターのアナログ的特性をいかに評価するか?1ドルクラスのマイクロコントローラー上での検証
Wednesday June 3, 2026 10:00am - 11:00am JST
How close is close enough when modeling analog ladder filters on a $1-class microcontroller?

Microcontrollers operate under strict computational constraints that fundamentally differ from desktop virtual analog environments. When implementing Moog-style ladder filters in such systems, defining and evaluating analog-likeness becomes a practical engineering challenge.

This work is motivated by the development of a virtual analog synthesizer running on an RP2350 microcontroller, designed to deliver a convincing analog feel. Practical evaluation metrics are consolidated, including resonance peak alignment, Q consistency, normalized harmonic spectra, level-dependent cutoff shift, and self-oscillation behavior. The talk also discusses how these metrics can be meaningfully and reproducibly measured.

Ladder filter implementations drawn from published algorithms, open-source audio libraries such as Teensy Audio Library, DaisySP, and JUCE, are ported to the RP2350 and evaluated against a SPICE circuit simulation serving as a reproducible analog reference. Measurement results are presented to examine how closely each implementation can approach analog behavior under strict hardware constraints.

$1クラスのマイクロコントローラー上でアナログラダーフィルターをモデル化する場合、どの程度が十分に近いのか?

マイクロコントローラーは、デスクトップの仮想アナログ環境と根本的に異なる厳密な計算制約の下で動作します。このようなシステムにムーグスタイルのラダーフィルターを実装する場合、アナログライクさの定義と評価は実用的なエンジニアリングの課題となります。

本研究は、RP2350マイクロコントローラー上で動作する仮想アナログシンセサイザーの開発に動機づけられており、説得力のあるアナログの感覚を提供するように設計されています。実用的な評価指標は、レゾナンスピークアライメント、Q一貫性、正規化調和スペクトラム、レベル依存カットオフシフト、および自己発振動作を含めて統合されています。本講演では、これらのメトリクスを意味のある方法で再現可能に測定する方法についても説明します。

公開されているアルゴリズム、Teensy Audio Library、DaisySP、JUCEなどのオープンソースオーディオライブラリから引き出されたラダーフィルター実装は、RP2350に移植され、再現可能なアナログ参照として機能するSPICE回路シミュレーションに対して評価されます。測定結果は、厳密なハードウェア制約の下で各実装がどの程度密接にアナログ動作に近づくことができるかを検証するために提示されます。
Speakers
Wednesday June 3, 2026 10:00am - 11:00am JST
Next 1

11:00am JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 11:00am - 11:20am JST

Wednesday June 3, 2026 11:00am - 11:20am JST
Next 1

11:20am JST

One UI, One DSP, Everywhere: A Chromium-Based Runtime for Audio Plugins / 1つのUI、1つのDSP、どこでも:オーディオプラグイン向けChromiumベースのランタイム
Wednesday June 3, 2026 11:20am - 12:20pm JST
Modern audio plug-in development still pays a steep portability tax: separate UI/DSP stacks per OS and host, repeated rebuilds, and validation that’s hard to automate. This talk introduces a “write once, run everywhere” approach that treats Chromium as a compatibility runtime and tunnels its audio graph directly into a DAW plug-in host (VST)—allowing a single codebase for both UI and DSP to run across environments.

Beyond portability, the runtime enables a DevOps-style workflow for audio: externally controlled timing, deterministic offline rendering, and CI-friendly regression testing for AudioWorklet-style processing. We’ll present a working proof-of-concept, outline the key architectural choices and trade-offs, and show how this foundation can unlock faster iteration at ecosystem scale—especially as automated and AI-assisted development becomes the norm.

現代のオーディオプラグイン開発では、依然として高い移植性のコストが発生しています。OS およびホストごとに異なる UI/DSP スタック、繰り返されるリビルド、自動化が難しい検証が必要です。本発表では、Chromium を互換性ランタイムとして扱い、そのオーディオグラフを DAW プラグインホスト (VST) に直接トンネリングする「一度書いたら、どこでも実行できる」アプローチを紹介します。これにより、UI と DSP の両方に単一のコードベースを使用して、複数の環境で実行できます。

移植性を超えて、このランタイムはオーディオに対する DevOps スタイルのワークフローを実現します。外部から制御されるタイミング、確定的なオフラインレンダリング、AudioWorklet スタイルの処理に対する CI フレンドリーな回帰テストです。実装可能な概念実証を提示し、主要なアーキテクチャの選択とトレードオフについて説明し、この基盤がどのようにしてエコシステム規模での迅速な反復を実現できるかを示します。特に自動化と AI 支援開発が標準化されるにつれて、その重要性が高まります。
Speakers
avatar for Yuichi Yogo

Yuichi Yogo

Founder/CEO, Escentier, LLC
Musician, Software Engineer
Wednesday June 3, 2026 11:20am - 12:20pm JST
Next 1

12:20pm JST

Sponsor Talk 7
Wednesday June 3, 2026 12:20pm - 12:50pm JST

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 1

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 1

2:00pm JST

Android and Audio Plugins: State of Union / Androidとオーディオプラグイン:現状報告
Wednesday June 3, 2026 2:00pm - 3:00pm JST
When we build cross-platform music apps and plugins, they are mostly desktop and sometimes including iOS, but much less happens on Android. Since Android audio latency has improved a lot by 2026, we have to tackle the next problem: we are missing audio plugin formats on Android. Apple has good ecosystem, so why not designing one for Android?

But you would wonder, why can't we just simply take VST3, CLAP, or LV2 on Android? Because, it is not that simple. We have a lot of lessons learned (or, learning) from Apple AudioUnit V3, along with their efforts on Logic Pro.

Throughout this session we will explain what is tricky to achieve audio plugin functionality on Android through past accomplishments, and how to deal with it. There are many issues such as, publishing audio plugin products from diverse plugin vendors without being tied to a specific DAW, passing audio and event data between a DAW and a plugin, showing plugin GUI on a DAW, and so on. We also discuss what's missing on Android platform itself to achieve full realtime capability within our apps, not just their own framework.

There are many trends on audio plugin development such as MIDI 2.0 integration like (upcoming next-gen. JUCE AudioProcessor), CLAP-first development, AI-capability such as MCP integration. We discuss what kind of features a plugin format should and should NOT tackle, especially taking CLAP as a reference. You would also learn why JUCE cannot be a "format" here.

At last, designing a plugin format is just a milestone and not the goal. We also have to achieve a plugin "ecosystem", which is very often understood as chicken and egg problem. We would discuss this with some existing efforts.

クロスプラットフォーム音声アプリとプラグインを構築する場合、それらはほとんどがデスクトップで、時々iOSを含みますが、Androidではずっと少ないことが起こっています。2026年までにAndroidのオーディオレイテンシーが大幅に改善されたため、次の問題に取り組む必要があります。Androidではオーディオプラグインフォーマットが不足しているのです。Appleは優れたエコシステムを持っているので、Androidのために1つを設計してみてはいかがでしょうか?

しかし、なぜ単純にVST3、CLAP、またはLV2をAndroidで使用できないのかと疑問に思うでしょう。それは単純ではないからです。Appleの AudioUnit V3から多くの教訓を得ており(または学習中)、Logic Proへの彼らの取り組みからも学んでいます。

このセッション全体を通じて、過去の成果を通じてAndroidでオーディオプラグイン機能を実現することがどのようにして難しいのか、そしてそれにどう対処するかについて説明します。多様なプラグインベンダーから特定のDAWに縛られずにオーディオプラグインコンテンツを公開する、DAWとプラグイン間でオーディオおよびイベントデータを渡す、DAW上にプラグインGUIを表示するなど、多くの課題があります。また、独自フレームワークだけではなく、アプリ内で完全なリアルタイム機能を達成するためにAndroidプラットフォーム自体に何が不足しているのかについても議論します。

MIDI 2.0統合(次世代の予定であるJUCE AudioProcessor)、CLAP優先開発、MCP統合などのAI機能など、オーディオプラグイン開発には多くのトレンドがあります。プラグインフォーマットが取り組むべき機能と取り組むべきではない機能について、特にCLAPを参考にして議論します。JUCEがここで「フォーマット」になれない理由も学べます。

最後に、プラグインフォーマットの設計はマイルストーンであり、目標ではありません。また、プラグイン「エコシステム」の実現も必要です。これはしばしば鶏と卵の問題として理解されています。既存の取り組みとともにこれについて議論します。
Speakers
avatar for Atsushi Eno

Atsushi Eno

Developer, androidaudioplugin.org
https://g0v.social/@atsushieno
Wednesday June 3, 2026 2:00pm - 3:00pm JST
Next 1

3:00pm JST

Improving the audio quality of the Head-Related Transfer Function using machine learning / 機械学習による頭部伝達関数の音質向上
Wednesday June 3, 2026 3:00pm - 4:00pm JST
The Head-Related Transfer Function (HRTF) is a key technology for three-dimensional binaural audio rendering. However, issues regarding audio quality and HRTF personalization must be resolved for this technology to be adopted more widely. When HRTFs are applied to music production, audio quality may become problematic. Additionally, since HRTFs exhibit significant individual variation, personalized HRTFs—that is, HRTFs measured or customized for each user—are desirable, but cost becomes an issue. Therefore, for widespread adoption of HRTFs, a typical HRTF that provides consistent effectiveness for everyone is needed.

The speaker proposes using Generalized HRTF (GHRTF) based on machine learning as a solution to these problems. This presentation first outlines the fundamentals and challenges of HRTFs and binaural rendering. Then it presents the definition of GHRTFs that achieve high audio quality, along with estimation methods based on machine learning and their results. Next, the presentation demonstrates a learning method for Typical GHRTFs based on data from numerous subjects and provides estimation examples. Finally, the presentation describes its application to SoundObject, an object-based three-dimensional spatial audio VST 3 plug-in that the speaker has made freely available to the public. The presentation concludes that this approach yields clearer directionality and higher audio quality compared to conventional dummy head HRTFs.

The presentation materials are in both English and Japanese.

頭部伝達関数 (Head-Related Transfer Function: HRTF) はバイノーラル再生による立体音響のキーテクノロジーです.しかし,この技術の普及には音質と頭部伝達関数の個人化の問題を解決する必要があります.頭部伝達関数を音楽制作に適用した場合,音質が問題となる場合があります.また,頭部伝達関数は個人差が大きいため,頭部伝達関数の個人化,即ち利用者毎に計測ないしカスタマイズした頭部伝達関数の使用が望ましいが,コストが問題となります.従って,頭部伝達関数の普及には,誰でも一定の効果が得られる典型的な頭部伝達関数が必要となります.

講演者はこれらの問題の解決方法として,機械学習による一般化頭部伝達関数 (Generalized HRTF) を提案しています.本講演は最初に,頭部伝達関数およびバイノーラル再生の概要と課題を述べます.そして,高い音質を実現する一般化頭部伝達関数の定義と機械学習による推定方法と推定結果を示します.次に本講演は,多数の被験者データに基づく典型的な一般化頭部伝達関数 (Typical GHRTF) の学習方法と推定例を示します.最後に,講演者が無償で公開しているオブジェクトベースの 3 次元立体音響 VST3 プラグインである SoundObject への適用を述べ,従来のダミーヘッドによる頭部伝達関数と比較して,より明確な方向感と高い音質が得られる事を述べます.

プレゼンテーション資料は英語日本語併記となります.
Speakers
avatar for suzumushi

suzumushi

Independent developer, 個人開発者
Areas of expertise: analog and digital signal processing, circuit design, computer architecture, low-level programming, and UNIX kernel.
得意分野は,アナログおよびディジタル信号処理,回路設計,コンピュータアーキテクチャ,低レベルプログラミング,UNIX... Read More →

Wednesday June 3, 2026 3:00pm - 4:00pm JST
Next 1

4:00pm JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 4:00pm - 4:30pm JST

Wednesday June 3, 2026 4:00pm - 4:30pm JST
Next 1

4:30pm JST

Sponsor Talk 10
Wednesday June 3, 2026 4:30pm - 5:00pm JST

Wednesday June 3, 2026 4:30pm - 5:00pm JST
Next 1

5:00pm JST

Real-Time Raytraced Acoustics / リアルタイムレイトレース音響
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Real-time convolution reverb is well understood, but continuously synthesizing long, spatial impulse responses (IRs) at runtime remains a significant engineering and perceptual challenge. This session presents a hybrid GPU/CPU acoustics pipeline that synthesizes listener-centric IRs in real time using multi-bounce raytracing. The pipeline is currently integrated into Elemental Games’ proprietary engine for its unannounced open-world debut title.

The system models frequency-dependent absorption, geometric propagation, and spatial encoding using Ambisonics, while balancing physical plausibility with perceptual clarity. Beyond straightforward multi-bounce tracing, the implementation explores performance-aware sampling strategies and hybrid visibility heuristics to better capture the contrast between enclosed and open spaces. Adaptive update strategies dynamically adjust IR refresh rates based on listener motion and scene changes, maintaining perceptual stability while respecting GPU budgets.

IR data is prepared using partitioned FFT processing on the GPU and transferred to the audio thread through a wait-free synchronization model, enabling stable time-varying convolution without blocking real-time audio processing. Particular focus is given to artifact-free IR updates under evolving conditions, including hybrid time- and frequency-domain crossfading techniques.

The talk examines architectural decisions, modeling trade-offs, perceptual post-processing techniques such as diffusion and stochastic smoothing, and the practical constraints of integrating real-time acoustic synthesis into a production engine. Attendees will gain insight into designing hybrid GPU/CPU DSP pipelines that balance physical modeling, runtime performance, and creative control.

リアルタイム畳み込みリバーブはよく理解されていますが、長い空間インパルス応答(IR)をランタイムで継続的に合成することは、依然として重大なエンジニアリングおよび知覚的課題です。このセッションでは、マルチバウンスレイトレーシングを使用してリスナー中心のIRをリアルタイムで合成するハイブリッドGPU/CPUアコースティクスパイプラインを紹介します。このパイプラインは、現在Elemental Gamesの独自エンジンに統合されており、未発表のオープンワールドデビュータイトルに使用されています。

このシステムは、周波数依存吸収、幾何学的伝播、アンビソニクスを使用した空間符号化をモデル化しながら、物理的妥当性と知覚的明瞭性のバランスを取ります。単純なマルチバウンストレーシングを超えて、実装ではパフォーマンス対応サンプリング戦略とハイブリッド可視性ヒューリスティックを探索し、囲まれた空間とオープンスペース間のコントラストをより良く捉えます。適応更新戦略は、リスナーの動きとシーン変化に基づいてIRリフレッシュレートを動的に調整し、GPU予算を尊重しながら知覚的安定性を維持します。

IRデータはGPU上の分割FFT処理を使用して準備され、ウェイトフリー同期モデルを通じてオーディオスレッドに転送され、リアルタイムオーディオ処理をブロックせずに安定した時変畳み込みを実現します。特に焦点が当てられているのは、時間領域および周波数領域のハイブリッドクロスフェード技術を含む、進化する条件下でのアーティファクト無しのIR更新です。

このトークでは、アーキテクチャの決定、モデリングのトレードオフ、拡散と確率的スムージングなどの知覚的後処理技術、およびリアルタイム音響合成をプロダクションエンジンに統合するための実際的な制約を検討します。参加者は、物理モデリング、ランタイムパフォーマンス、クリエイティブコントロールのバランスを取るハイブリッドGPU/CPU DSPパイプラインの設計に関する洞察を得ることができます。
Speakers
avatar for Anton Lundberg

Anton Lundberg

Co-Founder / Developer, elias.audio
Anton Lundberg is a software engineer and audio programmer specializing in high-performance real-time audio systems and game engine architecture. He develops next-generation game audio middleware at elias.audio and leads development of the audio technology stack at Elemental Games... Read More →
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Next 1
 
Share Modal

Share this link via

Or copy link

Filter sessions
Apply filters to sessions.