Loading…
Venue: Next 1 clear filter
arrow_back View All Dates
Wednesday, June 3
 

9:00am JST

Real-Time AI Audio Processing at Scale: Building Cloud-Native Audio Applications / スケール規模でのリアルタイムAIオーディオ処理:クラウドネイティブオーディオアプリケーションの構築
Wednesday June 3, 2026 9:00am - 10:00am JST
The convergence of AI and cloud computing is revolutionizing audio development. This session explores how AWS cloud services enable audio developers to build scalable, AI-powered applications for speech recognition, audio synthesis, real-time streaming, and generative audio content.

We'll demonstrate practical architectures for:

Real-time audio processing with AI-based dubbing and translation using AWS Media Services
Speech synthesis and recognition using Amazon Polly, Transcribe, and generative AI models
Scalable audio streaming architectures with Amazon Kinesis and serverless computing
Building audio ML models with Amazon SageMaker and deploying them at scale
Sentiment analysis from audio data using AWS generative AI services
Attendees will learn cloud-native patterns for audio development, including containerization with Kubernetes, event-driven architectures, and GPU-optimized infrastructure for AI workloads.

AIとクラウドコンピューティングの融合は、オーディオ開発に革命をもたらしています。このセッションでは、AWSクラウドサービスがいかにオーディオ開発者が、音声認識、オーディオ合成、リアルタイムストリーミング、生成型オーディオコンテンツ向けのスケーラブルなAI駆動型アプリケーションを構築できるようにするかを探ります。

以下の実用的なアーキテクチャを実演します:

AWS Media Servicesを使用したAIベースのダビングおよび翻訳によるリアルタイムオーディオ処理
Amazon Polly、Transcribe、および生成型AIモデルを使用した音声合成と認識
Amazon Kinesisおよびサーバーレスコンピューティングによるスケーラブルなオーディオストリーミングアーキテクチャ
Amazon SageMakerでのオーディオMLモデルの構築とスケール時のデプロイ
AWS生成型AIサービスを使用したオーディオデータからのセンチメント分析
参加者はオーディオ開発向けのクラウドネイティブパターンを学びます。これにはKubernetesでのコンテナ化、イベント駆動型アーキテクチャ、およびAIワークロード向けのGPU最適化インフラストラクチャが含まれます。
Speakers
avatar for Vishal Alhat

Vishal Alhat

Developer Advocate, AWS

Vishal Alhat is a Developer Advocate at Amazon Web Services (AWS) and a former AWS Hero, recognized for his significant contributions to the AWS community. With 11+ years of experience in cloud technologies, Vishal specializes in DevOps, cloud security, and AI/ML.As an active community... Read More →
Wednesday June 3, 2026 9:00am - 10:00am JST
Next 1

10:00am JST

How Close Is Close Enough? Evaluating Analog-Likeness of Moog-Style Ladder Filters on a $1-Class Microcontroller / モーグスタイルラダーフィルターのアナログ的特性をいかに評価するか?1ドルクラスのマイクロコントローラー上での検証
Wednesday June 3, 2026 10:00am - 11:00am JST
How close is close enough when modeling analog ladder filters on a $1-class microcontroller?

Microcontrollers operate under strict computational constraints that fundamentally differ from desktop virtual analog environments. When implementing Moog-style ladder filters in such systems, defining and evaluating analog-likeness becomes a practical engineering challenge.

This work is motivated by the development of a virtual analog synthesizer running on an RP2350 microcontroller, designed to deliver a convincing analog feel. Practical evaluation metrics are consolidated, including resonance peak alignment, Q consistency, normalized harmonic spectra, level-dependent cutoff shift, and self-oscillation behavior. The talk also discusses how these metrics can be meaningfully and reproducibly measured.

Ladder filter implementations drawn from published algorithms, open-source audio libraries such as Teensy Audio Library, DaisySP, and JUCE, are ported to the RP2350 and evaluated against a SPICE circuit simulation serving as a reproducible analog reference. Measurement results are presented to examine how closely each implementation can approach analog behavior under strict hardware constraints.

$1クラスのマイクロコントローラー上でアナログラダーフィルターをモデル化する場合、どの程度が十分に近いのか?

マイクロコントローラーは、デスクトップの仮想アナログ環境と根本的に異なる厳密な計算制約の下で動作します。このようなシステムにムーグスタイルのラダーフィルターを実装する場合、アナログライクさの定義と評価は実用的なエンジニアリングの課題となります。

本研究は、RP2350マイクロコントローラー上で動作する仮想アナログシンセサイザーの開発に動機づけられており、説得力のあるアナログの感覚を提供するように設計されています。実用的な評価指標は、レゾナンスピークアライメント、Q一貫性、正規化調和スペクトラム、レベル依存カットオフシフト、および自己発振動作を含めて統合されています。本講演では、これらのメトリクスを意味のある方法で再現可能に測定する方法についても説明します。

公開されているアルゴリズム、Teensy Audio Library、DaisySP、JUCEなどのオープンソースオーディオライブラリから引き出されたラダーフィルター実装は、RP2350に移植され、再現可能なアナログ参照として機能するSPICE回路シミュレーションに対して評価されます。測定結果は、厳密なハードウェア制約の下で各実装がどの程度密接にアナログ動作に近づくことができるかを検証するために提示されます。
Speakers
Wednesday June 3, 2026 10:00am - 11:00am JST
Next 1

11:00am JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 11:00am - 11:20am JST

Wednesday June 3, 2026 11:00am - 11:20am JST
Next 1

11:20am JST

One UI, One DSP, Everywhere: A Chromium-Based Runtime for Audio Plugins / 1つのUI、1つのDSP、どこでも:オーディオプラグイン向けChromiumベースのランタイム
Wednesday June 3, 2026 11:20am - 12:20pm JST
Modern audio plug-in development still pays a steep portability tax: separate UI/DSP stacks per OS and host, repeated rebuilds, and validation that’s hard to automate. This talk introduces a “write once, run everywhere” approach that treats Chromium as a compatibility runtime and tunnels its audio graph directly into a DAW plug-in host (VST)—allowing a single codebase for both UI and DSP to run across environments.

Beyond portability, the runtime enables a DevOps-style workflow for audio: externally controlled timing, deterministic offline rendering, and CI-friendly regression testing for AudioWorklet-style processing. We’ll present a working proof-of-concept, outline the key architectural choices and trade-offs, and show how this foundation can unlock faster iteration at ecosystem scale—especially as automated and AI-assisted development becomes the norm.

現代のオーディオプラグイン開発では、依然として高い移植性のコストが発生しています。OS およびホストごとに異なる UI/DSP スタック、繰り返されるリビルド、自動化が難しい検証が必要です。本発表では、Chromium を互換性ランタイムとして扱い、そのオーディオグラフを DAW プラグインホスト (VST) に直接トンネリングする「一度書いたら、どこでも実行できる」アプローチを紹介します。これにより、UI と DSP の両方に単一のコードベースを使用して、複数の環境で実行できます。

移植性を超えて、このランタイムはオーディオに対する DevOps スタイルのワークフローを実現します。外部から制御されるタイミング、確定的なオフラインレンダリング、AudioWorklet スタイルの処理に対する CI フレンドリーな回帰テストです。実装可能な概念実証を提示し、主要なアーキテクチャの選択とトレードオフについて説明し、この基盤がどのようにしてエコシステム規模での迅速な反復を実現できるかを示します。特に自動化と AI 支援開発が標準化されるにつれて、その重要性が高まります。
Speakers
avatar for Yuichi Yogo

Yuichi Yogo

Founder/CEO, Escentier, LLC
Musician, Software Engineer
Wednesday June 3, 2026 11:20am - 12:20pm JST
Next 1

12:20pm JST

Sponsor Talk 7
Wednesday June 3, 2026 12:20pm - 12:50pm JST

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 1

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 1

2:00pm JST

Android and Audio Plugins: State of Union / Androidとオーディオプラグイン:現状報告
Wednesday June 3, 2026 2:00pm - 3:00pm JST
When we build cross-platform music apps and plugins, they are mostly desktop and sometimes including iOS, but much less happens on Android. Since Android audio latency has improved a lot by 2026, we have to tackle the next problem: we are missing audio plugin formats on Android. Apple has good ecosystem, so why not designing one for Android?

But you would wonder, why can't we just simply take VST3, CLAP, or LV2 on Android? Because, it is not that simple. We have a lot of lessons learned (or, learning) from Apple AudioUnit V3, along with their efforts on Logic Pro.

Throughout this session we will explain what is tricky to achieve audio plugin functionality on Android through past accomplishments, and how to deal with it. There are many issues such as, publishing audio plugin products from diverse plugin vendors without being tied to a specific DAW, passing audio and event data between a DAW and a plugin, showing plugin GUI on a DAW, and so on. We also discuss what's missing on Android platform itself to achieve full realtime capability within our apps, not just their own framework.

There are many trends on audio plugin development such as MIDI 2.0 integration like (upcoming next-gen. JUCE AudioProcessor), CLAP-first development, AI-capability such as MCP integration. We discuss what kind of features a plugin format should and should NOT tackle, especially taking CLAP as a reference. You would also learn why JUCE cannot be a "format" here.

At last, designing a plugin format is just a milestone and not the goal. We also have to achieve a plugin "ecosystem", which is very often understood as chicken and egg problem. We would discuss this with some existing efforts.

クロスプラットフォーム音声アプリとプラグインを構築する場合、それらはほとんどがデスクトップで、時々iOSを含みますが、Androidではずっと少ないことが起こっています。2026年までにAndroidのオーディオレイテンシーが大幅に改善されたため、次の問題に取り組む必要があります。Androidではオーディオプラグインフォーマットが不足しているのです。Appleは優れたエコシステムを持っているので、Androidのために1つを設計してみてはいかがでしょうか?

しかし、なぜ単純にVST3、CLAP、またはLV2をAndroidで使用できないのかと疑問に思うでしょう。それは単純ではないからです。Appleの AudioUnit V3から多くの教訓を得ており(または学習中)、Logic Proへの彼らの取り組みからも学んでいます。

このセッション全体を通じて、過去の成果を通じてAndroidでオーディオプラグイン機能を実現することがどのようにして難しいのか、そしてそれにどう対処するかについて説明します。多様なプラグインベンダーから特定のDAWに縛られずにオーディオプラグインコンテンツを公開する、DAWとプラグイン間でオーディオおよびイベントデータを渡す、DAW上にプラグインGUIを表示するなど、多くの課題があります。また、独自フレームワークだけではなく、アプリ内で完全なリアルタイム機能を達成するためにAndroidプラットフォーム自体に何が不足しているのかについても議論します。

MIDI 2.0統合(次世代の予定であるJUCE AudioProcessor)、CLAP優先開発、MCP統合などのAI機能など、オーディオプラグイン開発には多くのトレンドがあります。プラグインフォーマットが取り組むべき機能と取り組むべきではない機能について、特にCLAPを参考にして議論します。JUCEがここで「フォーマット」になれない理由も学べます。

最後に、プラグインフォーマットの設計はマイルストーンであり、目標ではありません。また、プラグイン「エコシステム」の実現も必要です。これはしばしば鶏と卵の問題として理解されています。既存の取り組みとともにこれについて議論します。
Speakers
avatar for Atsushi Eno

Atsushi Eno

Developer, androidaudioplugin.org
https://g0v.social/@atsushieno
Wednesday June 3, 2026 2:00pm - 3:00pm JST
Next 1

3:00pm JST

Improving the audio quality of the Head-Related Transfer Function using machine learning / 機械学習による頭部伝達関数の音質向上
Wednesday June 3, 2026 3:00pm - 4:00pm JST
The Head-Related Transfer Function (HRTF) is a key technology for three-dimensional binaural audio rendering. However, issues regarding audio quality and HRTF personalization must be resolved for this technology to be adopted more widely. When HRTFs are applied to music production, audio quality may become problematic. Additionally, since HRTFs exhibit significant individual variation, personalized HRTFs—that is, HRTFs measured or customized for each user—are desirable, but cost becomes an issue. Therefore, for widespread adoption of HRTFs, a typical HRTF that provides consistent effectiveness for everyone is needed.

The speaker proposes using Generalized HRTF (GHRTF) based on machine learning as a solution to these problems. This presentation first outlines the fundamentals and challenges of HRTFs and binaural rendering. Then it presents the definition of GHRTFs that achieve high audio quality, along with estimation methods based on machine learning and their results. Next, the presentation demonstrates a learning method for Typical GHRTFs based on data from numerous subjects and provides estimation examples. Finally, the presentation describes its application to SoundObject, an object-based three-dimensional spatial audio VST 3 plug-in that the speaker has made freely available to the public. The presentation concludes that this approach yields clearer directionality and higher audio quality compared to conventional dummy head HRTFs.

The presentation materials are in both English and Japanese.

頭部伝達関数 (Head-Related Transfer Function: HRTF) はバイノーラル再生による立体音響のキーテクノロジーです.しかし,この技術の普及には音質と頭部伝達関数の個人化の問題を解決する必要があります.頭部伝達関数を音楽制作に適用した場合,音質が問題となる場合があります.また,頭部伝達関数は個人差が大きいため,頭部伝達関数の個人化,即ち利用者毎に計測ないしカスタマイズした頭部伝達関数の使用が望ましいが,コストが問題となります.従って,頭部伝達関数の普及には,誰でも一定の効果が得られる典型的な頭部伝達関数が必要となります.

講演者はこれらの問題の解決方法として,機械学習による一般化頭部伝達関数 (Generalized HRTF) を提案しています.本講演は最初に,頭部伝達関数およびバイノーラル再生の概要と課題を述べます.そして,高い音質を実現する一般化頭部伝達関数の定義と機械学習による推定方法と推定結果を示します.次に本講演は,多数の被験者データに基づく典型的な一般化頭部伝達関数 (Typical GHRTF) の学習方法と推定例を示します.最後に,講演者が無償で公開しているオブジェクトベースの 3 次元立体音響 VST3 プラグインである SoundObject への適用を述べ,従来のダミーヘッドによる頭部伝達関数と比較して,より明確な方向感と高い音質が得られる事を述べます.

プレゼンテーション資料は英語日本語併記となります.
Speakers
avatar for suzumushi

suzumushi

Independent developer, 個人開発者
Areas of expertise: analog and digital signal processing, circuit design, computer architecture, low-level programming, and UNIX kernel.
得意分野は,アナログおよびディジタル信号処理,回路設計,コンピュータアーキテクチャ,低レベルプログラミング,UNIX... Read More →

Wednesday June 3, 2026 3:00pm - 4:00pm JST
Next 1

4:00pm JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 4:00pm - 4:30pm JST

Wednesday June 3, 2026 4:00pm - 4:30pm JST
Next 1

4:30pm JST

Sponsor Talk 10
Wednesday June 3, 2026 4:30pm - 5:00pm JST

Wednesday June 3, 2026 4:30pm - 5:00pm JST
Next 1

5:00pm JST

Real-Time Raytraced Acoustics / リアルタイムレイトレース音響
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Real-time convolution reverb is well understood, but continuously synthesizing long, spatial impulse responses (IRs) at runtime remains a significant engineering and perceptual challenge. This session presents a hybrid GPU/CPU acoustics pipeline that synthesizes listener-centric IRs in real time using multi-bounce raytracing. The pipeline is currently integrated into Elemental Games’ proprietary engine for its unannounced open-world debut title.

The system models frequency-dependent absorption, geometric propagation, and spatial encoding using Ambisonics, while balancing physical plausibility with perceptual clarity. Beyond straightforward multi-bounce tracing, the implementation explores performance-aware sampling strategies and hybrid visibility heuristics to better capture the contrast between enclosed and open spaces. Adaptive update strategies dynamically adjust IR refresh rates based on listener motion and scene changes, maintaining perceptual stability while respecting GPU budgets.

IR data is prepared using partitioned FFT processing on the GPU and transferred to the audio thread through a wait-free synchronization model, enabling stable time-varying convolution without blocking real-time audio processing. Particular focus is given to artifact-free IR updates under evolving conditions, including hybrid time- and frequency-domain crossfading techniques.

The talk examines architectural decisions, modeling trade-offs, perceptual post-processing techniques such as diffusion and stochastic smoothing, and the practical constraints of integrating real-time acoustic synthesis into a production engine. Attendees will gain insight into designing hybrid GPU/CPU DSP pipelines that balance physical modeling, runtime performance, and creative control.

リアルタイム畳み込みリバーブはよく理解されていますが、長い空間インパルス応答(IR)をランタイムで継続的に合成することは、依然として重大なエンジニアリングおよび知覚的課題です。このセッションでは、マルチバウンスレイトレーシングを使用してリスナー中心のIRをリアルタイムで合成するハイブリッドGPU/CPUアコースティクスパイプラインを紹介します。このパイプラインは、現在Elemental Gamesの独自エンジンに統合されており、未発表のオープンワールドデビュータイトルに使用されています。

このシステムは、周波数依存吸収、幾何学的伝播、アンビソニクスを使用した空間符号化をモデル化しながら、物理的妥当性と知覚的明瞭性のバランスを取ります。単純なマルチバウンストレーシングを超えて、実装ではパフォーマンス対応サンプリング戦略とハイブリッド可視性ヒューリスティックを探索し、囲まれた空間とオープンスペース間のコントラストをより良く捉えます。適応更新戦略は、リスナーの動きとシーン変化に基づいてIRリフレッシュレートを動的に調整し、GPU予算を尊重しながら知覚的安定性を維持します。

IRデータはGPU上の分割FFT処理を使用して準備され、ウェイトフリー同期モデルを通じてオーディオスレッドに転送され、リアルタイムオーディオ処理をブロックせずに安定した時変畳み込みを実現します。特に焦点が当てられているのは、時間領域および周波数領域のハイブリッドクロスフェード技術を含む、進化する条件下でのアーティファクト無しのIR更新です。

このトークでは、アーキテクチャの決定、モデリングのトレードオフ、拡散と確率的スムージングなどの知覚的後処理技術、およびリアルタイム音響合成をプロダクションエンジンに統合するための実際的な制約を検討します。参加者は、物理モデリング、ランタイムパフォーマンス、クリエイティブコントロールのバランスを取るハイブリッドGPU/CPU DSPパイプラインの設計に関する洞察を得ることができます。
Speakers
avatar for Anton Lundberg

Anton Lundberg

Co-Founder / Developer, elias.audio
Anton Lundberg is a software engineer and audio programmer specializing in high-performance real-time audio systems and game engine architecture. He develops next-generation game audio middleware at elias.audio and leads development of the audio technology stack at Elemental Games... Read More →
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Next 1
 
Share Modal

Share this link via

Or copy link

Filter sessions
Apply filters to sessions.
Filtered by Date -