Loading…
ADC Japan 2026 has ended
Venue: Next 1 clear filter
arrow_back View All Dates
Wednesday, June 3
 

9:00am JST

スケール規模でのリアルタイムAIオーディオ処理:クラウドネイティブオーディオアプリケーションの構築 / Real-Time AI Audio Processing at Scale: Building Cloud-Native Audio Applications
Wednesday June 3, 2026 9:00am - 9:50am JST
AIとクラウドコンピューティングの融合は、オーディオ開発に革命をもたらしています。このセッションでは、AWSクラウドサービスがいかにオーディオ開発者が、音声認識、オーディオ合成、リアルタイムストリーミング、生成型オーディオコンテンツ向けのスケーラブルなAI駆動型アプリケーションを構築できるようにするかを探ります。

以下の実用的なアーキテクチャを実演します:

AWS Media Servicesを使用したAIベースのダビングおよび翻訳によるリアルタイムオーディオ処理
Amazon Polly、Transcribe、および生成型AIモデルを使用した音声合成と認識
Amazon Kinesisおよびサーバーレスコンピューティングによるスケーラブルなオーディオストリーミングアーキテクチャ
Amazon SageMakerでのオーディオMLモデルの構築とスケール時のデプロイ
AWS生成型AIサービスを使用したオーディオデータからのセンチメント分析
参加者はオーディオ開発向けのクラウドネイティブパターンを学びます。これにはKubernetesでのコンテナ化、イベント駆動型アーキテクチャ、およびAIワークロード向けのGPU最適化インフラストラクチャが含まれます。

---

The convergence of AI and cloud computing is revolutionizing audio development. This session explores how AWS cloud services enable audio developers to build scalable, AI-powered applications for speech recognition, audio synthesis, real-time streaming, and generative audio content.

We'll demonstrate practical architectures for:

Real-time audio processing with AI-based dubbing and translation using AWS Media Services
Speech synthesis and recognition using Amazon Polly, Transcribe, and generative AI models
Scalable audio streaming architectures with Amazon Kinesis and serverless computing
Building audio ML models with Amazon SageMaker and deploying them at scale
Sentiment analysis from audio data using AWS generative AI services
Attendees will learn cloud-native patterns for audio development, including containerization with Kubernetes, event-driven architectures, and GPU-optimized infrastructure for AI workloads.
Speakers
avatar for Vishal Alhat

Vishal Alhat

Developer Advocate, AWS

Vishal Alhat is a Developer Advocate at Amazon Web Services (AWS) and a former AWS Hero, recognized for his significant contributions to the AWS community. With 11+ years of experience in cloud technologies, Vishal specializes in DevOps, cloud security, and AI/ML.As an active community... Read More →
Wednesday June 3, 2026 9:00am - 9:50am JST
Next 1

10:00am JST

Moogスタイルラダーフィルターのアナログ的特性をいかに評価するか?1ドルクラスのマイクロコントローラー上での検証 / How Close Is Close Enough? Evaluating Analog-Likeness of Moog-Style Ladder Filters on a $1-Class Microcontroller
Wednesday June 3, 2026 10:00am - 10:50am JST
$1クラスのマイクロコントローラー上でアナログラダーフィルターをモデル化する場合、どの程度が十分に近いのか?

マイクロコントローラーは、デスクトップの仮想アナログ環境と根本的に異なる厳密な計算制約の下で動作します。このようなシステムにMoogスタイルのラダーフィルターを実装する場合、アナログライクさの定義と評価は実用的なエンジニアリングの課題となります。

本研究は、RP2350マイクロコントローラー上で動作する仮想アナログシンセサイザーの開発に動機づけられており、説得力のあるアナログの感覚を提供するように設計されています。実用的な評価指標は、レゾナンスピークアライメント、Q一貫性、正規化調和スペクトラム、レベル依存カットオフシフト、および自己発振動作を含めて統合されています。本講演では、これらのメトリクスを意味のある方法で再現可能に測定する方法についても説明します。

公開されているアルゴリズム、Teensy Audio Library、DaisySP、JUCEなどのオープンソースオーディオライブラリから引き出されたラダーフィルター実装は、RP2350に移植され、再現可能なアナログ参照として機能するSPICE回路シミュレーションに対して評価されます。測定結果は、厳密なハードウェア制約の下で各実装がどの程度密接にアナログ動作に近づくことができるかを検証するために提示されます。

---

How close is close enough when modeling analog ladder filters on a $1-class microcontroller?

Microcontrollers operate under strict computational constraints that fundamentally differ from desktop virtual analog environments. When implementing Moog-style ladder filters in such systems, defining and evaluating analog-likeness becomes a practical engineering challenge.

This work is motivated by the development of a virtual analog synthesizer running on an RP2350 microcontroller, designed to deliver a convincing analog feel. Practical evaluation metrics are consolidated, including resonance peak alignment, Q consistency, normalized harmonic spectra, level-dependent cutoff shift, and self-oscillation behavior. The talk also discusses how these metrics can be meaningfully and reproducibly measured.

Ladder filter implementations drawn from published algorithms, open-source audio libraries such as Teensy Audio Library, DaisySP, and JUCE, are ported to the RP2350 and evaluated against a SPICE circuit simulation serving as a reproducible analog reference. Measurement results are presented to examine how closely each implementation can approach analog behavior under strict hardware constraints.

Speakers
avatar for Hiroyuki Oyama

Hiroyuki Oyama

Independent Researcher
I work as a data analyst in track cycling.

As an independent researcher and developer, I study and build virtual-analog synthesizers, focusing on embedded audio DSP for small microcontrollers. My recent work investigates how far devices such as the Raspberry Pi Pico 2 can be pushed for serious musical instruments, with particular... Read More →
Wednesday June 3, 2026 10:00am - 10:50am JST
Next 1

10:50am JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 10:50am - 11:20am JST

Wednesday June 3, 2026 10:50am - 11:20am JST
Next 1

11:20am JST

1つのUI、1つのDSP、どこでも:オーディオプラグイン向けChromiumベースのランタイム / One UI, One DSP, Everywhere: A Chromium-Based Runtime for Audio Plugins
Wednesday June 3, 2026 11:20am - 12:10pm JST
現代のオーディオプラグイン開発では、依然として高い移植性のコストが発生しています。OS およびホストごとに異なる UI/DSP スタック、繰り返されるリビルド、自動化が難しい検証が必要です。本発表では、Chromium を互換性ランタイムとして扱い、そのオーディオグラフを DAW プラグインホスト (VST) に直接トンネリングする「一度書いたら、どこでも実行できる」アプローチを紹介します。これにより、UI と DSP の両方に単一のコードベースを使用して、複数の環境で実行できます。

移植性を超えて、このランタイムはオーディオに対する DevOps スタイルのワークフローを実現します。外部から制御されるタイミング、確定的なオフラインレンダリング、AudioWorklet スタイルの処理に対する CI フレンドリーな回帰テストです。実装可能な概念実証を提示し、主要なアーキテクチャの選択とトレードオフについて説明し、この基盤がどのようにしてエコシステム規模での迅速な反復を実現できるかを示します。特に自動化と AI 支援開発が標準化されるにつれて、その重要性が高まります。

---

Modern audio plug-in development still pays a steep portability tax: separate UI/DSP stacks per OS and host, repeated rebuilds, and validation that’s hard to automate. This talk introduces a “write once, run everywhere” approach that treats Chromium as a compatibility runtime and tunnels its audio graph directly into a DAW plug-in host (VST)—allowing a single codebase for both UI and DSP to run across environments.

Beyond portability, the runtime enables a DevOps-style workflow for audio: externally controlled timing, deterministic offline rendering, and CI-friendly regression testing for AudioWorklet-style processing. We’ll present a working proof-of-concept, outline the key architectural choices and trade-offs, and show how this foundation can unlock faster iteration at ecosystem scale—especially as automated and AI-assisted development becomes the norm.

Speakers
avatar for Yuichi Yogo

Yuichi Yogo

Founder/CEO, Escentier, LLC
Musician, Software Engineer
Wednesday June 3, 2026 11:20am - 12:10pm JST
Next 1

12:20pm JST

ARA Audio Random Accessで音楽制作 / Making Music With ARA Audio Random Access
Wednesday June 3, 2026 12:20pm - 12:50pm JST
これまでのADC講演では、ARAのコアコンセプトと技術設計について解説し、製品へのAPI実装方法や今後の開発ロードマップを示してきましたが、今回の講演では開発者の視点から消費者の視点へと切り替えます。ARAテクノロジーによって実現される実際のワークフローを実演し、APIの様々な要素がどのように連携して音楽​​制作のクリエイティブプロセスを推進していくのかをご紹介します。

---

While my previous ADC talks explored the core concepts and technical designs of ARA, provided guidance on how to implement the API in you products, and laid out the road map for its ongoing development, this talk will switch from the developer to the consumer perspective. I will demonstrate real-life work flows enabled by the ARA technology, and showcase how the various elements of the API all work together to drive forward the creative process of making music.

Speakers
avatar for Stefan Gretscher

Stefan Gretscher

ARA lead developer, Celemony Software GmbH
Stefan's career in audio programming has led him from hand-crafting bare-bones assembler on the DSP-based platforms of the late 90s to working on today's Melodyne and Tonalic with their huge high-level C++ code base. Along that path, his focus shifted from signal processing to software... Read More →
Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 1

12:50pm JST

ランチとネットワーキング / Lunch & Networking
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 1

2:00pm JST

An Interface That Expands the Possibilities of Tonal Selection by Transcending Fixed Concepts of Instrument Categories / 楽器カテゴリの固定観念を超えた音色選択の可能性を広げるインタフェース
Wednesday June 3, 2026 2:00pm - 2:50pm JST
In composition and arrangement using existing DAWs, users set appropriate timbres for each track from vast timbral datasets classified by category (such as instruments and sound source names). We reconsider this current text-based timbral search interaction itself and propose a new approach to expand creativity across diverse timbres. We have removed the conventional concept of timbral categories and have: 1) calculated relationships between timbres depending only on acoustic features, and 2) constructed an interface that enables visual confirmation of relationships between timbres. By visualizing similarity between timbres across categories, we provide serendipitous timbral exploration not constrained by conventional timbral categories. In this presentation, we will discuss the background of the proposed approach, technical overview, and usefulness based on user testing.

既存のDAWを用いた作曲や編曲では,カテゴリ(楽器や音源名など)ごとに分類された膨大な音色データセットの中からユーザが適切であると考える音色を各トラックに設定しています.我々は,このようなテキストベースで音色を検索する現状のインタラクション自体を見直し,多様な音色に創造性を広げるための新たなアプローチを提案します.従来の音色カテゴリの概念を取り払い,1)音響特徴量のみに依存した音色間の関連性を計算し,2)視覚的に音色間の関係を確認可能にするインタフェースを構築しました.カテゴリを横断して音色間の類似性を可視化することで,従来の音色カテゴリに縛られない偶察的な音色探索を提供します.本講演では,提案アプローチの背景,技術概要,およびユーザテストによる有用性について口述します.
Speakers
avatar for 米田美優 / Miyu Yoneda

米田美優 / Miyu Yoneda

Master Candidate, Kansai University


Wednesday June 3, 2026 2:00pm - 2:50pm JST
Next 1

3:00pm JST

Improving the audio quality of the Head-Related Transfer Function using machine learning / 機械学習による頭部伝達関数の音質向上
Wednesday June 3, 2026 3:00pm - 3:50pm JST
The Head-Related Transfer Function (HRTF) is a key technology for three-dimensional binaural audio rendering. However, issues regarding audio quality and HRTF personalization must be resolved for this technology to be adopted more widely. When HRTFs are applied to music production, audio quality may become problematic. Additionally, since HRTFs exhibit significant individual variation, personalized HRTFs—that is, HRTFs measured or customized for each user—are desirable, but cost becomes an issue. Therefore, for widespread adoption of HRTFs, a typical HRTF that provides consistent effectiveness for everyone is needed.

The speaker proposes using Generalized HRTF (GHRTF) based on machine learning as a solution to these problems. This presentation first outlines the fundamentals and challenges of HRTFs and binaural rendering. Then it presents the definition of GHRTFs that achieve high audio quality, along with estimation methods based on machine learning and their results. Next, the presentation demonstrates a learning method for Typical GHRTFs based on data from numerous subjects and provides estimation examples. Finally, the presentation describes its application to SoundObject, an object-based three-dimensional spatial audio VST 3 plug-in that the speaker has made freely available to the public. The presentation concludes that this approach yields clearer directionality and higher audio quality compared to conventional dummy head HRTFs.

The presentation materials are in both English and Japanese.

頭部伝達関数 (Head-Related Transfer Function: HRTF) はバイノーラル再生による立体音響のキーテクノロジーです.しかし,この技術の普及には音質と頭部伝達関数の個人化の問題を解決する必要があります.頭部伝達関数を音楽制作に適用した場合,音質が問題となる場合があります.また,頭部伝達関数は個人差が大きいため,頭部伝達関数の個人化,即ち利用者毎に計測ないしカスタマイズした頭部伝達関数の使用が望ましいが,コストが問題となります.従って,頭部伝達関数の普及には,誰でも一定の効果が得られる典型的な頭部伝達関数が必要となります.

講演者はこれらの問題の解決方法として,機械学習による一般化頭部伝達関数 (Generalized HRTF) を提案しています.本講演は最初に,頭部伝達関数およびバイノーラル再生の概要と課題を述べます.そして,高い音質を実現する一般化頭部伝達関数の定義と機械学習による推定方法と推定結果を示します.次に本講演は,多数の被験者データに基づく典型的な一般化頭部伝達関数 (Typical GHRTF) の学習方法と推定例を示します.最後に,講演者が無償で公開しているオブジェクトベースの 3 次元立体音響 VST3 プラグインである SoundObject への適用を述べ,従来のダミーヘッドによる頭部伝達関数と比較して,より明確な方向感と高い音質が得られる事を述べます.

プレゼンテーション資料は英語日本語併記となります.
Speakers
avatar for suzumushi

suzumushi

Independent developer, 個人開発者
Areas of expertise: analog and digital signal processing, circuit design, computer architecture, low-level programming, and UNIX kernel.
得意分野は,アナログおよびディジタル信号処理,回路設計,コンピュータアーキテクチャ,低レベルプログラミング,UNIX... Read More →

Wednesday June 3, 2026 3:00pm - 3:50pm JST
Next 1

3:50pm JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 3:50pm - 4:30pm JST

Wednesday June 3, 2026 3:50pm - 4:30pm JST
Next 1

4:30pm JST

初音ミクを支える基幹技術と今後の展開 / Core Technologies Supporting Hatsune Miku and Future Development
Wednesday June 3, 2026 4:30pm - 5:20pm JST
初音ミクは単なる音源の枠を超え、高度な表現力と即時応答性を備えた「歌声シンセサイザ」へと進化を遂げてきました。本セッションでは、これらの要件を満たすために開発されたリアルタイム歌声合成の基幹技術について、従来の減算合成ベースの歌唱合成方式から加算合成ベースのアプローチへのアーキテクチャ転換を中心に解説します。
歌声合成における根本的な技術課題である「計算コストとスペクトル再構築の忠実度の両立」、そして「自然さを損なわない緻密な制御性の確保」について掘り下げます。特に、なぜ加算合成アーキテクチャを採用したのか、減算合成等の他方式と比較した際の時系列上の忠実度やスペクトル操作の自由度における利点とトレードオフについて詳述します。
また、一般的なコンシューマ環境でリアルタイム性能を維持するための最適化戦略として、パラメータ圧縮の思想や計算負荷の管理手法についても触れます。最後に、次世代のクリエイティビティを支えるためのSDK化を見据えた設計や、エンジンの拡張可能性など、今後の展望を共有します。

---

Hatsune Miku has evolved beyond a mere sound source into a "singing voice synthesizer" equipped with advanced expressiveness and real-time responsiveness. This session explains the core technologies of real-time singing voice synthesis developed to meet these requirements, focusing on the architectural shift from conventional subtractive synthesis-based singing synthesis methods to additive synthesis-based approaches.

We delve into fundamental technical challenges in singing voice synthesis: "balancing computational cost with the fidelity of spectral reconstruction" and "ensuring precise controllability without compromising naturalness." In particular, we detail why the additive synthesis architecture was adopted, and discuss the advantages and trade-offs in time-series fidelity and spectral manipulation flexibility compared to other methods such as subtractive synthesis.

Additionally, as optimization strategies for maintaining real-time performance in general consumer environments, we address parameter compression concepts and computational load management techniques. Finally, we share future perspectives including SDK-oriented design to support next-generation creativity and engine extensibility.
Speakers
QW

黒田 毅

Crypton Future Media, Inc.
avatar for Yamane Soichi

Yamane Soichi

Crypton Future Media, Inc.

avatar for Junichi Iwasaki

Junichi Iwasaki

Audio Programmer, Crypton Future Media, Inc.
Wednesday June 3, 2026 4:30pm - 5:20pm JST
Next 1
 
Share Modal

Share this link via

Or copy link

Filter sessions
Apply filters to sessions.
Filtered by Date -