Loading…
ADC Japan 2026 has ended
arrow_back View All Dates
Wednesday, June 3
 

8:00am JST

登録 / Registration
Wednesday June 3, 2026 8:00am - 9:00am JST

Wednesday June 3, 2026 8:00am - 9:00am JST
Akiba Square

9:00am JST

スケール規模でのリアルタイムAIオーディオ処理:クラウドネイティブオーディオアプリケーションの構築 / Real-Time AI Audio Processing at Scale: Building Cloud-Native Audio Applications
Wednesday June 3, 2026 9:00am - 9:50am JST
AIとクラウドコンピューティングの融合は、オーディオ開発に革命をもたらしています。このセッションでは、AWSクラウドサービスがいかにオーディオ開発者が、音声認識、オーディオ合成、リアルタイムストリーミング、生成型オーディオコンテンツ向けのスケーラブルなAI駆動型アプリケーションを構築できるようにするかを探ります。

以下の実用的なアーキテクチャを実演します:

AWS Media Servicesを使用したAIベースのダビングおよび翻訳によるリアルタイムオーディオ処理
Amazon Polly、Transcribe、および生成型AIモデルを使用した音声合成と認識
Amazon Kinesisおよびサーバーレスコンピューティングによるスケーラブルなオーディオストリーミングアーキテクチャ
Amazon SageMakerでのオーディオMLモデルの構築とスケール時のデプロイ
AWS生成型AIサービスを使用したオーディオデータからのセンチメント分析
参加者はオーディオ開発向けのクラウドネイティブパターンを学びます。これにはKubernetesでのコンテナ化、イベント駆動型アーキテクチャ、およびAIワークロード向けのGPU最適化インフラストラクチャが含まれます。

---

The convergence of AI and cloud computing is revolutionizing audio development. This session explores how AWS cloud services enable audio developers to build scalable, AI-powered applications for speech recognition, audio synthesis, real-time streaming, and generative audio content.

We'll demonstrate practical architectures for:

Real-time audio processing with AI-based dubbing and translation using AWS Media Services
Speech synthesis and recognition using Amazon Polly, Transcribe, and generative AI models
Scalable audio streaming architectures with Amazon Kinesis and serverless computing
Building audio ML models with Amazon SageMaker and deploying them at scale
Sentiment analysis from audio data using AWS generative AI services
Attendees will learn cloud-native patterns for audio development, including containerization with Kubernetes, event-driven architectures, and GPU-optimized infrastructure for AI workloads.
Speakers
avatar for Vishal Alhat

Vishal Alhat

Developer Advocate, AWS

Vishal Alhat is a Developer Advocate at Amazon Web Services (AWS) and a former AWS Hero, recognized for his significant contributions to the AWS community. With 11+ years of experience in cloud technologies, Vishal specializes in DevOps, cloud security, and AI/ML.As an active community... Read More →
Wednesday June 3, 2026 9:00am - 9:50am JST
Next 1

9:00am JST

メディア全体にわたる直感的インタラクティブ音楽システムの構築 / Creating Intuitive Interactive Music Systems Across Media
Wednesday June 3, 2026 9:00am - 9:50am JST
Music technology has enabled artists and engineers to create highly interactive musical systems in many different forms of media, from games, to art installations and instruments. In this talk I share ideas on ways to approach technology and tools such as data, sensors and hardware, MIDI or OSC, and programming languages, in order to create systems that are intuitive to engage by the audience across media that involves sound.

音楽技術により、アーティストとエンジニアは、ゲーム、アート・インスタレーション、楽器など、多くの異なるメディア形式で、高度にインタラクティブな音楽システムを作成することができるようになりました。このトークでは、データ、センサー、ハードウェア、MIDIやOSC、プログラミング言語などのテクノロジーとツールに取り組む方法についてのアイデアを共有し、音を含むメディア全体で観客が直感的に操作できるシステムを作成する方法をお話しします。
Wednesday June 3, 2026 9:00am - 9:50am JST
Next 3

9:00am JST

インタラクティブ機械学習ツールの設計:音楽生成モデル向け / Designing Interactive Machine Learning Tools for Music Generation Models
Wednesday June 3, 2026 9:00am - 9:50am JST
In recent years, generative models have become capable of generating high-quality music from natural language. However, the mechanisms to adequately respond to repeated trial-and-error and fine-grained nuance adjustments that occur throughout the production process remain in a developmental stage.
近年の生成モデルは、自然言語から高品質な音楽を生成できるようになりました。一方で、制作の過程で繰り返される試行錯誤や細かなニュアンスの調整に、十分に応答できる仕組みはまだ発展途上にあります。

本講演では、インタラクティブ機械学習の考え方に基づき、ユーザが制作過程で生み出す少量のローカルデータを活用したり、生成モデルの潜在空間を操作していく設計アプローチを紹介します。探索やパラメータ操作を対話的なループに組み込むことで、生成モデルの出力を単に「選ぶ」だけでなく、自身の制作プロセスに組み込みながら活用できる構造を提示します。

講演者の研究事例を交えながら、生成モデルの可視化、リアルタイム制御、ライブパフォーマンスへの応用、さらにオーディオプラグインやツールとしての設計例を紹介します。音楽生成AIを作曲・編曲・サウンドデザインのワークフローにどのように統合できるのか、新しい実践的アプローチを議論します。

---

This presentation introduces design approaches based on interactive machine learning, where users can leverage small amounts of local data generated during the production process and manipulate the latent space of generative models. By incorporating exploration and parameter manipulation into an interactive loop, we present a structure that allows generative model outputs to be not merely "selected," but rather integrated into and utilized within one's own production process.

Through research case studies from the presenter, we will introduce visualization of generative models, real-time control, applications to live performance, and design examples as audio plugins and tools. We will discuss new practical approaches for how music generation AI can be integrated into workflows for composition, arrangement, and sound design.

Speakers
avatar for Junichi Shimizu

Junichi Shimizu

研究者/サウンドアーティスト。2019年 MUTEK.JP AI Music Labでのパフォーマンスを機に音楽活動を開始。インタラクティブミュージックをはじめ、サウンドプログラミングを活用した作品を数多く手掛ける。2022–23... Read More →
Wednesday June 3, 2026 9:00am - 9:50am JST
Next 2

9:00am JST

協賛展示品 / Sponsor Exhibits
Wednesday June 3, 2026 9:00am - 5:30pm JST

Wednesday June 3, 2026 9:00am - 5:30pm JST
Akiba Square

10:00am JST

AI対アルゴリズム:倫理的ボーカル合成を通じて「シーン」を取り戻す / AI vs. The Algorithm: Reclaiming "The Scene" through Ethical Vocal Synthesis
Wednesday June 3, 2026 10:00am - 10:50am JST
生成型オートメーションの時代において、アーティストと観客の伝統的な境界が溶解しつつあります。本セッションでは、人間の声が静的な録音から動的でプロフェッショナルな楽器へと移行する過程を探ります。ビルボード・チャート入りのフロントマンであり、MBAストラテジストとしての経験を踏まえて、ボーカル合成、特にHXVOCボイスバンクの開発がいかにクリエイターに対してアルゴリズムの「冷たい壁」を乗り越えることを可能にするかを実演します。大量消費から分散型著作権へのシフトについて議論し、テクノロジーがパフォーマーに取って代わるのではなく、グローバルコミュニティが独自のレガシーを構築する力を与えることを示します。

---

In an era of generative automation, the traditional boundary between artist and audience is dissolving. This session explores the transition of the human voice from a static recording to a dynamic, professional instrument. Drawing on my experience as a Billboard-charting frontman and MBA strategist, I will demonstrate how vocal synthesis—specifically the development of the HXVOC voicebank—enables creators to bypass the 'cold wall' of the algorithm. We will discuss the ethical shift from mass-consumption to distributed authorship, showing that technology will not replace the performer, but empower a global community to build its own legacy.

Speakers
avatar for Seann Nicols

Seann Nicols

Nerve Strike Records


Wednesday June 3, 2026 10:00am - 10:50am JST
Next 2

10:00am JST

さびは徐々に成長し、一度にすべて現れるわけではありません。 / Rust grows gradually, it doesn't appear all at once
Wednesday June 3, 2026 10:00am - 10:50am JST
Rustの利点にもかかわらず、他の言語向けに構築された既存のエコシステム(JUCE、VST3 SDK)、成長に費やされた全体的な時間の不足、および親しみやすさへの一般的な訴求力といった要因により、採用は限定的です。

このトークではCSickを紹介します。これはC++とRust間のブリッジ(フェリーではなく)を提供するために設計された、自動FFI生成用のスキャフォールディングシステムです。

以前のソリューションは、Rust開発に適応した親しみやすいワークフローで移行を容易にすることで、開発者の抵抗感に対処することに焦点を当ててきました(例:cxx-juce)。Rustが主導的な役割を担い、C++は必要な場合のみです。

これとは対照的に、CSickは段階的な採用を可能にするために構築されています。既存のC++コードベースにRustコードを一度に1つのチャンクずつ統合し、開発者が完全に乗り換えることなくRustの利点を享受できるようにします。

---

Despite Rust's benefits, it has seen limited adoption due to factors including existing ecosystems built for other languages (JUCE, VST3 SDK), less overall time to grow, and the general appeal of familiarity.

This talk showcases CSick, a scaffolding system for automated FFI generation designed to provide a bridge, not a ferry, between C++ and Rust.

Previous solutions have focused on addressing developers' reluctance by easing the transition with familiar workflows adapted for Rust development (e.g. cxx-juce), with Rust as the forerunner and C++ only when necessary.

By contrast, CSick is built to allow gradual adoption—integrating Rust code into existing C++ codebases one chunk at a time—allowing developers to reap Rust’s benefits without entirely jumping ship.
Speakers
Wednesday June 3, 2026 10:00am - 10:50am JST
Next 3

10:00am JST

Moogスタイルラダーフィルターのアナログ的特性をいかに評価するか?1ドルクラスのマイクロコントローラー上での検証 / How Close Is Close Enough? Evaluating Analog-Likeness of Moog-Style Ladder Filters on a $1-Class Microcontroller
Wednesday June 3, 2026 10:00am - 10:50am JST
$1クラスのマイクロコントローラー上でアナログラダーフィルターをモデル化する場合、どの程度が十分に近いのか?

マイクロコントローラーは、デスクトップの仮想アナログ環境と根本的に異なる厳密な計算制約の下で動作します。このようなシステムにMoogスタイルのラダーフィルターを実装する場合、アナログライクさの定義と評価は実用的なエンジニアリングの課題となります。

本研究は、RP2350マイクロコントローラー上で動作する仮想アナログシンセサイザーの開発に動機づけられており、説得力のあるアナログの感覚を提供するように設計されています。実用的な評価指標は、レゾナンスピークアライメント、Q一貫性、正規化調和スペクトラム、レベル依存カットオフシフト、および自己発振動作を含めて統合されています。本講演では、これらのメトリクスを意味のある方法で再現可能に測定する方法についても説明します。

公開されているアルゴリズム、Teensy Audio Library、DaisySP、JUCEなどのオープンソースオーディオライブラリから引き出されたラダーフィルター実装は、RP2350に移植され、再現可能なアナログ参照として機能するSPICE回路シミュレーションに対して評価されます。測定結果は、厳密なハードウェア制約の下で各実装がどの程度密接にアナログ動作に近づくことができるかを検証するために提示されます。

---

How close is close enough when modeling analog ladder filters on a $1-class microcontroller?

Microcontrollers operate under strict computational constraints that fundamentally differ from desktop virtual analog environments. When implementing Moog-style ladder filters in such systems, defining and evaluating analog-likeness becomes a practical engineering challenge.

This work is motivated by the development of a virtual analog synthesizer running on an RP2350 microcontroller, designed to deliver a convincing analog feel. Practical evaluation metrics are consolidated, including resonance peak alignment, Q consistency, normalized harmonic spectra, level-dependent cutoff shift, and self-oscillation behavior. The talk also discusses how these metrics can be meaningfully and reproducibly measured.

Ladder filter implementations drawn from published algorithms, open-source audio libraries such as Teensy Audio Library, DaisySP, and JUCE, are ported to the RP2350 and evaluated against a SPICE circuit simulation serving as a reproducible analog reference. Measurement results are presented to examine how closely each implementation can approach analog behavior under strict hardware constraints.

Speakers
avatar for Hiroyuki Oyama

Hiroyuki Oyama

Independent Researcher
I work as a data analyst in track cycling.

As an independent researcher and developer, I study and build virtual-analog synthesizers, focusing on embedded audio DSP for small microcontrollers. My recent work investigates how far devices such as the Raspberry Pi Pico 2 can be pushed for serious musical instruments, with particular... Read More →
Wednesday June 3, 2026 10:00am - 10:50am JST
Next 1

10:50am JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 10:50am - 11:20am JST

Wednesday June 3, 2026 10:50am - 11:20am JST
Next 3

10:50am JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 10:50am - 11:20am JST

Wednesday June 3, 2026 10:50am - 11:20am JST
Next 2

10:50am JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 10:50am - 11:20am JST

Wednesday June 3, 2026 10:50am - 11:20am JST
Next 1

11:20am JST

1つのUI、1つのDSP、どこでも:オーディオプラグイン向けChromiumベースのランタイム / One UI, One DSP, Everywhere: A Chromium-Based Runtime for Audio Plugins
Wednesday June 3, 2026 11:20am - 12:10pm JST
現代のオーディオプラグイン開発では、依然として高い移植性のコストが発生しています。OS およびホストごとに異なる UI/DSP スタック、繰り返されるリビルド、自動化が難しい検証が必要です。本発表では、Chromium を互換性ランタイムとして扱い、そのオーディオグラフを DAW プラグインホスト (VST) に直接トンネリングする「一度書いたら、どこでも実行できる」アプローチを紹介します。これにより、UI と DSP の両方に単一のコードベースを使用して、複数の環境で実行できます。

移植性を超えて、このランタイムはオーディオに対する DevOps スタイルのワークフローを実現します。外部から制御されるタイミング、確定的なオフラインレンダリング、AudioWorklet スタイルの処理に対する CI フレンドリーな回帰テストです。実装可能な概念実証を提示し、主要なアーキテクチャの選択とトレードオフについて説明し、この基盤がどのようにしてエコシステム規模での迅速な反復を実現できるかを示します。特に自動化と AI 支援開発が標準化されるにつれて、その重要性が高まります。

---

Modern audio plug-in development still pays a steep portability tax: separate UI/DSP stacks per OS and host, repeated rebuilds, and validation that’s hard to automate. This talk introduces a “write once, run everywhere” approach that treats Chromium as a compatibility runtime and tunnels its audio graph directly into a DAW plug-in host (VST)—allowing a single codebase for both UI and DSP to run across environments.

Beyond portability, the runtime enables a DevOps-style workflow for audio: externally controlled timing, deterministic offline rendering, and CI-friendly regression testing for AudioWorklet-style processing. We’ll present a working proof-of-concept, outline the key architectural choices and trade-offs, and show how this foundation can unlock faster iteration at ecosystem scale—especially as automated and AI-assisted development becomes the norm.

Speakers
avatar for Yuichi Yogo

Yuichi Yogo

Founder/CEO, Escentier, LLC
Musician, Software Engineer
Wednesday June 3, 2026 11:20am - 12:10pm JST
Next 1

11:20am JST

微分可能な人工リバーブの構築とトレーニング / Building and Training Differentiable Artificial Reverbs
Wednesday June 3, 2026 11:20am - 12:10pm JST
微分可能な人工残響は、スタイル転送、ブラインド推定、音声強調など、幅広いオーディオ機械学習タスクに対処する可能性を持っています。この研究領域は急速に成長しており、特に微分可能デジタル信号処理の分野において、ここ数年で多くの新しいアプローチが提案されています。その結果、多くの微分可能なリバーブアーキテクチャが出現しました。同時に、これらの発展は、残響の知覚的に重要な時間領域および周波数領域の特性を適切に捉える損失関数の必要性を浮き彫りにしています。

本講演では、リアルタイムアプリケーションに適したアーキテクチャに焦点を当てた、最近の文献からの主要な結果をレビューします。具体的には、異なるアーキテクチャの選択、最適化戦略、および残響に合わせた損失関数を設計するための実用的な洞察について説明します。また、標準的な既製の損失関数がリバーブおよびリバーブ処理された信号をより適切に処理するように適応させられる方法についても探求します。最後に、現在の課題と未解決の研究課題、ならびに空間オーディオアプリケーションに焦点を当てた前向きな展望で結論付けます。

---

Differentiable artificial reverberation has the potential to address a wide range of audio machine-learning tasks, including style transfer, blind estimation, and speech enhancement. This research area has grown rapidly, with many new approaches proposed over the past few years, particularly within the field of differentiable digital signal processing. As a result, numerous differentiable reverb architectures have emerged. At the same time, these developments highlight the need for loss functions that properly capture the perceptually important time- and frequency-domain characteristics of reverberation.

In this talk, we will review key results from recent literature with a focus on architectures suitable for real-time applications. Specifically, we will discuss different architecture choices, optimization strategies, and practical insights for designing loss functions tailored to reverberation. We will also explore how standard, off-the-shelf loss functions can be adapted to better handle reverb and reverberated signals. We will conclude with a forward-looking perspective, highlighting current challenges and open research questions, as well as spatial audio applications.

Speakers
avatar for Gloria Dal Santo

Gloria Dal Santo

Doctoral Researcher, Aalto University Acoustics Lab
Gloria Dal Santo received the M.Sc. degree in electrical and electronic engineering from the EPFL, Switzerland, in 2022. During her studies, she focused on the modeling and cancellation of acoustic echo. She is currently pursuing a doctoral degree at the Acoustics Lab, Aalto University... Read More →
Wednesday June 3, 2026 11:20am - 12:10pm JST
Next 2

11:20am JST

モバイルDAW時代の落とし穴:iOS AUv3実装の制約と実践知 / The Pitfalls of the Mobile DAW Era: Constraints and Practical Knowledge of iOS AUv3 Implementation
Wednesday June 3, 2026 11:20am - 12:10pm JST
弊社ではPC向け歌声合成アプリケーションを開発しており、そのアーキテクチャを基にiOS向けAUv3プラグインとしての実装に取り組みました。しかし、歌詞入力を前提とするUI設計、大容量モデルの扱い、初期化コストの高さといった歌声合成特有の要件は、AUv3の実行モデルやSandbox制約、Extension起動時の制限、iOSのメモリ管理特性と密接に関係します。
本講演では、歌声合成アプリケーションをAUv3として成立させる過程で直面した技術的制約を整理し、モバイル環境でAUv3を設計する際に前提とすべき観点を共有します。

---

Our company develops a singing voice synthesis application for PC, and based on that architecture, we undertook implementation as an AUv3 plugin for iOS. However, requirements specific to singing voice synthesis—such as UI design premised on lyrics input, handling of large-scale models, and high initialization costs—are closely related to AUv3's execution model, sandbox constraints, extension launch restrictions, and iOS memory management characteristics.

In this presentation, we will organize the technical constraints we encountered in the process of realizing a singing voice synthesis application as an AUv3 plugin, and share perspectives that should be prerequisites when designing AUv3 in a mobile environment.

Speakers
avatar for 石井祐多 / Yuta Ishii

石井祐多 / Yuta Ishii

Software Engineer, Techno-Speech, Inc.
独立系SIer, 音響機器メーカーを経て、(株)テクノスピーチにてアプリケーション開発を担当。
並行して個人事業主としても活動中。
Wednesday June 3, 2026 11:20am - 12:10pm JST
Next 3

12:20pm JST

ARA Audio Random Accessで音楽制作 / Making Music With ARA Audio Random Access
Wednesday June 3, 2026 12:20pm - 12:50pm JST
これまでのADC講演では、ARAのコアコンセプトと技術設計について解説し、製品へのAPI実装方法や今後の開発ロードマップを示してきましたが、今回の講演では開発者の視点から消費者の視点へと切り替えます。ARAテクノロジーによって実現される実際のワークフローを実演し、APIの様々な要素がどのように連携して音楽​​制作のクリエイティブプロセスを推進していくのかをご紹介します。

---

While my previous ADC talks explored the core concepts and technical designs of ARA, provided guidance on how to implement the API in you products, and laid out the road map for its ongoing development, this talk will switch from the developer to the consumer perspective. I will demonstrate real-life work flows enabled by the ARA technology, and showcase how the various elements of the API all work together to drive forward the creative process of making music.

Speakers
avatar for Stefan Gretscher

Stefan Gretscher

ARA lead developer, Celemony Software GmbH
Stefan's career in audio programming has led him from hand-crafting bare-bones assembler on the DSP-based platforms of the late 90s to working on today's Melodyne and Tonalic with their huge high-level C++ code base. Along that path, his focus shifted from signal processing to software... Read More →
Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 1

12:20pm JST

Training: Teach More, Reach More トレーニング:より多くを教え、より多くの人々に影響を与える / Training: Teach More, Reach More
Wednesday June 3, 2026 12:20pm - 12:50pm JST
顧客基盤を拡大していく上で、教育が重要であることは広く認められている事実です。しかし、なぜ教育を通じて大きな成果を上げるのが難しいのでしょうか?トレーニングには多大な労力とコストがかかるにもかかわらず、直接的な収益や市場シェアの拡大はなかなか実現しないように思えます。

この講演では、アンディとアレックスが、Avidの認定プログラムを小規模なマーケティング活動から年間800万ドルの収益を生み出す事業へと成長させた経緯について、彼らの知見を共有します。教育市場で成功するための秘訣、そして毎年何十万人もの学生に自社製品を届けるための方法を学ぶことができます。

---

Education is important, that’s a widely accepted fact in building a growing customer base. But why is it so hard to make big gains through education? It seems like training involves a lot of effort and cost, but direct revenue and market gains are elusive.

In this talk, Andy and Alex will share their insights, and how grew Avid’s Certification program from a small marketing initiative to a US$8 million per year profit center. You’ll learn how to win in the education market, and the what you can do to get your product in front of hundreds of thousands of students — every year.

Speakers
avatar for Andy Hagerman

Andy Hagerman

Maru Training
avatar for Alex Brooke

Alex Brooke

Maru Training

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 3

12:20pm JST

オーディオプログラミングコミュニティの始め方 / How to Start an Audio Programming Community
Wednesday June 3, 2026 12:20pm - 12:50pm JST
本講演は日本語で行います

この講演では、株式会社COCOTONEの創業者兼CEOである塩澤達矢氏が、オーディオプログラマーのためのコミュニティを立ち上げ、10年間にわたって続けてきた自身の経験と具体的な手順について語ります。

技術同人誌『JUCE JAPAN』の出版に始まり、商標権の調査や権利者との許諾交渉、ミートアップや勉強会の主催、イベントへのゲスト登壇、そして音楽分野のイベント・学会・カンファレンスへのスポンサーシップまで——技術的な話はあえて脇に置き、「コミュニティ活動の実際」を一人の実践者の視点から共有します。

続けることの楽しさと切なさ、そして成功も難しさも含めた「私の場合」の物語です。コミュニティ活動に関わってみたいすべての人へ。

---
This session is in Japanese

In this talk, Tatsuya Shiozawa, Founder and CEO of COCOTONE, Inc., shares his personal experiences and the practical steps he has taken over ten years of starting and sustaining a community for audio programmers.

From self-publishing the technical book JUCE JAPAN—including researching trademarks and negotiating permissions with rights holders—to hosting meetups and study sessions, speaking as a guest at events, and sponsoring conferences and gatherings in the music field, he sets the technical topics aside to share the "reality of community activity" from a practitioner's point of view.

This is the story of "my case": the joys and the quiet frustrations of keeping things going, and both the successes and the challenges along the way—for anyone who has ever thought about getting involved in a community.
Speakers
avatar for Tatsuya Shiozawa

Tatsuya Shiozawa

Founder and CEO, COCOTONE, Inc.
Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 2

12:50pm JST

ランチとネットワーキング / Lunch & Networking
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 1

12:50pm JST

ランチとネットワーキング / Lunch & Networking
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 2

12:50pm JST

ランチとネットワーキング / Lunch & Networking
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 3

2:00pm JST

Androidとオーディオプラグイン:現状報告 / Android and Audio Plugins: State of Union
Wednesday June 3, 2026 2:00pm - 2:50pm JST
クロスプラットフォーム音声アプリとプラグインを構築する場合、それらはほとんどがデスクトップで、時々iOSを含みますが、Androidではずっと少ないことが起こっています。2026年までにAndroidのオーディオレイテンシーが大幅に改善されたため、次の問題に取り組む必要があります。Androidではオーディオプラグインフォーマットが不足しているのです。Appleは優れたエコシステムを持っているので、Androidのために1つを設計してみてはいかがでしょうか?

しかし、なぜ単純にVST3、CLAP、またはLV2をAndroidで使用できないのかと疑問に思うでしょう。それは単純ではないからです。Appleの AudioUnit V3から多くの教訓を得ており(または学習中)、Logic Proへの彼らの取り組みからも学んでいます。

このセッション全体を通じて、過去の成果を通じてAndroidでオーディオプラグイン機能を実現することがどのようにして難しいのか、そしてそれにどう対処するかについて説明します。多様なプラグインベンダーから特定のDAWに縛られずにオーディオプラグインコンテンツを公開する、DAWとプラグイン間でオーディオおよびイベントデータを渡す、DAW上にプラグインGUIを表示するなど、多くの課題があります。また、独自フレームワークだけではなく、アプリ内で完全なリアルタイム機能を達成するためにAndroidプラットフォーム自体に何が不足しているのかについても議論します。

MIDI 2.0統合(次世代の予定であるJUCE AudioProcessor)、CLAP優先開発、MCP統合などのAI機能など、オーディオプラグイン開発には多くのトレンドがあります。プラグインフォーマットが取り組むべき機能と取り組むべきではない機能について、特にCLAPを参考にして議論します。JUCEがここで「フォーマット」になれない理由も学べます。

最後に、プラグインフォーマットの設計はマイルストーンであり、目標ではありません。また、プラグイン「エコシステム」の実現も必要です。これはしばしば鶏と卵の問題として理解されています。既存の取り組みとともにこれについて議論します。

---

When we build cross-platform music apps and plugins, they are mostly desktop and sometimes including iOS, but much less happens on Android. Since Android audio latency has improved a lot by 2026, we have to tackle the next problem: we are missing audio plugin formats on Android. Apple has good ecosystem, so why not designing one for Android?

But you would wonder, why can't we just simply take VST3, CLAP, or LV2 on Android? Because, it is not that simple. We have a lot of lessons learned (or, learning) from Apple AudioUnit V3, along with their efforts on Logic Pro.

Throughout this session we will explain what is tricky to achieve audio plugin functionality on Android through past accomplishments, and how to deal with it. There are many issues such as, publishing audio plugin products from diverse plugin vendors without being tied to a specific DAW, passing audio and event data between a DAW and a plugin, showing plugin GUI on a DAW, and so on. We also discuss what's missing on Android platform itself to achieve full realtime capability within our apps, not just their own framework.

There are many trends on audio plugin development such as MIDI 2.0 integration like (upcoming next-gen. JUCE AudioProcessor), CLAP-first development, AI-capability such as MCP integration. We discuss what kind of features a plugin format should and should NOT tackle, especially taking CLAP as a reference. You would also learn why JUCE cannot be a "format" here.

At last, designing a plugin format is just a milestone and not the goal. We also have to achieve a plugin "ecosystem", which is very often understood as chicken and egg problem. We would discuss this with some existing efforts.

Speakers
avatar for Atsushi Eno

Atsushi Eno

Chief Jobless Officer, androidaudioplugin.org
https://g0v.social/@atsushieno

https://bsky.app/profile/atsushieno.bsky.social
Wednesday June 3, 2026 2:00pm - 2:50pm JST
Next 2

2:00pm JST

NKIDO - オープンソースバイトコードシンセとライブコーディング環境 / NKIDO a Open Source Bytecode Synth and Live-Coding Environment
Wednesday June 3, 2026 2:00pm - 2:50pm JST
NKIDOはゼロから構築されたライブコーディングオーディオ環境です。Tidalに着想を得たパターン言語、95以上のDSPオプコードを持つゼロアロケーションC++20バイトコードVM、そしてWebAssemblyを介してそれらすべてを実行するブラウザIDEで構成されています。このトークでは、言語設計、ランタイムの内部構造、そしてAIを使用して60,000行のリアルタイムオーディオC++をバイブコードする経験についてカバーしています。

---

NKIDO is a live-coding audio environment built from scratch: a Tidal-inspired pattern language, a zero-allocation C++20 bytecode VM with 95+ DSP opcodes, and a browser IDE running it all via WebAssembly. This talk covers the language design, the runtime internals, and what it's like to vibe-code 60,000 lines of real-time audio C++ with AI.

Speakers
Wednesday June 3, 2026 2:00pm - 2:50pm JST
Next 3

2:00pm JST

An Interface That Expands the Possibilities of Tonal Selection by Transcending Fixed Concepts of Instrument Categories / 楽器カテゴリの固定観念を超えた音色選択の可能性を広げるインタフェース
Wednesday June 3, 2026 2:00pm - 2:50pm JST
In composition and arrangement using existing DAWs, users set appropriate timbres for each track from vast timbral datasets classified by category (such as instruments and sound source names). We reconsider this current text-based timbral search interaction itself and propose a new approach to expand creativity across diverse timbres. We have removed the conventional concept of timbral categories and have: 1) calculated relationships between timbres depending only on acoustic features, and 2) constructed an interface that enables visual confirmation of relationships between timbres. By visualizing similarity between timbres across categories, we provide serendipitous timbral exploration not constrained by conventional timbral categories. In this presentation, we will discuss the background of the proposed approach, technical overview, and usefulness based on user testing.

既存のDAWを用いた作曲や編曲では,カテゴリ(楽器や音源名など)ごとに分類された膨大な音色データセットの中からユーザが適切であると考える音色を各トラックに設定しています.我々は,このようなテキストベースで音色を検索する現状のインタラクション自体を見直し,多様な音色に創造性を広げるための新たなアプローチを提案します.従来の音色カテゴリの概念を取り払い,1)音響特徴量のみに依存した音色間の関連性を計算し,2)視覚的に音色間の関係を確認可能にするインタフェースを構築しました.カテゴリを横断して音色間の類似性を可視化することで,従来の音色カテゴリに縛られない偶察的な音色探索を提供します.本講演では,提案アプローチの背景,技術概要,およびユーザテストによる有用性について口述します.
Speakers
avatar for 米田美優 / Miyu Yoneda

米田美優 / Miyu Yoneda

Master Candidate, Kansai University


Wednesday June 3, 2026 2:00pm - 2:50pm JST
Next 1

3:00pm JST

Improving the audio quality of the Head-Related Transfer Function using machine learning / 機械学習による頭部伝達関数の音質向上
Wednesday June 3, 2026 3:00pm - 3:50pm JST
The Head-Related Transfer Function (HRTF) is a key technology for three-dimensional binaural audio rendering. However, issues regarding audio quality and HRTF personalization must be resolved for this technology to be adopted more widely. When HRTFs are applied to music production, audio quality may become problematic. Additionally, since HRTFs exhibit significant individual variation, personalized HRTFs—that is, HRTFs measured or customized for each user—are desirable, but cost becomes an issue. Therefore, for widespread adoption of HRTFs, a typical HRTF that provides consistent effectiveness for everyone is needed.

The speaker proposes using Generalized HRTF (GHRTF) based on machine learning as a solution to these problems. This presentation first outlines the fundamentals and challenges of HRTFs and binaural rendering. Then it presents the definition of GHRTFs that achieve high audio quality, along with estimation methods based on machine learning and their results. Next, the presentation demonstrates a learning method for Typical GHRTFs based on data from numerous subjects and provides estimation examples. Finally, the presentation describes its application to SoundObject, an object-based three-dimensional spatial audio VST 3 plug-in that the speaker has made freely available to the public. The presentation concludes that this approach yields clearer directionality and higher audio quality compared to conventional dummy head HRTFs.

The presentation materials are in both English and Japanese.

頭部伝達関数 (Head-Related Transfer Function: HRTF) はバイノーラル再生による立体音響のキーテクノロジーです.しかし,この技術の普及には音質と頭部伝達関数の個人化の問題を解決する必要があります.頭部伝達関数を音楽制作に適用した場合,音質が問題となる場合があります.また,頭部伝達関数は個人差が大きいため,頭部伝達関数の個人化,即ち利用者毎に計測ないしカスタマイズした頭部伝達関数の使用が望ましいが,コストが問題となります.従って,頭部伝達関数の普及には,誰でも一定の効果が得られる典型的な頭部伝達関数が必要となります.

講演者はこれらの問題の解決方法として,機械学習による一般化頭部伝達関数 (Generalized HRTF) を提案しています.本講演は最初に,頭部伝達関数およびバイノーラル再生の概要と課題を述べます.そして,高い音質を実現する一般化頭部伝達関数の定義と機械学習による推定方法と推定結果を示します.次に本講演は,多数の被験者データに基づく典型的な一般化頭部伝達関数 (Typical GHRTF) の学習方法と推定例を示します.最後に,講演者が無償で公開しているオブジェクトベースの 3 次元立体音響 VST3 プラグインである SoundObject への適用を述べ,従来のダミーヘッドによる頭部伝達関数と比較して,より明確な方向感と高い音質が得られる事を述べます.

プレゼンテーション資料は英語日本語併記となります.
Speakers
avatar for suzumushi

suzumushi

Independent developer, 個人開発者
Areas of expertise: analog and digital signal processing, circuit design, computer architecture, low-level programming, and UNIX kernel.
得意分野は,アナログおよびディジタル信号処理,回路設計,コンピュータアーキテクチャ,低レベルプログラミング,UNIX... Read More →

Wednesday June 3, 2026 3:00pm - 3:50pm JST
Next 1

3:00pm JST

日本でオーディオソフトウェア会社を立ち上げる方法 / How to Start an Audio Software Company in Japan
Wednesday June 3, 2026 3:00pm - 3:50pm JST
日本において、技術的なブレークスルーをいかにして持続可能な企業へと結びつけていくのか? Dreamtonics創業者のKanru Hua氏と、AHS創業者の尾形友秀氏が、それぞれの日本での創業期における経験を語り合います。海外出身の開発者と、国内業界のベテランという対照的な視点を交えながら、「コードを書くこと」から「ビジネスを構築すること」へと移行するために、実際に何が必要なのかを掘り下げて議論します。経験豊富なエンジニアであれ、起業を目指す志望者であれ、本セッションは日本のオーディオ・エコシステムをゼロから切り拓いていくための、率直かつリアルな視座を提供します。

---

How do you go from a technical breakthrough to a sustainable company in Japan? Kanru Hua (Founder of Dreamtonics) and Tomohide Ogata (Founder of AHS) share their experiences of the founding phase of their respective companies in Japan. By contrasting the perspectives of a foreign developer and a local industry veteran, they will discuss what it actually takes to move from “writing code” to “building a business.” Whether you are a seasoned engineer or an aspiring entrepreneur, this talk offers a candid look at navigating the Japanese audio ecosystem from the ground up.

Speakers
avatar for Kanru Hua

Kanru Hua

Founder & CEO, Dreamtonics
Kanru Hua founded Dreamtonics (developer of Synthesizer V) in 2019, after dropping out of University of Illinois. A self-taught programmer and researcher, Kanru has been focusing on bridging speech signal processing algorithms with the latest advances in generative models, as well... Read More →
avatar for Tomohide Ogata

Tomohide Ogata

Exective Director. Founder, AHS
ソフトウェアを中心に企画、販売を行うAHSを2005年に設立。それ以前から30年近くソフトウェア事業を行っている。現在日本での音楽ソフトウェア、ユーティリティソフトウェアのシェアがナンバー1... Read More →
Wednesday June 3, 2026 3:00pm - 3:50pm JST
Next 3

3:00pm JST

React でビート制作:Elementary を使用したクロスプラットフォーム オーディオ開発 / Making Beats with React: Cross-Platform Audio Dev with Elementary
Wednesday June 3, 2026 3:00pm - 3:50pm JST
クロスプラットフォーム対応のオーディオアプリの構築は難しく、長い間、音楽制作ツールに関してはAndroidがiOSから大きく遅れていました。しかし、その状況は変わりつつあります。Elementary Audioは、オーディオ体験の新しいパラダイムを導入しています。Webとネイティブレンダラーの両方に対応した共有JS APIを公開することで、プラットフォーム間でのコード再利用が自然に感じられるようになります。このトークでは、Elementary Audioを紹介し、react-native-elementaryについて説明し、今日実現できる可能性をデモンストレーションします。AIがいかに残された摩擦をわずかなものにしているかについても含めます。

---

Building cross-platform audio apps is difficult - and for a long time, Android lagged far behind iOS when it came to music-making tools. That's changing. Elementary Audio introduces a new paradigm for audio experiences: by exposing a shared JS API with both web and native renderers, it makes code reuse across platforms feel natural. In this talk, I'll introduce Elementary Audio, walk through react-native-elementary, and demo what's possible to build with it today - including how AI is removing what little friction remains.


Speakers
avatar for Ricardo Abreu

Ricardo Abreu

Software Engineer (Founder), Yonko Level
Software engineer and music producer based in London. Building Midicircuit at Yonko Level — an interactive app for learning music production — and releasing beats as TXBROWN. Interested in audio engineering, learning UX, and making music technology accessible to everyone.
Wednesday June 3, 2026 3:00pm - 3:50pm JST
Next 2

3:50pm JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 3:50pm - 4:30pm JST

Wednesday June 3, 2026 3:50pm - 4:30pm JST
Next 2

3:50pm JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 3:50pm - 4:30pm JST

Wednesday June 3, 2026 3:50pm - 4:30pm JST
Next 1

3:50pm JST

休憩とネットワーキング / Break & Networking
Wednesday June 3, 2026 3:50pm - 4:30pm JST

Wednesday June 3, 2026 3:50pm - 4:30pm JST
Next 3

4:30pm JST

リアルタイムレイトレース音響 / Real-Time Raytraced Acoustics
Wednesday June 3, 2026 4:30pm - 5:20pm JST
リアルタイム畳み込みリバーブはよく理解されていますが、長い空間インパルス応答(IR)をランタイムで継続的に合成することは、依然として重大なエンジニアリングおよび知覚的課題です。このセッションでは、マルチバウンスレイトレーシングを使用してリスナー中心のIRをリアルタイムで合成するハイブリッドGPU/CPUアコースティクスパイプラインを紹介します。このパイプラインは、現在Elemental Gamesの独自エンジンに統合されており、未発表のオープンワールドデビュータイトルに使用されています。

このシステムは、周波数依存吸収、幾何学的伝播、アンビソニクスを使用した空間符号化をモデル化しながら、物理的妥当性と知覚的明瞭性のバランスを取ります。単純なマルチバウンストレーシングを超えて、実装ではパフォーマンス対応サンプリング戦略とハイブリッド可視性ヒューリスティックを探索し、囲まれた空間とオープンスペース間のコントラストをより良く捉えます。適応更新戦略は、リスナーの動きとシーン変化に基づいてIRリフレッシュレートを動的に調整し、GPU予算を尊重しながら知覚的安定性を維持します。

IRデータはGPU上の分割FFT処理を使用して準備され、ウェイトフリー同期モデルを通じてオーディオスレッドに転送され、リアルタイムオーディオ処理をブロックせずに安定した時変畳み込みを実現します。特に焦点が当てられているのは、時間領域および周波数領域のハイブリッドクロスフェード技術を含む、進化する条件下でのアーティファクト無しのIR更新です。

このトークでは、アーキテクチャの決定、モデリングのトレードオフ、拡散と確率的スムージングなどの知覚的後処理技術、およびリアルタイム音響合成をプロダクションエンジンに統合するための実際的な制約を検討します。参加者は、物理モデリング、ランタイムパフォーマンス、クリエイティブコントロールのバランスを取るハイブリッドGPU/CPU DSPパイプラインの設計に関する洞察を得ることができます。

---

Real-time convolution reverb is well understood, but continuously synthesizing long, spatial impulse responses (IRs) at runtime remains a significant engineering and perceptual challenge. This session presents a hybrid GPU/CPU acoustics pipeline that synthesizes listener-centric IRs in real time using multi-bounce raytracing. The pipeline is currently integrated into Elemental Games’ proprietary engine for its unannounced open-world debut title.

The system models frequency-dependent absorption, geometric propagation, and spatial encoding using Ambisonics, while balancing physical plausibility with perceptual clarity. Beyond straightforward multi-bounce tracing, the implementation explores performance-aware sampling strategies and hybrid visibility heuristics to better capture the contrast between enclosed and open spaces. Adaptive update strategies dynamically adjust IR refresh rates based on listener motion and scene changes, maintaining perceptual stability while respecting GPU budgets.

IR data is prepared using partitioned FFT processing on the GPU and transferred to the audio thread through a wait-free synchronization model, enabling stable time-varying convolution without blocking real-time audio processing. Particular focus is given to artifact-free IR updates under evolving conditions, including hybrid time- and frequency-domain crossfading techniques.

The talk examines architectural decisions, modeling trade-offs, perceptual post-processing techniques such as diffusion and stochastic smoothing, and the practical constraints of integrating real-time acoustic synthesis into a production engine. Attendees will gain insight into designing hybrid GPU/CPU DSP pipelines that balance physical modeling, runtime performance, and creative control.
Speakers
avatar for Anton Lundberg

Anton Lundberg

Co-Founder / Developer, elias.audio
Anton Lundberg is a software engineer and audio programmer specializing in high-performance real-time audio systems and game engine architecture. He develops next-generation game audio middleware at elias.audio and leads development of the audio technology stack at Elemental Games... Read More →
Wednesday June 3, 2026 4:30pm - 5:20pm JST
Next 2

4:30pm JST

多目的な関数型DSP処理プログラミング言語mimium / Multi-purpose Functional DSP Processing Programming Language, mimium
Wednesday June 3, 2026 4:30pm - 5:20pm JST
mimium(https://mimium.org)は、Rustに似たシンタックスを持つ関数型のオーディオ処理を目的としたプログラミング言語である。ネイティブ/Webのどちらでも動作し、オシレーターや信号処理を非常に低レベルから定義することができる。また、ソースコードの差分解析に基づく独自のライブコーディング機能を持ち、オーディオの内部状態をリセットせずに信号処理のコードをホットスワップすることができる。本講演ではその設計と実装の詳細を解説する。

---

mimium (https://mimium.org) is a functional programming language designed for audio processing with syntax similar to Rust. It runs on both native and web platforms, and allows oscillators and signal processing to be defined from a very low level. It also features a proprietary live coding capability based on differential analysis of source code, enabling hot-swapping of signal processing code without resetting the internal state of the audio. This presentation will explain the details of its design and implementation.
Speakers
avatar for 松浦知也

松浦知也

Independent


Wednesday June 3, 2026 4:30pm - 5:20pm JST
Next 3

4:30pm JST

初音ミクを支える基幹技術と今後の展開 / Core Technologies Supporting Hatsune Miku and Future Development
Wednesday June 3, 2026 4:30pm - 5:20pm JST
初音ミクは単なる音源の枠を超え、高度な表現力と即時応答性を備えた「歌声シンセサイザ」へと進化を遂げてきました。本セッションでは、これらの要件を満たすために開発されたリアルタイム歌声合成の基幹技術について、従来の減算合成ベースの歌唱合成方式から加算合成ベースのアプローチへのアーキテクチャ転換を中心に解説します。
歌声合成における根本的な技術課題である「計算コストとスペクトル再構築の忠実度の両立」、そして「自然さを損なわない緻密な制御性の確保」について掘り下げます。特に、なぜ加算合成アーキテクチャを採用したのか、減算合成等の他方式と比較した際の時系列上の忠実度やスペクトル操作の自由度における利点とトレードオフについて詳述します。
また、一般的なコンシューマ環境でリアルタイム性能を維持するための最適化戦略として、パラメータ圧縮の思想や計算負荷の管理手法についても触れます。最後に、次世代のクリエイティビティを支えるためのSDK化を見据えた設計や、エンジンの拡張可能性など、今後の展望を共有します。

---

Hatsune Miku has evolved beyond a mere sound source into a "singing voice synthesizer" equipped with advanced expressiveness and real-time responsiveness. This session explains the core technologies of real-time singing voice synthesis developed to meet these requirements, focusing on the architectural shift from conventional subtractive synthesis-based singing synthesis methods to additive synthesis-based approaches.

We delve into fundamental technical challenges in singing voice synthesis: "balancing computational cost with the fidelity of spectral reconstruction" and "ensuring precise controllability without compromising naturalness." In particular, we detail why the additive synthesis architecture was adopted, and discuss the advantages and trade-offs in time-series fidelity and spectral manipulation flexibility compared to other methods such as subtractive synthesis.

Additionally, as optimization strategies for maintaining real-time performance in general consumer environments, we address parameter compression concepts and computational load management techniques. Finally, we share future perspectives including SDK-oriented design to support next-generation creativity and engine extensibility.
Speakers
QW

黒田 毅

Crypton Future Media, Inc.
avatar for Yamane Soichi

Yamane Soichi

Crypton Future Media, Inc.

avatar for Junichi Iwasaki

Junichi Iwasaki

Audio Programmer, Crypton Future Media, Inc.
Wednesday June 3, 2026 4:30pm - 5:20pm JST
Next 1

5:30pm JST

閉会の辞 / Closing Remarks
Wednesday June 3, 2026 5:30pm - 6:00pm JST

Speakers
avatar for Andrew Kirk

Andrew Kirk

CEO, PACE Anti-Piracy
avatar for Bobby Lombardi

Bobby Lombardi

Product & Business Development, PACE Anti-Piracy, ADC Chair

Wednesday June 3, 2026 5:30pm - 6:00pm JST
Akiba Square

6:00pm JST

ネットワーキング / Networking
Wednesday June 3, 2026 6:00pm - 7:00pm JST

Wednesday June 3, 2026 6:00pm - 7:00pm JST
Akiba Square
 
Share Modal

Share this link via

Or copy link

Filter sessions
Apply filters to sessions.
Filtered by Date -