Loading…
arrow_back View All Dates
Wednesday, June 3
 

7:30am JST

Registration / 登録
Wednesday June 3, 2026 7:30am - 9:00am JST

Wednesday June 3, 2026 7:30am - 9:00am JST
Akiba Square

9:00am JST

Creating Intuitive Interactive Music Systems Across Media / メディア全体にわたる直感的インタラクティブ音楽システムの構築
Wednesday June 3, 2026 9:00am - 10:00am JST
Music technology has enabled artists and engineers to create highly interactive musical systems in many different forms of media, from games, to art installations and instruments. In this talk I share ideas on ways to approach technology and tools such as data, sensors and hardware, MIDI or OSC, and programming languages, in order to create systems that are intuitive to engage by the audience across media that involves sound.

音楽技術により、アーティストとエンジニアは、ゲーム、アート・インスタレーション、楽器など、多くの異なるメディア形式で、高度にインタラクティブな音楽システムを作成することができるようになりました。このトークでは、データ、センサー、ハードウェア、MIDIやOSC、プログラミング言語などのテクノロジーとツールに取り組む方法についてのアイデアを共有し、音を含むメディア全体で観客が直感的に操作できるシステムを作成する方法をお話しします。
Wednesday June 3, 2026 9:00am - 10:00am JST
Next 3

9:00am JST

Real-Time AI Audio Processing at Scale: Building Cloud-Native Audio Applications / スケール規模でのリアルタイムAIオーディオ処理:クラウドネイティブオーディオアプリケーションの構築
Wednesday June 3, 2026 9:00am - 10:00am JST
The convergence of AI and cloud computing is revolutionizing audio development. This session explores how AWS cloud services enable audio developers to build scalable, AI-powered applications for speech recognition, audio synthesis, real-time streaming, and generative audio content.

We'll demonstrate practical architectures for:

Real-time audio processing with AI-based dubbing and translation using AWS Media Services
Speech synthesis and recognition using Amazon Polly, Transcribe, and generative AI models
Scalable audio streaming architectures with Amazon Kinesis and serverless computing
Building audio ML models with Amazon SageMaker and deploying them at scale
Sentiment analysis from audio data using AWS generative AI services
Attendees will learn cloud-native patterns for audio development, including containerization with Kubernetes, event-driven architectures, and GPU-optimized infrastructure for AI workloads.

AIとクラウドコンピューティングの融合は、オーディオ開発に革命をもたらしています。このセッションでは、AWSクラウドサービスがいかにオーディオ開発者が、音声認識、オーディオ合成、リアルタイムストリーミング、生成型オーディオコンテンツ向けのスケーラブルなAI駆動型アプリケーションを構築できるようにするかを探ります。

以下の実用的なアーキテクチャを実演します:

AWS Media Servicesを使用したAIベースのダビングおよび翻訳によるリアルタイムオーディオ処理
Amazon Polly、Transcribe、および生成型AIモデルを使用した音声合成と認識
Amazon Kinesisおよびサーバーレスコンピューティングによるスケーラブルなオーディオストリーミングアーキテクチャ
Amazon SageMakerでのオーディオMLモデルの構築とスケール時のデプロイ
AWS生成型AIサービスを使用したオーディオデータからのセンチメント分析
参加者はオーディオ開発向けのクラウドネイティブパターンを学びます。これにはKubernetesでのコンテナ化、イベント駆動型アーキテクチャ、およびAIワークロード向けのGPU最適化インフラストラクチャが含まれます。
Speakers
avatar for Vishal Alhat

Vishal Alhat

Developer Advocate, AWS

Vishal Alhat is a Developer Advocate at Amazon Web Services (AWS) and a former AWS Hero, recognized for his significant contributions to the AWS community. With 11+ years of experience in cloud technologies, Vishal specializes in DevOps, cloud security, and AI/ML.As an active community... Read More →
Wednesday June 3, 2026 9:00am - 10:00am JST
Next 1

9:00am JST

Designing Interactive Machine Learning Tools for Music Generation Models / インタラクティブ機械学習ツールの設計:音楽生成モデル向け
Wednesday June 3, 2026 9:00am - 10:00am JST
In recent years, generative models have become capable of generating high-quality music from natural language. However, the mechanisms to adequately respond to repeated trial-and-error and fine-grained nuance adjustments that occur throughout the production process remain in a developmental stage.

This presentation introduces design approaches based on interactive machine learning, where users can leverage small amounts of local data generated during the production process and manipulate the latent space of generative models. By incorporating exploration and parameter manipulation into an interactive loop, we present a structure that allows generative model outputs to be not merely "selected," but rather integrated into and utilized within one's own production process.

Through research case studies from the presenter, we will introduce visualization of generative models, real-time control, applications to live performance, and design examples as audio plugins and tools. We will discuss new practical approaches for how music generation AI can be integrated into workflows for composition, arrangement, and sound design.

近年の生成モデルは、自然言語から高品質な音楽を生成できるようになりました。一方で、制作の過程で繰り返される試行錯誤や細かなニュアンスの調整に、十分に応答できる仕組みはまだ発展途上にあります。

本講演では、インタラクティブ機械学習の考え方に基づき、ユーザが制作過程で生み出す少量のローカルデータを活用したり、生成モデルの潜在空間を操作していく設計アプローチを紹介します。探索やパラメータ操作を対話的なループに組み込むことで、生成モデルの出力を単に「選ぶ」だけでなく、自身の制作プロセスに組み込みながら活用できる構造を提示します。

講演者の研究事例を交えながら、生成モデルの可視化、リアルタイム制御、ライブパフォーマンスへの応用、さらにオーディオプラグインやツールとしての設計例を紹介します。音楽生成AIを作曲・編曲・サウンドデザインのワークフローにどのように統合できるのか、新しい実践的アプローチを議論します。
Speakers
avatar for Junichi Shimizu

Junichi Shimizu

研究者/サウンドアーティスト。2019年 MUTEK.JP AI Music Labでのパフォーマンスを機に音楽活動を開始。インタラクティブミュージックをはじめ、サウンドプログラミングを活用した作品を数多く手掛ける。2022–23... Read More →
Wednesday June 3, 2026 9:00am - 10:00am JST
Next 2

9:00am JST

Sponsor Exhibits / 協賛展示品
Wednesday June 3, 2026 9:00am - 6:00pm JST

Wednesday June 3, 2026 9:00am - 6:00pm JST
Akiba Square

10:00am JST

AI vs. The Algorithm: Reclaiming "The Scene" through Ethical Vocal Synthesis / AI対アルゴリズム:倫理的ボーカル合成を通じて「シーン」を取り戻す
Wednesday June 3, 2026 10:00am - 11:00am JST
In an era of generative automation, the traditional boundary between artist and audience is dissolving. This session explores the transition of the human voice from a static recording to a dynamic, professional instrument. Drawing on my experience as a Billboard-charting frontman and MBA strategist, I will demonstrate how vocal synthesis—specifically the development of the HXVOC voicebank—enables creators to bypass the 'cold wall' of the algorithm. We will discuss the ethical shift from mass-consumption to distributed authorship, showing that technology will not replace the performer, but empower a global community to build its own legacy.

生成型オートメーションの時代において、アーティストと観客の伝統的な境界が溶解しつつあります。本セッションでは、人間の声が静的な録音から動的でプロフェッショナルな楽器へと移行する過程を探ります。ビルボード・チャート入りのフロントマンであり、MBAストラテジストとしての経験を踏まえて、ボーカル合成、特にHXVOCボイスバンクの開発がいかにクリエイターに対してアルゴリズムの「冷たい壁」を乗り越えることを可能にするかを実演します。大量消費から分散型著作権へのシフトについて議論し、テクノロジーがパフォーマーに取って代わるのではなく、グローバルコミュニティが独自のレガシーを構築する力を与えることを示します。
Speakers
avatar for Seann Nicols

Seann Nicols

Nerve Strike Records


Wednesday June 3, 2026 10:00am - 11:00am JST
Next 2

10:00am JST

Rust grows gradually, it doesn't appear all at once / さびは徐々に成長し、一度にすべて現れるわけではありません。
Wednesday June 3, 2026 10:00am - 11:00am JST
Despite Rust's benefits, it has seen limited adoption due to factors including existing ecosystems built for other languages (JUCE, VST3 SDK), less overall time to grow, and the general appeal of familiarity.

This talk showcases CSick, a scaffolding system for automated FFI generation designed to provide a bridge, not a ferry, between C++ and Rust.

Previous solutions have focused on addressing developers' reluctance by easing the transition with familiar workflows adapted for Rust development (e.g. cxx-juce), with Rust as the forerunner and C++ only when necessary.

By contrast, CSick is built to allow gradual adoption—integrating Rust code into existing C++ codebases one chunk at a time—allowing developers to reap Rust’s benefits without entirely jumping ship.

Rustの利点にもかかわらず、他の言語向けに構築された既存のエコシステム(JUCE、VST3 SDK)、成長に費やされた全体的な時間の不足、および親しみやすさへの一般的な訴求力といった要因により、採用は限定的です。

このトークではCSickを紹介します。これはC++とRust間のブリッジ(フェリーではなく)を提供するために設計された、自動FFI生成用のスキャフォールディングシステムです。

以前のソリューションは、Rust開発に適応した親しみやすいワークフローで移行を容易にすることで、開発者の抵抗感に対処することに焦点を当ててきました(例:cxx-juce)。Rustが主導的な役割を担い、C++は必要な場合のみです。

これとは対照的に、CSickは段階的な採用を可能にするために構築されています。既存のC++コードベースにRustコードを一度に1つのチャンクずつ統合し、開発者が完全に乗り換えることなくRustの利点を享受できるようにします。
Speakers
Wednesday June 3, 2026 10:00am - 11:00am JST
Next 3

10:00am JST

How Close Is Close Enough? Evaluating Analog-Likeness of Moog-Style Ladder Filters on a $1-Class Microcontroller / モーグスタイルラダーフィルターのアナログ的特性をいかに評価するか?1ドルクラスのマイクロコントローラー上での検証
Wednesday June 3, 2026 10:00am - 11:00am JST
How close is close enough when modeling analog ladder filters on a $1-class microcontroller?

Microcontrollers operate under strict computational constraints that fundamentally differ from desktop virtual analog environments. When implementing Moog-style ladder filters in such systems, defining and evaluating analog-likeness becomes a practical engineering challenge.

This work is motivated by the development of a virtual analog synthesizer running on an RP2350 microcontroller, designed to deliver a convincing analog feel. Practical evaluation metrics are consolidated, including resonance peak alignment, Q consistency, normalized harmonic spectra, level-dependent cutoff shift, and self-oscillation behavior. The talk also discusses how these metrics can be meaningfully and reproducibly measured.

Ladder filter implementations drawn from published algorithms, open-source audio libraries such as Teensy Audio Library, DaisySP, and JUCE, are ported to the RP2350 and evaluated against a SPICE circuit simulation serving as a reproducible analog reference. Measurement results are presented to examine how closely each implementation can approach analog behavior under strict hardware constraints.

$1クラスのマイクロコントローラー上でアナログラダーフィルターをモデル化する場合、どの程度が十分に近いのか?

マイクロコントローラーは、デスクトップの仮想アナログ環境と根本的に異なる厳密な計算制約の下で動作します。このようなシステムにムーグスタイルのラダーフィルターを実装する場合、アナログライクさの定義と評価は実用的なエンジニアリングの課題となります。

本研究は、RP2350マイクロコントローラー上で動作する仮想アナログシンセサイザーの開発に動機づけられており、説得力のあるアナログの感覚を提供するように設計されています。実用的な評価指標は、レゾナンスピークアライメント、Q一貫性、正規化調和スペクトラム、レベル依存カットオフシフト、および自己発振動作を含めて統合されています。本講演では、これらのメトリクスを意味のある方法で再現可能に測定する方法についても説明します。

公開されているアルゴリズム、Teensy Audio Library、DaisySP、JUCEなどのオープンソースオーディオライブラリから引き出されたラダーフィルター実装は、RP2350に移植され、再現可能なアナログ参照として機能するSPICE回路シミュレーションに対して評価されます。測定結果は、厳密なハードウェア制約の下で各実装がどの程度密接にアナログ動作に近づくことができるかを検証するために提示されます。
Speakers
Wednesday June 3, 2026 10:00am - 11:00am JST
Next 1

11:00am JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 11:00am - 11:20am JST

Wednesday June 3, 2026 11:00am - 11:20am JST
Next 3

11:00am JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 11:00am - 11:20am JST

Wednesday June 3, 2026 11:00am - 11:20am JST
Next 2

11:00am JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 11:00am - 11:20am JST

Wednesday June 3, 2026 11:00am - 11:20am JST
Next 1

11:20am JST

Building and Training Differentiable Artificial Reverbs / 微分可能な人工リバーブの構築とトレーニング
Wednesday June 3, 2026 11:20am - 12:20pm JST
Differentiable artificial reverberation has the potential to address a wide range of audio machine-learning tasks, including style transfer, blind estimation, and speech enhancement. This research area has grown rapidly, with many new approaches proposed over the past few years, particularly within the field of differentiable digital signal processing. As a result, numerous differentiable reverb architectures have emerged. At the same time, these developments highlight the need for loss functions that properly capture the perceptually important time- and frequency-domain characteristics of reverberation.

In this talk, we will review key results from recent literature with a focus on architectures suitable for real-time applications. Specifically, we will discuss different architecture choices, optimization strategies, and practical insights for designing loss functions tailored to reverberation. We will also explore how standard, off-the-shelf loss functions can be adapted to better handle reverb and reverberated signals. We will conclude with a forward-looking perspective, highlighting current challenges and open research questions, as well as spatial audio applications.

微分可能な人工残響は、スタイル転送、ブラインド推定、音声強調など、幅広いオーディオ機械学習タスクに対処する可能性を持っています。この研究領域は急速に成長しており、特に微分可能デジタル信号処理の分野において、ここ数年で多くの新しいアプローチが提案されています。その結果、多くの微分可能なリバーブアーキテクチャが出現しました。同時に、これらの発展は、残響の知覚的に重要な時間領域および周波数領域の特性を適切に捉える損失関数の必要性を浮き彫りにしています。

本講演では、リアルタイムアプリケーションに適したアーキテクチャに焦点を当てた、最近の文献からの主要な結果をレビューします。具体的には、異なるアーキテクチャの選択、最適化戦略、および残響に合わせた損失関数を設計するための実用的な洞察について説明します。また、標準的な既製の損失関数がリバーブおよびリバーブ処理された信号をより適切に処理するように適応させられる方法についても探求します。最後に、現在の課題と未解決の研究課題、ならびに空間オーディオアプリケーションに焦点を当てた前向きな展望で結論付けます。
Speakers
avatar for Gloria Dal Santo

Gloria Dal Santo

Doctoral Researcher, Department of Information and Communications Engineering, Aalto University School of Electrical Engineering
Wednesday June 3, 2026 11:20am - 12:20pm JST
Next 2

11:20am JST

One UI, One DSP, Everywhere: A Chromium-Based Runtime for Audio Plugins / 1つのUI、1つのDSP、どこでも:オーディオプラグイン向けChromiumベースのランタイム
Wednesday June 3, 2026 11:20am - 12:20pm JST
Modern audio plug-in development still pays a steep portability tax: separate UI/DSP stacks per OS and host, repeated rebuilds, and validation that’s hard to automate. This talk introduces a “write once, run everywhere” approach that treats Chromium as a compatibility runtime and tunnels its audio graph directly into a DAW plug-in host (VST)—allowing a single codebase for both UI and DSP to run across environments.

Beyond portability, the runtime enables a DevOps-style workflow for audio: externally controlled timing, deterministic offline rendering, and CI-friendly regression testing for AudioWorklet-style processing. We’ll present a working proof-of-concept, outline the key architectural choices and trade-offs, and show how this foundation can unlock faster iteration at ecosystem scale—especially as automated and AI-assisted development becomes the norm.

現代のオーディオプラグイン開発では、依然として高い移植性のコストが発生しています。OS およびホストごとに異なる UI/DSP スタック、繰り返されるリビルド、自動化が難しい検証が必要です。本発表では、Chromium を互換性ランタイムとして扱い、そのオーディオグラフを DAW プラグインホスト (VST) に直接トンネリングする「一度書いたら、どこでも実行できる」アプローチを紹介します。これにより、UI と DSP の両方に単一のコードベースを使用して、複数の環境で実行できます。

移植性を超えて、このランタイムはオーディオに対する DevOps スタイルのワークフローを実現します。外部から制御されるタイミング、確定的なオフラインレンダリング、AudioWorklet スタイルの処理に対する CI フレンドリーな回帰テストです。実装可能な概念実証を提示し、主要なアーキテクチャの選択とトレードオフについて説明し、この基盤がどのようにしてエコシステム規模での迅速な反復を実現できるかを示します。特に自動化と AI 支援開発が標準化されるにつれて、その重要性が高まります。
Speakers
avatar for Yuichi Yogo

Yuichi Yogo

Founder/CEO, Escentier, LLC
Musician, Software Engineer
Wednesday June 3, 2026 11:20am - 12:20pm JST
Next 1

11:20am JST

The Pitfalls of the Mobile DAW Era: Constraints and Practical Knowledge of iOS AUv3 Implementation / モバイルDAW時代の落とし穴:iOS AUv3実装の制約と実践知
Wednesday June 3, 2026 11:20am - 12:20pm JST
Our company develops a singing voice synthesis application for PC, and based on that architecture, we undertook implementation as an AUv3 plugin for iOS. However, requirements specific to singing voice synthesis—such as UI design premised on lyrics input, handling of large-scale models, and high initialization costs—are closely related to AUv3's execution model, sandbox constraints, extension launch restrictions, and iOS memory management characteristics.

In this presentation, we will organize the technical constraints we encountered in the process of realizing a singing voice synthesis application as an AUv3 plugin, and share perspectives that should be prerequisites when designing AUv3 in a mobile environment.

弊社ではPC向け歌声合成アプリケーションを開発しており、そのアーキテクチャを基にiOS向けAUv3プラグインとしての実装に取り組みました。しかし、歌詞入力を前提とするUI設計、大容量モデルの扱い、初期化コストの高さといった歌声合成特有の要件は、AUv3の実行モデルやSandbox制約、Extension起動時の制限、iOSのメモリ管理特性と密接に関係します。
本講演では、歌声合成アプリケーションをAUv3として成立させる過程で直面した技術的制約を整理し、モバイル環境でAUv3を設計する際に前提とすべき観点を共有します。
Speakers
avatar for 石井祐多 / Yuta Ishii

石井祐多 / Yuta Ishii

Engineer, Techno-Speech, Inc.


Wednesday June 3, 2026 11:20am - 12:20pm JST
Next 3

12:20pm JST

Sponsor Talk 7
Wednesday June 3, 2026 12:20pm - 12:50pm JST

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 1

12:20pm JST

Sponsor Talk 8
Wednesday June 3, 2026 12:20pm - 12:50pm JST

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 2

12:20pm JST

Sponsor Talk 9
Wednesday June 3, 2026 12:20pm - 12:50pm JST

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 3

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 1

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 2

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 3

2:00pm JST

Android and Audio Plugins: State of Union / Androidとオーディオプラグイン:現状報告
Wednesday June 3, 2026 2:00pm - 3:00pm JST
When we build cross-platform music apps and plugins, they are mostly desktop and sometimes including iOS, but much less happens on Android. Since Android audio latency has improved a lot by 2026, we have to tackle the next problem: we are missing audio plugin formats on Android. Apple has good ecosystem, so why not designing one for Android?

But you would wonder, why can't we just simply take VST3, CLAP, or LV2 on Android? Because, it is not that simple. We have a lot of lessons learned (or, learning) from Apple AudioUnit V3, along with their efforts on Logic Pro.

Throughout this session we will explain what is tricky to achieve audio plugin functionality on Android through past accomplishments, and how to deal with it. There are many issues such as, publishing audio plugin products from diverse plugin vendors without being tied to a specific DAW, passing audio and event data between a DAW and a plugin, showing plugin GUI on a DAW, and so on. We also discuss what's missing on Android platform itself to achieve full realtime capability within our apps, not just their own framework.

There are many trends on audio plugin development such as MIDI 2.0 integration like (upcoming next-gen. JUCE AudioProcessor), CLAP-first development, AI-capability such as MCP integration. We discuss what kind of features a plugin format should and should NOT tackle, especially taking CLAP as a reference. You would also learn why JUCE cannot be a "format" here.

At last, designing a plugin format is just a milestone and not the goal. We also have to achieve a plugin "ecosystem", which is very often understood as chicken and egg problem. We would discuss this with some existing efforts.

クロスプラットフォーム音声アプリとプラグインを構築する場合、それらはほとんどがデスクトップで、時々iOSを含みますが、Androidではずっと少ないことが起こっています。2026年までにAndroidのオーディオレイテンシーが大幅に改善されたため、次の問題に取り組む必要があります。Androidではオーディオプラグインフォーマットが不足しているのです。Appleは優れたエコシステムを持っているので、Androidのために1つを設計してみてはいかがでしょうか?

しかし、なぜ単純にVST3、CLAP、またはLV2をAndroidで使用できないのかと疑問に思うでしょう。それは単純ではないからです。Appleの AudioUnit V3から多くの教訓を得ており(または学習中)、Logic Proへの彼らの取り組みからも学んでいます。

このセッション全体を通じて、過去の成果を通じてAndroidでオーディオプラグイン機能を実現することがどのようにして難しいのか、そしてそれにどう対処するかについて説明します。多様なプラグインベンダーから特定のDAWに縛られずにオーディオプラグインコンテンツを公開する、DAWとプラグイン間でオーディオおよびイベントデータを渡す、DAW上にプラグインGUIを表示するなど、多くの課題があります。また、独自フレームワークだけではなく、アプリ内で完全なリアルタイム機能を達成するためにAndroidプラットフォーム自体に何が不足しているのかについても議論します。

MIDI 2.0統合(次世代の予定であるJUCE AudioProcessor)、CLAP優先開発、MCP統合などのAI機能など、オーディオプラグイン開発には多くのトレンドがあります。プラグインフォーマットが取り組むべき機能と取り組むべきではない機能について、特にCLAPを参考にして議論します。JUCEがここで「フォーマット」になれない理由も学べます。

最後に、プラグインフォーマットの設計はマイルストーンであり、目標ではありません。また、プラグイン「エコシステム」の実現も必要です。これはしばしば鶏と卵の問題として理解されています。既存の取り組みとともにこれについて議論します。
Speakers
avatar for Atsushi Eno

Atsushi Eno

Developer, androidaudioplugin.org
https://g0v.social/@atsushieno
Wednesday June 3, 2026 2:00pm - 3:00pm JST
Next 1

2:00pm JST

NKIDO a Open Source Bytecode Synth and Live-Coding Environment / NKIDO - オープンソースバイトコードシンセとライブコーディング環境
Wednesday June 3, 2026 2:00pm - 3:00pm JST
NKIDO is a live-coding audio environment built from scratch: a Tidal-inspired pattern language, a zero-allocation C++20 bytecode VM with 95+ DSP opcodes, and a browser IDE running it all via WebAssembly. This talk covers the language design, the runtime internals, and what it's like to vibe-code 60,000 lines of real-time audio C++ with AI.

NKIDOはゼロから構築されたライブコーディングオーディオ環境です。Tidalに着想を得たパターン言語、95以上のDSPオプコードを持つゼロアロケーションC++20バイトコードVM、そしてWebAssemblyを介してそれらすべてを実行するブラウザIDEで構成されています。このトークでは、言語設計、ランタイムの内部構造、そしてAIを使用して60,000行のリアルタイムオーディオC++をバイブコードする経験についてカバーしています。
Speakers
Wednesday June 3, 2026 2:00pm - 3:00pm JST
Next 2

2:00pm JST

An Interface That Expands the Possibilities of Tonal Selection by Transcending Fixed Concepts of Instrument Categories / 楽器カテゴリの固定観念を超えた音色選択の可能性を広げるインタフェース
Wednesday June 3, 2026 2:00pm - 3:00pm JST
In composition and arrangement using existing DAWs, users set appropriate timbres for each track from vast timbral datasets classified by category (such as instruments and sound source names). We reconsider this current text-based timbral search interaction itself and propose a new approach to expand creativity across diverse timbres. We have removed the conventional concept of timbral categories and have: 1) calculated relationships between timbres depending only on acoustic features, and 2) constructed an interface that enables visual confirmation of relationships between timbres. By visualizing similarity between timbres across categories, we provide serendipitous timbral exploration not constrained by conventional timbral categories. In this presentation, we will discuss the background of the proposed approach, technical overview, and usefulness based on user testing.

既存のDAWを用いた作曲や編曲では,カテゴリ(楽器や音源名など)ごとに分類された膨大な音色データセットの中からユーザが適切であると考える音色を各トラックに設定しています.我々は,このようなテキストベースで音色を検索する現状のインタラクション自体を見直し,多様な音色に創造性を広げるための新たなアプローチを提案します.従来の音色カテゴリの概念を取り払い,1)音響特徴量のみに依存した音色間の関連性を計算し,2)視覚的に音色間の関係を確認可能にするインタフェースを構築しました.カテゴリを横断して音色間の類似性を可視化することで,従来の音色カテゴリに縛られない偶察的な音色探索を提供します.本講演では,提案アプローチの背景,技術概要,およびユーザテストによる有用性について口述します.
Speakers
avatar for 米田美優 / Miyu Yoneda

米田美優 / Miyu Yoneda

Master Candidate, Kansai University


Wednesday June 3, 2026 2:00pm - 3:00pm JST
Next 3

3:00pm JST

Making Beats with React: Cross-Platform Audio Dev with Elementary / React でビート制作:Elementary を使用したクロスプラットフォーム オーディオ開発
Wednesday June 3, 2026 3:00pm - 4:00pm JST
Building cross-platform audio apps is difficult - and for a long time, Android lagged far behind iOS when it came to music-making tools. That's changing. Elementary Audio introduces a new paradigm for audio experiences: by exposing a shared JS API with both web and native renderers, it makes code reuse across platforms feel natural. In this talk, I'll introduce Elementary Audio, walk through react-native-elementary, and demo what's possible to build with it today - including how AI is removing what little friction remains.

クロスプラットフォーム対応のオーディオアプリの構築は難しく、長い間、音楽制作ツールに関してはAndroidがiOSから大きく遅れていました。しかし、その状況は変わりつつあります。Elementary Audioは、オーディオ体験の新しいパラダイムを導入しています。Webとネイティブレンダラーの両方に対応した共有JS APIを公開することで、プラットフォーム間でのコード再利用が自然に感じられるようになります。このトークでは、Elementary Audioを紹介し、react-native-elementaryについて説明し、今日実現できる可能性をデモンストレーションします。AIがいかに残された摩擦をわずかなものにしているかについても含めます。
Speakers
avatar for Ricardo Abreu

Ricardo Abreu

Software Engineer (Founder), Yonko Level
Software engineer and music producer based in London. Building Midicircuit at Yonko Level — an interactive app for learning music production — and releasing beats as TXBROWN. Interested in audio engineering, learning UX, and making music technology accessible to everyone.
Wednesday June 3, 2026 3:00pm - 4:00pm JST
Next 2

3:00pm JST

Improving the audio quality of the Head-Related Transfer Function using machine learning / 機械学習による頭部伝達関数の音質向上
Wednesday June 3, 2026 3:00pm - 4:00pm JST
The Head-Related Transfer Function (HRTF) is a key technology for three-dimensional binaural audio rendering. However, issues regarding audio quality and HRTF personalization must be resolved for this technology to be adopted more widely. When HRTFs are applied to music production, audio quality may become problematic. Additionally, since HRTFs exhibit significant individual variation, personalized HRTFs—that is, HRTFs measured or customized for each user—are desirable, but cost becomes an issue. Therefore, for widespread adoption of HRTFs, a typical HRTF that provides consistent effectiveness for everyone is needed.

The speaker proposes using Generalized HRTF (GHRTF) based on machine learning as a solution to these problems. This presentation first outlines the fundamentals and challenges of HRTFs and binaural rendering. Then it presents the definition of GHRTFs that achieve high audio quality, along with estimation methods based on machine learning and their results. Next, the presentation demonstrates a learning method for Typical GHRTFs based on data from numerous subjects and provides estimation examples. Finally, the presentation describes its application to SoundObject, an object-based three-dimensional spatial audio VST 3 plug-in that the speaker has made freely available to the public. The presentation concludes that this approach yields clearer directionality and higher audio quality compared to conventional dummy head HRTFs.

The presentation materials are in both English and Japanese.

頭部伝達関数 (Head-Related Transfer Function: HRTF) はバイノーラル再生による立体音響のキーテクノロジーです.しかし,この技術の普及には音質と頭部伝達関数の個人化の問題を解決する必要があります.頭部伝達関数を音楽制作に適用した場合,音質が問題となる場合があります.また,頭部伝達関数は個人差が大きいため,頭部伝達関数の個人化,即ち利用者毎に計測ないしカスタマイズした頭部伝達関数の使用が望ましいが,コストが問題となります.従って,頭部伝達関数の普及には,誰でも一定の効果が得られる典型的な頭部伝達関数が必要となります.

講演者はこれらの問題の解決方法として,機械学習による一般化頭部伝達関数 (Generalized HRTF) を提案しています.本講演は最初に,頭部伝達関数およびバイノーラル再生の概要と課題を述べます.そして,高い音質を実現する一般化頭部伝達関数の定義と機械学習による推定方法と推定結果を示します.次に本講演は,多数の被験者データに基づく典型的な一般化頭部伝達関数 (Typical GHRTF) の学習方法と推定例を示します.最後に,講演者が無償で公開しているオブジェクトベースの 3 次元立体音響 VST3 プラグインである SoundObject への適用を述べ,従来のダミーヘッドによる頭部伝達関数と比較して,より明確な方向感と高い音質が得られる事を述べます.

プレゼンテーション資料は英語日本語併記となります.
Speakers
avatar for suzumushi

suzumushi

Independent developer, 個人開発者
Areas of expertise: analog and digital signal processing, circuit design, computer architecture, low-level programming, and UNIX kernel.
得意分野は,アナログおよびディジタル信号処理,回路設計,コンピュータアーキテクチャ,低レベルプログラミング,UNIX... Read More →

Wednesday June 3, 2026 3:00pm - 4:00pm JST
Next 1

4:00pm JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 4:00pm - 4:30pm JST

Wednesday June 3, 2026 4:00pm - 4:30pm JST
Next 2

4:00pm JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 4:00pm - 4:30pm JST

Wednesday June 3, 2026 4:00pm - 4:30pm JST
Next 1

4:00pm JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 4:00pm - 4:30pm JST

Wednesday June 3, 2026 4:00pm - 4:30pm JST
Next 3

4:30pm JST

Sponsor Talk 10
Wednesday June 3, 2026 4:30pm - 5:00pm JST

Wednesday June 3, 2026 4:30pm - 5:00pm JST
Next 1

4:30pm JST

Sponsor Talk 11
Wednesday June 3, 2026 4:30pm - 5:00pm JST

Wednesday June 3, 2026 4:30pm - 5:00pm JST
Next 2

4:30pm JST

Sponsor Talk 12
Wednesday June 3, 2026 4:30pm - 5:00pm JST

Wednesday June 3, 2026 4:30pm - 5:00pm JST
Next 3

5:00pm JST

Multi-purpose Functional DSP Processing Programming Language, mimium / 多目的な関数型DSP処理プログラミング言語mimium
Wednesday June 3, 2026 5:00pm - 6:00pm JST
mimium (https://mimium.org) is a functional programming language designed for audio processing with syntax similar to Rust. It runs on both native and web platforms, and allows oscillators and signal processing to be defined from a very low level. It also features a proprietary live coding capability based on differential analysis of source code, enabling hot-swapping of signal processing code without resetting the internal state of the audio. This presentation will explain the details of its design and implementation.

mimium(https://mimium.org)は、Rustに似たシンタックスを持つ関数型のオーディオ処理を目的としたプログラミング言語である。ネイティブ/Webのどちらでも動作し、オシレーターや信号処理を非常に低レベルから定義することができる。また、ソースコードの差分解析に基づく独自のライブコーディング機能を持ち、オーディオの内部状態をリセットせずに信号処理のコードをホットスワップすることができる。本講演ではその設計と実装の詳細を解説する。
Speakers
avatar for 松浦知也

松浦知也

Independent


Wednesday June 3, 2026 5:00pm - 6:00pm JST
Next 3

5:00pm JST

Real-Time Raytraced Acoustics / リアルタイムレイトレース音響
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Real-time convolution reverb is well understood, but continuously synthesizing long, spatial impulse responses (IRs) at runtime remains a significant engineering and perceptual challenge. This session presents a hybrid GPU/CPU acoustics pipeline that synthesizes listener-centric IRs in real time using multi-bounce raytracing. The pipeline is currently integrated into Elemental Games’ proprietary engine for its unannounced open-world debut title.

The system models frequency-dependent absorption, geometric propagation, and spatial encoding using Ambisonics, while balancing physical plausibility with perceptual clarity. Beyond straightforward multi-bounce tracing, the implementation explores performance-aware sampling strategies and hybrid visibility heuristics to better capture the contrast between enclosed and open spaces. Adaptive update strategies dynamically adjust IR refresh rates based on listener motion and scene changes, maintaining perceptual stability while respecting GPU budgets.

IR data is prepared using partitioned FFT processing on the GPU and transferred to the audio thread through a wait-free synchronization model, enabling stable time-varying convolution without blocking real-time audio processing. Particular focus is given to artifact-free IR updates under evolving conditions, including hybrid time- and frequency-domain crossfading techniques.

The talk examines architectural decisions, modeling trade-offs, perceptual post-processing techniques such as diffusion and stochastic smoothing, and the practical constraints of integrating real-time acoustic synthesis into a production engine. Attendees will gain insight into designing hybrid GPU/CPU DSP pipelines that balance physical modeling, runtime performance, and creative control.

リアルタイム畳み込みリバーブはよく理解されていますが、長い空間インパルス応答(IR)をランタイムで継続的に合成することは、依然として重大なエンジニアリングおよび知覚的課題です。このセッションでは、マルチバウンスレイトレーシングを使用してリスナー中心のIRをリアルタイムで合成するハイブリッドGPU/CPUアコースティクスパイプラインを紹介します。このパイプラインは、現在Elemental Gamesの独自エンジンに統合されており、未発表のオープンワールドデビュータイトルに使用されています。

このシステムは、周波数依存吸収、幾何学的伝播、アンビソニクスを使用した空間符号化をモデル化しながら、物理的妥当性と知覚的明瞭性のバランスを取ります。単純なマルチバウンストレーシングを超えて、実装ではパフォーマンス対応サンプリング戦略とハイブリッド可視性ヒューリスティックを探索し、囲まれた空間とオープンスペース間のコントラストをより良く捉えます。適応更新戦略は、リスナーの動きとシーン変化に基づいてIRリフレッシュレートを動的に調整し、GPU予算を尊重しながら知覚的安定性を維持します。

IRデータはGPU上の分割FFT処理を使用して準備され、ウェイトフリー同期モデルを通じてオーディオスレッドに転送され、リアルタイムオーディオ処理をブロックせずに安定した時変畳み込みを実現します。特に焦点が当てられているのは、時間領域および周波数領域のハイブリッドクロスフェード技術を含む、進化する条件下でのアーティファクト無しのIR更新です。

このトークでは、アーキテクチャの決定、モデリングのトレードオフ、拡散と確率的スムージングなどの知覚的後処理技術、およびリアルタイム音響合成をプロダクションエンジンに統合するための実際的な制約を検討します。参加者は、物理モデリング、ランタイムパフォーマンス、クリエイティブコントロールのバランスを取るハイブリッドGPU/CPU DSPパイプラインの設計に関する洞察を得ることができます。
Speakers
avatar for Anton Lundberg

Anton Lundberg

Co-Founder / Developer, elias.audio
Anton Lundberg is a software engineer and audio programmer specializing in high-performance real-time audio systems and game engine architecture. He develops next-generation game audio middleware at elias.audio and leads development of the audio technology stack at Elemental Games... Read More →
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Next 1

5:00pm JST

Core Technologies Supporting Miku Hatsune and Future Development / 初音ミクを支える基幹技術と今後の展開
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Hatsune Miku has evolved beyond a mere sound source into a "singing voice synthesizer" equipped with advanced expressiveness and real-time responsiveness. This session explains the core technologies of real-time singing voice synthesis developed to meet these requirements, focusing on the architectural shift from conventional subtractive synthesis-based singing synthesis methods to additive synthesis-based approaches.

We delve into fundamental technical challenges in singing voice synthesis: "balancing computational cost with the fidelity of spectral reconstruction" and "ensuring precise controllability without compromising naturalness." In particular, we detail why the additive synthesis architecture was adopted, and discuss the advantages and trade-offs in time-series fidelity and spectral manipulation flexibility compared to other methods such as subtractive synthesis.

Additionally, as optimization strategies for maintaining real-time performance in general consumer environments, we address parameter compression concepts and computational load management techniques. Finally, we share future perspectives including SDK-oriented design to support next-generation creativity and engine extensibility.

初音ミクは単なる音源の枠を超え、高度な表現力と即時応答性を備えた「歌声シンセサイザ」へと進化を遂げてきました。本セッションでは、これらの要件を満たすために開発されたリアルタイム歌声合成の基幹技術について、従来の減算合成ベースの歌唱合成方式から加算合成ベースのアプローチへのアーキテクチャ転換を中心に解説します。
歌声合成における根本的な技術課題である「計算コストとスペクトル再構築の忠実度の両立」、そして「自然さを損なわない緻密な制御性の確保」について掘り下げます。特に、なぜ加算合成アーキテクチャを採用したのか、減算合成等の他方式と比較した際の時系列上の忠実度やスペクトル操作の自由度における利点とトレードオフについて詳述します。
また、一般的なコンシューマ環境でリアルタイム性能を維持するための最適化戦略として、パラメータ圧縮の思想や計算負荷の管理手法についても触れます。最後に、次世代のクリエイティビティを支えるためのSDK化を見据えた設計や、エンジンの拡張可能性など、今後の展望を共有します。
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Next 2

6:00pm JST

Closing Remarks / 閉会の辞
Wednesday June 3, 2026 6:00pm - 6:30pm JST

Wednesday June 3, 2026 6:00pm - 6:30pm JST
Akiba Square

6:30pm JST

Networking / ネットワーキング
Wednesday June 3, 2026 6:30pm - 7:00pm JST

Wednesday June 3, 2026 6:30pm - 7:00pm JST
Akiba Square
 
Share Modal

Share this link via

Or copy link

Filter sessions
Apply filters to sessions.
Filtered by Date -