Loading…
Venue: Next 2 clear filter
arrow_back View All Dates
Wednesday, June 3
 

9:00am JST

Designing Interactive Machine Learning Tools for Music Generation Models / インタラクティブ機械学習ツールの設計:音楽生成モデル向け
Wednesday June 3, 2026 9:00am - 10:00am JST
In recent years, generative models have become capable of generating high-quality music from natural language. However, the mechanisms to adequately respond to repeated trial-and-error and fine-grained nuance adjustments that occur throughout the production process remain in a developmental stage.

This presentation introduces design approaches based on interactive machine learning, where users can leverage small amounts of local data generated during the production process and manipulate the latent space of generative models. By incorporating exploration and parameter manipulation into an interactive loop, we present a structure that allows generative model outputs to be not merely "selected," but rather integrated into and utilized within one's own production process.

Through research case studies from the presenter, we will introduce visualization of generative models, real-time control, applications to live performance, and design examples as audio plugins and tools. We will discuss new practical approaches for how music generation AI can be integrated into workflows for composition, arrangement, and sound design.

近年の生成モデルは、自然言語から高品質な音楽を生成できるようになりました。一方で、制作の過程で繰り返される試行錯誤や細かなニュアンスの調整に、十分に応答できる仕組みはまだ発展途上にあります。

本講演では、インタラクティブ機械学習の考え方に基づき、ユーザが制作過程で生み出す少量のローカルデータを活用したり、生成モデルの潜在空間を操作していく設計アプローチを紹介します。探索やパラメータ操作を対話的なループに組み込むことで、生成モデルの出力を単に「選ぶ」だけでなく、自身の制作プロセスに組み込みながら活用できる構造を提示します。

講演者の研究事例を交えながら、生成モデルの可視化、リアルタイム制御、ライブパフォーマンスへの応用、さらにオーディオプラグインやツールとしての設計例を紹介します。音楽生成AIを作曲・編曲・サウンドデザインのワークフローにどのように統合できるのか、新しい実践的アプローチを議論します。
Speakers
avatar for Junichi Shimizu

Junichi Shimizu

研究者/サウンドアーティスト。2019年 MUTEK.JP AI Music Labでのパフォーマンスを機に音楽活動を開始。インタラクティブミュージックをはじめ、サウンドプログラミングを活用した作品を数多く手掛ける。2022–23... Read More →
Wednesday June 3, 2026 9:00am - 10:00am JST
Next 2

10:00am JST

AI vs. The Algorithm: Reclaiming "The Scene" through Ethical Vocal Synthesis / AI対アルゴリズム:倫理的ボーカル合成を通じて「シーン」を取り戻す
Wednesday June 3, 2026 10:00am - 11:00am JST
In an era of generative automation, the traditional boundary between artist and audience is dissolving. This session explores the transition of the human voice from a static recording to a dynamic, professional instrument. Drawing on my experience as a Billboard-charting frontman and MBA strategist, I will demonstrate how vocal synthesis—specifically the development of the HXVOC voicebank—enables creators to bypass the 'cold wall' of the algorithm. We will discuss the ethical shift from mass-consumption to distributed authorship, showing that technology will not replace the performer, but empower a global community to build its own legacy.

生成型オートメーションの時代において、アーティストと観客の伝統的な境界が溶解しつつあります。本セッションでは、人間の声が静的な録音から動的でプロフェッショナルな楽器へと移行する過程を探ります。ビルボード・チャート入りのフロントマンであり、MBAストラテジストとしての経験を踏まえて、ボーカル合成、特にHXVOCボイスバンクの開発がいかにクリエイターに対してアルゴリズムの「冷たい壁」を乗り越えることを可能にするかを実演します。大量消費から分散型著作権へのシフトについて議論し、テクノロジーがパフォーマーに取って代わるのではなく、グローバルコミュニティが独自のレガシーを構築する力を与えることを示します。
Speakers
avatar for Seann Nicols

Seann Nicols

Nerve Strike Records


Wednesday June 3, 2026 10:00am - 11:00am JST
Next 2

11:00am JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 11:00am - 11:20am JST

Wednesday June 3, 2026 11:00am - 11:20am JST
Next 2

11:20am JST

Building and Training Differentiable Artificial Reverbs / 微分可能な人工リバーブの構築とトレーニング
Wednesday June 3, 2026 11:20am - 12:20pm JST
Differentiable artificial reverberation has the potential to address a wide range of audio machine-learning tasks, including style transfer, blind estimation, and speech enhancement. This research area has grown rapidly, with many new approaches proposed over the past few years, particularly within the field of differentiable digital signal processing. As a result, numerous differentiable reverb architectures have emerged. At the same time, these developments highlight the need for loss functions that properly capture the perceptually important time- and frequency-domain characteristics of reverberation.

In this talk, we will review key results from recent literature with a focus on architectures suitable for real-time applications. Specifically, we will discuss different architecture choices, optimization strategies, and practical insights for designing loss functions tailored to reverberation. We will also explore how standard, off-the-shelf loss functions can be adapted to better handle reverb and reverberated signals. We will conclude with a forward-looking perspective, highlighting current challenges and open research questions, as well as spatial audio applications.

微分可能な人工残響は、スタイル転送、ブラインド推定、音声強調など、幅広いオーディオ機械学習タスクに対処する可能性を持っています。この研究領域は急速に成長しており、特に微分可能デジタル信号処理の分野において、ここ数年で多くの新しいアプローチが提案されています。その結果、多くの微分可能なリバーブアーキテクチャが出現しました。同時に、これらの発展は、残響の知覚的に重要な時間領域および周波数領域の特性を適切に捉える損失関数の必要性を浮き彫りにしています。

本講演では、リアルタイムアプリケーションに適したアーキテクチャに焦点を当てた、最近の文献からの主要な結果をレビューします。具体的には、異なるアーキテクチャの選択、最適化戦略、および残響に合わせた損失関数を設計するための実用的な洞察について説明します。また、標準的な既製の損失関数がリバーブおよびリバーブ処理された信号をより適切に処理するように適応させられる方法についても探求します。最後に、現在の課題と未解決の研究課題、ならびに空間オーディオアプリケーションに焦点を当てた前向きな展望で結論付けます。
Speakers
avatar for Gloria Dal Santo

Gloria Dal Santo

Doctoral Researcher, Department of Information and Communications Engineering, Aalto University School of Electrical Engineering
Wednesday June 3, 2026 11:20am - 12:20pm JST
Next 2

12:20pm JST

Sponsor Talk 8
Wednesday June 3, 2026 12:20pm - 12:50pm JST

Wednesday June 3, 2026 12:20pm - 12:50pm JST
Next 2

12:50pm JST

Lunch & Networking / ランチとネットワーキング
Wednesday June 3, 2026 12:50pm - 2:00pm JST

Wednesday June 3, 2026 12:50pm - 2:00pm JST
Next 2

2:00pm JST

NKIDO a Open Source Bytecode Synth and Live-Coding Environment / NKIDO - オープンソースバイトコードシンセとライブコーディング環境
Wednesday June 3, 2026 2:00pm - 3:00pm JST
NKIDO is a live-coding audio environment built from scratch: a Tidal-inspired pattern language, a zero-allocation C++20 bytecode VM with 95+ DSP opcodes, and a browser IDE running it all via WebAssembly. This talk covers the language design, the runtime internals, and what it's like to vibe-code 60,000 lines of real-time audio C++ with AI.

NKIDOはゼロから構築されたライブコーディングオーディオ環境です。Tidalに着想を得たパターン言語、95以上のDSPオプコードを持つゼロアロケーションC++20バイトコードVM、そしてWebAssemblyを介してそれらすべてを実行するブラウザIDEで構成されています。このトークでは、言語設計、ランタイムの内部構造、そしてAIを使用して60,000行のリアルタイムオーディオC++をバイブコードする経験についてカバーしています。
Speakers
Wednesday June 3, 2026 2:00pm - 3:00pm JST
Next 2

3:00pm JST

Making Beats with React: Cross-Platform Audio Dev with Elementary / React でビート制作:Elementary を使用したクロスプラットフォーム オーディオ開発
Wednesday June 3, 2026 3:00pm - 4:00pm JST
Building cross-platform audio apps is difficult - and for a long time, Android lagged far behind iOS when it came to music-making tools. That's changing. Elementary Audio introduces a new paradigm for audio experiences: by exposing a shared JS API with both web and native renderers, it makes code reuse across platforms feel natural. In this talk, I'll introduce Elementary Audio, walk through react-native-elementary, and demo what's possible to build with it today - including how AI is removing what little friction remains.

クロスプラットフォーム対応のオーディオアプリの構築は難しく、長い間、音楽制作ツールに関してはAndroidがiOSから大きく遅れていました。しかし、その状況は変わりつつあります。Elementary Audioは、オーディオ体験の新しいパラダイムを導入しています。Webとネイティブレンダラーの両方に対応した共有JS APIを公開することで、プラットフォーム間でのコード再利用が自然に感じられるようになります。このトークでは、Elementary Audioを紹介し、react-native-elementaryについて説明し、今日実現できる可能性をデモンストレーションします。AIがいかに残された摩擦をわずかなものにしているかについても含めます。
Speakers
avatar for Ricardo Abreu

Ricardo Abreu

Software Engineer (Founder), Yonko Level
Software engineer and music producer based in London. Building Midicircuit at Yonko Level — an interactive app for learning music production — and releasing beats as TXBROWN. Interested in audio engineering, learning UX, and making music technology accessible to everyone.
Wednesday June 3, 2026 3:00pm - 4:00pm JST
Next 2

4:00pm JST

Break & Networking / 休憩とネットワーキング
Wednesday June 3, 2026 4:00pm - 4:30pm JST

Wednesday June 3, 2026 4:00pm - 4:30pm JST
Next 2

4:30pm JST

Sponsor Talk 11
Wednesday June 3, 2026 4:30pm - 5:00pm JST

Wednesday June 3, 2026 4:30pm - 5:00pm JST
Next 2

5:00pm JST

Core Technologies Supporting Miku Hatsune and Future Development / 初音ミクを支える基幹技術と今後の展開
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Hatsune Miku has evolved beyond a mere sound source into a "singing voice synthesizer" equipped with advanced expressiveness and real-time responsiveness. This session explains the core technologies of real-time singing voice synthesis developed to meet these requirements, focusing on the architectural shift from conventional subtractive synthesis-based singing synthesis methods to additive synthesis-based approaches.

We delve into fundamental technical challenges in singing voice synthesis: "balancing computational cost with the fidelity of spectral reconstruction" and "ensuring precise controllability without compromising naturalness." In particular, we detail why the additive synthesis architecture was adopted, and discuss the advantages and trade-offs in time-series fidelity and spectral manipulation flexibility compared to other methods such as subtractive synthesis.

Additionally, as optimization strategies for maintaining real-time performance in general consumer environments, we address parameter compression concepts and computational load management techniques. Finally, we share future perspectives including SDK-oriented design to support next-generation creativity and engine extensibility.

初音ミクは単なる音源の枠を超え、高度な表現力と即時応答性を備えた「歌声シンセサイザ」へと進化を遂げてきました。本セッションでは、これらの要件を満たすために開発されたリアルタイム歌声合成の基幹技術について、従来の減算合成ベースの歌唱合成方式から加算合成ベースのアプローチへのアーキテクチャ転換を中心に解説します。
歌声合成における根本的な技術課題である「計算コストとスペクトル再構築の忠実度の両立」、そして「自然さを損なわない緻密な制御性の確保」について掘り下げます。特に、なぜ加算合成アーキテクチャを採用したのか、減算合成等の他方式と比較した際の時系列上の忠実度やスペクトル操作の自由度における利点とトレードオフについて詳述します。
また、一般的なコンシューマ環境でリアルタイム性能を維持するための最適化戦略として、パラメータ圧縮の思想や計算負荷の管理手法についても触れます。最後に、次世代のクリエイティビティを支えるためのSDK化を見据えた設計や、エンジンの拡張可能性など、今後の展望を共有します。
Wednesday June 3, 2026 5:00pm - 6:00pm JST
Next 2
 
Share Modal

Share this link via

Or copy link

Filter sessions
Apply filters to sessions.
Filtered by Date -