J-PARCのRCSでは、大強度ビームを生成するペイント入射に、4台の水平ペイントバンプ電磁石と2台の垂直ペイントバンプ電磁石を用いる。ペイントバンプ電源は、IGBTユニットを使用した整流器とチョッパ回路による間接変換装置で構成されている。励磁電流の波形を台形波形や減衰関数波形など任意に設定して出力することができ、現在の運転では、設定値と出力値の偏差が±0.2%以下の高精度制御を達成している。しかし、電磁石の負荷インピーダンスは入力波形に対して非線形性を有するため、1つの波形パターン調整に1時間程度を必要とする。大強度ビーム生成試験などでは、6台のペイントバンプ電源にそれぞれ15パターンで全90種の波形パターンが求められるため、パターンを作成するために数日の調整時間を要することから、ペイントバンプ波形パターンの調整時間短縮が求められる。そこで、指令電圧波形と出力電流波形における非線形...
陽子シンクロトロンでは、加速開始から終了まで高周波電圧をパターンとして変化させる。加速基本波のみのパターンの場合は、解析的な式を用い、縦方向のエミッタンスとモーメンタムフィリングファクターをパラメータとしてパターンを求めることができる。一方、大強度陽子加速器では加速基本波に加え2倍高調波電圧を加えた運転によるバンチ操作が必要となってくるが、この場合最適な電圧は自明ではなく、最適化は縦方向トラッキングシミュレーションを援用しながら手作業で行っているのが現状である。ここに、深層強化学習は手順の最適化に適した手法であることから、これをパターンの最適化に用いることができるのではないかと考えた。実装はまだまだ追い付いていないのが現状であるが、パターン最適化の構想について報告する。先達の方々のフィードバックを頂ければ幸いである。
強化学習による機器の制御は非常に興味深い試みである。しかし、実際の機器を用いて強化学習を始めるには機器の損傷等のリスクがある。このリスクを避ける為に、実機を模擬したシュミレーターや事前に収集されたデータを使用する強化学習のアルゴリズムが考えられている。今回、簡単な例を用いてそれらのアルゴリズムによる強化学習を行なったのでその結果について議論する。