労働安全衛生総合研究所

化学物質の構造表記法の歩んだ道

1. はじめに


 化学物質を安全に使用するためには、まず取り扱う化学物質について知らなければなりません。ここで、化学物質の危険有害性情報を収集、あるいはそれを作成する必要が生じて調査していく過程で、例えば本邦のNITE-CHRIPや米国EPA Substance Registry Services、欧州ECHA CHEMといったデータベースや、令和7年3月末に厚生労働省より公開されたSDSに関する標準的なフォーマット1の中に、化学物質を識別する情報として物質名やCAS番号、分子式だけでなく、SMILESやInChIといった項目が含まれているのを見かけたことがあるのではないでしょうか。本コラムではこのような、化学物質の構造を一行の文字列として表す線型表記法が開発された経緯についてご紹介します。


2. 化学構造の表現—構造式—


 Berzeliusにより1813年にラテン名のイニシャルまたは最初の2文字を用いる元素の表記法が提案され、その後に原子量の導入と組成式(化合物を構成する元素の比率)が定められたことで物質の明確な区別が可能になり、化学反応を解明するための基礎が築かれました2。実際、例えば錬金術研究を行ったといわれるNewtonが著した「光学」(1704年刊)を見てみると、「…水銀粒子は塩精分の酸性粒子と合体して昇汞(しょうこう)*1を構成し, 硫黄粒子と合体して辰砂(しんしゃ)*2を構成すること…」3のように化学変化は文章で記され、物質を表すために今日用いられる記号や数字は登場しません。1830年にLiebigにより有機化合物の組成式を決めるための簡便で正確な方法が確立され、反応前後の組成の比較から反応箇所を示す形で反応式が表されるようになったことや、1852年のFranklandによる原子価(元素固有の結合数)の発見2を経て、有機化学分野において分子中の原子間の結合関係を図式的に表現する化学構造式が開発され、急速に普及しました(図1)4。その後、分析技術や合成法の進歩などを背景として構造究明の対象が広がり、既知物質の数が飛躍的に増えていきました。


図1. 化学式の変化

図1 化学式の変化



(a) Couperのエチルアルコール (1858)、(b) Kekuléのエチルアルコール (1861)、(c)Crum Brownのエタン(1864)
出典:現代化学史 原子・分子の科学の発展(京都大学学術出版会、2013年)より転載(出版社の許諾を得て掲載)。


3. 化学構造の表現—線型表記—


 1940年代から1950年代にかけてIUPAC(国際純正・応用化学連合)に対し複数の線型表記法が提案されました5, 6。これらは主に有機化合物を対象としていましたが、当時それが必要とされた理由やその要請内容について、平山の説明を引用したいと思います7

 「有機化合物の総数は現在30万とも50万とも言われており, 有機化合物に関する文献は極めて多数で…(中略)…その文献を整理するためには, 化合物を一義的に記号化して検索できるようにすることが, どうしても必要であることが分かるであろう。次にドクメンテーションの立場から有機化学構造の記号化に要請される項目をあげてみると, 1.化合物と記号が1対1で結びつくこと, 2. できれば, 有機化学構造式のように2次元的な広がりを持つものでなく, 1行に書けるように1次元的な広がりのものであること, 3. 化合物記号の配列順序が一義的に決まること,…(中略)…既述の化学構造式によれば1の要求は満たされるが, 2, 3の要求は満たされないし, 構造名*3では1が満たされない。…(中略)…4. ある部分構造をもった化合物が, その記号から容易に抽出されること, が可能となりまた必要とされるに至った。」

 各種の提案された方法の中で、Wiswesserの開発したWLNが化学構造情報の蓄積と検索を行うためのコンピュータ・システムに取り入れられました。WLNは原子や官能基、分岐、分岐鎖の区切りなどにアルファベットや記号を割り当て、数字を用いてアルキル鎖の長さや環の大きさを表現、それらの配列順序に関するルールを定めることで化学構造と表記の1:1対応(標準化:canonicalization)を達成しました(図2)。しかしその一方、Wiswesser自身が述べた「表記法や命名法における最大の難しさは非環や単環構造にではなく多環構造にあり、ここでは単純な描写のための論理的な始終の順序が見当たらない」8ことに対応するため、あるいは部分構造検索を容易にするために設定された多数のルール9は、WLN形式の文字列に変換する際の障壁となりました10-12

図2 WLN記法によるフェニルアラニンの表現

図2 WLN記法によるフェニルアラニンの表現


Qはヒドロキシル基(-OH)、Vはカルボニル基、Yは3級炭素、Zはアミノ基、1はメチレン基、Rはベンゼン環を示す。構造式画像はRDKit(ver 2022.3.5)を用いて生成。
出典:Wiswesser line notation (5 July 2025, at 07:44 (UTC),Wikipedia, https://en.wikipedia.org/wiki/Wiswesser_line_notation)。


 1988年、Weiningerは既法の問題点は記号の過剰使用と階層的なルールにある13とし、使い慣れた元素記号と極力少ない記号・ルールのみを用いた表記法を提案しました。そして、前述した標準化の問題を構造に応じた個々のルールではなく主にコンピュータによる演算処理に委ねることで解決しました(図3)14。人との親和性(文字列から化学構造が想像しやすく習得が容易であること)とコンピュータ処理との親和性を兼ね備えたこの線型表記法、すなわちSimplified Molecular Input Line Entry System(SMILES)は人気を博し取り入れられました。その後、独自の標準化手法でSMILESを実装した商用製品が乱立したことや扱える立体化学の種類が限られていたこと等を受けて、異なるデータベース上の同一分子に関する情報の名寄せに使用できる標準的な表現を提供することを目標として2000年にIUPACとNIST(米国国立標準技術研究所)がInChIプロジェクトを始動し、2005年、構造データ入力から演算処理による標準化を含めた文字列生成までの一連の処理がオープンソースとして利用可能な形で公開されました15, 16


図3 Morganアルゴリズムによる原子への番号付けとSMILES生成

図3 Morganアルゴリズムによる原子への番号付けとSMILES生成

初めに水素を除いた構造中の各原子に1を付与し、次に各原子に結合している原子に付与された数の合計を求める操作を合計値の種類(図中の#values)が増えなくなるまで繰り返す(緑矢印)。更新終了直前のステップのものを採用し、経路長や原子の種類、結合次数等を加味して優先順位付けを行いSMILES記法で表記する(青矢印)。改良されたCANGENアルゴリズムについては出典を参照されたい。
出典:Algorithms in Chemoinformatics Canonical Representations and Substructure Searching (2019)より転載(著者の許諾を得て掲載)。

4. おわりに


 本稿では、化学物質の構造を一行の文字列として表す線型表記法が生み出された歴史的な経緯を中心にご紹介しました。当初、蓄積と検索を効率的に行うために開発された線型表記法により表された化学構造情報は、部分構造を用いた毒性予測等と結びつき、今日その意義は化学データベースの運用に留まりません。特に、がん原性試験といった動物実験に依拠する試験結果が得られにくくなっている今日の状況17においては、机上調査を進める際の実用的な道具であると言えます。他方、従前より使用されてきた化学構造式の画像からも各種化学構造式OCRツールを使用することでSMILES等の形式の文字列は得られるものの、正確に変換できているか注意深く確認する必要があり、描写した構造を構造式画像ファイルとして出力する際に併せて出力するのが確実でしょう。化審法に基づく少量新規化学物質の申出には、平成31年度以降、構造式と併せて構造を表形式の数値情報で表したMOLファイルの提出が求められています18


*1 塩化水銀(Ⅱ)HgCl2の慣用名。
*2 硫化水銀HgSの慣用名。
*3 IUPAC名を指す。

参考文献

  1. 厚生労働省労働基準局安全衛生部化学物質対策課. SDS情報交換のための標準的フォーマット等の公開について. https://www.mhlw.go.jp/stf/newpage_56484.html(Accessed 26 January 2026).
  2. 相田千恵美, 井原聡 (1988) 有機化学反応にみる原子価概念の成立. 茨城大学教養部紀要, p.147-74.
  3. Newton IS著; 堀伸夫, 田中一郎訳 (1980) 光学, 槇書店, p.254.
  4. 廣田襄 (2013) 現代化学史 原子・分子の科学の発展, 京都大学学術出版会, p.69.
  5. David L, Thakkar A, Mercado R, Engkvist O (2020) Molecular representations in AI-driven drug discovery: a review and practical guide. J Cheminform 12, 56.
  6. Wiswesser WJ (1968) 107 Years of Line-Formula Notations (1861-1968). Journal of Chemical Documentation 8, 146-50.
  7. 平山健三 (1959) 有機化合物の化学構造表示法(1). 情報管理 2, 10-2.
  8. Wiswesser WJ (1985) Historic development of chemical notations. J Chem Inf Comput Sci 25, 258-63.
  9. Smith EG著; 平山健三, 佐々木慎一監修; 工藤喜弘等訳 (1975) WLN-化学構造式の線型表記法, 南江堂.
  10. Representing Molecules. https://openbabel.org/docs/Cheminf101/represent.html (Accessed 26 January 2026).
  11. 参考資料集 ケモメトリックス関連資料 3.化合物構造表記法とデータベース. 株式会社インシリコデータ. http://www.insilicodata.com/pdf%20lists/book/inf/com%203%20general2.pdf [PDF](Accessed 26 January 2026) .
  12. 久保田昂, 中井正和, 古橋伸介, 笹本光雄, 浜野利秋, 三宅健次郎 (1976) Wiswesser Line Notationによるコーディングのチェックシステム. 薬学図書館 21, 112-8.
  13. Weininger D (1988) SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. J Chem Inf Comput Sci 28, 31-6.
  14. Vogt M (2019) Algorithms in Chemoinformatics Canonical Representations and Substructure Searching. https://bigchem.eu/sites/default/files/Martin_Vogt_algorithms_in_cheminformatics_150519.pdf[PDF] (Accessed 26 January 2026).
  15. O'Boyle NM (2012) Towards a Universal SMILES representation - A standard method to generate canonical SMILES based on the InChI. J Cheminform 4, 22.
  16. Heller SR, McNaught A, Pletnev I, Stein S, Tchekhovskoi D (2015) InChI, the IUPAC International Chemical Identifier. J Cheminform 7, 23.
  17. Ogata Y, Yamamoto K (2025) Database-driven chemical information integration: analysis of substances investigated by the investigative committee on risk assessment for preventing impairment of workers' health caused by chemical substances by the Ministry of Health, Labour and Welfare, Japan. Ind Health 63, 337-55.
  18. 少量新規化学物質の構造式ファイル作成に係る事業者ガイダンス第 1.9 版.https://www.nite.go.jp/data/000100455.pdf[PDF] (Accessed 26 January 2026).

謝辞
本コラムの作成にあたり、講義資料の使用をご快諾くださったMartin Vogt博士に深く感謝を申し上げます。


(化学物質情報管理部 研究員 緒方 裕子)


刊行物・報告書等 研究成果一覧