语言输入用户界面转让专利

申请号 : CN00815295.0

文献号 : CN100593167C

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王建张高韩建陈征令显宁李凯夫

申请人 : 微软公司

摘要 :

语言输入体系结构接收用户从输入装置(例如键盘、语音识别)输入的输入文本(例如基于字的语言的语音文本)。输入文本被转换成输出文本(例如基于字的语言的书面语言文本)。语言输入体系结构具有成行地显示输出文本和未转换的输入文本的用户界面。当输入文本被转换时,在UI中利用转换后的输出文本替换所述输入文本。除了这种成行输入特征之外,UI还能够在不要求用户从输入模式转换到编辑模式的情况下,实现原位编辑或纠错。为了帮助这种原位编辑,UI提供弹出式窗口,所述弹出式窗口包含语音文本以及第一和第二候选文本列表,输出文本由所述语音文本转换而来,所述第一和第二候选文本列表分别包含可用于替换当前的输出文本的较小一组预备候选文本和较大一组预备候选文本。语言输入用户界面还允许用户输入不同语言的混合文本。

权利要求 :

1.一种语言输入方法,包括:

接收用户输入的输入文本;

把输入文本转换成输出文本;

在共同的输入行内显示输入文本和输出文本;以及

使用户能够在不从输入模式转换到编辑模式的情况下在共同的输入 行内编辑输出文本;

其中随着所述输入文本的每一部分被转换,所述输出文本代替了该 输出文本所从其转换的所述输入文本;

所述输出文本与未被转换的输入文本被一起显示在所述共同的输入 行内的至少一条连续的文本串中,所述至少一条连续的文本串包括所述 输出文本和所述未被转换的输入文本。

2.按照权利要求1所述的方法,其中输入文本包括语音文本,输出 文本包括基于字的语言文本。

3.按照权利要求1所述的方法,其中输入文本包括中文拼音,输出 文本包括中文汉字。

4.按照权利要求1所述的方法,其中显示包括在共同的水平行内显 示输入文本和输出文本。

5.按照权利要求1所述的方法,其中显示包括在输入文本的位置显 示输出文本,所述输出文本由所述输入文本转换而来。

6.按照权利要求1所述的方法,还包括当输入另外的输入文本时, 修改输出文本。

7.按照权利要求6所述的方法,还包括响应标点符号的用户输入, 当输入另外的输入文本时,停止进一步修改输出文本。

8.按照权利要求6所述的方法,还包括响应输出文本的用户确认, 当输入另外的输入文本时,停止进一步修改输出文本。

9.按照权利要求6所述的方法,还包括响应输出文本的用户确认, 停止修改输出文本,同时使未转换的输入文本保持可修改状态。

10.按照权利要求1所述的方法,还包括当输入另外的输入文本时, 有选择地修改输出文本,以致如果这种修改仅仅产生较小的改进时就不 进行任何修改。

11.按照权利要求1所述的方法,还包括响应供编辑的输出文本的用 户选择,邻近输入行中选择的输出文本显示一个编辑窗口。

12.按照权利要求11所述的方法,其中输入行沿第一方向定向,并 且还包括沿垂直于第一方向的第二方向为编辑窗口定向。

13.按照权利要求1所述的方法,还包括响应供编辑的输出文本的 用户选择,邻近输入行中选择的输出文本显示输入文本提示窗口,输入 文本提示窗口包括输入文本,选择的输出文本由所述输入文本转换而来。

14.按照权利要求1所述的方法,还包括响应供编辑的输出文本的 用户选择,邻近输入行中选择的输出文本显示第一候选文本列表,第一 候选文本列表包含可替换选择的输出文本的一个或多个预备的候选输出 文本。

15.按照权利要求14所述的方法,还包括按照顺序对第一候选文本 列表内的候选输出文本排序。

16.按照权利要求14所述的方法,其中第一候选文本列表可滚动, 并且还包括当滚动该列表时,动画移动候选输出文本。

17.按照权利要求14所述的方法,还包括显示包含与第一候选文本 列表相比更完整的一组候选输出文本的第二候选文本列表。

18.按照权利要求17所述的方法,还包括按照字结构的复杂性排列 第二候选文本列表中的候选输出文本。

19.按照权利要求17所述的方法,还包括:

按照第一量度对第一候选文本列表中的候选输出文本排序;和按照不同于第一量度的第二量度,对第二候选文本列表中的候选输 出文本排序。

20.按照权利要求1所述的方法,其中沿第一方向对输入行定向, 并且还包括响应供编辑的输出文本的用户选择:沿垂直于第一方向的第二方向在选择的输出文本上方显示输入文本 提示窗口,输入文本提示窗口包含输入文本,选择的输出文本由所述输 入文本转换而来;和沿第二方向在选择的输出文本下方显示第一候选文本窗口,所述第 一候选文本窗口包含可替换选择的输出文本的一个或多个预备的候选输 出文本。

21.按照权利要求1所述的方法,其中输入文本包括语音文本和非 语音文本,该方法还包括:把语音文本转换成语言文本;和

在共同的输入行内显示语言文本、非语音文本和新输入的语音文本。

22.按照权利要求1所述的方法,还包括使用户能够在不在用于第 一种语言的第一输入模式和用于第二种语言的第二输入模式之间进行转 换的情况下,输入包含至少两种语言的输入文本。

23.按照权利要求1所述的方法,其中输入文本包括单个的输入字 符,该方法还包括当至少显示一个输入字符,并且最多显示六个输入字 符时,把输入字符中的至少一个字符转换成输出文本。

24.按照权利要求1所述的方法,其中输入文本包括单个的输入字 符,该方法还包括:评估用于匹配字符的至少两个候选转换字符;和

如果两个候选转换字符中的至少一个字符匹配,把至少一个输入字 符转换成匹配的字符。

25.按照权利要求1所述的方法,其中输入文本包括单个的输入字 符,该方法还包括总是显示最近输入的输入字符。

26.按照权利要求1所述的方法,其中输入文本包括单个的输入字 符,该方法还包括如果第一最可能的候选转换字符的得分明显高于第二 可能的候选转换字符的得分,则把至少一个输入字符转换成第一最可能 的候选转换字符的输出文本。

27.一种语言输入方法,包括:

当用户输入语音文本时显示该语音文本;

显示由语音文本转换来的语言文本,在由其转换得到语言文本的语 音文本的位置呈现语言文本,从而一起显示语言文本和未被转换的语音 文本;以及使用户能够在不从输入模式转换到编辑模式的情况下编辑所述语言 文本;

其中随着所述语音文本的每一部分被转换,所述语言文本代替了该 语言文本所从其转换的所述语音文本;

所述语言文本与未被转换的语音文本被一起显示在共同的输入行内 的至少一条连续的文本串中,所述至少一条连续的文本串包括所述语言 文本和所述未被转换的语音文本。

28.按照权利要求27所述的方法,其中语音文本包括中文拼音,语 言文本包括中文汉字。

29.按照权利要求27所述的方法,还包括在共同的水平行内一起显 示未转换的语音文本和语言文本。

30.按照权利要求27所述的方法,还包括当输入另外的语音文本时, 修改语言文本。

31.按照权利要求30所述的方法,还包括响应标点符号的用户输入, 当输入另外的语音文本时,停止进一步修改语言文本。

32.按照权利要求30所述的方法,还包括响应语言文本的用户确认, 当输入另外的语音文本时,停止进一步修改语言文本。

33.按照权利要求30所述的方法,还包括响应语言文本的用户确认, 停止修改语言文本,同时使未转换的语音文本保持可修改状态。

34.按照权利要求27所述的方法,还包括随着输入另外的语音文 本,如果第二语言文本更可能是预期的语言文本,则把语言文本修改 为第二语言文本。

35.按照权利要求27所述的方法,还包括响应供编辑的语言文本 的用户选择,邻近选择的语言文本显示编辑窗口。

36.按照权利要求27所述的方法,还包括响应供编辑的语言文本 的用户选择:最接近于选择的语言文本显示语音文本提示,语音文本提示包含 语音文本,选择的语言文本由所述语音文本转换而来;和最接近于选择的语言文本显示减少的一组候选文本列表,所述减 少的一组候选文本列表包含一组减少的可替换选择的语言文本的一个 或多个预备的候选语言文本。

37.按照权利要求36所述的方法,还包括按照顺序对候选文本列 表内的候选语言文本排序。

38.按照权利要求36所述的方法,其中候选文本列表可滚动,并 且还包括当滚动该列表时,动画移动候选语言文本。

39.按照权利要求36所述的方法,还包括显示不同于减少的一组 候选文本列表的一组完整的候选文本列表,完整的候选文本列表包含 完整的一组候选语言文本。

40.按照权利要求39所述的方法,还包括按照字结构的复杂性, 排列完整的一组候选文本列表内的候选语言文本。

41.按照权利要求39所述的方法,还包括:

按照第一量度排列减少的一组候选文本列表中的候选语言文本; 和按照不同于第一量度的第二量度,排列完整的一组候选文本列表 中的候选语言文本。

42.按照权利要求27所述的方法,其中语音文本包含单个的字符, 该方法还包括当显示至少一个语音字符,并且最多显示六个语音字符 时,至少把语音字符之一转换成语言文本。

43.一种语言输入方法,包括:

提供接收用户输入的语音文本和非语音文本的用户界面;

把语音文本转换成语言文本;

一起显示语言文本、非语音文本和未被转换的语音文本;以及使用户能够在不从输入模式转换到编辑模式的情况下在共同的输入 行内编辑语言文本。

44.按照权利要求43所述的方法,还包括在共同的水平行内成行 地显示语言文本、非语音文本和未被转换的语音文本。

45.按照权利要求43所述的方法,还包括与显示未被转换的语音 文本不同地显示非语音文本,以致非语音文本看起来不同于未被转换 的语音文本。

46.按照权利要求43所述的方法,还包括以第一种字体显示非语 音文本,以不同于第一种字体的第二种字体显示未被转换的语音文本。

47.按照权利要求43所述的方法,还包括以第一种颜色显示非语 音文本,以不同于第一种颜色的第二种颜色显示未被转换的语音文本。

48.一种包括语言输入用户界面的计算机系统,包括:

显示装置,用于显示基于行的输入区;

输入装置,用于在基于行的输入区内输入输入文本;

转换器,用于把输入文本转换成输出文本,其中随着所述输入文 本的每一部分被转换,所述输出文本代替了该输出文本所从其转换的所 述输入文本,所述输出文本与未被转换的输入文本被一起显示在所述基 于行的输入区的至少一条连续的文本串中,所述至少一条连续的文本串 包括所述输出文本和所述未被转换的输入文本;和编辑装置,用于在不从输入模式转换到编辑模式的情况下,在基 于行的输入区内编辑输出文本。

49.按照权利要求48所述的计算机系统,其中输入文本包括语音 文本,输出文本包括基于字的语言文本。

50.按照权利要求48所述的计算机系统,其中输入文本包括中文 拼音,输出文本包括中文汉字。

51.按照权利要求48所述的计算机系统,其中基于行的输入区采取 水平方向。

52.按照权利要求48所述的计算机系统,其中按照如下方式之一:当输入文本被转换时自动地;以及

在所述转换被用户手工接受之后,

输出文本替换输入文本,输出文本由所述输入文本转换而来。

53.按照权利要求48所述的计算机系统,其中当输入另外的输入 文本时,进一步修改输出文本。

54.按照权利要求48所述的计算机系统,其中响应标点符号的用户 输入,使输出文本固定不变。

55.按照权利要求48所述的计算机系统,其中响应输出文本的用 户确认,使输出文本固定不变。

56.按照权利要求48所述的计算机系统,还包括用户调用的布置 在要编辑的特定输出文本附近的编辑窗口。

57.按照权利要求48所述的计算机系统,其中沿第一方向给基于 行的输入区定向,并且还包括邻近基于行的输入区布置的,并且沿垂 直于第一方向的第二方向定向的编辑窗口。

58.按照权利要求48所述的计算机系统,还包括由用户调用的、 接近选择的要编辑的输出文本布置在基于行的输入区附近的输入文本 提示窗口,该输入文本提示窗口包含输入文本,所选择的输出文本由 所述输入文本转换而来。

59.按照权利要求48所述的计算机系统,还包括用户调用的接近 选择的要编辑的输出文本布置在基于行的输入区附近的候选文本列 表,候选文本列表包含可替换选择的输出文本的一个或多个预备的候 选输出文本。

60.按照权利要求59所述的计算机系统,其中按照顺序在候选文 本列表内对候选输出文本排序。

61.按照权利要求59所述的计算机系统,其中候选文本列表可滚 动,并且在滚动过程中,候选输出文本被动画显示。

62.按照权利要求48所述的计算机系统,还包括:

可被用户调用的第一和第二候选文本列表;

第一候选文本列表包含可替换选择的输出文本的一个或多个预备 的候选输出文本;和和第一候选文本列表相比,包含完整的一组候选输出文本的第二 候选文本列表。

63.按照权利要求62所述的计算机系统,其中按照字结构的复杂 性排列第二候选文本列表中的候选输出文本。

64.按照权利要求62所述的计算机系统,其中按照第一量度对第 一候选文本列表内的候选输出文本排序,按照不同于第一量度的第二 量度排列第二候选文本列表中的候选输出文本。

65.按照权利要求48所述的计算机系统,其中基于行的输入区沿 第一方向被定向,并且还包括:接近选择的要编辑的输出文本布置在基于行的输入区上方,并且 沿垂直于第一方向的第二方向定向的输入文本提示,所述输入文本提 示包含输入文本,选择的输出文本由所述输入文本转换而来;和接近选择的要编辑的输入文本布置在基于行的输入区下方的候选 文本列表,所述候选文本列表包含可替换选择的输出文本的一个或多 个预备的候选输出文本。

66.按照权利要求48所述的计算机系统,其中输入文本包含语音 文本和非语音文本,输出文本、语音输入文本和非语音输入文本一起 显示在基于行的输入区内。

67.一种包含权利要求48所述的计算机系统的字处理器。

68.一种用于语言输入的计算机系统,包括:

使用户能够输入输入文本的输入装置;

把输入文本转换成输出文本的语言转换器;

显示屏幕,被配置成在至少一个连续的文本串中与未转换的输入 文本成行地显示转换后的输出文本,所述至少一条连续的文本串包括所 述转换后的输出文本和所述未被转换的输入文本,其中随着所述输入文 本的每一部分被转换,所述输出文本代替了该输出文本所从其转换的所 述输入文本;和编辑装置,使用户能够在不从输入模式转换到编辑模式的情况下 编辑输出文本。

69.按照权利要求68所述的计算机系统,其中输入文本包括语音 文本,输出文本包括基于字的语言文本。

70.按照权利要求68所述的计算机系统,其中输入文本包括中文 拼音,输出文本包括中文汉字。

71.按照权利要求68所述的计算机系统,其中所述显示屏幕的用 户界面在共同的水平行内呈现输出文本和未转换的输入文本。

72.按照权利要求68所述的计算机系统,其中当输入另外的输入 文本时,语言转换器继续修改输出文本,当输出文本被修改时,所述 显示屏幕的用户界面不断改变输出文本。

73.按照权利要求68所述的计算机系统,其中所述显示屏幕的用 户界面在沿第一方向定向的公用行内呈现输出文本和未转换的输入文 本,并在选择的要编辑的输出文本附近呈现编辑窗口,所述编辑窗口 沿垂直于第一方向的第二方向定向。

74.按照权利要求68所述的计算机系统,其中所述显示屏幕的用 户界面给出包含输入文本的输入文本提示,选择的输出文本由所述输 入文本转换而来。

75.按照权利要求68所述的计算机系统,其中所述显示屏幕的用 户界面给出包含可替换选择的输出文本的一个或多个预备的候选输出 文本的候选文本列表。

76.按照权利要求68所述的计算机系统,其中所述显示屏幕的用 户界面给出第一和第二候选文本列表,第一候选文本列表包含可替换 选择的输出文本的一个或多个预备的候选输出文本,第二候选文本列 表包含比第一候选列表完整的一组候选输出文本。

77.按照权利要求68所述的计算机系统,其中输入文本包含语音 文本和非语音文本,并且还包括:语言转换器被配置成把语音文本转换成语言文本,同时使非语音 文本保持不被转换;和所述显示屏幕的用户界面被配置成成行地显示语言文本、未转换 的语音文本和非语音文本。

78.一种包含权利要求68所述的计算机系统的字处理器。

说明书 :

本发明要求在1999年11月5日提交的美国临时申请No.60/163588 的优先权。

本发明还与在______共同提交的美国专利申请序列号No.___, “Language Input Architecture For Converting One Text Form to Another Text Form With Tolerance To Spelling,Typographical,And Conversion Errors”和在______共同提交的美国专利申请序列号No.___, “Language Input Architecture For Converting One Text Form to Another Text Form With Modeless Entry”同时待审。这两件同时待审的 申请作为参考包含于此。

技术领域

本发明涉及语言输入用户界面。更具体地说,本发明涉及可供输入 语音文本并将其转换成语言文本的语言专用或多种语言字处理系统、电 子邮件系统、浏览器等使用的语言输入用户界面。

背景技术

使用字母数字键盘(例如英语QWERTY键盘)的语言专用字处理 系统已存在许多年了。字母数字键盘适用于采用小字母表,例如罗马字 符集的语言。但是不是所有的语言都具有较小的字符库。例如,诸如中 文、日文、韩文之类基于字的语言(也称为符号语言)可能具有数千个 字。并不存在用于基于字的语言的语言专用键盘,因为实际上不能制造 支持如此多的不同字的单独按键的键盘。
语言专用字处理系统允许用户从小的字符集键盘(例如QWERTY 键盘)输入语音文本并把语音文本转换成基于字的语言的语言文本,而 不是设计昂贵的语言和方言专用键盘。“语音文本”代表说指定语言时发 出的语音,而“语言文本”代表当指定语言以文本形式出现时实际书写 的字。例如就中文来说,拼音是语音文本的一个例子,汉字是语言文本 的一个例子。一般,表述语音文本所需的字符集远远小于用于表述语言 文本的字符集。通过把语音文本转换成语言文本,使用常规的计算机和 标准的QWERTY键盘,可借助语言专用字处理器处理多种不同的语言。
为了便于用户输入语音文本,语言专用字处理系统通常采用语言输 入用户界面(UI)。但是现有的语言输入界面的用户友好性不是很好,因 为这些输入界面不易掌握并且不适应快速的击键速度。作为这种不友善 性的一个例子,一些传统的语言输入用户界面使语音文本输入和转换后 的语言文本输出分离。例如,用户可能在可视显示屏幕的一个位置输入 语音文本,在该屏幕上的一个单独并且截然不同的位置呈现语言文本的 转换字符。这两个位置甚至可能具有它们自己的本地光标。这种双重呈 现会使用户弄错实际进行输入的地方。此外,用户必须在屏幕上的位置 间不断扫视。
从而,现有的语言输入UI通常只由专业打字员使用,不被普通的个 人计算机(PC)用户使用。在基于字符语言的国家中,这些利害关系显 著影响PC应用的普及性。
一般,存在两种语言输入用户界面:(1)基于代码的用户界面和(2) 基于模式的用户界面。就基于代码的用户界面来说,用户记忆与语言单 字相关的代码。代码由输入装置输入,并且被转换成所需的语言文本。 一旦用户记住代码,则这种用户界面允许用户很快地输入文本。但是, 这些代码通常不易于记忆,相反易于遗忘。
就基于模式的用户界面来说,输入语音文本并将其转换成所需的语 言文本。基于模式的用户界面不需要用户记忆代码,但是一般要求用户 在输入语言文本和编辑语言文本之间转换模式。在微软的通过利用语音- 语言转换适合于外文,例如中文的“Word”商标字处理程序中采用了基 于模式的用户界面的一个例子。当在“Word”程序中输入语音文本时, 向用户呈现一个定域工具条,所述定域工具条使用户能够在用户输入语 音字符(例如中文拼音)的输入模式和用户校正由于识别和转换程序的 结果偶尔产生的不可避免的错误的编辑模式之间转换。
这些常规界面的一个缺陷在于用户必须了解当前的模式-输入模式 或编辑模式-并且采取与文本输入无关的附加步骤(例如点击工具条控制 按键)在模式之间进行转换。因此这种界面导致额外的用户工作,并且 把用户的注意力从文本输入转向其它外围控制方面,从而显著降低输入 速度。
从用户界面观点来看,基于模式的用户界面的另一问题涉及如何处 理不可避免的转换错误。当识别和转换引擎把语音文本转换成不正确的 语言字符时,产生转换错误。由于指定语言的本质和语音文本可用于预 测预期字符的精度的缘故,产生转换错误是相当常见的。在用户转换到 编辑模式之后,用户界面一般向用户提供纠正字符的一些方式。例如在 微软的用于中国的“Word”商标字处理程序中,向用户提供包含可能的 备选字符的方框。如果列表较长,则该方框提供滚动可能字符列表的控 件。
传统的基于模式的用户界面的另一缺陷在于它们需要用于输入不同 语言的模式转换。当用户正在输入语音文本并且想要输入第二种语言的 文本时,用户必须转换模式以便输入第二种语言。例如,在微软的“Word” 环境下,定域工具条提供使用户能够在输入第一种语言(例如中文拼音) 和输入第二种语言(例如英文)之间切换的控制按键。用户必须有意识 地启动该控制按键,以便通知预期语言的字识别引擎。
涉及语言输入UI的另一利害关系,尤其是从非专业打字员的观点来 看,是打字错误。语音文本输入UI的一般用户尤其易于输入打字上的输 入错误。打字错误的原因之一在于来自不同地区的用户通常使用基于字 的语言的不同方言。由于他们的本地方言的缘故,用户拼错语音文本。 语音文本方面微小的偏差会导致完全错误的字符文本。
因此需要一种改进的语音输入用户界面。

发明内容

本发明涉及一种智能地把用户输入的语音文本和从语音文本转换而 来的语言文本结合到相同的屏幕区中的语言输入用户界面。该用户界面 是无模式的,因为它不要求用户在输入和编辑模式之间转换。无模式的 用户界面还适应多种语言的输入,而不要求在这些语言间进行明确的模 式转换。从而对用户来说,该用户界面直观、易学并且友好。
在一种实现中,语言输入用户界面(UI)包括把语音文本和转换的 语言文本结合起来的成行输入特征。具体地说,同时在和先前输入的语 音文本及先前转换的语言文本相同的一行中显示用户正在输入的语音文 本。在和先前转换的语言文本相同的一行中显示输入的语音文本使用户 能够把他们的注意力集中到同一行中,从而产生更直观和更自然的用户 界面。
语言输入UI支持语言文本编辑操作,包括:1)添加语言文本;2) 删除语言文本;3)用一个或多个候选替换语言文本替换选择的语言文本。 用户界面使用户能够通过手动键入稍后能够被转换成新的语言文本的新 的语音文本,选择语言文本并替换它。另一方面,用户界面提供候选语 言文本的一个或多个列表。首先和选择的要改变的语言文本一起提供一 个浮动列表。按照这种方式,在句子结构中原位提供候选语言文本,使 用户能够使上下文语法关系方面的纠正形象化。按照根据候选文本的选 择实际上是用户最初的预期选择的概率等级或者概率分数的分类顺序, 提供候选文本列表。该层次结构可以概率、字的笔划或者其它量度为基 础。最前面的候选文本是给予该句子最高分数的候选文本,之后是给予 该句子次高分数的第二候选文本,依次类推。
当用户滚动该列表时,在语境菜单内更新该列表。另外,沿滚动操 作的方向以动画移动的形式表示当前的视觉选择。动画显示有助于用户 确定正被滚动的列表有多长或者有多快。一旦用户选择替换文本,则在 句子内语言文本的位置插入选择的替换文本,从而使用户能够把注意力 集中于正被编辑的一行。
语言输入UI的另一特征在于使用户能够针对正被编辑的语言文本 查看先前输入的语音文本。用户可选择先前输入的语音文本,并且当选 择时,在语言文本的位置显示先前输入的语音文本。随后可编辑该语音 文本并将其转换成新的语言文本。
语言输入用户界面的另一特征是基于句子的自动转换特征。就基于 句子的自动转换而论,在输入后续的语音文本之后,句子内先前转换的 语言文本还可被自动转换成不同的语言文本。一旦结束句子,例如由句 号指示,则该句子中的语言文本就被固定,不能因为输入后一句子中的 输入文本而被进一步自动转换成不同的语言文本。要认识到在备选实施 例中可使用基于短语的自动转换或者类似的自动转换。
语言输入用户界面的另一特征是具有语言文本确认的基于句子的自 动转换。在语音文本被转换成语言文本之后,用户可确认刚刚转换的语 言文本,从而不再由于句子语境的缘故进一步自动转换刚刚转换的语言 文本。
语言输入界面的另一特征是能够在不转换模式的情况下处理多种语 言。当和语音文本互混时,第二种语言的字词或符号被看作是特殊的语 言输入文本并且被显示为第二语言文本。从而,当输入不同的语言时, 不要求用户转换模式。
根据下述具体说明并且参考相关附图,表征本发明的这些及其它各 种特征和优点将是显而易见的。

附图说明

在附图中,相同的数字用于表示相同的组件和功能元件。
图1是具有实现语言输入体系结构的语言专用字处理器的计算机系 统的方框图。语言输入体系结构包括语言输入用户界面(UI)。
图2是语言输入用户界面的一种实现的屏幕显示的示意图。图2图 解说明语言输入UI的成行输入特征。
图3是语言输入UI的屏幕显示的示意图,它表示了自动转换特征。
图4是语言输入UI的屏幕显示的示意图,它表示基于句子的自动转 换特征。
图5是语言输入UI的屏幕显示的示意图,它表示原位纠错特征和语 音文本提示特征。
图6是语言输入UI的屏幕显示的示意图,它表示第二候选文本列表 特征。
图7是语言输入UI的屏幕显示的示意图,它表示原位语音文本纠正 特征。
图8是语言输入UI的屏幕显示的示意图,它表示图7的原位语音文 本纠正的后续屏幕。
图9是语言输入UI的屏幕显示的示意图,它表示图7和8的原位语 音文本纠正的后续屏幕。
图10是语言输入UI的屏幕显示的示意图,它表示包含多种不同语 言的混合文本的输入。
图11是利用语言输入用户界面输入文本的方法的流程图。
图12是成行输入子过程的流程图。
图13是自动转换子过程的流程图。
图14是具有确认的字符文本的自动转换子过程的流程图。
图15是原位纠错子过程的流程图。
图16是具有第二候选文本列表的原位纠错子过程的流程图。
图17是语音文本提示子过程的流程图。
图18是原位语音文本纠正子过程的流程图。
图19是成行输入混合语言文本子过程的流程图。
图20图解说明例证的用户输入和所得到的例证的中文输入用户界面 的屏幕镜头,它表示了成行输入特征的一个例子。
图21图解说明例证的中文输入用户界面的例证屏幕显示,它表示拼 音文本提示特征的一个例子。
图22图解说明例证的用户输入和所得到的例证的中文输入用户界面 的屏幕镜头,它表示了原位纠错特征的一个例子。
图23图解说明例证的用户输入和所得到的例证的中文输入用户界面 的屏幕镜头,它表示了原位拼音文本纠正特征的一个例子。
图24图解说明例证的用户输入和所得到的例证的中文输入用户界面 的屏幕镜头,它表示了英文/中文的混合输入特征的一个例子。
图25图解说明例证的用户输入和所得到的例证的中文输入用户界面 的屏幕镜头,它表示了第二候选文本列表的一个例子。
图26图解说明例证的用户输入和所得到的例证的中文输入用户界面 的屏幕镜头,它表示了具有字符确认的基于句子的自动转换特征的一个 例子。
图27图解说明了语音文本(例如中文拼音文本)及其相应的字文本 (例如中文字文本)的定义,以及非语音文本(例如字母数字文本)的 定义。

具体实施方式

本发明涉及简化语音文本输入和到语言文本的转换的语言输入用户 界面。为了便于说明,在由通用计算机执行的字处理程序的一般环境下 说明本发明。但是,本发明可在除字处理之外的许多不同环境(例如电 子邮件系统、浏览器等)中实现,并且可在许多不同类型的装置上实施。
系统结构
图1表示具有中央处理器(CPU)102、存储器104和输入/输出(I/O) 接口106的例证计算机系统100。CPU 102与存储器104和I/O接口106 通信。存储器104代表易失性存储器(例如RAM)和非易失性存储器(例 如ROM、硬盘等)。
计算机系统100具有通过I/O接口106连接的一个或多个外围设备。 例证的外围设备包括鼠标110、键盘112(例如字母数字QWERTY键盘、 速写键盘等)、显示监视器114、打印机116、外围存储器118和麦克风 120。该计算机系统可实现为例如通用计算机。因此,计算机系统100实 现存储在存储器104中并在CPU 102上执行的计算机操作系统(图中未 示出)。操作系统最好是支持窗口环境的多任务操作系统。一种适宜的操 作系统是来自微软公司的Windows操作系统。
注意也可使用其它计算机系统结构,例如手持式设备、多处理器系 统、基于微处理器或者可编程的消费电子装置、网络PC、迷你计算机、 大型计算机等等。另外,虽然图1中图解说明了独立的计算机,不过语 言输入UI可在分布式计算环境中实现,在分布式计算环境中由通过通信 网络(例如LAN、因特网等)链接的远程处理设备执行任务。在分布式 计算环境中,程序模块既可位于本地存储器中又可位于远程存储器中。
数据或字处理程序130保存在存储器104中并在CPU 102上执行。 其它程序、数据、文件等也可保存到存储器104中,不过为了便于说明 没有表示出。字处理程序130被配置成接收语音文本并且自动将其转换 成语言文本。更具体地说,字处理程序130实现语言输入体系结构131, 为了便于说明,所述语言输入体系结构131被实现为存储在存储器中并 且可在处理器上执行的计算机软件。除了体系结构131之外,字处理程 序130还可包括其它组件,但是对于字处理程序来说,这些组件被认为 是标准化的,因此将不具体表示或说明这些组件。
字处理程序130的语言输入体系结构131具有用户界面(UI)132、 搜索引擎134、语言模型136和打字模型137。体系结构与语言无关。UI 132和搜索引擎134是通用的,可用于任何语言。通过改变语言模型136 和打字模型137,体系结构131适合于特定的语言。体系结构的更详细说 明参见同时待审的申请序列号No.______,“Language Input Architecture For Converting One Text Form To Another Text Form With Tolerance To Spelling,Typographical,And Conversion Errors”和序列号No.____, “Language Input Architecture For Converting One Text Form to Another Text Form With Modeless Entry”,这两件同时待审的申请作为 参考包含于此。
搜索引擎134、语言模块136和打字模型137一起构成语音文本-语 言文本转换器138。对于本公开文献来说,“文本”意味一个或多个字符 和/或非字符符号。“语音文本”一般指的是代表当说指定语言时发出的声 音的字母数字文本。“语言文本”是表示书面语言的字符和非字符符号。 “非语音文本”是不代表当说指定语言时发出的声音的字母数字文本。 非语音文本可包括除语言文本之外代表书面语言的标点符号、特殊符号 和字母数字文本。
图27表示语音文本、转换后的语言文本和非语音文本的一个例子。 该例中,语音文本是可被翻译成“hello”的中文拼音文本。例证的字符 文本是同样可被翻译成“hello”的中文汉字文本。例证的非语音文本是 一串字母数字符号文本“@3m”。为了便于说明,在基于中文的字处理器 的方面说明字处理器130,语言输入体系结构131被配置成把拼音转换成 汉字。即,语音文本是拼音,语言文本是汉字。
但是,语言输入体系结构与语言无关,并且可用于其它语言。例如, 语音文本可以是日语口语,而语言文本代表日文书面语言,例如日本汉 字。存在许多其它例子,包括(但不局限于)阿拉伯语、朝鲜语、印度 语、其它亚洲语言等等。
更一般地说,语音文本可以是以基于罗马字的字符集(例如英文字 母表)表示的任意字母数字文本,所述基于罗马字的字符集表示当说指 定语言时发出的声音,而当被书写时,所述指定语言并不采用基于罗马 字的字符集。
通过一个或多个外围输入设备,例如鼠标110、键盘112或麦克风 120输入语音文本。按照这种方式,允许用户利用键盘输入或者口头语言 输入语音文本。在口语输入的情况下,计算机系统还可实现语音识别模 块(图中未示出),以便接收口语单词并将其转换成语音文本。下面的讨 论假定在实际大小的标准字母数字QWERTY键盘上进行借助键盘112 的文本输入。
当输入语音文本时,UI 132显示该语音文本。UI最好是图形用户界 面。用户界面132把语音文本(P)传递给搜索引擎134,搜索引擎134 再把语音文本传递给打字模型137。打字模型137产生可能是用户预期的 语音文本的适宜版本的各种打字候选文本(TC1,…TCN),假定语音文 本可能包括错误。打字模型137把打字候选文本返回给搜索引擎13,搜 索引擎13再将其传递给语言模型136。语言模型136产生以语言文本书 写的可能代表用户预期的语音文本的转换形式的各种转换候选文本 (CC1,…CCN)。转换候选文本与打字候选文本相关。从语音文本到语 言文本的转换不是一对一的转换。相同或相似的语音文本可能代表语言 文本中的若干字符或符号。从而,在转换成语言文本之前,解释语音文 本的上下文。另一方面,非语音文本的转换一般是直接的一对一转换, 其中显示的字母数字文本和字母数字输入一样。
转换候选文本(CC1,…CCN)传回给搜索引擎134,搜索引擎134 进行统计分析,确定哪一个打字候选文本和转换候选文本最有可能成为 用户预期的打字文本和转换文本。一旦计算出概率,则搜索引擎134选 择概率最大的候选文本,并把转换文本的语言文本返回给UI 132。UI 132 随后在显示画面的同一行中用转换候选文本的语言文本替换语音文本。 同时在新插入的语言文本的前一行中继续显示新输入的语音文本。
如果用户希望改变搜索引擎134选择的语言文本,则用户界面132 提供按照抉择实际是预期回答的似然性排序的第一其它高概率候选文本 列表。如果用户仍然对可能的候选文本不满意,则UI 132提供第二列表, 所述第二列表提供所有可能的选择。第二列表可按照概率或者其它量度 (例如中文字符的笔划数或者复杂性)排序。
语言输入用户界面
剩下的说明将特别针对用户界面132的特征。具体地说,用户界面 132在视觉上把输入的语音文本的显示和转换后的语言文本的显示集合 到屏幕上的同一行中。在语音文本和转换后的语言文本如何可视地出现 在显示屏幕上这方面说明许多特征,例如窗口或菜单或光标的出现和定 位。注意这些特征由用户界面132单独支持或者由用户界面132和操作 系统一起支持。
图2-10图解说明语言输入用户界面132的一个例证实现的各种屏幕 显示。在图2-10中使用符号“P”表示已输入并且已显示在UI中,但是 还未被转换成语言文本的语音文本。符号“C”表示从输入的语音文本P 转换来的已转换语言文本。对各个语音文本P使用下标,例如P1,P2,… PN及对各个已转换语言文本C使用下标,例如C1,C2…CN,以表示单 个的语音文本和转换后的语言文本。
集合的成行(In-Line)文本输入/输出
图2表示由语言输入UI 132单独或者结合操作系统给出的屏幕显示 200。在该图中,屏幕显示200类似于通常的图形窗口,例如由微软的 Windows操作系统产生的那些窗口。图形窗口适合于供语言输入使用, 并且给出成行输入区202,在成行输入区202中输入语音文本并且随后将 其转换成语言文本。图2中由平行的虚线形象地表示成行区202。
输入光标204标记当前位置,在所述当前位置将输入下一语音文本。 图形UI还可包括若干工具条,例如工具条206、208、210、212,或者依 赖于应用程序的其它功能特征,例如字处理器、数据处理器、电子数据 表、因特网浏览器、电子邮件、操作系统等等。在字或数据处理领域中 工具条为人们熟知,不进行详细说明。
成行输入区202集合语音文本P的输入和转换后的语言文本C的输 出。这使用户能够把注意力集中在单一屏幕区上。当用户输入语音文本 (借助键盘输入或者语音输入)时,沿第一方向(例如横越屏幕的水平 方向)成行显示语音文本P。依据转换后的语言文本C1C2和输入的语音 文本P1P2P3决定输入光标204的位置,或者输入光标204与转换后的语 言文本C1C2和输入的语音文本P1P2P3成一直线。图2中,输入序列从左 到右,输入光标204位于先前输入的语音文本P1P2P3的右侧。将认识到 沿阅读指定语言的相同方向输入文本在本发明的范围之内,本实现中说 明的“从左到右”输入序列只是一个例子。此外,要认识到语言输入UI 事实上能够沿任意方向,包括(但不局限于)垂直方向、对角线方向等 成行输入。其它成行格式也是可能的,包括其中在用户看来成行输入功 能似乎远离或接近用户的各种三维格式。
自动转换
当用户输入语音文本P时,转换器138自动把语音文本转换成转换 后的语言文本C。一般来说,在语音文本P被转换成语言文本C之前, 会输入一些语音文本元素P(例如1到6个语音文本元素P)。
当进行转换时,在如同由成行区202所示的和语音文本P相同的行 中呈现转换后的语言文本C。当用户继续输入语音文本时,和先前转换 的语言文本C成一行地显示最新输入的语音文本P。例如在图2中,和 最近转换的语言文本C1C2成一行地显示语音文本P1P2P3。和先前转换的 语言文本C成一行地显示输入的语音文本P使用户能够使他们的注意力 集中到同一行上,从而使输入过程更直观和自然,另外还允许更快的输 入。
当用户继续输入语音文本P时,用户界面实时地自动把语音文本P 转换成语言文本C,用户不必转换模式。如图3的例子中所示,一旦用 户输入语音文本P4,先前的语音文本P1P2P3就被自动转换成语言文本C3。 用户继续输入语音文本P4P5P6P7,而不必转换模式或者踌躇。
从语音文本到语言文本的转换是由语言模型136控制的自动过程。 语言文本C3被选择为所有可能语言文本中概率最高的语言文本,并且这 样被用在自动转换中。但是用户键入越多,所考虑的上下文越大。因此, 当进一步输入诸如P4P5P6P7之类的语音文本时,语言文本C3可能被改变 成不同的语言文本。
语言输入体系结构131可被配置成使根据另外的输入文本的输入对 转换后的语言文本进行改变的次数降至最低。在某些情况下,有可能转 换后的语言文本随输入文本的各个输入字改变,实质是在两个或者更多 的可能解释间翻转,在指定上下文关系中,所述两个或者更多的可能解 释具有成为用户预期文本的近似相同可能性。语言文本的持续翻转在视 觉上可能分散用户的注意力。
为了使文本翻转降至最少,转换器138可实现一个或多个基于概率 的规则,所述规则规定保持当前的语言文本,除非存在指定另一上下文 的更大可能性。这样,当从统计观点来看,第二语言文本只是稍好时, 转换器138不愿意把转换后的语言文本改变成第二语言文本。重要程度 随着上下文而变化。例如,转换器138可被配置成只有当修改的语言文 本的似然性比它将要替换的语言文本大至少5个百分点时,才修改语言 文本。
基于句子的自动转换和确认的自动转换
如果对很长的一串文本(例如文本段落)进行转换,周户可能会觉 得不舒适。就用户界面的一种实现而论,从语音文本P到语言文本C的 自动转换是基于句子的自动转换。换句话说,一旦完成一个句子,则当 在后一句子中输入语音文本P时,该句子中的的语言文本C将不再被自 动转换成不同的语言文本C。基于句子的自动转换特征显著降低了用户 的打字错误,并且防止先前的句子持续不断地自动转换。
应理解,可以其它多种方式确定句子。例如,句子可被定义为某一 预定标点符号内的一串文本,例如两个句点之间的一串文本,各种预定 标点符号之间的一串文本,包含某些文本元素的一串文本等等。一旦用 户输入标点符号,则在该标点符号和前一标点符号(如果有的话)之间 输入的一串文本被看作为一个句子。当用户在后续句子中输入语音文本 时,该句子中的一串转换后的语言文本C不再被自动转换。本领域中的 技术人员将认识到如果需要,自动转换可基于两个或多个句子。
图4图解说明借助标点符号确认句子时的屏幕显示200。除了确认句 子之外,标点符号的输入一般会使句子尾部的语音文本P被自动转换成 语言文本C。例如如图4中所示,一旦输入逗号400,语音文本P4P5P6P7 被转换成语言文本C4。该串语言文本C1C2C3C4现在被看作句子。转换后 的语言文本C1C2C3C4将不再自动转换。
除了基于句子的自动转换之外,用户可在从输入的语音文本P进行 转换之后明确确认一个或多个转换的语言文本C。用户可通过在键盘输 入用户命令(例如空格键输入)确认刚刚转换的语言文本C,从而刚刚 转换的语言文本C将不再由于句子的上下文关系而被自动转换。后面参 考图20和24说明这一特征的一个详细例子。
延迟转换
就多种语言而论,和语音文本相比,用户通常更习惯于阅读和纠正 语言文本。当输入语音文本时,在试图确定输入的文本是否正确之前, 用户通常等待转换。对于与拼音字符相比更喜欢阅读并纠正中文汉字字 符的中文用户来说更是如此。
考虑到这种用户特性,语言输入体系结构131被设计成仔细考虑何 时把语音文本转换成语言文本。一般来说,当转换器确信转换后的语言 文本是用户预期的文本时进行转换。就UI环境来说,该问题变成在任意 时刻应显示语音文本的多少字符,以致最后的转换产生当用户输入更多 的语音文本时不可能被修改的语言文本。转换过快会在转换后的语言文 本中产生更多的错误,从而迫使用户更频繁地纠正转换后的语言文本。 转换太慢会产生向用户呈现长串的语音文本,而不是所需的语言文本的 烦扰。
作为转换过早和转换过迟之间的折衷,语言输入体系结构可被配置 成延迟转换,直到输入最佳数目的语音字符,从而确保高的转换精度为 止。实践中,该体系结构被设计成延迟选择转换后的文本和在语音文本 的位置显示转换后的语言文本,直到输入最小数目的字符之后和输入最 大数目的字符之前为止。例如,适合于中文的语言输入体系结构可被配 置成当输入并在UI中显示至少一个拼音字符和最多六个拼音字符时,把 拼音文本转换成汉字文本。
根据一种实现,语言输入体系结构执行一组规则,以便相对于指定 的上下文关系,确定在选择并显示转换后的语言文本之前,可输入的语 音字符的最佳数目。这些规则可如下总结为:
规则1:总是显示最后(即最近输入的)输入字符。
规则2:在输入和显示多个输入字符之后,评估可能匹配的候选文本 中一个或多个字符的头N个转换候选文本。如果对于所有N个转换候选 文本,至少一个转换后字符相同,则把构成输入文本一部分的至少一个 输入字符转换成输出文本中的匹配转换字符。
规则3:如果第一个最可能的转换候选文本得分显著高于第二个最可 能的转换候选文本,则把至少一个输入字符转换成第一转换候选文本的 字符。
无模式编辑
图5-9图解说明该体系结构支持的无模式编辑特征的例证实现。用户 界面使用户能够从输入模式无缝地转变到编辑模式,而不需要明显的模 式转换操作。此外,编辑模式支持传统的编辑功能,例如语言文本的添 加、删除和替换。本发明允许通过输入新的语音文本或者从至少一个候 选替换语言文本列表中选择替换语言文本,来替换语言文本。
原位错误纠正
图5表示具有各种编辑特征的屏幕显示200。为了便于说明,假定用 户通过输入标点符号400已确认语言文本C1C2C3C4(图4之前),现在 希望编辑确认的语言文本C1C2C3C4。用户把光标204的位置改变到确认 的语言文本C1C2C3C4内的所需位置。可以多种不同方式完成光标定位, 包括(但不局限于)方向键、鼠标点击或口头命令。图5图解说明重新 定位到语言文本C3前,以便选择该字符进行编辑的光标204。
一旦光标204被定位到语言文本C3前,则用户输入一个或多个用户 命令,调用编辑窗口或者编辑框500,所述编辑窗口或编辑框500在包含 要编辑字符的文本处叠加在成行区202上或者附近。可以本领域中众所 周知的几种方式中的任意方式实现用户命令,包括(但不局限于)按下 键盘112上的换码键“ESC”。
在图解说明的实现中,编辑窗口或编辑框500沿垂直于成行文本的 第一方向(例如水平方向)的第二方向(例如垂直方向)在语言文本C3 附近弹出。弹出式编辑窗口500具有两个部分:输入文本提示窗口502 和可滚动的候选文本窗口504。这些部分最好由共同的用户命令同时调 用。用户先前输入的字符C3的对应语音文本P1P2P3直接出现在输入文本 提示窗口502上方,并且与正被编辑的语言文本C3垂直成一直线。显示 输入的语音文本P1P2P3允许用户查看先前他们关于语言文本C3输入的是 什么,并且如果需要的话对其进行编辑。输入文本提示窗口502具有布 置在顶部的向上滚动条506。激活该向上滚动条506导致语音文本P1P2P3 进入句子中,并且替换语言文本字符C3。
候选文本窗口504包含具有和语言文本C3相同或相似语音文本的至 少一个候选替换语言文本C3a,C3b,C3c,C3d的可滚动列表。候选文本窗 口504被布置成垂直于包含语言文本C1C2C3C4的成行输入区202,直接 位于语言字符C3下方,并与语言字符C3垂直成一直线。上标被用于表 示不同的语言文本字符,例如C3a,C3b,C3c和C3d。当存在比候选文本 窗口504中能够显示的更多的候选文本时,在候选文本窗口504的底部 呈现向下滚动条508。用户可选择(例如点击)向下滚动条508查看另外 的替换语言文本。原位窗口502和504的一个特征是可动画显示滚动操 作,从而展示向上或向下移动的候选文本。这向用户提供每次滚动该列 表一个条目的视觉反馈。
如图所示,输入文本提示窗口502中的语音文本P1P2P3和候选文本 窗口504中的候选替换语言文本C3a,C3b,C3c,C3d另外有数字0、1、2、 3、4作为引用编号。可以不同的方式实现替换语言文本的编号方法和候 选文本窗口504的大小。就一种实现而论,候选文本窗口504的尺寸有 限,并且只列出概率最大的头四个替换语言文本。
最好按照某一顺序或者等级排列候选文本窗口504中的候选语言文 本C3a,C3b,C3c,C3d。例如,顺序可以候选文本实际上是用户最初预期 的文本的概率或者可能性为基础。该概率由搜索引擎134结合由语言模 型136返回的候选文本计算得到。如果指定上下文中某一替换语言文本 的概率高于指定上下文中另一替换语言文本的概率,则在靠近于要编辑 的语言文本处用较低引用编号显示具有较高概率的替换语言文本。
用户可随意地选择语音文本P1P2P3或者通过输入适当的引用编号选 择替换语言文本C3a,C3b,C3c,C3d之一替换字符文本C3,或者通过其 它常见的技术(指向并点击选择的选项)替换字符文本C3。选择的替换 文本随后代替成行文本中的字符C3。一旦用户选择某一候选文本,则弹 出式编辑窗口500可被配置成自动消失,留下纠正后的文本。另一方面, 用户可利用常规方法,例如用鼠标点击窗口502和504外面,明确关闭 文本提示窗口502和候选文本窗口504。
由原位窗口502和504实现的文本替换特征被称为原位纠错特征。 在要替换的语言文本C3的原位显示选择的语音文本P1P2P3或者从替换语 言文本C3a,C3b,C3c,C3d中选择的一个语言文本。原位纠错特征使用户 能够把注意力集中于最接近于包含要编辑的语言文本的一串语言文本。
第二候选文本列表
图6图解说明类似于图5中所示的屏幕显示200,不过还表示了与第 一候选文本窗口504分离并且邻近第一候选文本窗口504的第二候选文 本窗口600。第二候选文本窗口600列举和要编辑的字符文本C3的相应 语音文本P1P2P3具有相同或相似的语音文本的替换语音文本的更大或者 有可能完整的列表。输入文本提示窗口502中的语音文本P1P2P3和候选 文本窗口504中的替换语言文本C3a,C3b,C3c,C3d同样列举在第二候选 文本窗口600中。在备选实施例中,在第二候选文本窗口600中只列举 另外的替换候选文本。
为了打开第二候选文本窗口600,用户输入命令,例如在候选文本窗 口504中有效的同时,按下键盘上的右箭头键。用户随后可借助适当的 命令,例如鼠标点击或者键盘输入,选择所需的替换语言文本。用户可 在文本字符之间移动中心点602。
第二候选文本窗口600中的候选文本也可按照某一顺序排列,不过 不必按照用于第一候选文本窗口504的相同的排队技术。如处理第一候 选文本窗口504中的候选文本那样依据概率分数进行分类一般不适用于 全部候选文本窗口600,因为许多候选文本之间的变化较小,并且没有意 义。对于在该环境中确定特定候选文本的位置,用户可能没有直观感受。 因此,第二候选窗口600尝试按照能够直观发现所需候选文本的其它一 些方式对候选文本排队。
可用于把第二候选文本窗口600中的候选文本(尤其是在日语和汉 语的情况下)的一种量度是字符或符号的复杂程度。例如,对于一系列 中文候选文本来说,可按照构成该候选文本所需的笔划数列举候选文本。 笔划顺序为搜寻所需语言文本的用户施加一些切实感受。用户可快速扫 视窗口600中含有复杂程度看起来相似的字符的特定区域。这种排队量 度并不是用来使用户计数或者知道准确的笔划数,而只是产生有效、始 终一致并且视觉上可识别的分类顺序。
要关闭窗口600,用户输入一个命令,例如在键盘上进行键盘输入或 者在窗口600外点击鼠标。要认识到在本领域中窗口的开/关,窗口中的 向上/向下滚动和向左/向右滚动,以及窗口中的向上/向下滚动的控制为人 们熟知,不作详细说明。
原位语音文本纠正
图7-9表示各种情况下的一系列屏幕显示200,从而图解说明图5中 所示的语音文本P1P2P3的原位语音文本纠正。本例中,用户确定输入文 本提示窗口502中的语音文本P1P2P3不正确。正确的语音文本应为 P1aP2P3。为了纠正该语音文本,用户首先从输入文本提示窗口502中选 择语音文本P1P2P3。
图7表示在正被编辑的文本字符C3的位置显示选择的语音文本 P1P2P3。用户随后可通过把P1改变为P1a编辑该语音文本。
图8表示语音文本被改变成P1a后的UI。文本提示窗口502同样被 更新以反映这种变化。作为编辑操作的结果,在候选文本窗口504中显 示具有相同或相似编辑语音文本P1aP2P3的至少一个新的替换语言文本 C3j。用户随后可在候选文本窗口504中选择替换语言文本(例如C3j)。
图9表示选择的代替编辑的语音文本P1aP2P3的替换文本C3j。在备 选实施例中,编辑的语音文本可被自动转换成最可能的新的替换语言文 本。
混合语言输入
语言输入体系结构还被进一步配置成区分两种或多种语言。第一种 语言被检测为语音文本,并被转换成语言文本,而第二种语言被检测为 非语音文本并被原样保持。当用户输入文本时,UI 132在同一行中同时 呈现两种语言。该技术有益于消除当输入多语言文本时,在两种输入模 式之间转换的需要。就用户而论,该用户界面是无模式的。
图10图解说明该用户界面的屏幕显示200,并且示范两种不同语言 的混合文本的组合处理和呈现。符号“A”代表第二语言文本的字符。第 二语言A是非语音语言,其中第二语言文本A被显示为用户的输入。例 如,第一语言是中文汉字,第二语言是英语。要认识到多种语言可以是 任意数目的不同语言。
在一种实现中,用户可输入混合语言文本,其中之一中是可转换为 语言文本C(例如汉字)的语音文本(例如拼音)。基于字符的语言的语 音文本P和语言文本A成行显示,直到语音文本P被自动转换成语言文 本C为止,语言文本C和第二种语言的语言文本A成行显示。图10图 解说明在相同成行区域202内的输入语音文本P、转换后的语言文本C 和第二语言文本A。
不同的字体或颜色可用于区分语音文本P和非语音文本A。例如, 以第一种字体或颜色显示语音文本P,而以不同于第一种字体或颜色的第 二种字体或颜色显示非语音文本A。除了字体或颜色之外,其它技术可 用于在视觉上区分语音文本P和非语音文本A。
一般的UI操作
图11-19图解说明由语言输入体系结构实现的方法。这些方法被实现 为语言输入用户界面的一部分,以方便语音文本的输入和编辑,以及转 换后的语言文本的编辑。图11图解说明一般过程,而图12-19更详细地 图解说明某些操作。辅助参考图2-10的屏幕显示说明这些方法。
图11表示通过语言输入用户界面输入文本的方法1100。在操作1102, 用户界面使用户能够在公共成行区202内输入文本。在所描述的实现中, 输入文本是语音文本,例如中文拼音。该输入文本被自动转换成基于字 的语言的语言文本,例如中文汉字(操作1104)。前面参考图1说明了这 种转换的一种例证实现。如果读者感兴趣,可在所包含的同时待审的申 请,序列号No.______,“Language Input Architecture For Converting One Text Form to Another Text Form With Tolerance To Spelling, Typographical,And Conversion Errors”和序列号No.____,“Language Input Architecture For Converting One Text Form to Another Text Form With Modeless Entry”中找到更详细的说明。
操作1106确定用户是否想要在转换后编辑语言文本,由光标重新定 位或者明确的命令指出。如果是(即,来自操作1106的“是”分支), 则UI接收最接近要编辑字符的光标的用户重新定位(操作1108)。如图 5中所示,光标可被重新放置到语言文本字符的前面。
在步骤1110,如图5中所示,UI响应用户命令打开编辑窗口500。 编辑窗口500包括用于替换语言文本的第一候选文本列表504。如果在候 选文本列表504中不存在适当的候选替换文本,则用户可决定调用如图6 中所示的第二候选文本列表窗口600。操作1112确定用户是否已请求第 二候选文本窗口600。如果在第一候选文本窗口504中可获得适当的候选 文本,从而用户决定不打开第二候选文本列表窗口(即来自操作1112的 “否”分支),则用户可从第一候选文本列表窗口中选择替换语言文本, 替换要编辑的语言文本(操作1114)。
另一方面,如果用户调用第二候选文本窗口(即来自操作1112的“是” 分支),则UI打开第二候选文本列表窗口,并且允许用户选择用于替换 被编辑的语言文本的替换语言文本(操作1116)。随后代替成行区202中 的语言文本显示选自第一候选文本列表窗口504或者第二候选文本列表 窗口600的替换语言文本(操作1118)。在操作1106继续该操作流程。
如果用户不想编辑文本(即来自操作1106的“否”分支),则UI确 定用户是否继续输入文本,由用户改变光标位置并且继续输入字符指出 (操作1120)。如果用户的操作倾向于暗示继续输入文本,则光标被移回 位于当前部分末端的输入位置(操作1122),并且在输入成行操作1102 中继续操作流程。如果用户不想继续,则终止该过程。
成行输入:操作1102和1104
图12图解说明成行输入子过程1200,它是图11的操作1102和1104 的例证实现。图2和3中图解说明了描绘该子过程的例证屏幕显示。
在操作1202,UI接收来自输入装置(例如键盘、语音识别)的输入 语音文本串(例如拼音)。语言输入UI在和先前转换的语言文本相同的 成行区202内显示该语音文本(操作1204)。语音文本-语言文本转换器 138在操作1206中把该串语音文本转换成语言文本(例如汉字)。语言输 入UI用转换后的语言文本串替换该语音文本串,并在成行区202中显示 该语言文本(操作1208)。随后退出子过程1200。
基于句子的转换:操作1104
图13图解说明自动转换子过程1300,它是操作1104的另一例证实 现。图3和4中图解说明了描绘该子过程的例证屏幕显示。
在操作1302,语言输入体系结构接收用户通过输入装置输入的一串 语音文本。语言输入UI在成行区202中显示输入的语音文本(操作1304)。 在操作1306,语言输入体系结构确定该语音文本是属于已有的句子还是 属于新的句子。这种确定可以用户是否已输入某些形式的标点符号,例 如句号或逗号为基础。
如果输入的语音文本属于新的句子(即来自操作1306的“新句子” 分支),则输入的语音文本被自动转换成语言文本,而不考虑前一句子中 前一文本的内容(如果有的话)(操作1308)。相反,如果输入的语音文 本不属于新的句子(即来自操作1306的“现有句子”分支),则在该句 子的上下文关系内自动转换该句子中的语音文本(操作1310)。作为这种 转换的一部分,当其它文本持续不断地改变整个句子的预期含义时,以 前转换的语言文本可被进一步修改。在转换操作1308和1310之后退出 该操作流程。
确认转换:操作1104
图14图解说明其中用户确认转换后的语言文本的自动转换子过程 1400。子过程1400是操作1104的另一例证实现。
在操作1402,语言输入体系结构接收用户通过输入装置输入的一串 语音文本。语言输入UI在成行区202中显示输入的语音文本(操作1404)。 相应的未确认的语言文本的语音文本被自动转换成基于字的语言的语言 文本(操作1406)。
在操作1408,语言输入UI确定用户是否已确认转换后的语言文本。 如果否,则退出该子过程。否则,如果用户已确认该语言文本(即来自 操作1408的“是”分支),则UI确认转换后的语言文本,并且当输入其 它语音文本时,不在进一步的前后关系中考虑该语言文本(操作1410)。 随后退出该操作流程。
原位纠错:操作1108-1118
图15-18图解说明原位纠错子过程的不同实现,它是图11的操作 1108-1118的例证实现。图15和16的子过程涉及使用第一和第二候选文 本列表纠正语言文本。图17和18的子过程目标在于使用语音文本提示 窗口纠正语音文本。
图15图解说明通过在弹出式候选文本窗口中提供备选的语言文本纠 正转换后的语言文本的原位纠错子过程1500。图5中图解说明了描绘该 子过程1500的例证屏幕显示。
在操作1502,响应用户把光标移动到紧邻先前输入的语言文本(例 如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI 打开编辑窗口500(包括直接位于要编辑的语言文本下方的第一候选文本 窗口504),显示选择的语言文本的替换候选文本列表(操作1504)。
在操作1506,UI接收用户选自第一候选文本窗口504的候选替换文 本。语言输入UI在相同成行区202内显示代替选择的语言文本的选择的 候选替换语言文本(操作1508)。随后退出该操作流程。
图16图解说明通过在第二个更大的弹出式候选文本窗口中提供完整 的备选语言文本列表,纠正转换后的语言文本的原位纠错子过程1600。 图6中图解说明了描绘该子过程1600的例证屏幕显示。
在操作1602,响应用户把光标移动到紧邻先前输入的语言文本(例 如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI 打开编辑窗口500(包括直接位于要编辑的语言文本下方的第一候选文本 窗口504),显示选择的语言文本的替换候选文本列表(操作1604)。如 果用户找不到恰当的替换候选文本,则用户可调用候选的替换语言文本 的第二候选文本窗口600(操作1606)。和第一候选文本窗口相比,第二 候选文本列表包含更大或更完整的候选替换语言文本列表。
在操作1608,UI接收用户选自第二候选文本窗口600的替换候选文 本。语言输入UI在相同成行区202内显示代替选择的语言文本的选择的 候选替换语言文本(操作1610)。随后退出该操作流程。
图17图解说明通过借助弹出式提示窗口编辑先前输入的语音文本, 纠正转换后的语言文本的原位纠错子过程1700。图7中图解说明了描绘 该子过程1700的例证屏幕显示。
在操作1702,响应用户把光标移动到紧邻先前输入的语言文本(例 如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI 打开编辑窗口500(包括直接位于要编辑的语言文本上方,显示用户输入 的语音文本的语音文本提示窗口502)(操作1704)。
一旦用户在提示窗口502中选择语音文本(即来自操作1706的“是” 分支),UI显示代替正被编辑的语言文本的语音文本(操作1708)。这使 得用户能够纠正成行区202内的语音文本。随后退出该操作流程。
图18图解说明通过编辑先前输入的语音文本,并查看编辑后的一组 新候选文本,纠正转换后的语言文本的原位纠错子过程1800。图8和9 中图解说明了描绘该子过程1800的例证屏幕显示。
在操作1802,响应用户把光标移动到紧邻先前输入的语言文本(例 如在字之前)的操作,语言输入UI选择或识别要编辑的语言文本。UI 打开编辑窗口500(包括直接位于选择的语言文本上方的语音文本提示窗 口502和直接位于该语言文本下方的第一候选文本窗口504)(操作 1804)。
一旦用户在提示窗口502中选择语音文本(即来自操作1806的“是” 分支),UI显示代替正被编辑的语言文本的语音文本(操作1808)。UI 接收并在成行编辑区202中显示语音文本的用户编辑(操作1810)。响应 该编辑,UI在第一候选文本窗口504中显示新的候选替换语言文本列表 (操作1812)。如果需要,用户可进一步调用第二候选文本窗口600。
在操作1814,UI接收用户从第一候选文本窗口504的新列表中选择 的候选替换文本。语言输入UI在相同的成行区202内显示选择候选替换 语言文本用于代替选择的语言文本(操作1816)。随后退出该操作流程。
多种语言输入
图19图解说明其中利用成行输入UI输入两种或更多种不同语言的 多种语言输入子过程1900。图10中图解说明了描绘该子过程1900的例 证屏幕显示。
在操作1902,语言输入体系结构接收用户借助输入装置输入的语音 文本和非语音文本的一串混合文本。语言输入UI在和先前转换的语言文 本相同的成行区202内显示该混合文本(操作1904)。
在操作1906,语言输入体系结构确定输入文本是否是和非语音文本 (例如英语)相反的语音文本(例如拼音)。如果输入文本是语音文本(即 来自操作1906的“是”分支),则语言输入体系结构把该语音文本转换 成语言文本(操作1908)。UI在输入的语音文本的位置和先前的文本成 行地显示该语言文本(操作1910)。另一方面,如果输入文本是非语音文 本(即来自操作1906的“否”分支),则语言输入体系结构不对其进行 转换,UI显示该非语音文本,使之与先前的文本成行(操作1912)。随 后退出该操作流程。
例证的基于中文的实现
图20-26图解说明中文环境下语言输入体系结构和UI的例证实现。 在这种情况下,语音文本是中文拼音,语言文本是中文汉字字符。
图20图解说明表示成行输入特征的一个例子的中文输入用户界面的 一种实现。表2000包含用户输入的两串拼音文本2002和2004,以及当 其出现在成行输入区中时对应的转换后的汉字文本2006和2008。例证的 显示屏幕2010显示在表2000下方,并且包含转换后的汉字文本2008。 注意与转换后的中文文字同行地显示在光标2012输入的拼音文本。在字 处理领域中,屏幕2010中所示的其它特征为人们熟知。
图21图解说明其中当前在成行输入区202中显示转换后的汉字文本 的中文UI屏幕2100。用户已移动光标选择供编辑的中文文本2104,并 已调用由拼音文本提示窗口2108和第一汉字候选文本窗口2110组成的 弹出式编辑窗口2106。在拼音文本提示窗口2108中显示与选择的中文文 本2104相关的拼音文本2112。
图22图解说明表示原位纠错特征的一个例子的中文输入用户界面的 一种实现。表2200在左栏中描述两种用户操作-打开包含语音提示和候选 文本列表的编辑窗口的操作2202和从候选文本列表中选择条目“1”的 操作2204。响应左栏中的用户操作,表2200中的右栏图解说明了相应的 例证屏幕镜头2206和2208。
就屏幕镜头2206来说,用户通过把光标移动到字符文本2210之前, 选择供编辑的中文文本2210。用户输入命令,打开包含拼音文本提示窗 口2212和第一候选文本列表窗口2214的编辑窗口。随后,用户从候选 文本列表2214中选择条目“1”,与条目“1”相关的第一候选文本2216 代替初始的选择文本2210。另外注意列表2208中的候选文本被更新(即 向上滚动一位),以反映选择的候选文本2216被转移到成行输入区中。 这种更新可以是动画式的,从而在视觉上说明选择的候选文本2216被转 移到成行区中。
图23表示图解说明拼音文本的原位纠正的中文输入用户界面的另一 种实现。表2300中的左栏包含一系列的用户操作2302-2310,右栏表示 由这些用户操作产生的相应例证屏幕镜头2312-2320。
当用户决定编辑字符文本时,用户把光标移动到要编辑的字符文本 之前(操作2302)。假定用户选择要编辑的中文文本2330(UI屏幕镜头 2312)。在把光标移动到字符文本2330前面之后,用户输入命令(例如 按下“ESC”键)调用编辑窗口(操作2304)。从而,如UI屏幕镜头2314 中所示,打开拼音文本提示窗口2332和第一候选文本列表窗口2334。
随后用户输入“0”(操作2306)选择拼音文本提示窗口2332中的拼 音文本2336。选择的拼音文本2336替换选择的字符文本2330,如UI屏 幕镜头2316中所示。此时,用户可以自由编辑初始的拼音文本。
假定用户在拼音文本2336中添加辅助撇号(操作2308),产生如UI 屏幕镜头2318中所示的文本2336′。编辑的拼音文本2336′既显示在成行 区中又显示在拼音文本提示窗口2332中。在该编辑之后,利用新的候选 字符文本列表更新第一候选文本窗口2334。本例中,在第一候选文本列 表窗口2334中显示对应于编辑的拼音文本2336′的新的候选字符文本 2338。
最后,用户通过例如输入“1”在第一候选文本列表窗口2334中选 择所需的字符文本2338(操作2310)。从而,如UI屏幕镜头2320中所 示,显示选择的字符文本2338代替编辑的拼音文本2336′。按照这种方 式,新的字符文本2338有效替换初始的语言文本2330。
图24表示图解说明混合语言,例如中文和英语的输入的中文输入用 户界面的另一实现。表2400中的左栏包含两个用户操作2402和2404, 右栏表示由这些用户操作产生的对应例证屏幕镜头2406和2408。
假定如操作2402所示,用户输入混合的拼音文本2410和英文文本 2412。用户可把混合文本输入语言输入UI,而不必在中文输入和英文输 入之间改变模式。即,用户不停顿地在同一行中简单输入拼音文本和英 文文本。拼音文本2410被转换成中文文本2414,并显示在相同的成行区 内,如UI屏幕镜头2406中所示。英文文本2412不被语言输入体系结构 转换,而是按照输入被显示。
随后,用户输入混合的拼音文本2416、英文文本2418和拼音文本 2420,而不必改变模式(操作2404)。如UI屏幕镜头2408中所示,拼音 文本2416和2420分别被转换成中文文本2422和2424。英文文本2418 保持不变,并且与转换后的中文文本成行地被显示。
按照一种实现,可不同地显示语音文本和非语音文本以区分它们。 例如,比较图20的表2000中的混合文本和图24的表2400中的混合文 本。以收缩的粗体字显示拼音文本(例如图20中的2012),而以稀疏的 courier字体显示英文文本(例如图24中的2412和2418)。
图25表示图解说明原位编辑的第一和第二候选文本列表的中文输入 用户界面的另一种实现。表2500中的左栏包含两个操作2502和2504, 右栏表示由这些用户操作产生的对应例证屏幕镜头2506和2508。
在操作2502,用户选择要编辑的中文文本,并输入命令以打开拼音 文本提示窗口2510和第一候选字符文本列表2512。如UI屏幕镜头2506 中所示,窗口2510和2512分别出现在成行输入区的上方和下方。
随后在操作2504中,用户输入命令打开第二候选字符文本列表。如 UI屏幕镜头2508中所示,紧跟在第一候选文本列表2512之后弹出打开 第二候选字符文本窗口2514。用户随后可从第二候选字符文本列表窗口 2514中选择候选字符文本。
图26表示图解说明具有确认的字符文本的基于句子的自动转换的中 文输入用户界面的另一种实现。表2600中的左栏包含一系列的五个操作 2602-2610,右栏表示由这些用户操作产生的对应例证屏幕镜头 2612-2620。
在操作2602,用户输入拼音文本2622和2624。如UI屏幕镜头2612 所示,拼音文本2622被自动转换成字符文本2626,拼音文本2624保持 不变,直到用户进一步输入其它文本为止。在操作2604,用户随后输入 拼音文本2628。由于拼音文本2628的增加导致上下文关系的改变,先前 转换的字符文本现在被转换成不同的中文字符文本2630。在UI屏幕镜头 2614中图解说明了转换后的字符文本的这种修改。此时拼音文本2624 和2628保持不变,并且继续被表示为和修改的语言文本排成一行。
随后在步骤2606,用户输入确认命令(例如按下空格键),确认刚刚 转换的字符文本2630。同时,根据迄今句子中的上下文关系,拼音文本 2624和2628分别被自动转换成中文文本2632和2634。屏幕镜头2616 中对此进行了图解说明。
随后,在操作2608,用户输入同一句子中的其它拼音文本(图中未 示出),该拼音文本被转换成字符文本2636,如UI屏幕镜头2618中所示。 注意确认的字符文本2630不会因拼音文本的后续输入而被改变。
为了便于比较,假定字符文本2630未被用户操作2606确认(例如 用户未按下空格键)。相反,用户在没有确认字符文本2630的情况下输 入另外的拼音文本。这种情况下,字符文本2626保持不变并且不被修改 成文本2630,如UI屏幕镜头2620所示。这是因为从拼音文本到字符文 本的自动转换是以句子为基础的,并且字符文本2626是句子的一部分。 只要句子有效(即没有任何标点符号终止该句子或者还没有开始任何新 句子),就会对当前句子中先前转换的字符文本进行进一步的修改,除非 用户确认转换后的字符文本。
结论
虽然上面的说明使用特定于结构特征和/或方法动作的语言,但是要 明白在所属的权利要求中限定的本发明并不局限于说明的具体特征或动 作。相反,只是作为实现本发明的例证形式公开这些具体特征和动作。