一个基于文本智能生成图像技术的英语在线阅读系统的设计与实现

时间：2024-05-04

钟益华

摘要：教育人工智能时代的到来，使智能技术在教育中得到了更广泛的应用。近来，OpenAI发布新作：GLIDE，该技术将文本智能生成图像技术推向了新的高度，实现了以往的由画师作画到如今基于自然语言就能生成逼真图像的跨越，而其在教育领域的应用尚处于探索阶段。基于此，文章应用Django与GLIDE等技术开发了一个基于文本智能生成图像技术的英语在线阅读系统，以改善传统在线英语阅读中学习者的兴趣低下等问题，以期为后续研究者在教育领域使用文本生成图像技术来促进学习者学习提供借鉴意义。

关键词：人工智能;文本生成图像;系统设计;在线阅读

中图分类号：TP18 文献标识码：A

文章编号：1009-3044（2022）08-0078-03

1 引言

“人工智能（Artificial Intelligence，AI）”一词最早是在1956年Dartmouth学会上提出的。自2018年，《教育信息化2.0行动计划》《中国教育现代化2035》《国家新一代人工智能标准体系建设指南》等文件相继出台，明确了人工智能在教育领域的重要作用，意在不断推进人工智能与教育的深度融合发展，促进教育领域变革。在各项政策文件以及人工智能技术突破创新的支持下，众多基于人工智能技术的教育应用与平台不断推出。

在已有研究中，研究者使用人工智能技术对教育领域各个方面进行探索，以达到改进教与学的目的，周楠[1]等使用深度学习技术构建学习行为分析与评价模型，有效解决目前多样化的新维度空间下教育资源的合理管理问题，提高未来教育学生学习的效率。顾雯等[2]通过实验研究表明人工智能技术在各学科都有正向教学效果以及对学生学习成绩有正向积极的影响。蔡宝来[3]研究人工智能赋能课堂的转变，发现其对促进课堂公平、满足学习者的个性化学习需求以及提升学习效率等方面具有不可替代的赋能加力功能和促进课堂变革的内生性动力。这些研究表明了人工智能技术在教育中应用的可行性。

2021年末，OpenAI发布新的文本智能生成图像技术模型：名为GLIDE[4]，相比2021年初发布的文本生成图像模型的120亿参数量，它只有35亿，参数量的剧降使其生成图片的速度更快，然而，更少的参数量以及更快的速度并没有影响其生成图片的质量，其效果可谓是与真实画像相差无几，实现了人工智能领域将文本进行图像化处理的进一步发展。但此技术在教育领域中的应用尚处于探索阶段。为此，本研究尝试将该技术应用于学生的学习过程之中，自主开发了基于文本智能生成图像技术的英语在线阅读系统，为学习者提升阅读兴趣提供有力支撑。

2 图像的优势

随着科技的发展以及新型冠状病毒肺炎疫情的影响，在线学习成了目前非常受大众欢迎的一种学习方式，学习者通过移动设备浏览网页或者登录学习平台进行学习。但由于在线学习自身存在的弊端，如学习者缺少教师直接监管以及网络上其他各式各样资源的诱惑，学习者往往会在需要高度集中的状态下才能进行有效学习的场景中走神，如阅读。此类情况在儿童这种自控力较差的群体中尤为明显。人们阅读的文章往往都是些枯燥的文本，这难以吸引学习者的阅读兴趣，因此，可以通过借助AI技术的优势来改善这类问题。现今，图像随处可见，其具有形象直观、通俗易懂等特点。各式各样的图像媒介被人们所运用，教育领域也不例外，教师制作的电子课件以及学生观看的在线学习视频等等这些媒介都向学生传递了大量的图像信息。研究表明，相较于文本而言，图像画面能够给学习者带来更加广泛的感官体验，对教与学具有促进作用。徐振国等[5]发现，学习画面情感中的正向情感能够给学习者带来积极的情感体验，有助于培养学习者学习兴趣，促进认知活动。寇佳媛[6]通过研究分析数字化图像在小学教学中的应用，提出了数字化图像的概念和含义，发现了数字化图像在小学教学中的重要性，证明其能有效改善和优化小学教学的质量。杨俊珂等[7]调查发现动态视觉图像对小学生的求知、自主学习、阅读、课外活动等兴趣具有促进作用。因此，使用人工智能相关技术将枯燥的文本生成逼真图像，利用生动图像吸引学习者注意力，不仅能够激发学生的阅读兴趣，还能够促进学生对文本的理解，这比仅仅通过文本进行阅读更具优势。

3 系统关键技术

3.1 MySQL数据库

本系统采用MySQL数据库存储和维护数据，该数据库具有高性能、服务稳定、方便操作、易于维护等优点，能够保证系统运行时数据的完整性和安全性，便于技术人员进行系统开發。使用Navicat Premium 软件对数据库进行可视化操作。

3.2 Django

Django是由Python编写的Web应用框架，该框架是一个遵循MVC（Model、View、Controller）设计模式的框架，因其高性能、易维护、还可使用大量强大的第三方插件等特点而受到众多Web开发者的青睐。Django可以运行在Apache，Nginx等服务器上，并且支持多种数据库，如：Postgresql，MySQL， Sqlite3，Oracle等。

3.3 GLIDE

GLIDE是一项基于人工智能的通过文本智能生成图像的技术，由OpenAI在2021年末发布，其蕴含了35亿参数量，相比之前的文本智能生成图像技术的120亿参数量，它不仅实现了参数量上的剧减，同时还保证了图像生成的质量，大大提升了从文本到图像整个过程的效率。该技术通过实验证明，扩散模型（Diffusion Models）可以生成高质量的合成图像，尤其在与引导技术结合使用时，能够在保真度上权衡多样性[4]。

4 系统设计

本系统主要由登录模块、注册模块、管理员模块、用户模块组成，其中管理员模块包含用户管理、文章管理、数据统计等功能，用户模块由文章查询、文本生成图像等功能构成。系统总体功能结构图如图1所示。

4.1 登录注册模块

登录模块是系统的入口，通过登录进入系统，判断用户权限，识别为管理员还是普通用户，同时在前后端都设置了登录验证，只有在信息全部正确时才可进入系统。信息填写错误会进行提示，未登录状态进行访问时会重定向至登录页面。在用户首次使用该系统时需要进行注册操作，按照注册页面提示填写合法信息之后即可进行登录。

4.2 管理员模块

登录时系统会识别身份，判断是否为管理员。管理员可进入后台管理页面，后台管理页面包含3个功能，分别为用户管理、文章管理、数据统计。

1）用户管理。管理员有权对用户违规行为进行处理，并检查用户的个人信息是否合法，保证用户信息的完整性和安全性。

2）文章管理。管理员通过对文章进行操作，如发布新的文章、修改编辑原有文章、删除文章、查询文章、添加文章类别等，实现文章的有序管理。

3）数据统计。管理员可查看后台统计数据，如文章数量、文章类别、用户数量、文章阅读数量统计等等，明晰系统数据情况。

4.3 用户模块

用户模块包含2个功能，分别为文章查询、文本生成图像。

1）文章查询。利用文章查询功能，可以快速检索自己想要查看的文章信息，包括文章的标题、作者、发布时间、类别等信息。

2）文本生成图像。为了提升用户的阅读兴趣，发挥图像的优势，用户在阅读文章时，可在输入框中输入文本信息，通过GLIDE模型将所输入的文本信息智能生成一张相对应的逼真图像，从而利用图像带来的视觉效果给予用户不同的感官体验，以提升其学习的兴趣。

5 系统实现

本系统使用的开发工具为PyCharm，版本为2020.3.5。前端部分主要使用 HTML5 进行页面框架的搭建，通过 CSS 来渲染页面样式，提升页面的整体美感，利用 JavaScript 对页面进行动态效果的展示，提升与用户的交互效果。后端部分则使用 Django框架，此框架非常适用于 Web 开发者进行系统的开发。使用 MySQL 数据库存储和维护用户信息和文章信息等数据。系统实现了学习者根据自身需求查询选取喜欢的文章阅读，阅读时可通过文本生成图像的方式来吸引学习者阅读兴趣。

下面以管理员模块中的文章管理和用户模块中的文本生成图像为例介绍系统实现。

管理员模块中的文章管理功能主要方便管理员对文章信息进行管理，能实现及时发布优质文章以及删除或修改信息有误文章，主要负责文章的发布、修改、删除、查询等操作。具体页面如图 2 所示。

该模块核心代码如下：

class WritePaperView（View）：

def get（self， request）：

categories = PaperCategory.objects.all（）

context = {'categories'： categories}

return render（request， 'cms/write_paper.html'， context=context）

def post（self， request）：

form = WritePaperForm（request.POST）

if form.is_valid（）：

title = form.cleaned_data.get（'title'）

author = form.cleaned_data.get（'author'）

content = form.cleaned_data.get（'content'）

category_id = form.cleaned_data.get（'category'）

category = PaperCategory.objects.get（pk=category_id）

Paper.objects.create（title=title， author=author， content=content， category=category）

return restful.ok（）

else：

return restful.params_error（message=form.get_errors（））

用戶模块中的文本生成图像主要作用是在学习者阅读时，为了避免由于枯燥的文本引起的学习者学习兴趣低下等情况，通过基于AI的文本智能生成图像技术将文章中的文本信息输入到文本框中，然后生成对应文本的图像信息，通过图像所带来的具象化感受来吸引学习者进一步阅读的兴趣。具体页面如图3所示。

文本生成图像的核心代码如下：

defmodel_fn（x_t， ts， **kwargs）：

half = x_t[： len（x_t） // 2]

combined = th.cat（[half， half]， dim=0）

model_out = model（combined， ts， **kwargs）

eps， rest = model_out[：，：3]， model_out[：， 3：]

cond_eps， uncond_eps = th.split（eps， len（eps） // 2， dim=0）

half_eps = uncond_eps + guidance_scale * （cond_eps - uncond_eps）

eps = th.cat（[half_eps， half_eps]， dim=0）

return th.cat（[eps， rest]， dim=1）

model.del_cache（）

samples = diffusion.p_sample_loop（

model_fn，

（full_batch_size， 3， options["image_size"]， options["image_size"]），

device=device，

clip_denoised=True，

progress=True，

model_kwargs=model_kwargs，

cond_fn=None，

）[：batch_size]

model.del_cache（）

show_images（samples）

im_show（samples）

5 结束语

本文使用 Web 开发者常用的 Django 框架和 OpenAI 发布的文本智能生成图像技术以及MySQL数据库构建了基于AI技术的英语在线阅读系统，系统实现了与最新人工智能技术的结合，将人工智能技术运用到学习者的阅读过程当中，以期改善学习者在阅读枯燥文本时的兴趣低下等现象，从而提升学习者的学习效率，激发学习者阅读兴趣。但由于当前文本智能生成图像技术自身的局限性，文本生成图像的速度以及正确率还有待人工智能领域专家的进一步研究与完善，例如在使用大批量长文本或者文本语义过于复杂时，图像生成的正确率则相对较低。未来，随着技术的进一步发展，此类问题的解决，将会更加显示出人工智能技术在教育领域运用的有效性。

参考文献：

[1] 周楠，周建设.基于深度学习的学生行为分析与教学效果评价[J].现代教育技术，2021，31（8）：102-111.

[2] 顾雯，王娟.人工智能技术对学习成绩影响研究——基于40项实验与准实验研究的元分析[J].中国成人教育，2021（1）：50-55.

[3] 蔡宝来.人工智能赋能课堂革命：实质与理念[J].教育发展研究，2019，39（2）：8-14.

[4] Nichol A，Dhariwal P，Dhariwal A，et al.GLIDE：Towards Photorealistic Image Generation and Editing with Text-Guided DiffusionModels[J].arXiv preprint arXiv：2112.10741，2021.

[5] 徐振国，孔玺，张冠文，等.学習画面情感对学习者情感的影响研究[J].电化教育研究，2020，41（11）：79-86.

[6] 寇佳媛.数字化图像在小学教学中的应用研究[D].长春：吉林大学，2014：54.

[7] 杨俊珂，罗艳，马德俊.动态视觉图像对小学生兴趣影响及学习效果分析[J].教育与教学研究，2011，25（9）：102-106，126.

【通联编辑：谢媛媛】